{"title":"IBK- und Social Media-Korpora am Leibniz-Institut für Deutsche Sprache","authors":"H. Lüngen, M. Kupietz","doi":"10.1515/9783110679885-016","DOIUrl":null,"url":null,"abstract":"Der Beitrag untersucht vorhandene Lösungen und neue Möglichkeiten des Korpusausbaus aus Social Mediaund internetbasierter Kommunikation (IBK) für das Deutsche Referenzkorpus (DeReKo). DeReKo ist eine Sammlung gegenwartssprachlicher Schriftkorpora am IDS, die der sprachwissenschaftlichen Öffentlichkeit über die Korpusschnittstellen COSMAS II und KorAP angeboten wird. Anhand von Definitionen und Beispielen gehen wir zunächst auf die Extensionen und Überlappungen der Konzepte Social Media, Internetbasierte Kommunikation und Computer-mediated Communication ein. Wir betrachten die rechtlichen Voraussetzungen für einen Korpusausbau aus Sozialen Medien, die sich aus dem kürzlich in relevanten Punkten reformierten deutschen Urheberrecht, aus Persönlichkeitsrechten wie der europäischen Datenschutz-Grundverordnung ergeben und stellen Konsequenzen sowie mögliche und tatsächliche Umsetzungen dar. Der Aufbau von Social Media-Korpora in großen Textmengen unterliegt außerdem korpustechnologischen Herausforderungen, die für traditionelle Schriftkorpora als gelöst galten oder gar nicht erst bestanden. Wir berichten, wie Fragen der Datenaufbereitung, des Korpus-Encoding, der Anonymisierung oder der linguistischen Annotation von Social Media-Korpora für DeReko angegangen wurden und welche Herausforderungen noch bestehen. Wir betrachten die Korpuslandschaft verfügbarer deutschsprachiger IBKund Social Media-Korpora und geben einen Überblick über den Bestand an IBKund Social Media-Korpora und ihre Charakteristika (Chat-, Wiki Talkund Forenkorpora) in DeReKo sowie von laufenden Projekten in diesem Bereich. Anhand korpuslinguistischer Mikround Makro-Analysen von Wikipedia-Diskussionen im Vergleich mit dem Gesamtbestand von DeReKo zeigen wir charakterisierende sprachliche Eigenschaften von Wikipedia-Diskussionen auf und bewerten ihren Status als Repräsentant von IBK-Korpora. 1 Einleitung: Definitionen Die drei Konzepte Social Media, Internetbasierte Kommunikation und Computermediated Communication werden in der Forschung auf den ersten Blick nebeneinander scheinbar für ein und dasselbe Kommunikationsgenre verwendet. Auch auf der Jahrestagung des Leibniz-Instituts für Deutsche Sprache (IDS) 2019 werden https://doi.org/10.1515/9783110679885-016 Erschienen in: Marx, Konstanze/Lobin, Henning/Schmidt, Axel (Hrsg.): Deutsch in Sozialen Medien: Interaktiv – multimodal – vielfältig. Berlin/Boston: de Gruyter, 2020. S. 319-342. (Jahrbuch des Leibniz-Instituts für Deutsche Sprache 2019) DOI: https://doi.org/10.1515/9783110679885-016 320 Harald Lüngen/Marc Kupietz alle drei Begriffe gebraucht, wobei einzelne Forscher oder Forscherinnen in der Regel einen von ihnen primär verwenden. Inwieweit stimmen die drei Konzepte genau überein, und worin unterscheiden sie sich möglicherweise? Im Social Media Guide for Researchers definieren Cann/Dimitriou/Hooley (2011) Social Media als „Internet services where the online content is generated by the users of the service“. Im Erläuterungstext werden zwei weitere Merkmale angeführt, die wir auch als definitorisch verstehen: Erstens handelt es sich bei Social Media um Dienste des sogenannten Web 2.0, welches seit dem ersten Jahrzehnt dieses Jahrhunderts existiert – ältere Formen wie Internet Relay Chat (IRC), Usenet News oder E-Mail sind somit ausgeschlossen. Und zweitens handelt es sich um Dienste, die der Kommunikation, der Kollaboration oder dem Teilen und Rezipieren von multimedialen Inhalten dienen.1 Als internetbasierte Kommunikation (IBK) bezeichnet Angelika Storrer (2018) den „Forschungsgegenstand, der sich mit Technologien, Prozessen und Produkten der Kommunikation unter Nutzung der technischen Infrastruktur des Internets beschäftigt“. Somit ist der Gegenstand von IBK weiter gefasst als der von Social Media, da IBK auf das Internet, d.h. auf diejenigen Technologien, die auf dem Protokoll TCP-IP beruhen, verweist, welche neben dem World Wide Web (WWW) auch E-Mail und das Usenet umfassen. Auf der anderen Seite zählen Technologien wie SMS, die auf dem Telefonnetz beruhen, nicht zu IBK, wie auch nicht zu Social Media. Ebenso stellen wir fest, dass in Storrers Definition nur die Kategorie Kommunikation angeführt wird, während in der Definition von Social Media wie oben wiedergegeben außerdem Kollaboration und Multimedia-Inhalte eine Rolle spielen. Der älteste der drei Begriffe ist Computer-mediated Communication, er wurde von Susan Herring geprägt. Ihre Definition in Herring (2007) lautet: CMC ist „predominantly text-based human-human interaction mediated by networked computer or mobile telephony“. Zwei Aspekte erscheinen hier wichtig, erstens verweist „networked Computer“ nicht zwingend nur auf das Internet als Netzwerk, und zweitens wird Telefonie explizit eingeschlossen.2 1 Wir danken den Kolleginnen und Kollegen aus der IDS-Abteilung Digitale Sprachwissenschaft, die uns mit ihrer Expertise und mit Ergebnissen für diesen Beitrag unterstützt haben: Peter Fankhauser, Peter M. Fischer, Paweł Kamocki und Eliza Margaretha-Illig. 2 In früheren Versionen der Definition wurde Telefonie nicht eigens genannt, z.B. Herring (2004, S. 27). IBKund Social Media-Korpora am Leibniz-Institut für Deutsche Sprache 321 Abb. 1: Extensionen von CMC, IBK und Social Media In Abbildung 1 haben wir diejenigen Plattformen bzw. Kommunikationsformen, von denen im weiteren Verlauf des Artikels hauptsächlich die Rede sein soll, einmal diesen drei Konzepten zugeordnet. Auf der linken Seite ist zu sehen, dass IBK im Prinzip deckungsgleich mit CMC ist, mit der Ausnahme, dass SMS-Kommunikation streng genommen nicht zu IBK gehört. Social Media ist aber erkennbar nicht synonym zu CMC, erstens weil die älteren Dienste Usenet, E-Mail und IRC auf der linken Seite nicht unter Social Media fallen, und zweitens weil Wiki als klassisches Web 2.0-Medium für das kollaborative Verfassen von Wiki-Seiten bzw. -Artikeln standardmäßig als Social Media verstanden wird, als IBK/CMC aber nur die Kommunikationskomponente Wiki Talk (auf Deutsch meist: Wiki-Diskussionen) – daher die Außenstellung von Wiki-Artikeln in Abbildung 1. Soweit unser Verständnis dieser drei Termini insbesondere im Hinblick auf Korpora. In der Praxis verwenden wir IBK auch als deutsche Übersetzung von CMC. 2 Voraussetzungen für IBK-Korpora in DEREKO In diesem Abschnitt untersuchen wir die Voraussetzungen und Möglichkeiten von Korpora Internetbasierter Kommunikation am IDS, genauer gesagt, für die Korpora der deutschen Schriftsprache der Gegenwart, die unter dem Namen Deutsches Referenzkorpus (DeReKo) durch den Programmbereich Korpuslinguistik angeboten werden. Im Rahmen der Schriftkorpora sind solche Korpora Internetbasierter Kommunikation und Sozialer Medien interessant, die nicht auf 322 Harald Lüngen/Marc Kupietz (Transkripten von) Audiooder Video-Inhalten beruhen – derartige Korpora werden in der IDS-Abteilung Pragmatik aufgebaut und genutzt (vgl. Marx/Schmidt/ Neise in diesem Band). DeReKo ist die größte linguistisch motivierte Sammlung deutschsprachiger Texte mit über 42 Milliarden Tokens (Stand Juli 2019) aus Presse, Belletristik, wissenschaftlichen und populärwissenschaftlichen Artikeln, Gebrauchstexten, Plenardebattenprotokollen und vielen weiteren Genres. Sie wird seit 1964 kontinuierlich aufgebaut und enthält Texte der Gegenwartssprache, die 1956 oder später verfasst wurden. DeReKo ist mehrfach morphosyntaktisch und syntaktisch annotiert (z.B. POS-Tagging, Konstituenzund Dependenzanalysen). DeReKo ist rechtlich abgesichert durch mehr als 120 Lizenzverträge mit Rechteinhabern, 98% der Daten sind über die Korpusrechercheschnittstellen für wissenschaftliche Zwecke weltweit öffentlich nutzbar. DeReKo stellt somit eine Stichprobe des gegenwärtigen Schriftsprachgebrauchs dar und dient der germanistischen Sprachwissenschaft als empirische Grundlage überall dort, wo die Sprache der Gegenwart und jüngeren Vergangenheit Gegenstand der Forschung ist, vor allem in quantitativen Untersuchungen, die große Korpora benötigen (Kupietz et al. 2018). Für die meisten Nutzer erfolgt der Zugriff auf DeReKo über die beiden Korpusrechercheschnittstellen des IDS, COSMAS II (Abb. 2; seit 1994, vgl. Bodmer Mory 2014) und KorAP (Abb. 3; seit 2016, vgl. Diewald et al. 2016). Abb. 2: Korpusrechercheschnittstelle COSMAS II IBKund Social Media-Korpora am Leibniz-Institut für Deutsche Sprache 323 Abb. 3: Korpusrechercheschnittstelle KorAP DeReKo möchte Daten Internetbasierter Kommunikation sampeln, die rechtlich einwandfrei als Korpus einem erweiterten, wissenschaftlichen Nutzerkreis zur Verfügung gestellt werden können. Der Aufbau derartiger Korpora tangiert Urheberrechte und allgemeine Persönlichkeitsrechte in besonderer Weise und anders als traditionelle Pressekorpora (Kamocki/Kinder-Kurlanda/Kupietz 2016). Im Folgenden stellen wir die rechtlichen Voraussetzungen für IBK-Korpora dar und untersuchen die wichtigsten deutschsprachigen frei verfügbaren IBK-Korpora sowie einige einschlägige IBK-Korpora anderer europäischer Sprachen daraufhin, wie mit diesen Voraussetzungen strategisch und technisch umgegangen wird. 2.1 Urheberrechtliche Voraussetzungen Auch IBK-Nutzerbeiträge (Posts) sind potenziell durch das Urheberrecht geschützt. Voraussetzung dafür ist, dass ein Post eine Schöpfungshöhe erreicht, also für sich ein „Werk” darstellt (§ 2 UrhG). Ob ein Text eine Schöpfungshöhe aufweist, hängt nicht unbedingt von seiner Länge ab, dies kann letztlich nur aufgrund seines konkreten Inhalts beurteilt werden. Für bestimmte Genres kann man aber Tendenzen aufzeigen. In dem Rechtsgutachten, das im Projekt zur Kuratierung des Dortmunder Chatkorpus für CLARIN-D-Infrastrukturen erstellt wurde, kamen die Anwälte zu dem Schluss, dass Chat-Posts in der Regel keine Schöpfungshöhe aufweisen, da sie nicht individuell genug sind (Beißwenger et al. 2017a). Twitter324 Harald Lüngen/Marc Kupietz Kommunikation scheint aber stärker zur Schöpfungshöhe zu neigen, schon allein dadurch dass Twitter grundsätzlich öffentlich ist. T","PeriodicalId":360047,"journal":{"name":"Deutsch in Sozialen Medien","volume":"11 18 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2020-02-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Deutsch in Sozialen Medien","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.1515/9783110679885-016","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 1
Abstract
Der Beitrag untersucht vorhandene Lösungen und neue Möglichkeiten des Korpusausbaus aus Social Mediaund internetbasierter Kommunikation (IBK) für das Deutsche Referenzkorpus (DeReKo). DeReKo ist eine Sammlung gegenwartssprachlicher Schriftkorpora am IDS, die der sprachwissenschaftlichen Öffentlichkeit über die Korpusschnittstellen COSMAS II und KorAP angeboten wird. Anhand von Definitionen und Beispielen gehen wir zunächst auf die Extensionen und Überlappungen der Konzepte Social Media, Internetbasierte Kommunikation und Computer-mediated Communication ein. Wir betrachten die rechtlichen Voraussetzungen für einen Korpusausbau aus Sozialen Medien, die sich aus dem kürzlich in relevanten Punkten reformierten deutschen Urheberrecht, aus Persönlichkeitsrechten wie der europäischen Datenschutz-Grundverordnung ergeben und stellen Konsequenzen sowie mögliche und tatsächliche Umsetzungen dar. Der Aufbau von Social Media-Korpora in großen Textmengen unterliegt außerdem korpustechnologischen Herausforderungen, die für traditionelle Schriftkorpora als gelöst galten oder gar nicht erst bestanden. Wir berichten, wie Fragen der Datenaufbereitung, des Korpus-Encoding, der Anonymisierung oder der linguistischen Annotation von Social Media-Korpora für DeReko angegangen wurden und welche Herausforderungen noch bestehen. Wir betrachten die Korpuslandschaft verfügbarer deutschsprachiger IBKund Social Media-Korpora und geben einen Überblick über den Bestand an IBKund Social Media-Korpora und ihre Charakteristika (Chat-, Wiki Talkund Forenkorpora) in DeReKo sowie von laufenden Projekten in diesem Bereich. Anhand korpuslinguistischer Mikround Makro-Analysen von Wikipedia-Diskussionen im Vergleich mit dem Gesamtbestand von DeReKo zeigen wir charakterisierende sprachliche Eigenschaften von Wikipedia-Diskussionen auf und bewerten ihren Status als Repräsentant von IBK-Korpora. 1 Einleitung: Definitionen Die drei Konzepte Social Media, Internetbasierte Kommunikation und Computermediated Communication werden in der Forschung auf den ersten Blick nebeneinander scheinbar für ein und dasselbe Kommunikationsgenre verwendet. Auch auf der Jahrestagung des Leibniz-Instituts für Deutsche Sprache (IDS) 2019 werden https://doi.org/10.1515/9783110679885-016 Erschienen in: Marx, Konstanze/Lobin, Henning/Schmidt, Axel (Hrsg.): Deutsch in Sozialen Medien: Interaktiv – multimodal – vielfältig. Berlin/Boston: de Gruyter, 2020. S. 319-342. (Jahrbuch des Leibniz-Instituts für Deutsche Sprache 2019) DOI: https://doi.org/10.1515/9783110679885-016 320 Harald Lüngen/Marc Kupietz alle drei Begriffe gebraucht, wobei einzelne Forscher oder Forscherinnen in der Regel einen von ihnen primär verwenden. Inwieweit stimmen die drei Konzepte genau überein, und worin unterscheiden sie sich möglicherweise? Im Social Media Guide for Researchers definieren Cann/Dimitriou/Hooley (2011) Social Media als „Internet services where the online content is generated by the users of the service“. Im Erläuterungstext werden zwei weitere Merkmale angeführt, die wir auch als definitorisch verstehen: Erstens handelt es sich bei Social Media um Dienste des sogenannten Web 2.0, welches seit dem ersten Jahrzehnt dieses Jahrhunderts existiert – ältere Formen wie Internet Relay Chat (IRC), Usenet News oder E-Mail sind somit ausgeschlossen. Und zweitens handelt es sich um Dienste, die der Kommunikation, der Kollaboration oder dem Teilen und Rezipieren von multimedialen Inhalten dienen.1 Als internetbasierte Kommunikation (IBK) bezeichnet Angelika Storrer (2018) den „Forschungsgegenstand, der sich mit Technologien, Prozessen und Produkten der Kommunikation unter Nutzung der technischen Infrastruktur des Internets beschäftigt“. Somit ist der Gegenstand von IBK weiter gefasst als der von Social Media, da IBK auf das Internet, d.h. auf diejenigen Technologien, die auf dem Protokoll TCP-IP beruhen, verweist, welche neben dem World Wide Web (WWW) auch E-Mail und das Usenet umfassen. Auf der anderen Seite zählen Technologien wie SMS, die auf dem Telefonnetz beruhen, nicht zu IBK, wie auch nicht zu Social Media. Ebenso stellen wir fest, dass in Storrers Definition nur die Kategorie Kommunikation angeführt wird, während in der Definition von Social Media wie oben wiedergegeben außerdem Kollaboration und Multimedia-Inhalte eine Rolle spielen. Der älteste der drei Begriffe ist Computer-mediated Communication, er wurde von Susan Herring geprägt. Ihre Definition in Herring (2007) lautet: CMC ist „predominantly text-based human-human interaction mediated by networked computer or mobile telephony“. Zwei Aspekte erscheinen hier wichtig, erstens verweist „networked Computer“ nicht zwingend nur auf das Internet als Netzwerk, und zweitens wird Telefonie explizit eingeschlossen.2 1 Wir danken den Kolleginnen und Kollegen aus der IDS-Abteilung Digitale Sprachwissenschaft, die uns mit ihrer Expertise und mit Ergebnissen für diesen Beitrag unterstützt haben: Peter Fankhauser, Peter M. Fischer, Paweł Kamocki und Eliza Margaretha-Illig. 2 In früheren Versionen der Definition wurde Telefonie nicht eigens genannt, z.B. Herring (2004, S. 27). IBKund Social Media-Korpora am Leibniz-Institut für Deutsche Sprache 321 Abb. 1: Extensionen von CMC, IBK und Social Media In Abbildung 1 haben wir diejenigen Plattformen bzw. Kommunikationsformen, von denen im weiteren Verlauf des Artikels hauptsächlich die Rede sein soll, einmal diesen drei Konzepten zugeordnet. Auf der linken Seite ist zu sehen, dass IBK im Prinzip deckungsgleich mit CMC ist, mit der Ausnahme, dass SMS-Kommunikation streng genommen nicht zu IBK gehört. Social Media ist aber erkennbar nicht synonym zu CMC, erstens weil die älteren Dienste Usenet, E-Mail und IRC auf der linken Seite nicht unter Social Media fallen, und zweitens weil Wiki als klassisches Web 2.0-Medium für das kollaborative Verfassen von Wiki-Seiten bzw. -Artikeln standardmäßig als Social Media verstanden wird, als IBK/CMC aber nur die Kommunikationskomponente Wiki Talk (auf Deutsch meist: Wiki-Diskussionen) – daher die Außenstellung von Wiki-Artikeln in Abbildung 1. Soweit unser Verständnis dieser drei Termini insbesondere im Hinblick auf Korpora. In der Praxis verwenden wir IBK auch als deutsche Übersetzung von CMC. 2 Voraussetzungen für IBK-Korpora in DEREKO In diesem Abschnitt untersuchen wir die Voraussetzungen und Möglichkeiten von Korpora Internetbasierter Kommunikation am IDS, genauer gesagt, für die Korpora der deutschen Schriftsprache der Gegenwart, die unter dem Namen Deutsches Referenzkorpus (DeReKo) durch den Programmbereich Korpuslinguistik angeboten werden. Im Rahmen der Schriftkorpora sind solche Korpora Internetbasierter Kommunikation und Sozialer Medien interessant, die nicht auf 322 Harald Lüngen/Marc Kupietz (Transkripten von) Audiooder Video-Inhalten beruhen – derartige Korpora werden in der IDS-Abteilung Pragmatik aufgebaut und genutzt (vgl. Marx/Schmidt/ Neise in diesem Band). DeReKo ist die größte linguistisch motivierte Sammlung deutschsprachiger Texte mit über 42 Milliarden Tokens (Stand Juli 2019) aus Presse, Belletristik, wissenschaftlichen und populärwissenschaftlichen Artikeln, Gebrauchstexten, Plenardebattenprotokollen und vielen weiteren Genres. Sie wird seit 1964 kontinuierlich aufgebaut und enthält Texte der Gegenwartssprache, die 1956 oder später verfasst wurden. DeReKo ist mehrfach morphosyntaktisch und syntaktisch annotiert (z.B. POS-Tagging, Konstituenzund Dependenzanalysen). DeReKo ist rechtlich abgesichert durch mehr als 120 Lizenzverträge mit Rechteinhabern, 98% der Daten sind über die Korpusrechercheschnittstellen für wissenschaftliche Zwecke weltweit öffentlich nutzbar. DeReKo stellt somit eine Stichprobe des gegenwärtigen Schriftsprachgebrauchs dar und dient der germanistischen Sprachwissenschaft als empirische Grundlage überall dort, wo die Sprache der Gegenwart und jüngeren Vergangenheit Gegenstand der Forschung ist, vor allem in quantitativen Untersuchungen, die große Korpora benötigen (Kupietz et al. 2018). Für die meisten Nutzer erfolgt der Zugriff auf DeReKo über die beiden Korpusrechercheschnittstellen des IDS, COSMAS II (Abb. 2; seit 1994, vgl. Bodmer Mory 2014) und KorAP (Abb. 3; seit 2016, vgl. Diewald et al. 2016). Abb. 2: Korpusrechercheschnittstelle COSMAS II IBKund Social Media-Korpora am Leibniz-Institut für Deutsche Sprache 323 Abb. 3: Korpusrechercheschnittstelle KorAP DeReKo möchte Daten Internetbasierter Kommunikation sampeln, die rechtlich einwandfrei als Korpus einem erweiterten, wissenschaftlichen Nutzerkreis zur Verfügung gestellt werden können. Der Aufbau derartiger Korpora tangiert Urheberrechte und allgemeine Persönlichkeitsrechte in besonderer Weise und anders als traditionelle Pressekorpora (Kamocki/Kinder-Kurlanda/Kupietz 2016). Im Folgenden stellen wir die rechtlichen Voraussetzungen für IBK-Korpora dar und untersuchen die wichtigsten deutschsprachigen frei verfügbaren IBK-Korpora sowie einige einschlägige IBK-Korpora anderer europäischer Sprachen daraufhin, wie mit diesen Voraussetzungen strategisch und technisch umgegangen wird. 2.1 Urheberrechtliche Voraussetzungen Auch IBK-Nutzerbeiträge (Posts) sind potenziell durch das Urheberrecht geschützt. Voraussetzung dafür ist, dass ein Post eine Schöpfungshöhe erreicht, also für sich ein „Werk” darstellt (§ 2 UrhG). Ob ein Text eine Schöpfungshöhe aufweist, hängt nicht unbedingt von seiner Länge ab, dies kann letztlich nur aufgrund seines konkreten Inhalts beurteilt werden. Für bestimmte Genres kann man aber Tendenzen aufzeigen. In dem Rechtsgutachten, das im Projekt zur Kuratierung des Dortmunder Chatkorpus für CLARIN-D-Infrastrukturen erstellt wurde, kamen die Anwälte zu dem Schluss, dass Chat-Posts in der Regel keine Schöpfungshöhe aufweisen, da sie nicht individuell genug sind (Beißwenger et al. 2017a). Twitter324 Harald Lüngen/Marc Kupietz Kommunikation scheint aber stärker zur Schöpfungshöhe zu neigen, schon allein dadurch dass Twitter grundsätzlich öffentlich ist. T