Methode und Datengrundlage der empirischen Korpusstudien

Herzberg, Laura

doi:10.1007/978-3-662-68358-3_5

Laura Herzberg²

304 Accesses

Zusammenfassung

In einem ersten Schritt werden die verwendeten Korpora beschrieben, bevor im Anschluss die Abfrage-Software dieser Arbeit, d. h. die verwendeten Korpusrecherchesysteme im Abschnitt 5.2 vorgestellt werden. In Abschnitt 5.3 werden die für die Korpusstudien 2 und 3 relevanten Stichproben und deren Erhebung erläutert. Als nächster Punkt von Kapitel 5 wird in 5.4 der relevante Datenaufbereitungsschritt der Datenbereinigung um Pseudotreffer aufgeführt. Im letzten Abschnitt 5.5 wird die für Korpusstudie 2 und 3 gemessene Interrater-Reliabilität erläutert.

You have full access to this open access chapter, Download chapter PDF

In einem ersten Schritt (Anschnitt 5.1) werden die verwendeten Korpora beschrieben, bevor im Anschluss die Abfrage-Software dieser Arbeit, d. h. die verwendeten Korpusrecherchesysteme im Abschnitt 5.2 vorgestellt werden. In Abschnitt 5.3 werden die für die Korpusstudien 2 und 3 relevanten Stichproben und deren Erhebung erläutert. Als nächster Punkt von Kapitel 5 wird in 5.4 der relevante Datenaufbereitungsschritt der Datenbereinigung um Pseudotreffer aufgeführt. Im letzten Abschnitt 5.5 wird die für Korpusstudie 2 und 3 gemessene Interrater-Reliabilität erläutert.

1 Wikipedia-Korpora und FOLK-Korpus

Wikipedia ist unter freien Lizenzen verfügbar; somit können Forscher:innen die enthaltenen Sprachdaten in eine Korpusinfrastruktur überführen. Solche Korpora werden am IDS in regelmäßigen Abständen aus Wikipedia-Dumps^{Footnote 1} erstellt. Diese Erstellung ist nicht immer unproblematisch, denn der zugrundeliegende Wikitext ist fehleranfällig (vgl. Margaretha/Lüngen 2014). Dies ist der Komplexität der Wikitext-Struktur geschuldet und führt dazu, dass Wikipedia-Inhalte nicht ohne weiteres als Korpus verwendet werden können. Margaretha und Lüngen bezeichnen Wikitext als „not clean“, weil er HTML-Tags und „wiki markup“ kombiniert (vgl. Margaretha/Lüngen 2014, S. 62). „Wikitext“, auch „Wiki-Code, wiki markup oder Wiki-Syntax“, bezeichnet die „Auszeichnungssprache der MediaWiki-Software^{Footnote 2} […]. Sie gilt als eine Vereinfachung der viel bekannteren und verbreiteteren HyperText Markup Language, der HTML. Man kann im Wiki-Code eingeschränkt auch HTML-Befehle verwenden […]. Mithilfe des Wiki-Codes lassen sich zudem kompliziertere Formatierungen wie Tabellen und Infoboxen realisieren“ (Van Dijk 2021, S. 67).

Der Wikipedia-Korpusbestand wird laufend erweitert und ausgebaut. Im Schnitt wird alle zwei Jahre ein neuer Dump herunterladen und für die Überführung in DeReKo aufbereitet. Die Wikipedia-Korpora sind Bestandteil des deutschen Referenzkorpus (DeReKo), das mit 53 Milliarden Wörtern (Stand März 2022^{Footnote 3}) das größte Archiv von Korpora geschriebener Gegenwartssprache darstellt (vgl. Lüngen/Kupietz 2020). Weitere große monolinguale nationale Referenzkorpora z. B. aus dem englischsprachigen Raum sind das American National Corpus oder British National Corpus. Monolinguale Korpora zeichnen sich durch „sehr hohe und kontrollierte Sprachqualität aus, da sie (im Idealfall ausschließlich) Originaltexte enthalten und damit den muttersprachlichen Sprachgebrauch reflektieren“ (Trawiński/Kupietz 2021, S. 211). DeReKo dient Sprachwissenschaftler:innen als empirische Grundlage für die Erforschung des zeitgenössischen Schriftdeutsch mit vielen Subkorpora, die Texte aus unterschiedlichen Gattungen wie Zeitungstext, Belletristik, Parlamentsdebatten und Fachtexten enthalten.

Bevor die Wikipedia-Dumps in DeReKo eingespeist werden, wird das Wikitext-Markup in TEI-I5 überführt, der Textstrukturdarstellung von DeReKo, die auf dem Kodierungsstandard der Text Encoding Initiative (TEI) basiert (vgl. Beißwenger 2018; Beißwenger/Lüngen 2020). Unter anderem wurden Thread- und Posting-Strukturen als solche gekennzeichnet, Zeitstempel und Benutzersignaturen markiert sowie seitenbezogene Metadaten extrahiert. Ein Dokument in einem Korpus stellt immer eine Webseite dar, entweder eine komplette Artikelseite oder eine Diskussionsseite (vgl. Beißwenger/Lüngen 2022, S. 439).

Abbildung 5.1 zeigt die Übersicht der verfügbaren Korpora verschiedener Wikipedia-Namensräume und Sprachversionen, die aus dem IDS-Sprachdaten-Repository heruntergeladen werden können^{Footnote 6}. In Tabelle 5.1 sind die deutschen, englischen und französischen Wikipedia-Korpora aus 2015 und deren Größe in Tokens angezeigt. In Fettdruck sind diejenigen Korpora markiert, aus denen Stichproben für diese Arbeit gezogen wurden.

Tabelle 5.1 Korpusgröße der Wikipedia-Korpora in DE, EN und FRFootnote
https://www.ids-mannheim.de/digspra/kl/projekte/korpora/archiv/wp/.

Full size table

Die Größe eines Korpus hängt mit der Größe der Wikipedia-Dumps zusammen, die wiederum die Gesamtgröße der Sprachversionen widerspiegeln. Die englische Sprachversion ist die umfangreichste der drei untersuchten Sprachen; dementsprechend hat das Korpus der Diskussionsseiten die meisten Tokens (1.270.217.981), gefolgt von den deutschen (309.897.027) und französischen (137.107.729) Diskussionskorpora.

Das FOLK-Korpus, Forschungs- und Lehrkorpus Gesprochenes Deutsch^{Footnote 9}, ist ein Korpus der gesprochenen Sprache, das Audio- und Videoaufzeichnungen von Gesprächen enthält, „die über eine Transkription einer linguistischen Analyse zugänglich gemacht werden“ (Schmidt 2022, S. 42). FOLK wird am IDS stetig ausgebaut. Aktuell enthält es in Version 2.18 (Stand: Juli 2022^{Footnote 10}) 400 Sprechereignisse, 449 Audio- und 234 Videoaufnahmen mit einer Länge von über 336 Stunden aus unterschiedlichen Gesprächsbereichen wie Bildung, Freizeit, öffentliches Leben, Arbeit und Dienstleistungen^{Footnote 11}. Zu den Gesprächen gibt es 857 Transkripte, die insgesamt 3.208.882 transkribierte Tokens umfassen^{Footnote 12}, sowie umfangreiches Zusatzmaterial^{Footnote 13}. Transkripte in FOLK basieren auf den Vorgaben des cGAT-Minimaltranskripts (vgl. Schmidt et al. 2015).

Um verbale Besonderheiten wie Verschmelzungen („haste“) oder dialektale Formen („rischdisch“) abzubilden, wird eine literarische Umschrift verwendet (vgl. Schmidt 2022, S. 423). Dazu enthalten die Transkripte „eine detaillierte Notation von Pausen und hörbarem Ein- oder Ausatmen, sowie in geringem Umfang die Notation von hörbaren non-verbalen Interaktionsbestandteilen“ (Schmidt 2017, S. 3). Die Erschließung von gesprochensprachlichen Daten – darunter fallen Erhebung, Transkription und Dokumentation – ist im Vergleich zu schriftsprachlichen Daten sehr arbeitsintensiv; dementsprechend sind diese Korpora meist um mehrere Größenordnungen kleiner als die der schriftsprachlichen Korpora (vgl. Schmidt 2022, 422). Die in FOLK enthaltenen Gespräche entstammen natürlichen sprachlichen Interaktionen bzw. von Forscher:innen elizitierten sprachlichen Produktionen (vgl. Schmidt 2022, S. 421 f.).

FOLK kann neben 39 weiteren Gesprächskorpora über die DGD abgerufen werden. Dort stehen Annotationen zur Tokenisierung, Lemmatisierung und Wortarten zur Verfügung. Wie sich die einzelnen Annotationsebenen unterscheiden, zeigt Abbildung 5.2.

Die Beschreibung beider Recherchesysteme, DGD und COSMAS II_web,folgt im nächsten Kapitel.

2 DGD und COSMAS II_web

Die Datenbank für gesprochenes Deutsch^{Footnote 14}, DGD, seit Anfang 2012 zugänglich, ist das Recherchesystem für gesprochensprachliche Daten am IDS^{Footnote 15}. Die Datenbank enthält 40 Gesprächskorpora aus den unterschiedlichsten Bereichen mit verschiedensten Mundarten, Dialekten und Varietäten des Deutschen.

Der webbasierte Zugriff ist nach Registrierung direkt über einen Browser möglich. Nach dem Einloggen kann man durch die Wahl eines bestimmten Reiters durch die DGD navigieren. Abbildung 5.3 zeigt den Reiter „Recherche“. Recherchiert wird im FOLK-Korpus, das links unter „Korpusauswahl“ aktiviert ist. Es kann in Sprechereignissen, Sprecherdaten und Transkripten recherchiert werden. In Abbildung 5.3 ist die struktursensitive Tokensuche ausgewählt. Im Feld „lemmatisiert“ ist beispielhaft OKAY als Stichwort eingetragen. Auch sind erste Ergebnisse zu sehen, die OKAY als Treffer enthalten. Neben der lemmatisierten Form kann auch in der transkribierten und normalisierten Form nach einem Begriff recherchiert werden. Auch kann ein Begriff anhand des Wortartenkürzels gesucht werden (die Unterschiede der vier Suchfelder werden in Abbildung 5.2 deutlich).

Neben dem Reiter „Recherche“ finden sich unter „Browsing“ weitere Informationen zu Metadaten, Transkripten und Zusatzmaterialien. Auch können datengeleitet Audios angehört oder Videoaufnahmen angeschaut werden. Der Menüpunkt „Browsing“ bietet damit kleine Teaser an, was in den einzelnen Korpora zu erwarten ist. Im Menüpunkt „Meine DGD“ können eigene Rechercheergebnisse abgespeichert werden, um darauf zu einem späteren Zeitpunkt zuzugreifen. Auch ist es möglich, Ergebnislisten mit anderen DGD-Nutzer*innen zu teilen. Sie können so zu einem späteren Zeitpunkt wieder auf die von ihnen gespeicherten Informationen zugreifen. Unter „Hilfe“ sind umfangreiche Dokumentationen zu Benutzungshinweisen, Problemen und Fragen aufgelistet.

Die in Abbildung 5.3 vergrößerte Feature-Schaltfläche zeigt zahlreiche Optionen, die bei den Folgeschritten der Datenauswertung nützlich sein können. So ist es u. a. möglich, die Trefferlisten ganz oder teilweise zu exportieren, sie in eigene Kollektionen abzuspeichern, nach bestimmten Kriterien zu filtern oder Stichproben zu ziehen.

Das Korpusrecherchesystem^{Footnote 16} COSMAS II_web^{Footnote 17}, Corpus Search, Management and Analysis System, wird seit 2003 am IDS aufgebaut. COSMAS II_webist eine Webapplikation und kann dementsprechend direkt über den Browser aufgerufen werden. In COSMAS II_webenthalten sind wissenschaftliche und literarische Texte, Zeitungstexte sowie populärwissenschaftliche Texte aus Deutschland, Österreich und der Schweiz, darüber hinaus Texte schriftlicher internetbasierter Kommunikation, z. B. das Dortmunder Chatkorpus, das Usenet News-Korpus oder die Wikipedia-Korpora^{Footnote 18}. COSMAS II_web ist in Archiven organisiert. Das größte Archiv ist das W-Archiv, W für written; die allein dort enthaltenen, vordefinierten Korpora unter „W-öffentlich – alle öffentlichen Korpora des Archivs W (mit Neuakquisitionen)“ umfassen 36.136.795 Texte mit 10.482.380.508 Tokens. Dies unterstreicht die Differenz in Größenordnungen zwischen DeReKo und FOLK.

Anhand der folgenden Abbildung 5.4 werden die Hauptfunktionen in COSMAS II_weberläutert.

Abbildung 5.4 zeigt die COSMAS II_web-Oberfläche nach dem Login. In Grau sind die Wikipedia-Korpora hervorgehoben. Die Korpora werden getrennt nach Sprache in COSMAS II_webin drei Archiven verwaltet, wobei die deutschen und englischen Wikipedia-Korpora in jeweils einem Archiv organisiert sind und weitere acht Sprachversionen in einem weiteren Archiv zusammengefasst zur Verfügung stehen. In diesen Archiven gibt es nach Jahr getrennte Korpora. Nach dem Klicken auf ein Archiv kann ein entsprechendes Korpus ausgewählt werden, z. B. die deutschen Wikipedia-Diskussionsseiten. Im Anschluss daran gibt man einen Suchbegriff ein, z. B. okay, vgl. Abb. 5.5.

Abbildung 5.5 zeigt, wie sich die Anzeige geändert hat: Archiv und Korpora sind ausgewählt und werden mit okay im oberen weißen Bereich des Screenshots angezeigt. Das An- und Abwählen bestimmter Wortformen wäre ein möglicher nächster Schritt auf dem Weg durch die hinterlegte Navigationsleiste bis ganz rechts zu Export. Die Trefferlisten können als KWIC- (keyword in context) oder als Volltextlisten angezeigt werden. Darüber hinaus können weitere statistische Maße wie die der relativen Häufigkeit im Reiter „Ergebnisse“ ausgewählt und unter „Ergebnispräsentation“ angezeigt werden. COSMAS II_webverfügt über eine Vielzahl an zusätzlichen Einstellungsmöglichkeiten, die sich durch Klicken auf das hinterlegte Feld „Optionen“ öffnen. Welche von ihnen für die Stichprobenerhebung der analysierten Datensets gebraucht wurden, wird in Abschnitt 5.3 beschrieben.

3 Stichprobenziehung

In dieser Arbeit wurde entschieden, Stichproben zu erheben, da eine vollständige manuelle Kategorisierung aller in den Korpora vorhandenen OKAY-Treffer aufgrund ihres Vorkommens in fünfstelliger Größenordnung nicht realisierbar ist. Die Stichproben werden als „Teilmenge […] der Grundgesamtheit, [verstanden und] analysiert“ (Brommer 2018, S. 115). Mit der Erhebung und Auswertung von Stichproben gehen Einschränkungen einher: So kann es immer sein, dass Phänomene in der Grundgesamtheit vorhanden sind, aber in den Stichproben nicht entdeckt werden. Auch können in der Stichprobe überzufällig häufig bestimmte Verwendungsweisen abgebildet sein, die sich in Relation zu allen in der Grundgesamtheit vorkommenden OKAY-Gebrauchsweisen bei deren vollständiger Analyse anders verteilen würden (vgl. Perkuhn et al. 2012; Lemnitzer/Zinsmeister 2015). Diese Einschränkungen werden akzeptiert und bei der Interpretation der Ergebnisse berücksichtigt.

Die in den Korpusstudien analysierten OKAY-Belege stammen aus insgesamt fünf Stichproben: drei aus den Wikipedia-Korpora und zwei aus dem FOLK-Korpus.

3.1 Wikipedia-Stichproben aus COSMAS II_web

Für die Ziehung der Wikipedia-Zufallsstichproben wurde COSMAS II_web verwendet. Für jede der untersuchten Sprachen wurde zunächst eine Stichprobe in den Wikipedia-Diskussionsseiten-Korpora des Deutschen, Englischen und Französischen gezogen. Dabei wurde wie folgt vorgegangen:

Im bereits erwähnten Reiter „Optionen“ wurde unter „Begrenzung der Ergebnismenge“ eine Zufallsauswahl von 500 Treffern pro Korpus gewählt, vgl. Abb. 5.6. Dann wurde unter „Archiv“-„Korpus“ die jeweilige Sprachversion ausgewählt und eine Suche zu „OKAY“ durchgeführt. Die Ergebnislisten enthalten somit 500 aus der Grundgesamt zufällig ausgewählte OKAY-Treffer. So wurde in insgesamt drei Erhebungsschritten eine Stichprobe mit OKAY-Treffern für jede Sprache gezogen mit dem Ziel, für jede Sprache letztlich 500 OKAY-Treffer vergleichend zu kategorisieren und zu analysieren.

Nach dieser Ersterhebung wurde für alle drei Sprachen eine kleinere Stichprobe im Umfang von 100 OKAY-Treffern nacherhoben. Diese Entscheidung wurde aufgrund von Vorerfahrungen im Umgang mit OKAY-Sprachdaten getroffen: Vorstudien haben gezeigt, dass sich in jeder OKAY-Stichprobe für die zu untersuchenden Fragestellungen OKAY-Verwendungsweisen befanden, die nicht relevant waren. Die Erwartung, dass alle 500 erhobenen Treffer nach dem Schritt der Datenbereinigung in den Samples verblieben, wurde als wenig wahrscheinlich eingestuft. Da vermieden werden sollte, dass sich die Grundgrößen der Stichproben unterscheiden und dadurch für jeden Vergleich auch zwischen den Stichproben auf relative Häufigkeiten zurückgegriffen werden müsste, wurde der Schritt der Nacherhebung als wichtige Maßnahme eingestuft. Diese Datenerhebungen resultierten in sechs Listen: drei Listen mit 500 OKAY-Treffern, jeweils eine für Deutsch, Englisch und Französisch, sowie drei Back-up-Listen mit 100 OKAY-Treffern, jeweils eine für Deutsch, Englisch und Französisch.

Alle Listen wurden exportiert mithilfe der in COSMAS II_web vorhandenen Export-Funktion (vgl. Abb. 5.7). Dabei wurden die voreingestellten Optionen übernommen. Die Ausgabe im RTF(Rich Text Format)-Format bietet sich an, da dies unkompliziert zur Weiteranalyse in Excel importiert werden kann. Auch sollte der Treffer als „Volltext“-Treffer exportiert werden. So ist er bereits in etwas Kontext eingebettet. Durch „Quellennachweis exportieren“ wird sichergestellt, dass die URL zur Original-Diskussionsseite nach dem Treffer eingefügt wird, um ein Nachgeschlagen auf der entsprechenden WP-D zu gewährleisten.

Nach Export der OKAY-Daten aus COSMAS II_web wurden sie in eine Excel-Mappe importiert, wo sie zunächst um Pseudotreffer bereinigt und im Anschluss kategorisiert wurden.

3.2 FOLK-Stichproben aus der DGD

Für die Erhebung der Stichproben mit gesprochensprachlichen OKAY-Treffern wurde die DGD verwendet. Ziel war es auch hier, eine Stichprobe mit 500 zufälligen OKAY-Treffern zu erhalten^{Footnote 19}.

Dafür wurde im Feld „Lemma“ der struktursensitiven Tokensuche „okay“ eingegeben (vgl. Abb. 5.8). Es wurden keine Einschränkungen der Position oder des Kontexts vorgenommen. Die „Lemma“-Suche wurde ausgewählt, da die lemmatisierte Form, d. h. die Zuordnung aller geäußerten OKAYs zur Grundform OKAY, auch OKAY-Treffer einschließt, die beispielsweise als „kay“ realisiert wurden.

OKAY wird in der DGD mit dem Wortartenkürzel (Part-of-speech tag, POS-tag) NGIRR^{Footnote 20} ausgezeichnet^{Footnote 21}. Die POS-Suchfläche wurde dementsprechend nicht verwendet.

Anschließend wurden alle OKAY-Treffer in FOLK in der Ergebnisliste nach Sprechereignis sortiert angezeigt. Wie auch in COSMAS II_web kann in der DGD direkt eine Stichprobe gezogen werden. Nach dem Betätigen des Würfelsymbols „Zufallsstichprobe bestimmen“ aus der Feature-Schaltfläche erscheint folgendes Dialogfeld, vgl. Abb. 5.9:

Die Ergebnisliste wird auf die ausgewählte Stichprobengröße reduziert. Im Anschluss wurden die Ergebnisse als Textdatei durch Betätigen des Icons „Download der KWIC als Textdatei (tabulator separiert)“ exportiert^{Footnote 22}. In diesem Format kann sie zur Weiteranalyse in Excel importiert werden.

Zuletzt galt es noch die Stichprobe der „Stuttgart-21-Schlichtungsgespräche“ zu erheben. FOLK ist nicht weiter in Subkorpora zerlegt. Um gezielt bestimmte Sprechereignisse aus allen vorhandenen Ereignissen herauszufiltern, müssen zunächst deren Anzahl und ID ermittelt werden. In der Ansicht „Browsing“ sind die Informationen dazu hinterlegt. Durch Klicken auf „Browsing“ – „FOLK“ – „Ereignis“ lassen sich in der fünften Tabellenspalte unter „Kurzbezeichnung (‚Art‘)“ diejenigen Ereignisse heraussuchen, die Schlichtungsgespräche enthalten, vgl. Abb. 5.10.

Nachdem die IDs der Sprechereignisse der Schlichtungsgespräche in FOLK herausgefunden wurden, konnten sie in die Suchmaske integriert werden.

In Abbildung 5.11 wurden die IDs in den Metadaten-Bereich der struktursensitiven Tokensuche integriert. Die durch diese Suchabfrage erhaltenen OKAY-Treffer wurden anschließend, wie im oben beschriebenen FOLK-Sample, auf 100 zufällige Treffer reduziert und exportiert^{Footnote 24}. Alle FOLK-Daten wurden ebenfalls in eine Excel-Mappe importiert, wo sie zunächst um Pseudotreffer bereinigt und im Anschluss kategorisiert wurden. Die für die Korpusstudien benötigte Datengrundlage war somit zusammengestellt.

4 Datenbereinigung: Aussonderung der Pseudotreffer

Bevor die OKAY-Daten kategorisiert werden, müssen sie intellektuell auf Relevanz in Bezug auf die vorliegenden Fragestellungen überprüft werden. Bei dieser Überprüfung werden die OKAYs aus den Ergebnislisten der Korpusrecherchesysteme, zu diesem Zeitpunkt bereits in Excel-Mappen importiert, um Pseudotreffer bereinigt.

In der vorliegenden Arbeit wird zwischen Treffern, Pseudotreffern und Belegen unterschieden (vgl. Storrer 2011, S. 218). Unter „Treffer“ verstehe ich alle OKAY-Vorkommnisse, die in den Ausgabe-Ergebnislisten der Korpusrecherchesysteme angezeigt werden. Belege sind OKAY-Vorkommnisse, die intellektuell überprüft wurden und für die zu untersuchenden Fragestellungen relevant sind. Dazwischen liegt ein wesentlicher Schritt in der Datenaufbereitung: die Aussonderung von Pseudotreffern. Bei Pseudotreffern (sog. false positives^{Footnote 25}) handelt es sich um Treffer, die in einer Trefferliste angezeigt werden, da sie beispielsweise bei der Suchanfrage miterfasst wurden, aber dennoch nicht für einen Untersuchungsgegenstand relevant sind. Solche Treffer können vielfältig aussehen, beispielsweise handelt es sich um metasprachliche Treffer, Treffer anderer Sprachen oder auch Verwendungsweisen der Buchstaben O und K, die keine semantische Variation von „in Ordnung“, „einverstanden“, letztlich all correct, abkürzen.

Die folgenden Treffer aus den erhobenen Datensamples zeigen eine Auswahl von Verwendungsweisen von OKAY, die als Pseudotreffer klassifiziert wurden^{Footnote 26}:

(1)
Treffer in Eigennamen und Titeln

Johnny Dyani/Okay Temiz/Mongezi Feza: Rejoice. (1972) (Cadillac SGC 1017)

WP-D-DE159^{Footnote 27}

In the 1942 Japanese film celebrating the attack on Pearl Harbor, Hawai Marei Oki Kaisen Kaisen (The War at Sea from Hawaii to Malaya)

WP-D-EN451
(2)
Metasprachliche Verwendungsweisen

Usually these declarative statements require an affirmation, so „okay“ is typical. If you look under the „ English:Canada “ section, the usage is further explained.

WP-D-EN150

Verbreitung von OK

WP-D-DE148

Bonjour. Avec mon épouse Taïwanaise, nous nous posions la question en ce beau dimanche matin ensoleillé. Et bien après recherches il s'avère qu'(encore)une nouvelle explication fait son chemin: OK proviendrait en fait d'une prononciation ouest-africaine(o-ke ou waw-ke)arrivée aux Etats-Unis avec l'esclavage. Des profs d'universités americains très patriotes en seraient d'ailleurs irrités. A la poubelle donc les „zéro tué“ ou „Oll Korrect“, etc...

WP-D-FR188
(3)
Homonyme Ausdrücke mit anderen Bedeutungen:

Im Artikel werden diverse Maße verwendet, die so nur teilweise korrekt sind. Die Einbauhöhe für WT liegt eigentlich bei 83 cm OK Waschbecken. In der Größe gibt es nach oben keine Grenze. Auch Versionen mit Breiten von deutlich über einem Meter gibt es durchaus.

WP-D-DE447

I removed TX, OK, AR, LA, KY, VA, WV, MD, DE, and MO from the definition and updated the largest metro areas for consistency.

WP-D-EN480

In erster Linie mussten in allen drei Sprachen Treffer mit Eigennamen und Titeln, metasprachliche Verwendungsweisen von OKAY sowie homonyme Ausdrücke mit anderen Bedeutungen aussortiert werden^{Footnote 28}. Darüber hinaus wurden auch Treffer aussortiert, die in einer anderen Sprache verfasst wurden. Wenn z. B. OKAY in einem englischen Post verwendet wurde, mag es sich um eine echte Verwendung von OKAY handeln; wenn dies aber ein Teil der deutschen Trefferliste ist, stellt es gleichermaßen einen Pseudotreffer dar. So wurden einige Treffer aussortiert, die sich sprachlich überschnitten haben, d. h. beispielsweise englische Treffer in der französischen Trefferliste oder deutsche in der englischen. Neben diesen Treffern gab es auch Beispiele von niederländischen oder spanischen OKAY-Diskussionsbeiträgen.

Vor der Kategorisierung der Treffer wurden ebenfalls alle Quellen-URLs überprüft. Sollte ein Treffer eine für die Analysen relevante OKAY-Verwendungsweise darstellen, konnte aber über die aus COSMAS II_web exportierte URL nicht länger aufgefunden werden, galt er ebenfalls als nicht untersuchungsrelevant^{Footnote 29}.

Pseudotreffer gab es ebenfalls in den Stichproben der gesprochensprachlichen OKAYs, FOLK-SA und FOLK-S21^{Footnote 30}. Dies sind Treffer, die akustisch durch Rauschen, Überlappungen, Überschneidungen oder sehr leises Sprechen nicht eindeutig als OKAY-Verwendungsweisen identifiziert und deren Klassifizierungen somit nicht aussagekräftig durchgeführt werden konnten.

Dass sich das Erheben der Back-up-Trefferlisten als fruchtbar herausstellte, zeigt die tabellarische Zusammenfassung (vgl. Tabelle 5.2) der dargestellten Häufigkeiten der Pseudotreffer:

Tabelle 5.2 Anzahl der Pseudotreffer in den untersuchten Samples

Full size table

In allen größeren Listen, d. h. den Trefferlisten, die mehr als 500 OKAYs umfassen, wurden Pseudotreffer identifiziert. Die damit aussortierten Treffer wurden um die fehlende Anzahl an Belegen aus den Back-up-Listen aufgefüllt.

5 Interrater-Reliabilität

In diesem Kapitel werden allgemeine Beschreibungen zur durchgeführten Messung der Interrater-Reliabilität vorgestellt. Die Interrater-Reliabilität wird im Zusammenhang der Korpusstudien 2 und 3, zu Position und Funktion von OKAY, in vorliegender Arbeit als Maß zur Ermittlung der Auswertungsobjektivität angegeben. Es wird berechnet, inwieweit die Kategorisierungsergebnisse von den Ratern unabhängig sind. Da sich auch dieses Messverfahren auf mehr als eine Studie bezieht, werden einleitende Bemerkungen vorweggenommen. Die Ergebnisse des Interrater-Reliabilität-Ratings finden sich in den jeweiligen Unterkapiteln der Korpusstudien, 7.3.2 und 8.3.2.

Um die Zuverlässigkeit von Position und Funktion der eingeführten Kategorien zu messen, wurden in der vorliegenden Arbeit die analysierten WP-Stichproben von mehr als einer Person kategorisiert. An dem Annotationsprozess waren drei Personen beteiligt. Rater A^{Footnote 31} hat die Datensätze zu WP-D-DE, WP-D-EN und WP-D-FR kategorisiert, Rater B hat die Datensätze WP-D-DE und WP-D-EN und Rater C hat den Datensatz WP-D-FR kategorisiert^{Footnote 32}. Zu Zwecken der Schulung und Unterstützung während des Prozesses wurde den Ratern ein Annotationshandbuch zur Verfügung gestellt^{Footnote 33}. Der Prozess einer doppelten Annotation ist sehr arbeitsintensiv und aufwendig. Da der Fokus der vorliegenden Arbeit auf sprachspezifischen Besonderheiten der verschiedenen Wikipedias liegt, wurde sich für eine doppelte Annotation der Wikipedia-Belege und gegen eine doppelte Annotation der gesprochensprachlichen Daten entschieden. Der Annotationsprozess fand in mehreren Runden statt. Die Rater erhielten die um Pseudotreffer bereinigten OKAY-Beleglisten. In der ersten Runde wurden 30 OKAY-Belege annotiert, um zu überprüfen, ob es Unklarheiten in Bezug auf die Kategorien gibt. Danach wurden die restlichen Daten von den Ratern annotiert.

Das am häufigsten eingesetzte Maß zur Berechnung der Beurteilerübereinstimmung für kategoriale Daten ist Cohens Kappa (vgl. Wirtz/Kutschmann 2007, S. 1). Mithilfe des Kappa kann der Grad der Übereinstimmung quantifiziert werden. Kappa ist somit eine Maßzahl, mit der „der Anteil der überzufälligen Übereinstimmung an der maximal möglichen überzufälligen Übereinstimmung bestimmt […] [und] in standardisierter Form […] [evaluiert wird]“ (Wirtz/Kutschmann 2007, S. 7). Durch die Berechnung der Übereinstimmungsmaße lassen sich Rückschlüsse auf die Qualität und Brauchbarkeit einer Kategorie in Bezug auf das zu annotierende Datenset ziehen. Wenn eine Kategorie von mehr als einer Person unabhängig erkannt und identifiziert werden kann, spricht das für die Güte dieser Kategorie.

In der vorliegenden Arbeit wird Cohens Kappa nach Landis und Koch (1977) interpretiert, vgl. Abb. 5.12:

Zur Berechnung des Kappas wurde die Online-Software „Quantify agreement with kappa“ verwendet^{Footnote 35}. Dabei werden die ausgezählten Paarungen der einzelnen OKAY-Belege in eine Tabelle eingetragen. Vorher muss die Anzahl der Kategorien eingestellt werden. Für die Korpusstudie 2 zu OKAY-Positionen wurden vier und für die Korpusstudie 3 zu OKAY-Funktion wurden zehn Kategorien angewandt. Insgesamt wurden so sechs Kappas ermittelt: Drei quantifizieren und evaluieren das Übereinstimmungsmaß der Rater für das Auszeichnen der Positionen von OKAY in WP-D-DE, WP-D-EN und WP-D-FR und drei weitere das Übereinstimmungsmaß für die Funktionen von OKAY in WP-D-DE, WP-D-EN und WP-D-FR.

Notes

1.
Dabei handelt es sich um einen „‚Snapshot‘ des [Wikipedia-]Datenbankinhalts einer gesamten einzelsprachlichen Wikipedia zu einem bestimmten Zeitpunkt“ (Beißwenger/Lüngen 2022, S. 439).
2.
Die „mit Abstand am häufigsten verwendete Wiki-Software, zumindest für offen-öffentliche Wikis […]. Sie wurde für die damals bereits bestehende Wikipedia entwickelt“ (Van Dijk 2021, S. 60).
3.
https://www.ids-mannheim.de/digspra/kl/projekte/korpora/.
4.
„Namensnennung – Weitergabe unter gleichen Bedingungen“, https://creativecommons.org/licenses/by-sa/4.0/.
5.
https://www.ids-mannheim.de/digspra/kl/projekte/korpora/verfuegbarkeit-1/.
6.
Für Deutsch: http://corpora.ids-mannheim.de/pub/wikipedia-deutsch/2015/ sowie http://corpora.ids-mannheim.de/pub/wikipedia-fremdspr/2015/ für Englisch und Französisch.
7.
https://www.ids-mannheim.de/digspra/kl/projekte/korpora/archiv/wp/.
8.
Bezeichnet „vor allem in der Korpuslinguistik und Computerlinguistik: jedes der Wörter (und Satzzeichen), aus denen ein Text besteht, wobei jedes Vorkommen einzeln gezählt wird“, https://www.dwds.de/wb/Token.
9.
https://dgd.ids-mannheim.de/dgd/pragdb.dgd_extern.sys_inv?v_session_id=.
10.
https://dgd.ids-mannheim.de/DGD2Web/jsp/VersionHistory.jsp?v_session_id=.
11.
https://agd.ids-mannheim.de/folk.shtml.
12.
Die in dieser Arbeit verwendete Version 2.8 (Release vom 07.04.2017) enthält 1,95 Mio. transkribierte Tokens, vgl. https://www.ids-mannheim.de/prag/artikelansicht/?tx_news_pi1%5Baction%5D=detail&tx_news_pi1%5Bcontroller%5D=News&tx_news_pi1%5Bnews%5D=1358&cHash=3c39b529f4679e8bf94581fb412c050a.
13.
Zusatzmaterial bedeutet „Transkriptionskonventionen, Themenlisten oder ausführliche Informationen über den Verlauf einzelner Sprechereignisse“, vgl. https://dgd.ids-mannheim.de/dgd/pragdb.dgd_extern.corpora?v_session_id=8BCA38B5C489EE7210057DD75044DA92.
14.
https://dgd.ids-mannheim.de/dgd/pragdb.dgd_extern.sys_desc.
15.
DGD und COSMASII _web werden in diesem Anschnitt einführend vorgestellt. Für beide Recherchesysteme ist eine kostenlose Anmeldung verpflichtend. Beschreibungen zu durchgeführten Suchabfragen finden sich in den jeweiligen Kapiteln der Korpusstudien.
16.
„Ein Korpusrecherchesystem […| enthält nicht nur […] Korpora, sondern auch ein Abfragesystem sowie Werkzeuge, mit denen die Ergebnisse einer Suchabfrage exploriert, sortiert und schließlich auch exportiert werden können“ (Storrer/Herzberg 2022, S. 42). Alternativ zu COSMAS II_web kann auch das neue Korpusrecherchesystem KorAP (https://korap.ids-mannheim.de/) genutzt werden. Dort sind die üblichen Annotationsebenen, u. a. Tokenisierung, Lemmatisierung, Satzsegmentierung, Morphosyntax sowie Metadaten enthalten. Es können mehrere verfügbare Abfragesprachen verwendet werden, z. B. Poliqarp und ANNIS QL (vgl. Beißwenger/Lüngen 2022, S. 439 f.).
17.
Es gibt auch die Varianten COSMAS II_win – Applikation für WINDOWS-Betriebssysteme sowie COSMAS II_script – Kommandozeileninterpreter für SOLARIS-Betriebssysteme. Der Vorgänger COSMAS I war von 1992 bis 2004 in Betrieb, vgl. https://www.ids-mannheim.de/digspra/kl/projekte/korpusrecherchesystem/.
18.
Im neuesten Release von März 2022 sind auch die Korpora NottDeuYTsch: YouTube-Kommentare-Korpus und Twitter-Sample-Korpus enthalten, jedoch nur IDS-intern zugänglich. Für einen Überblick über weitere IBK-Korpora in DeReKo vgl. Lüngen/Kupietz (2020), S. 330 ff.
19.
Auch hier wurde aus den bereits genannten Gründen eine 100er-Back-up-Trefferliste nacherhoben und exportiert.
20.
Nicht-grammatische Elemente, z. B. Interjektionen, Rezeptionssignale, Responsive, Hesitationssignale, Aktionswörtern und Onomatopoetika, die nicht in den Satz eingebunden sind (vgl. Westpfahl et al. 2017, S. 15/41).
21.
Das heißt nicht, dass es nicht auch syntaktisch integrierte OKAYs in Gesprächen gibt. Diese sind in den der automatischen Wortartenannotation zugrunde liegenden manuell annotierten Goldstandard-Transkripten so geringfügig vertreten, dass sie nicht ins Gewicht fallen und daraufhin jedes in FOLK enthaltene OKAY als NGIRR getaggt ist (zu den Goldstandard-Transkripten siehe Westpfahl/Schmidt 2016, S. 1493 ff.; Westpfahl 2020, S. 257 ff.). Bei der Untersuchung anderer Wortarten, z. B. Nomen, führt die Suche über POS-tags zu einer präzieren Trefferliste, was wiederum, je nach Fragestellung, zu einer effizienteren Datenauswertung verhelfen kann.
22.
Auch hier wurde aus den bereits genannten Gründen eine 100er-Back-up-Trefferliste exportiert.
23.
Das Sprechereignis mit der ID 58 ist durchgestrichen, da es nicht Teil der relevanten Sprechereignisse ist.
24.
Bei der Analyse der „Stuttgart-21-Schlichtungsgespräche“ wurde die angestrebte Trefferanzahl erreicht und es musste auf kein Back-up zurückgegriffen werden.
25.
positive bezieht sich auf die Fundstelle an sich, d. h., ein OKAY-Treffer wurde vom Korpusrecherchesystem unter passender Suchanfrage erfasst und ausgegeben. Durch den Zusatz false wird diese Fundstelle als nicht für eine Fragestellung relevant klassifiziert.
26.
Im Annotationshandbuch im Anhang B im elektronischen Zusatzmaterial finden sich noch weitere Beispiele für Pseudotreffer. Die hier aufgeführten Pseudotreffer sind aus der Datengrundlage der Korpusstudien entnommen. Hier nicht enthalten, aber dennoch geläufig sind Pseudotreffer, in denen OKAY Teil eines Zitats ist, z. B.: Desweiteren möchte ich auf eine weiter Aussage ihrerseits eingehen. Zitat: „OK, man kann in solchem ton schreiben, aber wenn schon dann konsequent. […] die leute manchmal 30 km zu fuss zu laufen gezwungen“. […], https://de.wikipedia.org/wiki/Diskussion:Breslau/Archiv/1).
27.
Zur besseren Lesbarkeit wird in der vorliegenden Arbeit ein Kürzelsystem verwendet, das im Abkürzungsverzeichnis erläutert ist. In diesem Fall handelt es sich um einen Pseudotreffer aus der deutschen Stichprobe der Wikipedia-Diskussionsseiten WP-D-DE 159. WP-D-DE gibt an, dass es sich um einen OKAY-Pseudotreffer aus der deutschen Stichprobe der Wikipedia-Diskussionsseiten handelt, 159 ist die Identifikationsnummer (ID) des Treffers. Diese Stichproben-Kürzel führen zum Anhang C im elektronischen Zusatzmaterial, wo alle OKAYs, nach Sprachen getrennt, mit ihren zugehörigen Quell-URLs in Tabellen verzeichnet sind. Die deutschen Belege sind in Tabelle C-1 im elektronischen Zusatzmaterial dargestellt. Da es sich bei diesem Treffer zusätzlich noch um einen Pseudotreffer handelt, ist er in Tabelle C-1 im Anhang im elektronischen Zusatzmaterial fett hinterlegt.
28.
Sprachspezifische Pseudotreffer konnten in den Datensets nicht identifiziert werden.
29.
Zunächst wurde versucht, die betroffenen Fundstellen aufzufinden, da die Diskussionsbeiträge nur selten komplett gelöscht, sondern meist lediglich verschoben sind, z. B. wenn eine Diskussionsseite aufgrund ihrer Größe in verschiedene Archive unterteilt und damit in den Archiv-Bereich verschoben wurde (Richtlinien und Vorgehen bei der Archivierung sind beschrieben z. B. unter https://de.wikipedia.org/wiki/Hilfe:Archivieren). Konnte trotz hohem Rechercheaufwand die Fundstelle nicht rekonstruiert werden, wurde sie aussortiert.

30.

Vgl. Abkürzungsverzeichnis,

FOLK-S21	Stichprobe aus den Sprechereignissen zu „Stuttgart 21“ des Forschungs- und Lehrkorpus Gesprochenes Deutsch
FOLK-SA	Stichprobe aus allen Sprechereignissen des Forschungs- und Lehrkorpus Gesprochenes Deutsch

31.
„Rater“ wird in der Bedeutung von „beurteilende Person“ verstanden.
32.
Dennoch kann weiterhin Cohens Kappa zur Berechnung des Übereinstimmungsmaßes verwendet werden, da kein Datensatz von mehr als zwei Ratern annotiert wurde.
33.
Siehe Anhang B im elektronischen Zusatzmaterial.
34.
Die in dieser Tabelle durchgeführte Zuordnung sollte nicht unkritisch übernommen werden. Landis und Koch (1977) verweisen selbst darauf, dass die beschriebenen Einteilungen als Richtwerte zu verstehen sind, vgl. Landis/Koch (1977), S. 165.
35.
https://www.graphpad.com/quickcalcs/kappa1/.

Author information

Authors and Affiliations

Mannheim, Deutschland
Laura Herzberg

Authors

Laura Herzberg
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Laura Herzberg .

1 Elektronisches Zusatzmaterial

Zusatzmaterial 1 (PDF 10076 kb)

Rights and permissions

Open Access Dieses Kapitel wird unter der Creative Commons Namensnennung 4.0 International Lizenz (http://creativecommons.org/licenses/by/4.0/deed.de) veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.

Die in diesem Kapitel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Herzberg, L. (2024). Methode und Datengrundlage der empirischen Korpusstudien. In: OKAY. J.B. Metzler, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-68358-3_5

Download citation

DOI: https://doi.org/10.1007/978-3-662-68358-3_5
Published: 22 December 2023
Publisher Name: J.B. Metzler, Berlin, Heidelberg
Print ISBN: 978-3-662-68357-6
Online ISBN: 978-3-662-68358-3
eBook Packages: J.B. Metzler Humanities (German Language)

Publish with us

Policies and ethics