In einem ersten Schritt (Anschnitt 5.1) werden die verwendeten Korpora beschrieben, bevor im Anschluss die Abfrage-Software dieser Arbeit, d. h. die verwendeten Korpusrecherchesysteme im Abschnitt 5.2 vorgestellt werden. In Abschnitt 5.3 werden die für die Korpusstudien 2 und 3 relevanten Stichproben und deren Erhebung erläutert. Als nächster Punkt von Kapitel 5 wird in 5.4 der relevante Datenaufbereitungsschritt der Datenbereinigung um Pseudotreffer aufgeführt. Im letzten Abschnitt 5.5 wird die für Korpusstudie 2 und 3 gemessene Interrater-Reliabilität erläutert.

1 Wikipedia-Korpora und FOLK-Korpus

Wikipedia ist unter freien Lizenzen verfügbar; somit können Forscher:innen die enthaltenen Sprachdaten in eine Korpusinfrastruktur überführen. Solche Korpora werden am IDS in regelmäßigen Abständen aus Wikipedia-DumpsFootnote 1 erstellt. Diese Erstellung ist nicht immer unproblematisch, denn der zugrundeliegende Wikitext ist fehleranfällig (vgl. Margaretha/Lüngen 2014). Dies ist der Komplexität der Wikitext-Struktur geschuldet und führt dazu, dass Wikipedia-Inhalte nicht ohne weiteres als Korpus verwendet werden können. Margaretha und Lüngen bezeichnen Wikitext als „not clean“, weil er HTML-Tags und „wiki markup“ kombiniert (vgl. Margaretha/Lüngen 2014, S. 62). „Wikitext“, auch „Wiki-Code, wiki markup oder Wiki-Syntax“, bezeichnet die „Auszeichnungssprache der MediaWiki-SoftwareFootnote 2 […]. Sie gilt als eine Vereinfachung der viel bekannteren und verbreiteteren HyperText Markup Language, der HTML. Man kann im Wiki-Code eingeschränkt auch HTML-Befehle verwenden […]. Mithilfe des Wiki-Codes lassen sich zudem kompliziertere Formatierungen wie Tabellen und Infoboxen realisieren“ (Van Dijk 2021, S. 67).

Der Wikipedia-Korpusbestand wird laufend erweitert und ausgebaut. Im Schnitt wird alle zwei Jahre ein neuer Dump herunterladen und für die Überführung in DeReKo aufbereitet. Die Wikipedia-Korpora sind Bestandteil des deutschen Referenzkorpus (DeReKo), das mit 53 Milliarden Wörtern (Stand März 2022Footnote 3) das größte Archiv von Korpora geschriebener Gegenwartssprache darstellt (vgl. Lüngen/Kupietz 2020). Weitere große monolinguale nationale Referenzkorpora z. B. aus dem englischsprachigen Raum sind das American National Corpus oder British National Corpus. Monolinguale Korpora zeichnen sich durch „sehr hohe und kontrollierte Sprachqualität aus, da sie (im Idealfall ausschließlich) Originaltexte enthalten und damit den muttersprachlichen Sprachgebrauch reflektieren“ (Trawiński/Kupietz 2021, S. 211). DeReKo dient Sprachwissenschaftler:innen als empirische Grundlage für die Erforschung des zeitgenössischen Schriftdeutsch mit vielen Subkorpora, die Texte aus unterschiedlichen Gattungen wie Zeitungstext, Belletristik, Parlamentsdebatten und Fachtexten enthalten.

Bevor die Wikipedia-Dumps in DeReKo eingespeist werden, wird das Wikitext-Markup in TEI-I5 überführt, der Textstrukturdarstellung von DeReKo, die auf dem Kodierungsstandard der Text Encoding Initiative (TEI) basiert (vgl. Beißwenger 2018; Beißwenger/Lüngen 2020). Unter anderem wurden Thread- und Posting-Strukturen als solche gekennzeichnet, Zeitstempel und Benutzersignaturen markiert sowie seitenbezogene Metadaten extrahiert. Ein Dokument in einem Korpus stellt immer eine Webseite dar, entweder eine komplette Artikelseite oder eine Diskussionsseite (vgl. Beißwenger/Lüngen 2022, S. 439).

Abb. 5.1
figure 1

Übersicht über die Wikipedia-Korpora, die in dieser Arbeit verwendet wurden und unter der CC-BY-SAFootnote

„Namensnennung – Weitergabe unter gleichen Bedingungen“, https://creativecommons.org/licenses/by-sa/4.0/.

-Lizenz ebenfalls zum Download zur Verfügung stehenFootnote

https://www.ids-mannheim.de/digspra/kl/projekte/korpora/verfuegbarkeit-1/.

Abbildung 5.1 zeigt die Übersicht der verfügbaren Korpora verschiedener Wikipedia-Namensräume und Sprachversionen, die aus dem IDS-Sprachdaten-Repository heruntergeladen werden könnenFootnote 6. In Tabelle 5.1 sind die deutschen, englischen und französischen Wikipedia-Korpora aus 2015 und deren Größe in Tokens angezeigt. In Fettdruck sind diejenigen Korpora markiert, aus denen Stichproben für diese Arbeit gezogen wurden.

Tabelle 5.1 Korpusgröße der Wikipedia-Korpora in DE, EN und FRFootnote

https://www.ids-mannheim.de/digspra/kl/projekte/korpora/archiv/wp/.

Die Größe eines Korpus hängt mit der Größe der Wikipedia-Dumps zusammen, die wiederum die Gesamtgröße der Sprachversionen widerspiegeln. Die englische Sprachversion ist die umfangreichste der drei untersuchten Sprachen; dementsprechend hat das Korpus der Diskussionsseiten die meisten Tokens (1.270.217.981), gefolgt von den deutschen (309.897.027) und französischen (137.107.729) Diskussionskorpora.

Das FOLK-Korpus, Forschungs- und Lehrkorpus Gesprochenes DeutschFootnote 9, ist ein Korpus der gesprochenen Sprache, das Audio- und Videoaufzeichnungen von Gesprächen enthält, „die über eine Transkription einer linguistischen Analyse zugänglich gemacht werden“ (Schmidt 2022, S. 42). FOLK wird am IDS stetig ausgebaut. Aktuell enthält es in Version 2.18 (Stand: Juli 2022Footnote 10) 400 Sprechereignisse, 449 Audio- und 234 Videoaufnahmen mit einer Länge von über 336 Stunden aus unterschiedlichen Gesprächsbereichen wie Bildung, Freizeit, öffentliches Leben, Arbeit und DienstleistungenFootnote 11. Zu den Gesprächen gibt es 857 Transkripte, die insgesamt 3.208.882 transkribierte Tokens umfassenFootnote 12, sowie umfangreiches ZusatzmaterialFootnote 13. Transkripte in FOLK basieren auf den Vorgaben des cGAT-Minimaltranskripts (vgl. Schmidt et al. 2015).

Um verbale Besonderheiten wie Verschmelzungen („haste“) oder dialektale Formen („rischdisch“) abzubilden, wird eine literarische Umschrift verwendet (vgl. Schmidt 2022, S. 423). Dazu enthalten die Transkripte „eine detaillierte Notation von Pausen und hörbarem Ein- oder Ausatmen, sowie in geringem Umfang die Notation von hörbaren non-verbalen Interaktionsbestandteilen“ (Schmidt 2017, S. 3). Die Erschließung von gesprochensprachlichen Daten – darunter fallen Erhebung, Transkription und Dokumentation – ist im Vergleich zu schriftsprachlichen Daten sehr arbeitsintensiv; dementsprechend sind diese Korpora meist um mehrere Größenordnungen kleiner als die der schriftsprachlichen Korpora (vgl. Schmidt 2022, 422). Die in FOLK enthaltenen Gespräche entstammen natürlichen sprachlichen Interaktionen bzw. von Forscher:innen elizitierten sprachlichen Produktionen (vgl. Schmidt 2022, S. 421 f.).

FOLK kann neben 39 weiteren Gesprächskorpora über die DGD abgerufen werden. Dort stehen Annotationen zur Tokenisierung, Lemmatisierung und Wortarten zur Verfügung. Wie sich die einzelnen Annotationsebenen unterscheiden, zeigt Abbildung 5.2.

Abb. 5.2
figure 2

(Quelle: Schmidt 2017, S. 5)

Annotationsebenen in FOLK am Ausschnitt eines Telefongesprächs.

Die Beschreibung beider Recherchesysteme, DGD und COSMAS IIweb,folgt im nächsten Kapitel.

2 DGD und COSMAS IIweb

Die Datenbank für gesprochenes DeutschFootnote 14, DGD, seit Anfang 2012 zugänglich, ist das Recherchesystem für gesprochensprachliche Daten am IDSFootnote 15. Die Datenbank enthält 40 Gesprächskorpora aus den unterschiedlichsten Bereichen mit verschiedensten Mundarten, Dialekten und Varietäten des Deutschen.

Abb. 5.3
figure 3

Startbildschirm der struktursensitiven Tokensuche in der DGD mit vergrößerter Feature-Schaltfläche

Der webbasierte Zugriff ist nach Registrierung direkt über einen Browser möglich. Nach dem Einloggen kann man durch die Wahl eines bestimmten Reiters durch die DGD navigieren. Abbildung 5.3 zeigt den Reiter „Recherche“. Recherchiert wird im FOLK-Korpus, das links unter „Korpusauswahl“ aktiviert ist. Es kann in Sprechereignissen, Sprecherdaten und Transkripten recherchiert werden. In Abbildung 5.3 ist die struktursensitive Tokensuche ausgewählt. Im Feld „lemmatisiert“ ist beispielhaft OKAY als Stichwort eingetragen. Auch sind erste Ergebnisse zu sehen, die OKAY als Treffer enthalten. Neben der lemmatisierten Form kann auch in der transkribierten und normalisierten Form nach einem Begriff recherchiert werden. Auch kann ein Begriff anhand des Wortartenkürzels gesucht werden (die Unterschiede der vier Suchfelder werden in Abbildung 5.2 deutlich).

Neben dem Reiter „Recherche“ finden sich unter „Browsing“ weitere Informationen zu Metadaten, Transkripten und Zusatzmaterialien. Auch können datengeleitet Audios angehört oder Videoaufnahmen angeschaut werden. Der Menüpunkt „Browsing“ bietet damit kleine Teaser an, was in den einzelnen Korpora zu erwarten ist. Im Menüpunkt „Meine DGD“ können eigene Rechercheergebnisse abgespeichert werden, um darauf zu einem späteren Zeitpunkt zuzugreifen. Auch ist es möglich, Ergebnislisten mit anderen DGD-Nutzer*innen zu teilen. Sie können so zu einem späteren Zeitpunkt wieder auf die von ihnen gespeicherten Informationen zugreifen. Unter „Hilfe“ sind umfangreiche Dokumentationen zu Benutzungshinweisen, Problemen und Fragen aufgelistet.

Die in Abbildung 5.3 vergrößerte Feature-Schaltfläche zeigt zahlreiche Optionen, die bei den Folgeschritten der Datenauswertung nützlich sein können. So ist es u. a. möglich, die Trefferlisten ganz oder teilweise zu exportieren, sie in eigene Kollektionen abzuspeichern, nach bestimmten Kriterien zu filtern oder Stichproben zu ziehen.

Das KorpusrecherchesystemFootnote 16 COSMAS IIwebFootnote 17, Corpus Search, Management and Analysis System, wird seit 2003 am IDS aufgebaut. COSMAS IIwebist eine Webapplikation und kann dementsprechend direkt über den Browser aufgerufen werden. In COSMAS IIwebenthalten sind wissenschaftliche und literarische Texte, Zeitungstexte sowie populärwissenschaftliche Texte aus Deutschland, Österreich und der Schweiz, darüber hinaus Texte schriftlicher internetbasierter Kommunikation, z. B. das Dortmunder Chatkorpus, das Usenet News-Korpus oder die Wikipedia-KorporaFootnote 18. COSMAS IIweb ist in Archiven organisiert. Das größte Archiv ist das W-Archiv, W für written; die allein dort enthaltenen, vordefinierten Korpora unter „W-öffentlich – alle öffentlichen Korpora des Archivs W (mit Neuakquisitionen)“ umfassen 36.136.795 Texte mit 10.482.380.508 Tokens. Dies unterstreicht die Differenz in Größenordnungen zwischen DeReKo und FOLK.

Anhand der folgenden Abbildung 5.4 werden die Hauptfunktionen in COSMAS IIweberläutert.

Abb. 5.4
figure 4

Startbildschirm von COSMAS IIweb nach dem Login

Abbildung 5.4 zeigt die COSMAS IIweb-Oberfläche nach dem Login. In Grau sind die Wikipedia-Korpora hervorgehoben. Die Korpora werden getrennt nach Sprache in COSMAS IIwebin drei Archiven verwaltet, wobei die deutschen und englischen Wikipedia-Korpora in jeweils einem Archiv organisiert sind und weitere acht Sprachversionen in einem weiteren Archiv zusammengefasst zur Verfügung stehen. In diesen Archiven gibt es nach Jahr getrennte Korpora. Nach dem Klicken auf ein Archiv kann ein entsprechendes Korpus ausgewählt werden, z. B. die deutschen Wikipedia-Diskussionsseiten. Im Anschluss daran gibt man einen Suchbegriff ein, z. B. okay, vgl. Abb. 5.5.

Abb. 5.5
figure 5

Navigation durch COSMAS IIweb

Abbildung 5.5 zeigt, wie sich die Anzeige geändert hat: Archiv und Korpora sind ausgewählt und werden mit okay im oberen weißen Bereich des Screenshots angezeigt. Das An- und Abwählen bestimmter Wortformen wäre ein möglicher nächster Schritt auf dem Weg durch die hinterlegte Navigationsleiste bis ganz rechts zu Export. Die Trefferlisten können als KWIC- (keyword in context) oder als Volltextlisten angezeigt werden. Darüber hinaus können weitere statistische Maße wie die der relativen Häufigkeit im Reiter „Ergebnisse“ ausgewählt und unter „Ergebnispräsentation“ angezeigt werden. COSMAS IIwebverfügt über eine Vielzahl an zusätzlichen Einstellungsmöglichkeiten, die sich durch Klicken auf das hinterlegte Feld „Optionen“ öffnen. Welche von ihnen für die Stichprobenerhebung der analysierten Datensets gebraucht wurden, wird in Abschnitt 5.3 beschrieben.

3 Stichprobenziehung

In dieser Arbeit wurde entschieden, Stichproben zu erheben, da eine vollständige manuelle Kategorisierung aller in den Korpora vorhandenen OKAY-Treffer aufgrund ihres Vorkommens in fünfstelliger Größenordnung nicht realisierbar ist. Die Stichproben werden als „Teilmenge […] der Grundgesamtheit, [verstanden und] analysiert“ (Brommer 2018, S. 115). Mit der Erhebung und Auswertung von Stichproben gehen Einschränkungen einher: So kann es immer sein, dass Phänomene in der Grundgesamtheit vorhanden sind, aber in den Stichproben nicht entdeckt werden. Auch können in der Stichprobe überzufällig häufig bestimmte Verwendungsweisen abgebildet sein, die sich in Relation zu allen in der Grundgesamtheit vorkommenden OKAY-Gebrauchsweisen bei deren vollständiger Analyse anders verteilen würden (vgl. Perkuhn et al. 2012; Lemnitzer/Zinsmeister 2015). Diese Einschränkungen werden akzeptiert und bei der Interpretation der Ergebnisse berücksichtigt.

Die in den Korpusstudien analysierten OKAY-Belege stammen aus insgesamt fünf Stichproben: drei aus den Wikipedia-Korpora und zwei aus dem FOLK-Korpus.

3.1 Wikipedia-Stichproben aus COSMAS IIweb

Für die Ziehung der Wikipedia-Zufallsstichproben wurde COSMAS IIweb verwendet. Für jede der untersuchten Sprachen wurde zunächst eine Stichprobe in den Wikipedia-Diskussionsseiten-Korpora des Deutschen, Englischen und Französischen gezogen. Dabei wurde wie folgt vorgegangen:

Abb. 5.6
figure 6

Optionen-Einstellungen in COSMAS IIweb bei der Erhebung der Zufallsstichproben

Im bereits erwähnten Reiter „Optionen“ wurde unter „Begrenzung der Ergebnismenge“ eine Zufallsauswahl von 500 Treffern pro Korpus gewählt, vgl. Abb. 5.6. Dann wurde unter „Archiv“-„Korpus“ die jeweilige Sprachversion ausgewählt und eine Suche zu „OKAY“ durchgeführt. Die Ergebnislisten enthalten somit 500 aus der Grundgesamt zufällig ausgewählte OKAY-Treffer. So wurde in insgesamt drei Erhebungsschritten eine Stichprobe mit OKAY-Treffern für jede Sprache gezogen mit dem Ziel, für jede Sprache letztlich 500 OKAY-Treffer vergleichend zu kategorisieren und zu analysieren.

Nach dieser Ersterhebung wurde für alle drei Sprachen eine kleinere Stichprobe im Umfang von 100 OKAY-Treffern nacherhoben. Diese Entscheidung wurde aufgrund von Vorerfahrungen im Umgang mit OKAY-Sprachdaten getroffen: Vorstudien haben gezeigt, dass sich in jeder OKAY-Stichprobe für die zu untersuchenden Fragestellungen OKAY-Verwendungsweisen befanden, die nicht relevant waren. Die Erwartung, dass alle 500 erhobenen Treffer nach dem Schritt der Datenbereinigung in den Samples verblieben, wurde als wenig wahrscheinlich eingestuft. Da vermieden werden sollte, dass sich die Grundgrößen der Stichproben unterscheiden und dadurch für jeden Vergleich auch zwischen den Stichproben auf relative Häufigkeiten zurückgegriffen werden müsste, wurde der Schritt der Nacherhebung als wichtige Maßnahme eingestuft. Diese Datenerhebungen resultierten in sechs Listen: drei Listen mit 500 OKAY-Treffern, jeweils eine für Deutsch, Englisch und Französisch, sowie drei Back-up-Listen mit 100 OKAY-Treffern, jeweils eine für Deutsch, Englisch und Französisch.

Abb. 5.7
figure 7

Export-Funktion in COSMAS IIweb

Alle Listen wurden exportiert mithilfe der in COSMAS IIweb vorhandenen Export-Funktion (vgl. Abb. 5.7). Dabei wurden die voreingestellten Optionen übernommen. Die Ausgabe im RTF(Rich Text Format)-Format bietet sich an, da dies unkompliziert zur Weiteranalyse in Excel importiert werden kann. Auch sollte der Treffer als „Volltext“-Treffer exportiert werden. So ist er bereits in etwas Kontext eingebettet. Durch „Quellennachweis exportieren“ wird sichergestellt, dass die URL zur Original-Diskussionsseite nach dem Treffer eingefügt wird, um ein Nachgeschlagen auf der entsprechenden WP-D zu gewährleisten.

Nach Export der OKAY-Daten aus COSMAS IIweb wurden sie in eine Excel-Mappe importiert, wo sie zunächst um Pseudotreffer bereinigt und im Anschluss kategorisiert wurden.

3.2 FOLK-Stichproben aus der DGD

Für die Erhebung der Stichproben mit gesprochensprachlichen OKAY-Treffern wurde die DGD verwendet. Ziel war es auch hier, eine Stichprobe mit 500 zufälligen OKAY-Treffern zu erhaltenFootnote 19.

Abb. 5.8
figure 8

Tokensuche nach „okay“ in der DGD

Dafür wurde im Feld „Lemma“ der struktursensitiven Tokensuche „okay“ eingegeben (vgl. Abb. 5.8). Es wurden keine Einschränkungen der Position oder des Kontexts vorgenommen. Die „Lemma“-Suche wurde ausgewählt, da die lemmatisierte Form, d. h. die Zuordnung aller geäußerten OKAYs zur Grundform OKAY, auch OKAY-Treffer einschließt, die beispielsweise als „kay“ realisiert wurden.

OKAY wird in der DGD mit dem Wortartenkürzel (Part-of-speech tag, POS-tag) NGIRRFootnote 20 ausgezeichnetFootnote 21. Die POS-Suchfläche wurde dementsprechend nicht verwendet.

Anschließend wurden alle OKAY-Treffer in FOLK in der Ergebnisliste nach Sprechereignis sortiert angezeigt. Wie auch in COSMAS IIweb kann in der DGD direkt eine Stichprobe gezogen werden. Nach dem Betätigen des Würfelsymbols „Zufallsstichprobe bestimmen“ aus der Feature-Schaltfläche erscheint folgendes Dialogfeld, vgl. Abb. 5.9:

Abb. 5.9
figure 9

Dialogfeld zum Befehl „Stichprobe entnehmen“ in der DGD

Die Ergebnisliste wird auf die ausgewählte Stichprobengröße reduziert. Im Anschluss wurden die Ergebnisse als Textdatei durch Betätigen des Icons „Download der KWIC als Textdatei (tabulator separiert)“ exportiertFootnote 22. In diesem Format kann sie zur Weiteranalyse in Excel importiert werden.

Zuletzt galt es noch die Stichprobe der „Stuttgart-21-Schlichtungsgespräche“ zu erheben. FOLK ist nicht weiter in Subkorpora zerlegt. Um gezielt bestimmte Sprechereignisse aus allen vorhandenen Ereignissen herauszufiltern, müssen zunächst deren Anzahl und ID ermittelt werden. In der Ansicht „Browsing“ sind die Informationen dazu hinterlegt. Durch Klicken auf „Browsing“ – „FOLK“ – „Ereignis“ lassen sich in der fünften Tabellenspalte unter „Kurzbezeichnung (‚Art‘)“ diejenigen Ereignisse heraussuchen, die Schlichtungsgespräche enthalten, vgl. Abb. 5.10.

Abb. 5.10
figure 10

IDs der Sprechereignisse der Schlichtungsgespräche in FOLKFootnote

Das Sprechereignis mit der ID 58 ist durchgestrichen, da es nicht Teil der relevanten Sprechereignisse ist.

Nachdem die IDs der Sprechereignisse der Schlichtungsgespräche in FOLK herausgefunden wurden, konnten sie in die Suchmaske integriert werden.

Abb. 5.11
figure 11

Erhebung der Stichprobe zu „Stuttgart-21-Schlichtungsgesprächen“

In Abbildung 5.11 wurden die IDs in den Metadaten-Bereich der struktursensitiven Tokensuche integriert. Die durch diese Suchabfrage erhaltenen OKAY-Treffer wurden anschließend, wie im oben beschriebenen FOLK-Sample, auf 100 zufällige Treffer reduziert und exportiertFootnote 24. Alle FOLK-Daten wurden ebenfalls in eine Excel-Mappe importiert, wo sie zunächst um Pseudotreffer bereinigt und im Anschluss kategorisiert wurden. Die für die Korpusstudien benötigte Datengrundlage war somit zusammengestellt.

4 Datenbereinigung: Aussonderung der Pseudotreffer

Bevor die OKAY-Daten kategorisiert werden, müssen sie intellektuell auf Relevanz in Bezug auf die vorliegenden Fragestellungen überprüft werden. Bei dieser Überprüfung werden die OKAYs aus den Ergebnislisten der Korpusrecherchesysteme, zu diesem Zeitpunkt bereits in Excel-Mappen importiert, um Pseudotreffer bereinigt.

In der vorliegenden Arbeit wird zwischen Treffern, Pseudotreffern und Belegen unterschieden (vgl. Storrer 2011, S. 218). Unter „Treffer“ verstehe ich alle OKAY-Vorkommnisse, die in den Ausgabe-Ergebnislisten der Korpusrecherchesysteme angezeigt werden. Belege sind OKAY-Vorkommnisse, die intellektuell überprüft wurden und für die zu untersuchenden Fragestellungen relevant sind. Dazwischen liegt ein wesentlicher Schritt in der Datenaufbereitung: die Aussonderung von Pseudotreffern. Bei Pseudotreffern (sog. false positivesFootnote 25) handelt es sich um Treffer, die in einer Trefferliste angezeigt werden, da sie beispielsweise bei der Suchanfrage miterfasst wurden, aber dennoch nicht für einen Untersuchungsgegenstand relevant sind. Solche Treffer können vielfältig aussehen, beispielsweise handelt es sich um metasprachliche Treffer, Treffer anderer Sprachen oder auch Verwendungsweisen der Buchstaben O und K, die keine semantische Variation von „in Ordnung“, „einverstanden“, letztlich all correct, abkürzen.

Die folgenden Treffer aus den erhobenen Datensamples zeigen eine Auswahl von Verwendungsweisen von OKAY, die als Pseudotreffer klassifiziert wurdenFootnote 26:

  1. (1)

    Treffer in Eigennamen und Titeln

    Johnny Dyani/Okay Temiz/Mongezi Feza: Rejoice. (1972) (Cadillac SGC 1017)

    WP-D-DE159Footnote 27

    In the 1942 Japanese film celebrating the attack on Pearl Harbor, Hawai Marei Oki Kaisen Kaisen (The War at Sea from Hawaii to Malaya)

    WP-D-EN451

  2. (2)

    Metasprachliche Verwendungsweisen

    Usually these declarative statements require an affirmation, so „okay“ is typical. If you look under the „ English:Canada “ section, the usage is further explained.

    WP-D-EN150

    Verbreitung von OK

    WP-D-DE148

    Bonjour. Avec mon épouse Taïwanaise, nous nous posions la question en ce beau dimanche matin ensoleillé. Et bien après recherches il s'avère qu'(encore)une nouvelle explication fait son chemin: OK proviendrait en fait d'une prononciation ouest-africaine(o-ke ou waw-ke)arrivée aux Etats-Unis avec l'esclavage. Des profs d'universités americains très patriotes en seraient d'ailleurs irrités. A la poubelle donc les „zéro tué“ ou „Oll Korrect“, etc...

    WP-D-FR188

  3. (3)

    Homonyme Ausdrücke mit anderen Bedeutungen:

    Im Artikel werden diverse Maße verwendet, die so nur teilweise korrekt sind. Die Einbauhöhe für WT liegt eigentlich bei 83 cm OK Waschbecken. In der Größe gibt es nach oben keine Grenze. Auch Versionen mit Breiten von deutlich über einem Meter gibt es durchaus.

    WP-D-DE447

    I removed TX, OK, AR, LA, KY, VA, WV, MD, DE, and MO from the definition and updated the largest metro areas for consistency.

    WP-D-EN480

In erster Linie mussten in allen drei Sprachen Treffer mit Eigennamen und Titeln, metasprachliche Verwendungsweisen von OKAY sowie homonyme Ausdrücke mit anderen Bedeutungen aussortiert werdenFootnote 28. Darüber hinaus wurden auch Treffer aussortiert, die in einer anderen Sprache verfasst wurden. Wenn z. B. OKAY in einem englischen Post verwendet wurde, mag es sich um eine echte Verwendung von OKAY handeln; wenn dies aber ein Teil der deutschen Trefferliste ist, stellt es gleichermaßen einen Pseudotreffer dar. So wurden einige Treffer aussortiert, die sich sprachlich überschnitten haben, d. h. beispielsweise englische Treffer in der französischen Trefferliste oder deutsche in der englischen. Neben diesen Treffern gab es auch Beispiele von niederländischen oder spanischen OKAY-Diskussionsbeiträgen.

Vor der Kategorisierung der Treffer wurden ebenfalls alle Quellen-URLs überprüft. Sollte ein Treffer eine für die Analysen relevante OKAY-Verwendungsweise darstellen, konnte aber über die aus COSMAS IIweb exportierte URL nicht länger aufgefunden werden, galt er ebenfalls als nicht untersuchungsrelevantFootnote 29.

Pseudotreffer gab es ebenfalls in den Stichproben der gesprochensprachlichen OKAYs, FOLK-SA und FOLK-S21Footnote 30. Dies sind Treffer, die akustisch durch Rauschen, Überlappungen, Überschneidungen oder sehr leises Sprechen nicht eindeutig als OKAY-Verwendungsweisen identifiziert und deren Klassifizierungen somit nicht aussagekräftig durchgeführt werden konnten.

Dass sich das Erheben der Back-up-Trefferlisten als fruchtbar herausstellte, zeigt die tabellarische Zusammenfassung (vgl. Tabelle 5.2) der dargestellten Häufigkeiten der Pseudotreffer:

Tabelle 5.2 Anzahl der Pseudotreffer in den untersuchten Samples

In allen größeren Listen, d. h. den Trefferlisten, die mehr als 500 OKAYs umfassen, wurden Pseudotreffer identifiziert. Die damit aussortierten Treffer wurden um die fehlende Anzahl an Belegen aus den Back-up-Listen aufgefüllt.

5 Interrater-Reliabilität

In diesem Kapitel werden allgemeine Beschreibungen zur durchgeführten Messung der Interrater-Reliabilität vorgestellt. Die Interrater-Reliabilität wird im Zusammenhang der Korpusstudien 2 und 3, zu Position und Funktion von OKAY, in vorliegender Arbeit als Maß zur Ermittlung der Auswertungsobjektivität angegeben. Es wird berechnet, inwieweit die Kategorisierungsergebnisse von den Ratern unabhängig sind. Da sich auch dieses Messverfahren auf mehr als eine Studie bezieht, werden einleitende Bemerkungen vorweggenommen. Die Ergebnisse des Interrater-Reliabilität-Ratings finden sich in den jeweiligen Unterkapiteln der Korpusstudien, 7.3.2 und 8.3.2.

Um die Zuverlässigkeit von Position und Funktion der eingeführten Kategorien zu messen, wurden in der vorliegenden Arbeit die analysierten WP-Stichproben von mehr als einer Person kategorisiert. An dem Annotationsprozess waren drei Personen beteiligt. Rater AFootnote 31 hat die Datensätze zu WP-D-DE, WP-D-EN und WP-D-FR kategorisiert, Rater B hat die Datensätze WP-D-DE und WP-D-EN und Rater C hat den Datensatz WP-D-FR kategorisiertFootnote 32. Zu Zwecken der Schulung und Unterstützung während des Prozesses wurde den Ratern ein Annotationshandbuch zur Verfügung gestelltFootnote 33. Der Prozess einer doppelten Annotation ist sehr arbeitsintensiv und aufwendig. Da der Fokus der vorliegenden Arbeit auf sprachspezifischen Besonderheiten der verschiedenen Wikipedias liegt, wurde sich für eine doppelte Annotation der Wikipedia-Belege und gegen eine doppelte Annotation der gesprochensprachlichen Daten entschieden. Der Annotationsprozess fand in mehreren Runden statt. Die Rater erhielten die um Pseudotreffer bereinigten OKAY-Beleglisten. In der ersten Runde wurden 30 OKAY-Belege annotiert, um zu überprüfen, ob es Unklarheiten in Bezug auf die Kategorien gibt. Danach wurden die restlichen Daten von den Ratern annotiert.

Das am häufigsten eingesetzte Maß zur Berechnung der Beurteilerübereinstimmung für kategoriale Daten ist Cohens Kappa (vgl. Wirtz/Kutschmann 2007, S. 1). Mithilfe des Kappa kann der Grad der Übereinstimmung quantifiziert werden. Kappa ist somit eine Maßzahl, mit der „der Anteil der überzufälligen Übereinstimmung an der maximal möglichen überzufälligen Übereinstimmung bestimmt […] [und] in standardisierter Form […] [evaluiert wird]“ (Wirtz/Kutschmann 2007, S. 7). Durch die Berechnung der Übereinstimmungsmaße lassen sich Rückschlüsse auf die Qualität und Brauchbarkeit einer Kategorie in Bezug auf das zu annotierende Datenset ziehen. Wenn eine Kategorie von mehr als einer Person unabhängig erkannt und identifiziert werden kann, spricht das für die Güte dieser Kategorie.

In der vorliegenden Arbeit wird Cohens Kappa nach Landis und Koch (1977) interpretiert, vgl. Abb. 5.12:

Abb. 5.12
figure 12

Skala mit Übereinstimmungsmaß nach Landis/Koch (1977), S. 165Footnote

Die in dieser Tabelle durchgeführte Zuordnung sollte nicht unkritisch übernommen werden. Landis und Koch (1977) verweisen selbst darauf, dass die beschriebenen Einteilungen als Richtwerte zu verstehen sind, vgl. Landis/Koch (1977), S. 165.

Zur Berechnung des Kappas wurde die Online-Software „Quantify agreement with kappa“ verwendetFootnote 35. Dabei werden die ausgezählten Paarungen der einzelnen OKAY-Belege in eine Tabelle eingetragen. Vorher muss die Anzahl der Kategorien eingestellt werden. Für die Korpusstudie 2 zu OKAY-Positionen wurden vier und für die Korpusstudie 3 zu OKAY-Funktion wurden zehn Kategorien angewandt. Insgesamt wurden so sechs Kappas ermittelt: Drei quantifizieren und evaluieren das Übereinstimmungsmaß der Rater für das Auszeichnen der Positionen von OKAY in WP-D-DE, WP-D-EN und WP-D-FR und drei weitere das Übereinstimmungsmaß für die Funktionen von OKAY in WP-D-DE, WP-D-EN und WP-D-FR.