Zu Beginn dieser Forschungsarbeit standen erste Überlegungen zur Rolle von Standardisierung, die sich aus der Analyse von Zentralabituraufgaben aus den zehn Bundesländern mit Zentralabitur im Fach Geographie im Jahr 2010 (vgl. Mäsgen, 2011) und aus ersten Forschungsarbeiten zum Umgang der Schüler_innen mit dem Zentralabitur (vgl. Gohrbandt et al., 2013) ergaben. Daraufhin wurde ausgehend vom Forschungsstand zu intendierten und nicht intendierten Effekten zentraler Abschlussprüfungen eine erste Forschungsidee entwickelt, die in einem zirkulären Prozess zu einem Forschungsdesign weiterentwickelt wurde. In diesem Kapitel soll dieses vorgestellt werden. Zunächst werden die wissenschaftstheoretische Position und die Forschungsziele offengelegt, bevor die angewendeten Forschungsmethoden beschrieben werden.

3.1 Wissenschaftstheoretische Position, Forschungsziele und Forschungsfragen

Die dieser Arbeit zugrunde liegende systemtheoretische Perspektive geht mit einem konstruktivistischen Wissenschaftsverständnis einher (vgl. Kleve, 2005). Ziel ist nicht die Beschreibung einer vermeintlich objektiven Realität, sondern die Analyse der Selbstbeschreibung der handelnden Lehrer_innen. In diesem Sinne soll die Komplexität der in den Blick genommenen Phänomene anhand vielfältiger Selbstbeschreibungen erfasst werden. Diese wissenschaftstheoretische Position mündet in Fragen wie: „Wie kommt es, dass Beobachter so beobachten, wie sie eben beobachten? Welche Handlungen mussten sie tätigen, um das zu sehen, was sie sehen und das zu übersehen, was sie nicht sehen? Was müssen sie Anderes tun, wie könnten sie anders handeln, um auch Anderes, bisher nicht Sichtbares in den Blick zu bringen?“ (Kleve, 2005, S. 82). Ebenso wie die Systemtheorie Luhmanns die Reflexion der Pädagogik anregen wollte, ohne selbst praktische Konsequenzen zu ziehen, setzt sich diese Arbeit das Ziel, einen Impuls zur Reflexion aus Wissenschafts-, Organisations-, Praxis- sowie aus bildungspolitischer Perspektive zu leisten, ohne rezeptologische Antworten auf die aufgeworfenen Fragen und Handlungsempfehlungen zu den identifizierten Problemlagen zu liefern.

Das Forschungsfeld wurde zunächst über die theoretischen und empirischen Erkenntnisse zur Komplexität von Unterrichten und Prüfen (im Allgemeinen und im Fach Geographie) und zu Effekten zentraler Abiturprüfungen im Besonderen erschlossen. So konnte eine Annäherung an das in der Einleitung genannte erste Bündel an Untersuchungsfragen erfolgen:

  1. (1)

    Welche theoretischen und empirischen Erkenntnisse zum Unterrichten und Prüfen angesichts des Zentralabiturs und der mit ihm verbundenen Regularien liegen vor? Was sind Einflussfaktoren, was Auswirkungen? Wie ist die spezifische Situation im Fach Geographie?

Als zentrales Phänomen wurde daraufhin das Zusammenspiel der drei Faktoren Unterricht in der Oberstufe, Klausuren im Unterricht und Zentralabitur identifiziert. Die Forschungslage zum Zusammenspiel der drei Faktoren ist dünn und nicht eindeutig, für das Fach Geographie stellt es ein völliges Forschungsdesiderat dar. So fußt die in dieser Arbeit vorgestellte Forschung einerseits auf einer breiten theoretischen und vielfältigen empirischen Basis, letztendlich hat sie aber dennoch einen explorativen Charakter, da es sich um die erste Studie zu diesem Phänomen aus geographiedidaktischer Sicht handelt.

Für die eigene empirische Arbeit wurden zwei weitere Fragenbündel geschnürt:

  1. (2)

    Welche Merkmale weist die Aufgabenkultur im Geographiezentralabitur als Ergebnis von politischem Steuerungshandeln auf? Inwiefern lassen sich Standardisierungstendenzen feststellen?

  2. (3)

    Wie beschreiben Geographielehrer_innen die Situation angesichts des Zentralabiturs und seiner Aufgabenkultur? Wie beschreiben und begründen sie ihr eigenes Handeln? Inwiefern lassen sich die Ergebnisse systematisieren?

Diesen Untersuchungsfragen wurde in einer zweiteiligen Studie nachgegangen. In der ersten Teilstudie wurde die Prüfungskultur im Zentralabitur untersucht (Fragenbündel 2). In der zweiten Teilstudie wurden Unterricht und unterrichtliche Klausuren in der Oberstufe sowie das gesamte Bedingungsgefüge in den Blick genommen (Fragenbündel 3). Die Untersuchungsfragen stellen unterschiedliche Anforderungen an die Methodik.

Um die Prüfungskultur im Zentralabitur zu untersuchen, ist es erforderlich Abiturprüfungsaufgaben zu analysieren. Dabei gilt es, zwei Herausforderungen zu begegnen: einerseits der Heterogenität aufgrund des Föderalismus und zweitens dem Erfordernis eines Zeitschnitts, damit die Prüfungskultur und nicht Einmaleffekte erfasst werden.

Da das auf das Dreierverhältnis bezogene Handeln der Lehrer_innen sich auf weite Teile des Unterrichts und dessen Kontext erstrecken kann und auch die zugrundeliegenden Motive Gegenstand der zweiten Untersuchung sein sollten, wurde in der zweiten Teilstudie die Methode der Datenerfassung mittels qualitativer Interviews gewählt. Nur bei diesem Vorgehen war es möglich, relevante Phänomene und Kontextbedingungen zu identifizieren und die Selbstbeschreibungen der Lehrer_innen zu erfassen.

Die ersten Analysen der erhobenen Daten lieferten interessante Ergebnisse, die in Forschungskolloquien und auf Fachtagungen präsentiert und diskutiert wurden und ein positives Feedback hervorgerufen haben. Dennoch wurde bei der weiteren Analyse der qualitativen Daten deutlich, dass die in der Vorbereitung gesichteten, vor allem auf einem quantitativen Forschungsparadigma fußenden Erkenntnisse zu den drei Bedingungsfaktoren und ihrem Zusammenspiel als alleinige Ausgangsbasis nicht ausreichten. Daraufhin wurde nochmals die grundlagentheoretische Einbettung der Forschung kritisch hinterfragt. Insbesondere die Beziehungen zwischen dem Unterricht, der administrativen Rahmung und der Gesellschaft konnten nicht ausreichend systematisch in Beziehung gesetzt werden, da eine Metatheorie fehlte. In einem zirkulären Prozess wurde deshalb die theoretische Basis um die systemtheoretische Perspektive erweitert, sodass sowohl die bis dato gesichtete Fachliteratur als auch die eigene Datenauswertung neu strukturiert werden konnten. Als übergeordnete forschungsleitende Frage, die die Betrachtung des Beziehungsgefüges stärker reflexiv ausrichteten sollte, wurde schließlich die Frage: „Wie ist Geographieunterricht angesichts des Zentralabiturs möglich?“ ausgewählt (Abbildung 3.1).

Abbildung 3.1
figure 1

(Quelle: Eigener Entwurf)

Forschungsdesign.

3.2 Forschungsmethodik

3.2.1 Quantitative Studie zur Aufgabenkultur im Zentralabitur

Im Rahmen einer quantitativen Aufgabenanaylse konnten die Untersuchungsfragen: „Welche Merkmale weist die Aufgabenkultur im Geographiezentralabitur als Ergebnis von politischem Steuerungshandeln auf? Inwiefern lassen sich Standardisierungstendenzen feststellen?“ beantwortet werden. Unter Aufgabenanalyse soll nach Kühn (2010, S. 137) eine „empirisch abgesicherte, theoretisch fundierte Erfassung, Beschreibung und Analyse bestimmter und eindeutig definierter formaler und inhaltlicher Merkmale der Aufgabenstellung“ verstanden werden. Hierzu wurden zunächst Kategorien gebildet und daraufhin Merkmalsausprägungen festgelegt (Brosius, Haas & Koschel, 2016, S. 153).

3.2.1.1 Datenerhebung

Stichprobe

Die Einheitlichen Prüfungsanforderungen in der Abiturprüfung der Kultusministerkonferenz, die das Ziel haben, die Abiturprüfungen zu vereinheitlichen, gelten seit dem Jahr 2008. Aus diesem Grund wurde als erstes Jahr des Zeitschnittes das Jahr 2009 ausgewählt. Zunächst wurde der Zeitschnitt auf fünf Jahre festgesetzt, später im Rahmen einer Nacherhebung auf sieben Jahre ausgeweitet, sodass letztendlich Aufgaben der Jahre 2009–2015 analysiert wurden. Zum Zweiten musste ein Weg gefunden werden, mit dem Bildungsföderalismus umzugehen. Grundvoraussetzung für die Auswahl der Bundesländer war das Vorhandensein von Geographie als schriftlichem Prüfungsfach. Außerdem sollten Prüfungen auf erhöhtem und bestenfalls auch auf grundlegendem Anforderungsniveau angeboten werden. Zuletzt wurde zu Beginn des Forschungsprojektes erwogen, an die Aufgabenanalyse eine quantitative Befragung von Lehrkräften anzuschließen. Aus diesem Grund wurde als weiteres Kriterium die prognostizierte Anzahl der Absolvent_innen mit Hochschulreife 2013 herangezogen, um später eine möglichst große Grundgesamtheit, aus der zu schöpfen wäre, zu haben. Die Idee der quantitativen Befragung wurde allerdings später verworfen. Letztendlich wurden die fünf in Tabelle 3.1 hervorgehobenen Bundesländer ausgewählt. Die Klausuraufgaben wurden von den Bildungsministerien zur wissenschaftlichen Analyse zur Verfügung gestellt oder lagen publiziert im STARK Verlag vor (Bayerisches Staatsministerium für Unterricht und Kultus, 2009–2013, 2014–2015; Hessisches Kultusministerium, 2009–2015; Ministerium für Kultus, Jugend und Sport Baden-Württemberg, 2009–2013, 2014–2015; Ministerium für Schule und Bildung des Landes Nordrhein-Westfalen, 2009–2013, 2014–2015; Niedersächsisches Kultusministerium, 2009–2015).

Für die fünf Bundesländer und die sieben Jahre kann von einer Vollerhebung der Daten für alle Prüfungen im ersten Prüfungsversuch gesprochen werden. Nachprüfungen wurden nicht berücksichtigt.

Tabelle 3.1 Auswahlkriterien und ausgewählte Bundesländer (grau) (Bezugsjahr 2013). (Quelle: Eigene Zusammenstellung basierend auf Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland (2007, S. 98))

Im Rahmen der Datenerfassung wurden Merkmale auf der Ebene der Klausuraufgaben, Operatoraufgaben und Materialien erhoben und einige Merkmale den Prüfungen zugeordnet (vgl.Tabelle 3.2). Diese Ebenen werden im Folgenden vorgestellt.

Eine Klausuraufgabe wird verstanden als die Zusammenstellung von zu bearbeitenden Aufgaben und zugehörigem Materialienapparat zu einem übergeordneten Thema in einem Dokument. Eine Prüfung ist demgegenüber die gesamte absolvierte Leistungserfassung innerhalb der zeitlichen Vorgaben. Nun gibt es bei den fünf ausgewählten Bundesländern zwei grundsätzlich verschiedene Praktiken, von den Klausuraufgaben zur Prüfung zu kommen (vgl. Abbildung 3.2).

Abbildung 3.2
figure 2

(Quelle: Eigener Entwurf)

Von den Klausuraufgaben zur Prüfung.

Bei Variante 1 wählen die Schüler_innen aus mehreren Klausuraufgaben mehrere aus und stellen sich so ihre Prüfung zusammen. In Baden-Württemberg (bis einschl. 2014) und Bayern musste pro Prüfung mehr als eine Klausuraufgabe bearbeitet werden: in Bayern 2 von 4, in Baden-Württemberg (bis 2014) 3 von 4 Klausuraufgaben. Bei der zweiten Variante wählen sich die Schüler_innen eine Klausuraufgabe aus mehreren als Prüfung aus. In den Bundesländern Baden-Württemberg (ab 2015), Hessen, Niedersachsen und Nordrhein-Westfalen entspricht eine Klausuraufgabe der Prüfungsleistung, wobei die Prüflinge die Möglichkeit haben, sich eine Klausuraufgabe auszuwählen: in Baden-Württemberg (ab 2015) und Niedersachsen 1 aus 2, in Hessen und Nordrhein-Westfalen 1 aus 3 Klausuraufgaben.

Für die Datenanalyse bedeutet dies, dass zum Vergleich der Prüfungen nicht die Klausuraufgaben untereinander verglichen werden können. Bei Variante 1 müssen die jeweiligen Möglichkeiten der Kombination von Klausuraufgaben berücksichtigt und somit die möglichen Prüfungen konstruiert werden. Bei 4 Klausuraufgaben in Bayern ergeben sich 6 mögliche Prüfungsvarianten, bei 4 Klausuraufgaben in Baden-Württemberg ergeben sich 4 Prüfungsvarianten. Konstruiert man auf diese Weise alle Prüfungsvarianten, ergeben sich bezogen auf den gesamten Datensatz 204 Prüfungen (vgl. Tabelle 3.2).

Tabelle 3.2 Überblick über die Datengrundlage (jeweils Anzahl der Fälle im Datenset). (Quelle: Eigener Entwurf)

Neben den Merkmalen der Klausuraufgaben wurden bei der Datenerfassung Merkmale der einzelnen zu bearbeitenden Aufgaben erfasst. Da die Praxis der Strukturierung, Untergliederung und Nummerierung der Aufgaben je nach Bundesland und Jahrgang variiert, wurde jede Handlungsaufforderung einzeln erfasst. Eine Handlungsaufforderung wird mit einem so genannten Operator – zum Beispiel „beschreibe“, „erläutere“ oder „beurteile“ – eingeleitet. Im Folgenden werden die Handlungsaufforderungen deshalb als Operatoraufgaben bezeichnet.

Als drittes wurden die Merkmale der Materialien auf der Ebene jedes Einzelmaterials erfasst. Dabei wurden die Materialien neu durchgezählt, da sich unter einer Bezeichnung – zum Beispiel „M 1“ – oft mehrere Materialien verbergen, beispielsweise drei Klimadiagramme oder ein Text, ein Säulendiagramm und eine Karte. Insgesamt ergibt sich damit die in Tabelle 3.2 dargestellte Datengrundlage.

Neben der Gliederung der Datengrundlage in Klausuraufgaben, Prüfungen und Materialien bieten sich noch zwei weitere Strukturierungsmöglichkeiten an. Erstens kann zwischen dem erhöhten Anforderungsniveau (Leistungskurs) und dem grundlegenden Anforderungsniveau (Grundkurs) unterschieden werden und zweitens zwischen den sieben erfassten Jahrgängen (vgl. Tabelle 3.3).

Tabelle 3.3 Differenzierung der Datengrundlage nach Jahren und Anforderungsniveaus (erhöhtes Anforderungsniveau = EA, grundlegendes Anforderungsniveau = GA). (Quelle: Eigener Entwurf)

Während es in Hessen, Niedersachsen und Nordrhein-Westfalen Prüfungen auf grundlegendem und erhöhtem Anforderungsniveau gab, waren es in Baden-Württemberg nur Prüfungen auf erhöhtem Anforderungsniveau. In Bayern gab es bis einschließlich 2011 Prüfungen auf beiden Niveaustufen, 2011 dann einen doppelten Abiturjahrgang und von 2012–2015 nur noch Prüfungen auf grundlegendem Anforderungsniveau.

Die Erhebungsinstrumente

Es wurden drei Erhebungsinstrumente entwickelt: eines für die Ebene der Klausuraufgaben, eins für die Ebene der Operatoraufgaben und eines für die Ebene der Materialien. Somit entstanden drei unabhängige Datentabellen. Alle Datentabellen konnten durch die jeweilige Klausurnummer, die als Schlüsselvariable fungiert, jederzeit in Beziehung gesetzt werden. Die Datentabelle für die Ebene der Prüfungsaufgaben wurde aus den drei Datentabellen nachträglich zusammen gefügt. Alle erhobenen Variablen sind im Anhang im elektronischen Zusatzmaterial zu finden.

Auf der Ebene der Klausuraufgaben wurden neben formalen Merkmalen (Klausurnummer, Bundesland, Anforderungsniveau, Jahr, Anzahl der Aufgaben/Teilaufgaben/Operatoraufgaben, Anzahl der Materialien, Hilfsmittel, Bearbeitungszeit und Gewichtungshilfe) auch Merkmale zum Inhalt (Zentrierung, Raumbezug) sowie zur Struktur der Aufgaben (Verknüpfung der Teilaufgaben) erfasst.

Auf der Ebene der Operatoraufgaben wurden neben formalen Merkmalen (Nummer der Operatoraufgabe, Klausurnummer, Bundesland, Jahr, Anforderungsniveau) die jeweilige Aufgabengestaltung (Operator, ggf. Erläuterung des Operators, Antwortformat, Materialbezug, ggf. Einbettung der Operatoraufgabe) und die thematische Zuordnung zu einem Teilbereich der Geographie erhoben. Darüber hinaus wurde die Rolle des Fachwissens sowie ggf. der Lebensweltbezug festgestellt.

Mithilfe der dritten Datenmaske wurden die Merkmale der Materialien erfasst, darunter wiederum formale Merkmale (Nummer des Materials, Bundesland, Jahr, Klausurnummer), die Materialart samt jeweils weiterer zugehöriger Merkmale (z. B. bei der Materialart Karte: Art der Karte, Verknüpfung, Maßstab, Zeitbezug, Sachbezug) sowie die Komplexität des Materials (der Darstellung, des Inhalts, des Bezugs zu einer Aufgabe sowie das Maß an Hilfen). Außerdem wurde erfasst, ob eine Materialkritik gefordert ist und welchem Thema bzw. welchen Themen das Material zuzuordnen ist.

Die Daten auf der Ebene der Prüfungen wurden wie oben erläutert im Nachhinein aus bestehenden Daten rekonstruiert. Neben den eingeflossenen Klausuraufgaben und weiteren formalen Merkmalen wurden die Anzahl der Materialien und Operatoraufgaben aus der Datentabelle der Klausuraufgaben übertragen bzw. bei Bundesländern mit mehreren Klausuraufgaben pro Prüfung aus der jeweiligen Klausuraufgaben-Kombination berechnet. Weitere Variablen wurden aus der Kombination anderer Materialien nachträglich berechnet, etwa die durchschnittliche zur Verfügung stehende Bearbeitungszeit pro Operatoraufgabe.

Zur Vorbereitung der Datenerhebung wurden die Klausuraufgaben sowie die Materialien fortlaufend nummeriert. Die einzelnen Operatoraufgaben wurden farblich hervorgehoben und mit einer individuellen Kennung – einer Zahlenkombination aus der Klausurnummer und einer pro Klausuraufgabe fortlaufenden Nummerierung – versehen.

Zur Verbesserung der Datenqualität wurden für die Datenerhebung im Programm IBM SPSS Data Collection 6 drei Dateneingabemasken erstellt. Dieses Vorgehen hatte folgende Vorteile: Es konnte neben dem Variablennamen jeweils eine Beschreibung der zu erhebenden Variable angelegt werden. Es konnte das Antwortformat (Einfachauswahl, Mehrfachauswahl, Freitext) vorab festgelegt werden. Es konnten bei kategorialen Variablen die möglichen Merkmalsausprägungen angelegt werden, sodass diese nur noch per Mausklick ausgewählt werden mussten. Bei metrischen Variablen konnte das Zahlenformat (Anzahl der Vor- und Nachkommastellen) festgelegt werden. Prinzipiell mussten stets alle abgefragten Variablen bearbeitet werden und konnten nur bewusst – nicht zufällig – übersprungen werden. Die Daten konnten dann in SPSS-Datentabellen transformiert werden. Durch die Dateneingabe mittels Eingabemaske konnten übliche Probleme, die bei der manuellen Dateneingabe unmittelbar in einer Datentabelle auftreten können, umgangen werden. So bestand nicht die Gefahr, aus Versehen in eine falsche Tabellenzelle zu geraten und Daten falsch einzutragen oder schlimmstenfalls zu überschreiben. Außerdem bestand nicht die Gefahr, bei kategorialen Variablen aus Versehen eine falsche Ziffer einzugeben.

Insgesamt wurde die Dateneingabe so standardisiert, dass sehr große Datenmengen erfasst werden konnten. Außerdem konnte die Datenbereinigung im Anschluss an die Datenerhebung aufgrund der sehr guten Datenqualität zügig erledigt werden. Zuletzt konnte nach einer ersten Datenerfassung, die die Jahre 2009–2013 abgedeckt hatte, mit vertretbarem Aufwand eine Erweiterung des Datenbestands in einer Nacherhebung der Jahre 2014 und 2015 vorgenommen werden.

Die Datenerfassung wurde von zwei Personen durchgeführt, der Autorin dieser Arbeit sowie ein Teil ergänzend von einer studentischen Hilfskraft. Zu Beginn der Erfassung stand eine Trainingsphase, bei der die Anwendbarkeit des Kategoriensystems überprüft und Konkretisierungen in den Erfassungshinweisen vorgenommen wurden. Schließlich wurden zehn Klausuraufgaben samt Operatoraufgaben und Materialien parallel von beiden Personen erfasst (5,5 % der Datengrundlage). Die Beurteilerübereinstimmung lag bei 93 % und kann als gut eingeschätzt werden. Einige Unterschiede ergaben sich bei der Zuordnung von Aufgaben und Materialien zu Themenkomplexen und beim Merkmal Fachwissen. In der Konsequenz wurden die Themen im Nachhinein zusammengefasst, die Variable Fachwissen wurde letztlich nicht in die Analysen einbezogen.

3.2.1.2 Datenauswertung

Die Auswertung der Daten erfolgte mit uni-, bi- und multivariaten Verfahren mithilfe des Datenauswerteprogramms SPSS. Zunächst wurden Häufigkeitsanalysen als Methoden der deskriptiven Statistik durchgeführt. Dann wurden Kontingenzanalysen in Form von bi-variaten Kreuztabellen mit anschließendem Chi-Quadrat-Test durchgeführt (Bahrenberg, Giese, Mevenkamp & Nipper, 2017, S. 243–251). Um die für die Analysen erforderlichen Fallzahlen pro Tabellenzelle zu erreichen, wurden Merkmalsausprägungen gegebenenfalls zusammengefasst. Damit die Kontingenzkoeffizienten vergleichbar sind, wurden diese als korrigierte Kontingenzkoeffizienten normiert. Um die identifizierten Zusammenhänge näher beschreiben zu können, wurden außerdem die korrigierten standardisierten Residuen berechnet.

Zuletzt wurde eine hierarchische Clusteranalyse (z-transformierte Variablen, Ward-Methode, quadrierte Euklidische Distanz) durchgeführt (Backhaus, Erichson, Plinke & Weiber, 2018, S. 424), um den Grad der Standardisierung der Prüfungsaufgaben zu bestimmen. Die Anzahl der Cluster wurde mithilfe des Elbow-Kriteriums bestimmt (Backhaus et al., 2018, S. 430–431). Die Beobachtungen aus der Clusteranalyse wurden durch eine Analyse der Verteilung der Häufigkeiten untermauert.

Zur Erhöhung der Nachvollziehbarkeit der einzelnen angewendeten Verfahren werden diese in den Ergebniskapiteln jeweils nochmals benannt und beschrieben. Aus diesem Grund kann an dieser Stelle auf eine detailliertere Auflistung verzichtet werden.

Die Ergebnisse der Datenauswertung wurden mehrfach auf Tagungen und in Kolloquien zur Diskussion gestellt und nach der Erweiterung der Datenbasis in Gänze wiederholt, beziehungswiese aktualisiert und um weitere Analysen ergänzt.

3.2.2 Qualitative Interviewstudie zum Lehrer_innenhandeln angesichts des Zentralabiturs

3.2.2.1 Datenerhebung

Zur Fallauswahl

Die Fallauswahl erfolgte mittels einer systematischen Kontrastierung von Fällen anhand von Vergleichskategorien (Kelle & Kluge, 2010, S. 43). Diese wurden ausgehend von der forschungsleitenden Frage anhand von theoretischem Vorwissen ausgewählt und in einer qualitativen Stichprobenmatrix (Kelle & Kluge, 2010, S. 50) festgehalten, die der initialen Fallauswahl im Oktober und November 2014 diente. Diese berücksichtigte als Auswahlkategorien: Größe der Gemeinde/Stadt, Schulart, Schule sowohl mit Sekundarstufe I als auch II oder reine Oberstufenschule, staatliche oder private Trägerschaft und Berufserfahrung sowie besondere Merkmale der Lehrkraft oder der Schule und zuletzt das Bundesland. Es wurden die fünf in der quantitativen Studie untersuchten Bundesländer wieder aufgegriffen, da nur hier eine vertiefte Kenntnis der Prüfungskultur im Zentralabitur vorlag. Da die Interviewstudie aber nicht einen Bundesländervergleich zum Ziel hat, wurde das Bundesland lediglich als nachrangige Auswahlkategorie herangezogen. Es war nicht das Ziel, eine gleiche Anzahl an Interviews in jedem der fünf Bundesländer durchzuführen. Vielmehr wurde eine größere Anzahl in Bayern durchgeführt, um die Spannbreite an Handlungsstrategien von Geographielehrer_innen innerhalb eines Bundeslandes (und damit unter gleichen rechtlichen Rahmenbedingungen) aufzudecken.

Weitere Interviewpartner_innen wurden nach der initialen Fallauswahl sukzessive während der Erhebungsphase anhand von im Forschungsprozess generierten Annahmen und Überlegungen, die als Postskripte in einem Forschungstagebuch festgehalten wurden, ausgewählt. Hierbei wurden insbesondere Fälle ergänzt, die Veränderungen und Entwicklungen im Handeln und der Interaktion der Lehrer_innen – etwa bei einer Schule im Umbruch, einem Kollegium im Umbruch oder einem persönlichen Umbruch – zu identifizieren und spezifizieren vermochten. Somit konnte auch dem Prozessaspekt Rechnung getragen werden (Strauss & Corbin, 2010, S. 220).

Insgesamt wurden sowohl Fälle mit großen Ähnlichkeiten (z. B. gleiche Schule, ähnliche Stellung des Fachs Geographie an der Schule, ähnliche Funktion der Lehrperson) ausgewählt, um die Relevanz der zugrunde gelegten Konstrukte zu überprüfen, als auch möglichst abweichende Fälle gesucht, um die Heterogenität und Varianz im Untersuchungsfeld (Kelle & Kluge, 2010, S. 48) abzubilden.

Tabelle 3.4 Initiale Stichprobenmatrix mit Teilnehmenden der Interviews. (Quelle: Eigene Darstellung)

Alles in allem wurden 34 Lehrer_innen kontaktiert und letztendlich zwischen November 2014 und Februar 2016 Interviews mit 28 Lehrer_innen durchgeführt (s. Tabelle 3.4). Davon wurden drei Gruppeninterviews durchgeführt: ein Interview mit zwei, eines mit drei und eines mit zwei plus drei hinzukommenden Teilnehmenden. Alle anderen Interviews waren Einzelinterviews. Die Interviews dauerten zwischen 30 und 100 Minuten (Durchschnitt 55 Minuten). Die Interviews wurden in der Regel an der jeweiligen Schule durchgeführt, ein Interview wurde in einem Café durchgeführt und eins an der Universität zu Köln.

Zum Erhebungsinstrument

Ziel der zweiten Studie sollte es sein, das Verhältnis von Unterricht, unterrichtlichem Prüfen (als Klausuren) und Zentralabitur zu ergründen. Es sollte dabei das Denken der Lehrer_innen mit ihrem Handeln in Beziehung gesetzt werden. Als Kristallisationspunkt wurde das Erstellen von Klausuren für den Unterricht bestimmt.

Um den Schwerpunkt auf das Beschreiben und Erklären von Handlungen legen zu können, wurde die Methode des Recall-Interviews ausgewählt. Dieses hat zum Ziel, durch nachträgliches Lautes Denken (Weidle & Wagner, 1994), Selbstaussagen über interne mentale Vorgänge zu erfassen und damit Einblicke in affektive und kognitive Prozesse zu bekommen.

Hierbei musste aufgrund der oben genannten Situationsvielfalt eine Variante gewählt werden, die sich auf den Kristallisationspunkt Klausurkonzeption konzentriert. Da das Erstellen einer Klausur in die Unterrichtsvorbereitung fällt und meist am heimischen Schreibtisch stattfindet, wurde die Idee verworfen, hier eine Videoaufzeichnung anzustreben. Stattdessen wurden nach den positiven Erfahrungen mit der Kombination aus Lautem Denken und Interview bei Remesal (2011) die Interviewpartner_innen gebeten, eine in der jüngeren Vergangenheit erstellte Klausur mitzubringen, anhand derer das konkrete Handeln beschrieben und erläutert werden sollte. Davon ausgehend wurden dann Bezüge zum eigenen Unterricht und zum Zentralabitur meist schon von den Interviewten selbst oder durch Interviewfragen hergestellt.

Es gibt nach Calderhead (1981, S. 213) drei Gruppen an Bedingungen, die die Datenerhebung (und die Validität der Daten) beim nachträglichen Lauten Denken beeinflussen können: Erstens könne die Frage, inwieweit sich Lehrer_innen an ihr Denken erinnern können und inwieweit sie darüber berichten, von der Beziehung zur/zum Forschenden abhängen. Das Ziel, Handlungsmuster zu rekonstruieren, könne gefährdet werden, wenn Lehrer_innen unter Rechtfertigungsdruck stehen. Dem wurde versucht, durch eine vertrauensvolle Atmosphäre und Transparenz zum Ablauf der Datenerhebung entgegen zu wirken. Zweitens gelte es zu hinterfragen, wie weit das Denken überhaupt geäußert werden könne. Es bestehe die Gefahr, dass Erinnerungslücken durch nachträgliche Rekonstruktionen gefüllt würden. Aus diesem Grund wurden die Lehrer_innen dazu angehalten, eine Klausur zum Gespräch mitzubringen, die kürzlich gestellt worden war. Drittens stelle sich die Frage, inwiefern die Interviewten durch das Ziel der Forschung beeinflusst würden (Erwünschtheitseffekt). Es wurde versucht, dem durch eine große Offenheit der Fragen entgegen zu wirken. Das Bedingungsgefüge wurde erst am Ende des Gesprächs explizit angesprochen.

Eingebettet wurde das nachträgliche Laute Denken in die Struktur eines episodischen Interviews nach Flick (2011). Ziel war es, durch eine „Kombination von offener Befragung und Erzählung“ zusätzlich zur Rekonstruktion vom Handeln in einer spezifischen Klausursituation mithilfe der Methode des nachträglichen Lauten Denkens sowohl subjektives Wissen als auch subjektive Erfahrungen zu erfassen (Flick, 2011, S. 273). Die Struktur eines möglichen Gesprächsverlaufs (vgl. Anhang im elektronischen Zusatzmaterial) wurde ausgehend von den Forschungsfragen, dem theoretischen Hintergrund und dem Forschungsstand entworfen, in mehreren Gesprächen und Kolloquien mit Fachkolleg_innen erörtert und in einem Probeinterview ausprobiert. Diese Grundstruktur wurde während des Forschungsprozesses fortwährend angepasst: jeweils in Vorbereitung auf die spezifische Interviewsituation und ad hoc in der Gesprächssituation. Insgesamt hatten die Interviews eine offene Struktur mit wenigen zentralen, erzählgenerierenden Gesprächsaufforderungen sowie Fragen nach Begriffen und ihren Beziehungen untereinander (Flick, 2016, S. 239). Es wurden damit sowohl Fragen, die episodisches Wissen („Ich habe Sie gebeten, eine von Ihnen erstellte Klausur mitzubringen. Erzählen Sie mir doch mal etwas dazu.“), als auch Fragen die semantisches Wissen („Ich möchte mich mit Ihnen heute über Prüfungen im Geographieunterricht unterhalten. Welche Funktion haben sie?“) erfassen sollten, gestellt. Aufgrund der Anpassungen unterschied sich die Gesprächsstruktur je nach Interview. Einen zentralen Gesprächsanlass bildete allerdings immer die von den Lehrer_innen mitgebrachte Klausur. Dieses Vorgehen bot die Möglichkeit, den komplexen und prozessualen Kontextcharakter des Forschungsgegenstands mithilfe eines situationsadäquaten und flexiblen Erhebungsinstruments zu erfassen, das die Konkretisierung fördert.

Konkret richteten sich die Interviews an vier Themenblöcken aus, die sich aus der Notwendigkeit ergaben, das dreigliedrige Verhältnis von Unterricht, unterrichtlichen Prüfungen und Zentralabitur in der spezifischen jeweiligen Situation zu thematisieren. Die Gesprächsverläufe variierten also, hatten aber stets die vier Themenblöcke als Gesprächsgegenstand, die im Folgenden anhand von Beispielformulierungen vorgestellt werden.

  1. (1)

    Zum Einstieg wurde das Gespräch auf die Berufsbiographie („Vielleicht können wir anfangen, dass Sie ein bisschen erzählen, wie Sie an die Schule gekommen sind.“), die jeweilige Schule („Vielleicht fangen wir zum Einstieg an, dass Sie vielleicht ein bisschen berichten, was Ihre Schule so ausmacht.“) und/oder auf Spezifika der Schule („Mich würde zunächst interessieren, wie es dazu gekommen ist, dass …“) und davon ausgehend die Stellung des Fachs Geographie gerichtet. Darauf folgten je nach Gesprächsverlauf in loser Reihenfolge zwei thematische Blöcke zum Prüfen und zum Unterricht.

  2. (2)

    Im Block zum Thema Prüfungen wurde die mitgebrachte Klausur zum zentralen Gesprächsanlass. Die oben genannte erzählgenerierende Frage wurde durch die oben genannte Frage zur Funktion von Prüfungen ergänzt.

  3. (3)

    Im Block zum Thema Unterricht wurde allgemein über den eigenen Unterricht gesprochen („Und, was würden Sie sagen, wie ist so ihr Geographieunterricht ausgerichtet?“) und/oder ausgehend von der mitgebrachten Klausur der vorangegangene Unterricht thematisiert („Vielleicht ein bisschen zur Einordnung: In welcher Unterrichtssituation haben Sie die Klausur eingesetzt?“).

  4. (4)

    Im vierten und letzten Block wurde dann das Zusammenspiel von Unterricht, unterrichtlichen Prüfungen und Zentralabitur thematisiert („Und, wie beurteilen Sie das Zusammenspiel von vorangegangenem Unterricht, der Klausur und dem Zentralabitur?“).

3.2.2.2 Datenauswertung

Die Interviews wurden mit einer Ausnahme als Tonaufnahmen aufgezeichnet. Ein Gruppen-Interview mit drei Teilnehmern wurde während des Gesprächs summarisch protokolliert, konnte aber deshalb nur als Hintergrundinformation in die Auswertung einfließen, die entsprechenden Zeilen sind in Tabelle 3.4 grau unterlegt. Die Tonaufnahmen wurden anhand von folgenden Transkriptionsregeln verschriftlicht: Dialekte wurden möglichst wortgetreu ins Hochdeutsche übersetzt, Wortverschleifungen an das Schriftdeutsch angeglichen. Wort- und Satzabbrüche sowie Stottern wurden geglättet bzw. ausgelassen, Halbsätze mit einem Abbruchzeichen (/) gekennzeichnet. Füllwörter wurden weggelassen, es sei denn, sie entsprachen einer bejahenden oder verneinenden Antwort. Wortwiederholungen, die den Sinn der Aussage nicht verändern, wurden nicht transkribiert. Versprecher wurden nicht transkribiert, sondern korrigiert. Die Satzstellungen wurden beibehalten. Unverständliche Wörter wurden mit Zeitmarken gekennzeichnet.

Zu Beginn der Datenanalyse, die parallel zur fortlaufenden Datenerhebung begann, wurden die Audiodateien der Interviews wiederholt angehört und die Postskripte im Forschungstagebuch durch Zusammenfassungen, Kommentare und erste Auswertungsideen ergänzt. Danach erfolgte dann die Datenanalyse anhand der Transkripte mithilfe der Software MAXQDA 10 und MAXQDA Analytics Pro 2018.

Ziel der Datenauswertung war es, Unterrichte als „Phänomene der komplexen sozialen Wirklichkeit“ im Sinne einer geographiedidaktischen Handlungsforschung (Wieser, 2010, S. 12) zu analysieren, indem Handlungsstrukturen rekonstruiert werden. Dabei sollte einerseits die Komplexität von Unterricht und die damit verbundenen Herausforderungen des Unterrichtens in den Blick genommen, andererseits die Analyse durch Konzeptualisierung entlastet werden (Wieser, 2010, 4, 11).

Eingangs bestand bei der Interviewstudie bereits ein theoretisches Vorwissen größeren Umfangs. Diese theoretische Basis kann dabei nach Kelle und Kluge (2010, 62) wie folgt nach Wissensarten gegliedert werden. Mit dem Alltagswissen zum Prüfen und zu den administrativen Vorgaben lag „empirisch gehaltvolles Alltagswissen“ vor (Kelle & Kluge, 2010, S. 62). Mit dem aktuellen Forschungsstand zum Zentralabitur und seinem Kontext lag „empirisch gehaltvolles Theoriewissen“ (Kelle & Kluge, 2010, S. 62) vor. Da es aber hinsichtlich der spezifischen forschungsleitenden Frage zur Möglichkeit des Unterrichtens angesichts des Zentralabiturs im Fach Geographie keine Wissensbasis gab, galt es, dennoch eine induktive Methode der Datenauswertung anzuwenden. Die Literaturbasis wurde aber genutzt, um erstens die theoretische Sensibilität anzuregen und zweitens als ergänzender Gültikeitsnachweis zu fungieren, um die Angemessenheit der Ergebnisse – wo möglich – zu vailidieren (Strauss & Corbin, 2010, S. 33–35). Mit der soziologischen Systemtheorie kam zum Ende dieses Projekts „empirisch nicht gehaltvolles Theoriewissen“ (Kelle & Kluge, 2010, S. 62) hinzu. Dieses wurde für die Dateninterpretation herangezogen.

Die Analyse der Interviews erfolgte deshalb angelehnt an die Grounded Theory Methodologie nach Strauss und Corbin (2010). Dabei wurden zunächst mittels des Verfahrens des offenen Codierens Konzepte abgeleitet.

„Mit Aufbrechen und Konzeptualisieren meinen wir das Herausgreifen einer Beobachtung, eines Satzes, eines Abschnitts und das Vergeben von Namen für jeden einzelnen darin enthaltenen Vorfall, jede Idee oder jedes Ereignis – für etwas, das für ein Phänomen steht oder es repräsentiert.“ (Strauss & Corbin, 2010, S. 45)

Das Datenmaterial wurde dabei mehrfach Satz für Satz durchgegangen. Sehr häufig wurden ausgehend von einer Interviewpassage, einem Satz oder einem Ausdruck mehrere Konzepte entwickelt. Zwei Arten wurden bei dieser Konzeptualisierung genutzt: In-vivo-Konzepte und nachträglich konstruierte Konzepte. Aus der Interviewpassage aus Interview 19 Absatz 28:

„Also ja, spielt eine Rolle, und ich glaube, was bei mir auch Zeit gebraucht hat, was einem so im Referendariat dann vermittelt wurde, am Anfang habe ich auch dazu geneigt, dass man sozusagen von dieser Kompetenzglocke ein bisschen erschlagen oder erdrückt ist, weil man denkt, man müsste alle Kompetenzen irgendwie abdecken. Aber diese Fokussierung, heute dies, morgen das, das ist so der grobe Rahmen.“

wurde beispielsweise erstens das Konzept „19.56 ‚von der Kompetenzglocke ein bisschen erschlagen oder erdrückt‘“ (In-vivo-Konzept) und zweitens das Konzept „19.10 Vorgaben als Last“ (nachträglich konstruiertes Konzept) abgeleitet.

Die Konzepte wurden durch Vergleiche zu abstrakteren Kategorien zusammengefasst (Strauss & Corbin, 2010, S. 43–55). Um bei dem oben zitierten Beispiel zu bleiben: das Konzept 19.56 wurde der Kategorie „19.III Kompetenzorientierung: Lehrplan, Referendariat: macht Umsetzungsdruck“ und das Konzept 19.10 der Kategorie „19.XXXII Einschränkung der Autonomie durch die organisatorische Rahmung“ zugeordnet. Das Entdecken von Kategorien wurde durch einen Prozess des Vergleichens und Gruppierens von Konzepten mitilfe der Anwendung MAXMaps angestoßen (Strauss & Corbin, 2010, S. 47).

Um die theoretische Sensibilität zu erhalten, wurden immer wieder Fragen an das Datenmaterial gerichtet: „Wer? Wann? Was? Wie? Warum?“ (Strauss & Corbin, 2010, S. 58) und spezieller: Welche Rolle messen die Interviewten unterschiedlichen Akteuren bei? Welche Ressourcen werden thematisiert? Welche Strategien werden angewandt? Welche Aspekte werden betont? Welche Begründungen werden gegeben?

Insgesamt wurden 1211 Textstellen zu 945 Konzepten und 453 Kategorien zusammengefasst. Um das Verfahren möglichst transparent zu machen, wurden Konzepte und Kategorien nicht nur benannt, sondern mit einer eindeutigen Kennziffer versehen: die Konzepte jeweils mit der Interviewnummer und der Konzeptnummer (beides als arabische Zahlen), die Kategorien mit der Interviewnummer (arabische Zahl) und der Kategorienummer (römische Zahl). Diese wurden in der Ergebnisdarstellung und -diskussion zusammen mit der Absatznummer zur Zitation herangezogen. Ein Beispiel:

„B: Ja, also ich muss mir mehr und mehr selbst eingestehen, dass man ungewollt dazu neigt, das ist Teaching-to-the-Test, das ich immer wieder auch erwähne, ja, für die Prüfung ist das und das wichtig, oder jetzt mein Grundkurs in der Zwölften, der jetzt eben Ostern ins Abitur geht, dass man dann schon viel einfach auf die Prüfung hinarbeitet und auf die Prüfung hin reduziert.“ (19.XVIII, 19.15, 36)

Diese Textstelle ist also in Absatz 36 im Interview 19 zu finden. Sie ist Bestandteil vom Konzept 15 im Interview 19 „Bewusstes und unbewusstes Teaching-to-the-Test“ und von der Kategorie XVIII im Interview 19 „nun mehr Teaching-to-the-Test“. Die Zuordnungstabellen können in der digitalen Ausgabe dieser Arbeit eingesehen werden.

Zur Bestimmung der Beziehungen der entwickelten Kategorien wurden daraufhin angelehnt an das axiale Kodieren nach Strauss und Corbin (2010, S. 44–93) Phänomenanalysen durchgeführt (vgl. hierzu Abschnitt 4.2.2.3 sowie ergänzend die Abbildungen Anhang im elektronischen Zusatzmaterial). Diese fokussieren sich auf das Entwickeln und In-Beziehung-Setzen von Kategorien durch das Anstellen von Vergleichen und das Stellen von Fragen (Strauss & Corbin, 2010, S. 92). So konnten Strukturen aus zeitlichen und räumlichen Beziehungen, Ursache-Wirkungs-Beziehungen, Mittel-Zweck-Beziehungen und motivationalen Zusammenhängen als Beziehungsnetze dargestellt werden. Diese werden im Ergebniskapitel 4.2.2.3 sowie im Anhang im elektronischen Zusatzmaterial dargestellt.

Die Phänomenanalysen auf Interviewebene wurden als Ausgangspunkt für eine Typenbildung genutzt. Hierfür wurden „Bedingungsebenen“, „Handlungen“ und „Kontingenzen“ (Strauss & Corbin, 2010, S. 133–134) identifiziert. Dabei wurde darauf geachtet, stets auch dem Prozessaspekt Rechnung zu tragen. Es wurden zwei Basisdimensionen identifiziert, die in einer Matrix dargestellt wurden. Die Kombination der Merkmalsausprägungen ergab sechs mögliche Typen, wobei zwei Typen zusammengefasst und letztendlich fünf Typen entwickelt werden konnten (vgl. Tabelle 29). Wiederum wurde dem Prozessaspekt eine große Bedeutung beigemessen. Die weiteren identifizierten Bedingungsebenen wurden zum Vergleich der gebildeten Typen herangezogen. Dabei wurden die zur Charakterisierung der Typen erforderlichen Aussagen immer wieder an den Daten validiert (Strauss & Corbin, 2010, S. 114).

3.3 Methodenkritik

3.3.1 Reflexion des Vorgehens im Rahmen der Studie zur Aufgabenkultur

Die Forschungsfrage erwies sich als ausreichend offen formuliert, um nachgelagerte Forschungsfragen, Thesen und Hypothesen zu entwickeln.

Die Stichprobe war ausreichend groß, um der Frage nach der bundesländerübergreifenden und der bundesländerspezifischen Standardisierung sowie der Charakteristika der Prüfungen auf erhöhtem Anforderungsniveau nachzugehen. Es wäre wünschenswert, den im Rahmen dieser Forschungsarbeit angelegten Datensatz weiter zu pflegen und die Aktualisierung zu verstetigen, um zukünftig auch Entwicklungen über die Zeit analysieren zu können, die im Rahmen dieser Arbeit aufgrund der wenigen Klausuraufgaben pro Jahr und Bundesland nicht realisiert werden konnten. Außerdem wäre es wünschenswert, den Datensatz auf alle Bundesländer auszuweiten. Hier hat sich aber bereits bei anderen, ähnlich gelagerten Studien (vgl. Kühn, 2010) gezeigt, dass dies aufgrund des notwendigen Ressourceneinsatzes für kleinere Forschungsvorhaben wie Dissertationsprojekte nicht zu leisten ist. Es ist auch nicht zu erwarten, dass sich beim Einbeziehen weiterer Bundesländer grundsätzlich andere Tendenzen zeigen würden. Es ist im Gegenteil zu erwarten, dass auch bei den Prüfungsaufgaben anderer Bundesländer ein hoher Grad der Standardisierung auf Bundeslandebene vorliegt. Kritisch hinterfragt werden kann aus der Perspektive der Ressourcenökonomie die Ausweitung der Datenbasis, die auch die Notwenigkeit der Wiederholung der gesamten Datenauswertung mit sich brachte. Andererseits war es so möglich, umfangreiche und aktuelle Analysen durchzuführen. Dies war insbesondere beim Bundesland Baden-Württemberg von Relevanz, da hier das Prüfungsformat im Jahr 2015 deutlich verändert wurde.

Das Erhebungsinstrument erwies sich als praktikabel, sodass zusammen mit der Umsetzung als Erhebungsmasken trotz geringer Ressourcen eine breite und zugleich auch tiefgehende Datenbasis erhoben werden konnte. Es stellt sich die Frage, ob durch das Erheben weiterer, andersartiger Daten zusätzliche Erkenntnisse hätten generiert werden können. So wäre es denkbar gewesen, statistische Daten wie die Anzahl der Prüflinge, die einen Prüfungsvorschlag gewählt haben, oder das erreichte Leistungsniveau der Prüflinge mit einzubeziehen. Grundsätzlich wäre es auch erkenntnisreich gewesen, die drei Erhebungsinstrumente auch bei einer größeren Stichprobe von unterrichtlichen Klausuren anzuwenden (vgl. Kühn, 2010). Letztendlich erwies es sich als zielführender, die unterrichtlichen Klausuren über die Methode des nachträglichen Lauten Denkens einzubeziehen, da nur das Beschreiben und Erklären von Handlungen durch die Lehrer_innen im Fokus stehen konnte.

Bei der Datenauswertung zeigte sich, dass die Vollerhebung auf der Ebene der ausgewählten Bundesländer und der lange Zeitschnitt fundierte Analysen ermöglichten. So gab es grundsätzlich keine Probleme, Kreuztabellen mit ausreichend großen Fallzahlen pro Zelle zu erstellen. Bei einigen Variablen mussten die sehr differenzierten Merkmalsausprägungen zusammengefasst werden, was aber problemlos und ohne großen Informationsverlust umgesetzt werden konnte. Erfreulich ist, dass die zunächst gar nicht geplante Clusteranalyse so anschauliche Ergebnisse liefern konnte.

Insgesamt konnte erstmalig für das Fach Geographie ein Überblick über die Prüfungskultur im Abitur geliefert werden. Dies ist einmal im Rahmen des weiteren Forschungsprozesses von großer Relevanz gewesen, als dass deutlich wurde, auf welch standardisiertes Prüfungsformat die Lehrer_innen die Schüler_innen der Oberstufe vorbereiten und was die typischen Charakteristika sind.

Zum anderen ist auch losgelöst von dieser Zielsetzung ein Forschungsdesiderat gefüllt worden.Footnote 1 Die Studie zur Aufgabenkultur kann damit als Ausgangspunkt für weitere Forschungen in anders ausgerichteten Forschungsprojekten genutzt werden.

3.3.2 Reflexion des Vorgehens im Rahmen der Studie zum Lehrer_innenhandeln

Die Forschungsfragen erwiesen sich insofern als geeignet, als dass sie gut zu den Alltagskonzepten der Praxis passten. So konnten Forschungsfragen und Erhebungsinstrumente gut aufeinander abgestimmt werden. Außerdem bestätigte sich, dass die Forschungsfragen trotz der umfangreichen Vorüberlegungen ausreichend offen formuliert waren und die Interviewten nicht mit einer tendenziösen Erwartungshaltung konfrontiert wurden. Andererseits wäre es rückblickend günstig gewesen, die Frage nach der Komplexität des untersuchten Phänomens, die in der nachträglich entwickelten übergeordneten Forschungsfrage Niederschlag gefunden hat, von vornherein explizit in das Forschungsdesign aufzunehmen.

In das Sample der Interviewstudie wurden zunächst überwiegend Lehrer_innen aufgenommen, bei denen davon ausgegangen wurde, dass das zu untersuchende Beziehungsgefüge in dem Sinne von Relevanz war, als dass es (bis zu einem bestimmten Punkt) bereits als komplexe Handlungssituation wahrgenommen wurde, etwa weil sie eher innovativ unterrichten. Dennoch finden sich letztendlich einige Fälle im Sample, bei denen dies nicht der Fall ist oder bei denen die administrativen Vorgaben als Technologieersatz für das Handeln in kontingenten Situationen herangezogen werden. Hierzu gehört ein Fall, der nach einigem Suchen gefunden werden konnte, bei dem die Handlungsstrategie nach einer ersten Zentralabiturerfahrung völlig verändert wurde, in dem nun entgegengesetzt zum professionellen Verständnis vornehmlich Teaching-to-the-Test-Strategien eingesetzt werden. Dennoch umfasst das Sample nur Fälle, in denen Lehrer_innen eine aus ihrer Sicht adäquate Handlungsstrategie entwickelt haben. Dazu gehört auch ein Fall, bei dem die administrativen Vorgaben nicht beachtet werden (vgl. Abschnitt 2.2.4), der lange gesucht werden musste. Allerdings unterrichtet die interviewte Person an einer freien Waldorfschule. Die Schüler_innen werden jedoch später in einem speziellen Vorbereitungsjahr anhand der administrativen Regularien auf das zentrale, externe Nichtschülerabitur vorbereitet. Obwohl bei der Zusammenstellung großer Wert auf die Erfassung der „Vielfalt der in einem Untersuchungsfeld vorhandenen Konstellationen“ (Przyborski & Wohlrab-Sahr, 2014, S. 127) gelegt wurde, fehlen zwei denkbare Fallkonstellationen: zum einen, dass Lehrer_innen trotz rechtlicher Verpflichtung entgegen den Vorgaben handeln und zum anderen, dass eine völlige Handlungsunfähigkeit vorliegt, die dazu führt, dass Lehrer_innen nicht mehr in der Oberstufe unterrichten (dürfen). Es muss deshalb diskutiert werden, ob tatsächlich das Ziel einer theoretischen „Sättigung“ (Akremi, 2014, S. 277) erreicht wurde.

Auch das Erhebungsinstrument der Interviewstudie kann hinterfragt werden. Die Fragen, die in den Interviews gestellt wurden, hätten in einigen Fällen noch offener formuliert und damit stärker zu Erzählungen anregen können. Andererseits hätte in einigen Gesprächssituationen wiederum die Offenheit im Dienste des Forschungsinteresses stärker eingeschränkt (vgl. Helfferich, 2014, S. 562) und der Fokus stärker auf das Beziehungsgefüge Unterricht – unterrichtliche Klausuren – Zentralabitur gelenkt werden können. Aus der Befürchtung heraus, zu starke Interviewereffekte auszulösen, wurden die Gespräche teilweise zu unstrukturiert geführt. Dabei kann die Involviertheit der/des Forschenden beim qualitativen Forschungsparadigma als „notwendige Bedingung des Forschungsprozesses“ angesehen werden (Lamnek, 2000b, S. 309) und die Effekte hätten durch die Reflexion der „Kontextgebundenheit der Textgenerierung“ (Helfferich, 2014, S. 573) gegebenenfalls aufgegriffen werden können.

Es stellt sich davon ausgehend die Frage, wie sich Kommunikation im Interview möglichst an den Regeln der alltagsweltlichen Kommunikation orientieren kann, obwohl die „Interviewsituation […] in der Regel ein asymmetrisches und komplementäres Rollenverhältnis ‚Interviewende-Interviewte‘ [konstituiert]“ (Helfferich, 2014, S. 560). Insgesamt gelang es bei den Interviews eine neutrale, vertrauliche Gesprächsatmosphäre zu etablieren. Dadurch, dass die Interviews – mit zwei Ausnahmen – an den Schulen der Interviewten stattfanden, konnten diese in einer vertrauten Atmosphäre stattfinden. Gerade zu Beginn des Gesprächs ist die „Unsicherheit am größten und die Rollenaushandlung am wichtigsten“ (Helfferich, 2014, S. 564). Deshalb wurde zur Vereinfachung der Rollenaushandlung und zur Vermeidung von Unsicherheitsreaktionen ein alltagsnaher Einstieg über die Beschreibung der Situation an der Schule gewählt. Der dadurch erreichte „Erzählfluss“ bedingte zusammen mit der „situativen Resonanz“ der Interviewenden eine entspannte und sich zunehmend öffnende Gesprächssituation (Helfferich, 2014, S. 564).

Interviewte und Interviewende wiesen scheinbar keinen gemeinsamen „Erfahrungshintergrund“ (Helfferich, 2014, S. 564) auf, da die Interviewerin selbst keine Lehrerin ist und in den meisten Fällen weniger vertraut mit der spezifischen Situation im Bundesland war. Dies kann förderlich sein, wenn die Interviewten sich zu ausführlicheren Ausführungen angehalten fühlen (Helfferich, 2014, S. 564). Dieser Effekt konnte oft beobachtet werden. Es kann aber auch dazu führen, dass bestimmte Aspekte nicht angesprochen werden, da kein Verständnis erwartet wird (Helfferich, 2014, S. 564). Um dies zu vermeiden, beschrieb die Interviewerin im Gespräch, falls passend, kurz ähnliche Erfahrungen aus der universitären Lehre, um die „Dimension Fremdheit“ (Helfferich, 2014, S. 564) zu reduzieren. Auch am Ende der Gespräche, wenn die Interviewerin ihre eigene Haltung offenbarte, entwickelten sich oftmals besonders offene Gesprächssituationen. In einigen Fällen ergab sich schon im Gespräch vor dem eigentlichen Interview eine so freundliche Atmosphäre, dass als gegenseitige Anrede im Interview trotz der Tatsache, dass man sich völlig unbekannt war, das „Du“ gewählt wurde. Trotzdem kann nicht ausgeschlossen werden, dass Aspekte ausgespart wurden.

Es ist davon auszugehen, dass Effekte der sozialen Erwünschtheit aufgetreten sind (Lamnek, 2000a, S. 152). An einigen Stellen wurde dies offensichtlich und konnte bei der Analyse berücksichtigt werden. Ein Interviewter brachte zum Interview zum Beispiel nicht eine Klausur mit, die kürzlich konzipiert und gestellt worden war, sondern eine eigens für das Interview konzipierte Klausur, die so gestellt werden könnte. Aber auch solche Passagen haben ihren Gehalt, schließlich offenbarte sich hier, dass der Interviewte davon ausging, dass die ideale Klausur möglichst der formalen Struktur der Zentralabituraufgaben entspricht. In einem anderen Fall kontrastierten die Aussagen eines Kollegen, der die Kompetenzorientierung als für den eigenen Unterricht besonders maßgeblich herausstellte, mit der Darstellung einer anderen interviewten Person aus dem Kollegium, die dies vehement infrage stellte. Sicherlich gibt es aber auch Erwünschtheitseffekte, die bei der Auswertung nicht aufgefallen sind.

Das aus der quantitativen Sozialforschung bekannte Phänomen der „Meinungslosigkeit“ (Reuband, 1990) kann aufgrund der Auswahl relevanter Fälle bei qualitativer Vorgehensweise nicht ganze Fälle betreffen. Aber dennoch muss mit ihr gerechnet werden.

„Man mag sich schon einmal Gedanken darüber gemacht, aber noch nicht voll reflektiert haben. Man mag zu Teilaspekten Informationen haben, aber nicht zum angesprochenen Gesamtkomplex. Und man mag viele Dinge, die in der Frage angesprochen sind, zum Teil schon längst wieder aus dem Bewusstsein gedrängt haben. In der Situation des Interviews erinnert man sich ihrer, man aktiviert verlorengegangene Informationen und Anschauungen als Ressourcen der Meinungsbildung und treibt die Artikulation soweit voran, wie sie der jeweiligen Interviewsituation gemäß erforderlich scheint.“ (Reuband, 1990, S. 430)

Es ist möglich, dass Personen einem Thema ambivalent gegenüberstehen oder indifferent (Reuband, 1990, S. 431), wie im folgenden Beispiel:

„I: Und denken Sie, dass die Klausuren die man dann eben noch in der E-Phase hat, dass die (...) auch nötig sind? Oder? #00:23:08-8#

B: Wie ‚nötig‘? Das muss man sowieso ja machen. Ich muss ja eine machen. #00:23:13-8#

I: Genau, Sie müssen eine machen. Aber wenn Sie die Wahl hätten, ob Sie eine schreiben oder nicht und wie die aussieht, würde das dann ähnlich enden, oder? #00:23:21-5#

B: Wenn ich die Wahl hätte? Wie soll denn das sein? […]“ (Interview 14)

Es ist möglich, dass Meinungslosigkeit überdeckt wird, indem etwa fremde Meinungen (zum Beispiel der Mehrheit, der offiziellen Position) wiedergegeben werden (Reuband, 1990, S. 434). Aufgrund der vielfältigen Möglichkeiten der Kommunikation im qualitativen Interview ist es hier einfacher möglich, Meinungslosigkeit zu identifizieren, als in quantitativen Studien, gänzlich ausschließen lässt es sich aber nicht, dass diese unentdeckt bleibt.

Die Datenauswertung der Interviews verlief zirkulär. Insgesamt konnte dadurch eine vertiefte Auseinandersetzung erzielt werden. Durch die späte Einbeziehung der Systemtheorie als Metatheorie ist allerdings ein erheblicher Mehraufwand erzeugt worden und der Forschungsprozess wurde deutlich in die Länge gezogen (Przyborski & Wohlrab-Sahr, 2014, S. 130).

Stellt man abschließend insgesamt die Frage nach der Eignung der gewählten Methoden, soll an dieser Stelle auf die zwei angewendeten „Strategien der Geltungsbegründung“ (Flick, 2014, S. 417) eingegangen werden. Ziel war es, durch Triangulation „der Vielschichtigkeit des Untersuchten durch die Erweiterung der methodischen und theoretischen Perspektiven umfassender gerecht zu werden“ (Flick, 2014, S. 419) und „weniger […], Konvergenzen im Sinne der Bestätigung des bereits Gefundenen zu erhalten“ (Flick, 2012, S. 318). Zum einen beruht die Untersuchung auf einer „Theorie-Triangulation“ (Flick, 2014, S. 418), da sich die Arbeit dem Forschungsgegenstand aus metatheoretischer, theoretischer und empirischer Perspektive (vgl. Gliederung des Kapitels 2) annähert. Zum anderen erfolgte im Rahmen der episodischen Interviews mit nachträglichem lauten Denken eine „Within-Method-Triangulation“ (Flick, 2012, S. 312). So wurde versucht, die Stärken dreier methodischer Zugänge zu verbinden: der Leitfaden Interviews und der Erzählung (Flick, 2012, S. 313) sowie der Rekonstruktion von Handlungen. Somit wurde einer Grenze der Methode des episodischen Interviews, keinen „Zugang zum Handeln in konkreten Situationen“ (Flick, 2016, S. 245) zu ermöglichen, begegnet.