Schlüsselwörter

1 Methodologische Orientierung zur Sichtbarmachung von Teilhabeprozessen

Eingeschränkte Teilhabechancen von Menschen mit Behinderung beziehen sich nicht nur auf strukturelle und gesellschaftliche Bedingungen, wie z. B. Barrierefreiheit von Gebäuden oder Beteiligung an gesellschaftlichen Entscheidungsprozessen (Rambausek, 2017), sie werden ebenso wirksam auf der Mikroebene der Interaktion (Antaki et al., 2008; Dobslaw & Pfab, 2015). In Interaktionssituationen erfahren sich Menschen als wirksame Mitglieder der Gesellschaft, in denen sie gehört werden und ihren Beitrag leisten können (von Schwanenflügel & Walther, 2012). Interaktionsbeziehungen zwischen Menschen mit und ohne Behinderung zeichnen sich jedoch häufig durch eine asymmetrische Beziehung aus (Götsch et al., 2012; Dobslaw & Pfab, 2015). In organisationalen Zusammenhängen lässt sich dies mit dem formalen Status und den damit festgelegten Befugnissen und Funktionen begründen. Aber auch die entwickelten Habitus und Interaktionsmuster der Beteiligten prägen die Interaktionssituation. Will man die Ebene der Interaktion daraufhin analysieren, inwieweit sich hier Teilhabeeinschränkungen für Menschen mit Behinderung ergeben, erfordert das eine mehrdimensionale Betrachtung, die Teilhabe nicht als etwas Statisches versteht, sondern als Kontinuum (Pfister et al., 2018). Dadurch wird ein mikroanalytischer Blick auf Interaktionssituationen notwendig, in denen Teilhabe entsteht und für die Beteiligten erfahrbar wird.

In diesem Beitrag soll am Beispiel von drei verschiedenen Interaktionssequenzen herausgearbeitet werden, wie sich Teilhabe auf der Interaktionsebene darstellen und auch modellieren lässt, wenn die sprachliche Kommunikation eine untergeordnete Rolle spielt.

Wir folgen dabei der Annahme von Garfinkel (1967), dass soziale Interaktionen immer einer Ordnung folgen, die diese für die Interaktionspartner*innen verstehbar und auch handhabbar machen. Aus ethnomethodologischer Perspektive wird diese soziale Ordnung situativ durch die Beteiligten hergestellt und reproduziert.

Im Kontext von Behinderung, so unsere These, kann die Herstellung sozialer Ordnung eine besondere Herausforderung darstellen. Wird beispielsweise durch kognitive oder kommunikative Einschränkungen Kommunikation beeinträchtigt, werden erwartbare Interaktionsvollzüge irritiert. Asymmetrien in der Gesprächsorganisation können beispielsweise durch zusätzlichen Zeitbedarf bedingt sein, der aufgrund kognitiver oder auch verbalsprachlicher Einschränkungen besteht (Antaki, 2008; Norén et al., 2013; Engelke & Higginbotham, 2013). Die Beteiligten müssen dann zusätzliche Interaktionsarbeit leisten, um kommunikative Barrieren zu überwinden.

Behinderung wird in diesem Verständnis zu einem situativ-relationalen Phänomen, das nicht in den Merkmalen/Eigenschaften/Kompetenzen einer Person entsteht, sondern als Form der gemeinschaftlichen Bearbeitung von Situationskrisen analysiert werden muss.

Für die Analyse sozialer Ordnungen in Gesprächssituationen bietet sich die klassische ethnomethodologische Konversationsanalyse an (vgl. u. a. Sacks, 1992). Die Datenbasis besteht hier jedoch ausschließlich aus verbalen Äußerungen. Deppermann und Streeck (2018) kritisieren daher: „Neither the materiality of the signs, their sounds, visual shapes, haptic qualities, etc. nor the bodily, psychophysical nature of the participants in a communicative episode mattered to the concept of communication and social interaction. “ (Deppermann & Streeck, 2018, S. 1)

Konzepte wie die „multimodale Kommunikation“ (Garfinkel, 1967; Schmitt, 2005) oder „embodiment“ greifen diese Kritik schon länger auf und beziehen für die Analyse von Interaktionen Körperlichkeit und Handlungen im sprachlichen Kontext mit ein (Nothdurft, 2006; Goodwin, 1986, 2000, 2012; Schmitt, 2012; Deppermann & Streeck, 2018): Über das Zusammenspiel unterschiedlicher Modalitäten (sprachliche/auditive, gestische/visuelle) bzw. durch die jeweilige Gewichtung werden Kommunikationsziele auf ganz unterschiedliche Weise erreicht und damit soziale Bedeutung konstituiert (Schmitt, 2005). In diesem Sinn versteht Goodwin Interaktionen als situationsspezifisches Gemeinschaftsprodukt, das sich nicht nur aus verbalen und nonverbalen Beiträgen zusammensetzt, sondern als Interaktionsfeld ein Ganzes bildet. Er umschreibt diesen Prozess als „talk-in-interaction“ (Goodwin, 2015, S. 201); ihn interessiert dabei unter anderem, wie Menschen, die miteinander interagieren, jeweils in diesen Prozess einbezogen sind. Im Austausch mit anderen Beteiligten im kommunikativen Geschehen entstehen Goodwin zufolge „interaktive Felder“ (interactive fields), die eine Struktur bilden, innerhalb derer die Beteiligten unterschiedliche Rollen einnehmen können. In einem gemeinsamen fortwährenden Prozess verdeutlichen sich die Beteiligten ihr jeweiliges Verständnis zu dem gemeinsamen Thema oder Gegenstand der Interaktion, indem sie ihre (Sprach-)Handlungen auf die weitere Entwicklung dieses Themas oder Gegenstandes ausrichten (ebd.).

Vor diesem Hintergrund werden im Folgenden drei explorative Forschungszugänge skizziert. Es geht darum, Zugänge zur Erschließung und Aufbereitung von Videodaten vorzustellen, die den Grundgedanken der Multimodalität und der interaktiven Felder aufgreifen und für Teilhabeforschung fruchtbar machen.

2 Drei explorative Analysezugänge

Die drei Studien basieren auf videografierten Interaktionssituationen von Menschen mit und ohne Behinderung. Sie folgen der gemeinsamen Fragestellung: Welche kommunikativen Strategien nutzen die beteiligten Interaktionspartner*innen? Welche Möglichkeitsräume für Teilhabe entstehen in den Interaktionssituationen und wo werden Möglichkeitsräume begrenzt? Der vorliegende Beitrag konzentriert sich allerdings nicht auf die Darstellung entsprechender Forschungsergebnisse, sondern gibt Einblick in den Forschungsprozess, insbesondere in Hinblick auf die Herausforderung, wie das Datenmaterial so aufbereitet werden kann, dass die Interaktionsordnungen rekonstruiert werden können.

2.1 Studie 1 – Interaktionsfelder in assistierter Kommunikation

Zunächst soll anhand einer Interaktionssequenz aus dem Projekt „Gut leben in NRW“ (2014–2017) gezeigt werden, wie Beteiligungsprozesse in einer inklusiv gestalteten Arbeitsgruppe analysiert werden können.Footnote 1 Die Gruppe führt eine Zukunftswerkstatt durch, bei der es um die Frage geht, welche gesellschaftlichen Barrieren ein ‚gutes Leben‘ erschweren und welche Fantasien die Gruppenmitglieder über ein ‚gutes Leben‘ haben. Die Diskussion wird von zwei Mitarbeiter*innen des Forschungsteams angeleitet (F1, F2). Von den sechs festen AG-Mitgliedern sind drei Fachkräfte (M1, M2, M3), die anderen sind Experten*innen in eigener Sache (T1, T2, T3).

Die Videoaufzeichnung der Sitzung ist nach dem GAT-System (Selting et al., 2009) transkribiert und enthält nicht nur die verbalen Äußerungen, sondern auch visuelle Aspekte des Verhaltens in der Interaktion, um die Herstellung sozialer Bedeutung zu verstehen (Tuma et al., 2013).

Um das Zusammenspiel unterschiedlicher Interaktionsmodi in der Gruppe zu verdeutlichen, wird dieser Datenausschnitt dreimal betrachtet und analysiert: (1) als vollständiges Transkript der verbalen Kommunikation nach Standards der Konversationsanalyse, (2) auf Grundlage nonverbaler Kommunikation und (3) aus einer multimodalen Perspektive.

Auch wenn das Ausblenden von Informationen (z. B. des nonverbalen Anteils) ein Artefakt darstellt, soll die getrennte Analyse verdeutlichen, wie sich Interpretationen durch die Hinzunahme von Informationen verändern und welche Informationen in jeder Modalität stecken.

Die hier vorgestellte Gruppe sammelt in der sogenannten Fantasiephase der Zukunftswerkstatt Ideen für ein ‚gutes Leben‘. Alle Gruppenmitglieder bis auf T1 haben Argumente vorgetragen, die an einer Tafel von einem Mitglied des Forscherteams (F1) festgehalten werden. Neben T1 sitzt ihre Assistentin M1, es entwickelt sich folgende Gesprächssequenz (vgl. Abb. 1).

Abb. 1
figure 1

(© Gudrun Dobslaw, verwendete GAT-Konventionen siehe Appendix)

Transkript der verbalen Kommunikation.

Die Moderator*innen sammeln Ideen der Gruppenmitglieder über ein ‚gutes Leben‘. T1 scheint die Äußerung von F2 nicht verstanden zu haben, was sich aus dem wASS? in Zeile 3 schließen lässt. F2 wiederholt die Äußerung noch einmal.

M1 unterbreitet diesen Vorschlag T1 zur Ratifizierung: is OK oder? Im Anschluss daran tauschen sich M1 und T1 leise aus (beide flüstern).

M2 übernimmt das Gespräch (Z. 7) und greift den Aspekt Bürgergeld auf, indem er es mit einem Haus für alle verbindet, was T1 positiv kommentiert: das wÄr schon cool.

Ab Z. 9 erhält die Kommunikation einen Impuls durch F1: das muss auch nichts (.) äh. Was genau F1 damit meint, bleibt unklar. Aber sowohl M2 als auch T1 scheinen eine Verbindung zu einer zuvor getätigten Äußerung von F1 herzustellen: In der Fantasiephase der Zukunftswerkstatt könne alles gesagt werden, auch wenn es zunächst unrealistisch wirke.

M2 bestätigt die unvollständige Aussage von F1 mit ja (.) is schon klar, während M1 ihre Sitznachbarin T1 ermuntert, etwas zu sagen, was offenbar zuvor in der Flüsterkommunikation angesprochen wurde: dann sach ma.

Die erneute Aufforderung von F1 das kann auch rUhig wird von M1 erneut unterstützt. T1 äußert recht unmittelbar: lUXUSvilla.

M2 versteht offenbar diesen Vorschlag von T1 nicht sofort und fragt nach: wAs wollst dU?

F2 hat jedoch verstanden, was T1 äußert und nimmt den Vorschlag moderierend auf: ne lUxusvilla hab ich da gehört. T1 wiederholt zeitgleich auf die Frage von M2: lUxusvilla, was M2 mit einem langgezogenen jah bekräftigt.

T1 bringt in dieser Sequenz eine Idee ein, scheint sich aber zuvor bei M1 in der Flüstersequenz abgesichert zu haben, die zeitgleich als Parallelkommunikation zu dem eingebrachten Beitrag zum Bürgergeld erfolgt. Erst als M1 sie ermuntert, ihre Idee laut zu sagen: dann sach ma; ja, dAnn kannst du das sAgen, äußert sich T1.

M2 übernimmt hier die Rolle desjenigen, der alle vorgestellten Ideen wohlwollend absegnet, kommentiert oder kritisch nachfragt: nich nur ein Haus für alle sondern auch Bürgergeld für alle; wAs wollst dU? schreim wa auf (.); sollst du kriegen kind; is ÜberhAUpt kein problEm.

M2 unterstützt die Moderation, obwohl es nicht offensichtlich ist, dass Unterstützung benötigt wird: ja (.) is schon klar, denn M1 und T1 haben bereits verstanden, dass sie alle Ideen äußern dürfen.

Dieselbe Szene aus der Perspektive der nonverbalen Kommunikation stellt sich völlig anders dar: T1 und M1 treten in einen regen Austausch, der sich über Flüstern, Kopfbewegungen, Lächeln, Prusten sowie über einen Witz äußert. Das Geschehen scheint demnach zweigeteilt: Beide scheinen ihren Spaß zu haben, während der Rest der Gruppe die Aufmerksamkeit auf die Tafel richtet und von T1 und M1 keine Notiz zu nehmen scheint.

Erst im weiteren Verlauf dieser Sequenz kommt M2 ins Spiel, indem er T1 fragend und abwartend fixiert. Er hebt seine Daumen und signalisiert damit eine körperliche Bezugnahme auf die Äußerung von T1. Ab hier verdeutlichen die nonverbalen Äußerungen von M1 und M2 sehr unterschiedliche Formen der Kontaktgestaltung: Während M2 konzentriert und auffordernd zu ihr blickt, lächelt M1 T1 weiter zugewandt an und nimmt im Anschluss auch Kontakt mit den anderen auf, indem sie lachend den Kopf zur Seite wirft.

Aus der Perspektive von T1 scheinen sich hier die kommunikativen Bezugspunkte zu verschieben: Das Verbaltranskript vermittelt den Eindruck, dass T1 und M2 sich stark aufeinander beziehen. Die nonverbale Version verdeutlicht eine zweite Ebene der Kommunikation mit T1, die viel umfassender erscheint.

Betrachtet man schließlich das Zusammenspiel verbaler und nonverbaler Kommunikation (vgl. Abb. 2) wird deutlich, wie sehr die jeweiligen Interaktionen miteinander verwoben sind und letztlich dazu führen, dass T1 ihren Beitrag zu der Frage des Moderators positionieren kann.

Abb. 2
figure 2

(© Gudrun Dobslaw, verwendete GAT-Konventionen siehe Appendix)

Das Zusammenspiel von verbaler und nonverbaler Kommunikation.

In der Gesamtschau der verbalen und nonverbalen Kommunikation zeigt sich die Komplexität des Geschehens: Während F1 und F2 den Beitrag eines anderen Teilnehmers klären (Bürgergeld), bereiten T1 und M1 in einem Flüsterkontakt den inhaltlichen Beitrag von T1 vor: die Luxusvilla.

Die Idee kommt von T1, aber die emotionale Unterstützung und Platzierung des Wortbeitrags wird von M1 nonverbal vorbereitet. Sie schafft eine Rahmung für die nachfolgende Phase, in der T1 von ihr ermuntert wird, ihre Idee zum diskutierten Thema zu äußern. Den zweimal geäußerten Beitrag „Luxusvilla“ unterstützt sie durch Lächeln und körperliche Hinwendung, sie verdeutlicht so durch ihr Verhalten, dass sie diesen Beitrag positiv bewertet. Gleichzeitig übernimmt sie die in der Interaktion notwendigen nonverbalen Abstimmungsaktivitäten, wie beispielsweise die anderen Gruppenmitglieder auf den anstehenden Gesprächsbeitrag von T1 vorzubereiten, sodass diese den Blickkontakt zu ihr aufnehmen. Mit der interaktiven Aufbereitung und Vorbereitung des Redebeitrags von T1 lässt sich dieser dann auch von ihr platzieren und wird nach einer Verständnisklärung in der Gruppe validiert.

Die Komplexität dieses Geschehens lässt sich in Anlehnung an Goodwin (2015) grafisch als Interaktionsfeld zusammengefasst darstellen (vgl. Abb. 3): In dem grau hinterlegten Feld ist die Interaktion von M1 und T1 abgebildet, die einen zunächst sehr ausgeprägten selbst-reflexiven Charakter hat, während die anderen Gruppenmitglieder sich mit einem anderen Thema auseinandersetzen. Über den Blickkontakt mit und das Nachfragen von M2 erfolgt eine Verknüpfung der beiden Interaktionsstränge.

Abb. 3
figure 3

(© Gudrun Dobslaw)

Das Zusammenspiel der Interaktionsfelder.

Diese Verknüpfung wird durch die Unterstützung von M1 ermöglicht, die für diesen Zweck eine enge Interaktionsbeziehung mit T1 eingeht. Die Qualität dieser Unterstützungsleistung wird erst deutlich, wenn die Videoaufnahme für eine derartige multimodale Analyse vorbereitet und entsprechend ausgewertet wird.

2.2 Studie 2 – Iterative Transkription bei Unterstützter Kommunikation

Die zweite Studie untersucht Möglichkeitsräume für Teilhabe unter der Bedingung unterstützter Kommunikation. Mit unterstützter Kommunikation ist hier gemeint, dass einzelne Interaktionsbeteiligte aufgrund einer Beeinträchtigung einen Sprachcomputer, sogenannten ‚Talker‘, zum Sprechen verwenden. Dazu wurden im Jahr 2018 Interaktionssituationen während zweier Workshop-Wochenenden videografiert, in denen unterstützt sprechende Jugendliche und Erwachsene zusammen Freizeit verbracht oder an Bildungsthemen gearbeitet haben. Insgesamt wurden rund neun Stunden Material aufgezeichnet. Für eine ausführliche Darstellung des Studiendesigns sei auf Niediek (2020) verwiesen. Aufgrund schlechter Aufnahmequalitäten konnte allerdings nur ein sehr kleiner Teil des Materials für die weitere Analyse genutzt werden.

Es stellt sich daher die Frage, wie derartiges Videomaterial erschlossen werden kann, um die sich etablierenden Interaktionsordnungen rekonstruieren zu können.

Die Problematik der Analyse soll anhand einer ‚Ankerszene‘ skizziert werden: Der Kontext der Sequenz weist diese als eine Arbeitsgruppensituation einer Erwachsenenbildungsveranstaltung aus, in der drei unterstützt sprechenden Teilnehmer*innen den Arbeitsauftrag erhalten haben, sich über ihren ‚Wunsch-Talker‘ auszutauschen. Darüber hinaus sind auch noch drei Personen ohne Behinderungserfahrung an der Situation beteiligt, die offenbar eine assistierende Rolle in der Situation einnehmen. Des Weiteren ist die Sequenz durch viele Nebengeräusche und Stimmen gekennzeichnet, weil sich noch weitere Personen mit und ohne Talker im Raum befinden. Die Aufnahme erscheint daher beim ersten und auch wiederholten Anschauen wie ein großes Rauschen, aus dem einzelne Äußerungen oder Gesten die Aufmerksamkeit auf sich ziehen. Die Frage „What the hell is going on here?“ (Geertz, 1983, zit. n. Amann & Hirschauer, 1997, S. 20) erscheint zunächst kaum dechiffrierbar. Trotzdem wurde diese Sequenz für eine detaillierte Analyse ausgewählt, weil die individuellen Bewegungen eine hohe interaktive Dichte vermuten lassen.

Für die Erschließung der Ankerszene wurde ein Verfahren entwickelt, das vorläufig als ‚iterative Transkription‘ bezeichnet wird: Zunächst wurde ein GAT2-Minimaltranskript angefertigt (Selting et al., 2009). Dieses Transkriptionssystem bereitet die Analyse von Gesprächsdaten vor und ermöglicht eine zunehmende Detaillierung von Forschungsdaten im Projektverlauf (siehe auch Abschn. 2.1). Para- und nonverbale Zeichen und Rezeptionssignale werden in GAT2 mit aufgenommen, aber Mimik, Gestik und Körperhaltung werden nicht explizit erfasst, sondern fließen maximal als Kommentare ein. Die Entwickler*innen verweisen auf fehlende allgemeine Konventionen und eine hohe Komplexität der Erfassung weiterer Kommunikationsmodi (Selting et al., 2009). Dem Vorschlag von Higginbotham und Engelke (2013) folgend, wurden daher Ergänzungen der GAT2-Regeln vorgenommen: Mimik, Gestik und Körperhaltungen der Sprecher*innen wurden in einer weiteren Zeile erfasst und die Stelle, an der die Bewegung beginnt, durch das Zirkumflex-Zeichen gekennzeichnet. Mit einem Sprachcomputer gesprochene Äußerungen werden durch Kursivschrift gekennzeichnet.

Das ergänzte GAT2-Transkript ermöglicht einen guten Nachvollzug der gesprochenen Sprache und die Bezugnahmen der Sprecher*innen auf die weiteren Beteiligten. Dennoch bleibt in dieser Transkriptionsform ein Problem bestehen: Da sich konversationsanalytische Verfahren an der gesprochenen Sprache orientieren, fehlen hier alle Äußerungen, die nicht durch gesprochene Sprache begleitet werden, sondern allein gestisch, mimisch oder durch Bewegung hervorgebracht werden.

So fehlen in dem Transkript der Ankerszene Informationen über die Beteiligung der sechsten Person, die sich zwar nicht sprachlich äußert, aber deshalb nicht unwichtig für den Interaktionsverlauf sein muss. Durch Körperhaltung und Mimik könnte sie durchaus Sprecherpositionen der anderen bestätigen, verstärken oder auch untergraben (vgl. Schmidt, 2005). Für die Frage der Teilhabechancen fehlt diesem Transkript damit ein ganz wesentliches Element: Es kann nicht zeigen, welche gestisch/mimischen oder körperlichen Versuche der ‚turn‘-Übernahme (Sprecher*innenwechsel) insbesondere der unterstützt sprechenden Personen hier vorgenommen werden.

Daher wurde im zweiten Schritt ein Partiturtranskript mit der Transkriptionssoftware ‚EXMARaLDA‘ (Schneider, 2002) erstellt. Es erfolgt eine Transkription von gesprochener Sprache (Zeilen [v]), der Annotation von Blickbewegung und Mimik (Zeilen [Blick]) sowie Bewegungen des Rumpfes und der Extremitäten (Zeilen [Bewegung]) entlang der Audio- und Videospur in separaten Zeilen.

Durch das Partiturtranskript werden neu auftauchende Interaktionsstränge und wechselseitige Bezugnahmen der Interaktionspartner*innen nachvollziehbar. Dabei erfolgt die Transkription nicht nur einmalig, sondern Beschreibungen und zeitliche Zuordnungen werden fortwährend überprüft und gegebenenfalls korrigiert. So können sprachliche und körperliche Aktivitäten aller Interaktionsbeteiligten in ihrer zeitlichen Ordnung erfasst und mehrere Interaktionsstränge in der Gruppe identifiziert werden. Die Komplexität des Partiturtranskriptes erschwert es aber, diese verschiedenen Stränge in ihrem Verlauf zu rekonstruieren und die sich etablierenden Interaktionsordnungen zu verstehen.

Daher wurde schließlich eine dritte Form der Datenaufbereitung genutzt, die sich stärker an ethnographischen Verlaufsprotokollen orientiert. Sie wird nachfolgend als ‚gerichtete Beschreibung‘ bezeichnet, weil sie einerseits die verbalen Äußerungen abbildet, aber auch Beschreibungen aller para- und nonverbalen Äußerungen enthält, die nicht nur zeitlich, sondern auch sinnhaft aufeinander folgen.

Diese Form der Verlaufsbeschreibung stellt den Versuch dar, einen Interaktionsverlauf zu rekonstruieren und sich auf die dafür relevanten Daten zu konzentrieren. Damit enthält diese Form der Aufbereitung im Vergleich zu den beiden vorausgegangenen Transkriptionsformen die größten interpretativen Anteile. Dies ist aus der Perspektive ethnographischer Forschung legitim, da hier nicht möglichst genaue und lückenlose Erfassung aller Details im Zentrum steht, sondern die „Justierungsleistung“ (Breidenstein et al., 2020, S. 46) der Beobachter*in als gerichtete Aufmerksamkeit, die überhaupt erst ein Verstehen des Wie und Warum von Selektionen in der Interaktion ermöglichen. Anders als in klassischen ethnografischen Studien teilnehmender Beobachtung sind diese gerichteten Beschreibungen aber erst durch die vertiefte Auseinandersetzung mit den vorhergehenden Transkriptionsformen möglich und werden durch diese validiert.

Die gerichteten Beschreibungen ermöglichen es, einzelne Interaktionsfelder auf der Basis der Partiturtranskripts zu rekonstruieren und für eine weitergehende Interpretation nutzbar zu machen. Durch die gerichteten Beschreibungen lassen sich die Beteiligungen der Akteur*innen rekonstruieren und die vorfindbaren Interaktionsordnungen herausarbeiten.

Die Ankerszene erweist sich dabei zusammenfassend als hochkomplexe Interaktionspraxis (vgl. Niediek, 2020), die von den Beteiligten kompetent und durch individuell sehr unterschiedliche Beiträge etabliert wird. Die Analyse der gerichteten Beschreibung zeigt allerdings auch, wie den unterstützt sprechenden Beteiligten seltener eine Turnübernahme gelingt und assistierende Handlungen tatsächlich dazu führen, dass die unterstützt sprechenden Personen die Hoheit über ihre eigenen Äußerungen und den thematischen Verlauf an die anderen abgeben.

2.3 Studie 3 – Interaktionsanalyse im Kontext musikalischer Improvisation

Die im Folgenden erläuterte Studie setzt sich mit der Frage auseinander, wie Teilhabe im Kontext des Musizierens interaktiv durch die Akteur*innen hergestellt wird. Das Datenmaterial stammt aus einem Projekt, das Möglichkeiten von Teilhabe an musikalischer Bildung durch den Einsatz von spezifischen Musik-Apps bzw. digitalen Musikinstrumenten auslotet. Es handelt sich um Situationen des gemeinsamen, improvisatorischen Musizierens mit Apps. Die analysierten Szenen entstanden in Experimentierphasen mit unterschiedlichen digitalen Musiziermedien (vgl. Gerland & Niediek, 2019; Niediek et al., 2019).

Für den vorliegenden Beitrag wurde das Material mittels Videointeraktionsanalyse (Tuma et al., 2013) ausgewertet, um die Interaktionsprozesse und das wechselseitige Aufeinanderbezogensein der Akteur*innen zu rekonstruieren. Analysegegenstand in der Videointeraktionsanalyse ist das Video selbst – nicht das Transkript, das im Vergleich zu konversationsanalytischen Verfahren eher als Arbeitsdokument und zur Reflexion des Forscher*innenhabitus dient (ebd.).

Musik und Musizieren ist für die Teilhabeforschung relevant, da hier zahlreiche Optionen für das Erleben von Gemeinschaftsgefühl und Zusammengehörigkeit nachgewiesen werden können. Studien belegen, dass das gemeinsame Musizieren auf emotionaler und physiologischer Ebene entsprechende Wirkungen zeigen kann (Kirschner & Tomasello, 2010; Cirelli et al., 2014; Hellberg, 2019). Musizieren ist gleichermaßen sowohl niederschwellig zugänglich als auch voraussetzungsreich. Eines der entscheidenden Kriterien in Bezug auf die Voraussetzungsstruktur im Kontext Musik ist die Art des aktiven Musizierens: Handelt es sich um reproduktives Musizieren im Sinne eines Nachspielens bereits komponierter Musik, sind die Voraussetzungen an die Handelnden anders und insbesondere normativer als im Kontext einer freien Improvisation. Im Folgenden wird anhand eines Beispiels aus dem analysierten Datenkorpus rekonstruiert, wie in Situationen des gemeinsamen Improvisierens Teilhabe interaktiv hergestellt wird. Eine Besonderheit des analysierten Materials stellt die musikbezogene Rahmung der Sequenzen dar – es handelt sich um Ausschnitte aus dem Datenmaterial, in denen die Beteiligten musikalisch improvisierend und mimisch/gestisch interagieren, verbale Kommunikation findet nicht statt. Für die Analyse der Daten bedeutet dies eine zusätzliche Herausforderung, da das Sprechen oder Schreiben über Musik bzw. Musizieren bereits als solches immer einen Code-Switch darstellt (Gebauer, 2011) und spezifisch für die Problematik in der qualitativen Videoforschung ist (Hellberg, 2018).

Der Verlauf der musikalischen Gestaltung ist die Grundlage für die Auswahl der Sequenz, d. h. Beginn und Ende der Sequenz werden in erster Linie anhand der Struktur der musikalischen Verläufe identifiziert bzw. anhand der Anzeigen der beiden Musizierenden, dass eine musikalische Sequenz beendet ist bzw. eine neue beginnt. Zu dem hier vorgestellten Beispiel wurden sowohl einzeln als auch in verschiedenen Datensitzungen Feinanalysen angefertigt, entsprechende Interpretationsvorschläge wurden diskutiert und Rekonstruktionen von Interaktionsmustern analysiert und verglichen. Da in den ausgewählten Sequenzen keine verbale Kommunikation stattfindet, entfällt das Erstellen eines Verbaltranskripts. Stattdessen wird hier tabellarisch festgehalten, in welchen Modi die Akteur*innen im Zeitverlauf agieren und ob bzw. wie ein Aufeinanderbezogensein angezeigt wird. Daraufhin erfolgt auf der Basis der tabellarischen Dokumentation der Aktionsmodi (verbal/mimisch-gestisch/musikalisch) ein erster Analyseschritt in Form eines multimodalen Transkripts, das sowohl den Modus der musikalischen Improvisation als auch den Modus der mimisch-gestischen Interaktion berücksichtigt. In einem nächsten Schritt wird rekonstruiert, wie die Akteur*innen jeweils aufeinander bezugnehmen. Schließlich wird die Organisation der Interaktion grafisch rekonstruiert, um Muster- bzw. Fallvergleiche zu ermöglichen.

Tab. 1 zeigt exemplarisch einen Ausschnitt aus der tabellarischen Transkription der hier vorgestellten Sequenz. Die nachfolgende multimodale Beschreibung analysiert die multimodale Qualität der Sequenz. Mit diesem Zwischenschritt zwischen Transkription und Interpretation soll der Spezifizität der Videodaten im Hinblick auf Simultaneität und Sequenzialität Rechnung getragen werden.

Tab. 1 Tabellarische Transkription (Ausschnitt) (© Juliane Gerland)

Zu Beginn der ausgewählten Sequenz (#01:05:54) sind M und C in den improvisatorischen Prozess vertieft und blicken konzentriert auf ihre digitalen Musikinstrumente. Die Improvisation setzt sich klanglich zusammen aus einem Beat (M) und Synthesizer-Klängen (C). Als Elemente des Beats lassen sich zu Beginn Hi-Hat, Cow Bell und Toms identifizieren. Bei den Synthesizer-Klängen sind Hall- und Verzerrungs-Effekte hörbar. C verdichtet zunächst die Synthesizer-Effekte, die Dynamik steigert sich ebenso wie die Frequenz (#01:05:59,30). Cs Synthesizerklang bleibt auf dem Spitzenton stehen und setzt sich mit einem Echoeffekt und einem Decrescendo fort, sodass der Eindruck eines Fading-Out entsteht. M. blickt auf (#01:05:59,54). C hebt kurz den Kopf (#01:06:01,01). M nickt (#01:06:02,20). M modifiziert seinen Beat: Der Rhythmus der Toms wird ausgedünnt, die Cow Bell stoppt. C senkt den Kopf wieder (#01:06:02,78). M sieht weiterhin in Cs Richtung. C lässt sein Echo ausklingen, während M mit der Hi-Hat vier Schläge als eine Art Schlussfigur ergänzt (#01:06:03,50–01:06:05,14). Nach dem letzten Schlag ist zu erkennen, dass M Schultern und Arme sinken lässt (#01:06:05,96), die Körperspannung reduziert sich deutlich. Nach dem vierten Schlag hebt C erneut den Kopf (#01:06:06,71). C schaut wieder auf sein Pad (#01:06:07,46). Dann hebt er nochmals kurz den Kopf (#01:06:09,46), dann schaut er wieder auf das Pad (#01:06:11,71). M beugt sich in Cs Richtung (#01:06:12,46).

2.3.1 Rekonstruktion des Interaktionsverlaufs

M und C organisieren ihre Interaktion sowohl in der musikalischen Improvisation als auch durch Mimik und Gestik. So ergeben sich Ebenen der Interaktion in und über Musik; beide Ebenen erscheinen dabei ineinander verschränkt (Rostvall & West, 2005). So lässt sich das erste Kopfheben Ms als validierende Reaktion auf Cs Gestaltung des Spitzentons verstehen. Im nächsten Zug wiederum übernimmt C den Modus von M und hebt ebenfalls seinen Kopf. Durch die Position der Kamera lässt sich nicht eindeutig bestimmen, ob C M ansieht oder ob er lediglich den Kopf hebt. Da durch Kontextwissen bekannt ist, dass diese Art von Bewegungen für C erschwert sind, ist u. E. die Interpretation zulässig, dass es sich um Blickkontakt und nicht um ungezielte Kopfbewegungen handelt. Das Beibehalten der entsprechenden Blickrichtung durch M stützt diese These. Der angenommene Blickkontakt wird von M durch das Kopfnicken im Modus Mimik/Gestik bestätigt. Außerdem nimmt M auch im Modus der Improvisation Bezug auf Cs Zielton indem er seinen Beat verändert. Cs anschließendes Kopfsenken (sowie das Ausbleiben eines neuen musikalischen Impulses) scheint das Ende der Sequenz anzubahnen. M validiert diese Anbahnung durch die rhythmische Schlussfigur. C validiert – nun wieder im Modus Mimik/Gestik – und hebt erneut den Kopf. Der Modus der Improvisation ist beendet, die Interaktion wird jedoch im Modus Mimik/Gestik fortgesetzt: C schaut wieder auf sein Pad, blickt kurz auf und schaut wieder auf sein Pad, während M ihn kontinuierlich ansieht. Die wiederholten Blickadressierungen wirken wie eine Zeigegeste auf das Pad.

2.3.2 Grafische Rekonstruktion der Interaktionsordnungen

Die grafischen Darstellungen der analysierten Interaktionsordnungen veranschaulichen die Rekonstruktion der multimodalen Interaktionen.

Abb. 4 isoliert das Aufeinanderbezugnehmen etwa im Sinne einer Turnorganisation und stellt die Aktionsmodi dar, die Ausgangsbasis für die Bezugnahmen sind.

Abb. 4
figure 4

(© Juliane Gerland)

Rekonstruktion der Aufeinanderbezugnahme.

Abb. 5 verdeutlicht die Verschränkungen zwischen den Interaktionsebenen in Musik und über Musik.

Abb. 5
figure 5

(© Juliane Gerland)

Zwei-Ebenen-Darstellung: Interaktion in und über Musik.

Auf dieser abstrahierten Ebene ist es möglich, Sequenzen zu vergleichen und Muster zu rekonstruieren. Auf inhaltlicher Eben lässt sich so Wissen über Struktur und Qualität musikalischer Interaktionen generieren. Auf methodischer Ebene können das komplexe und multimodale Geschehen in musikalischer Interaktion und die darin enthaltenen Teilhabeprozesse strukturiert sichtbar gemacht werden. So entsteht ein Mehrwert für Forschungskontexte, die sich mit den Potenzialen von Musik und musikalischer Bildung für einen Zuwachs an Teilhabemöglichkeiten auseinandersetzen.

Bislang gibt es kaum empirische Methoden, die die Frage nach Teilhabe im Kontext Musik und musikalischer Bildung auf der hier vorgestellten Mikro-Ebene in den Blick nehmen. Konkret betrifft dies Forschung im Feld teilhabeorientierter schulischer und außerschulischer Musikpädagogik, aber auch sozial- und elementarpädagogische Forschungsfelder, die danach fragen, inwieweit Musik und Musizieren im Sinne einer pädagogische Alternative Teilhabe in den entsprechenden Praxisfeldern ermöglichen oder ausbauen kann.

3 Diskussion

Multimodale Feinanalysen machen Teilhabeprozesse auf der Mikroebene sichtbar – gerade dann, wenn sich die Interaktionsstrukturen der direkten Beobachtung zu entziehen scheinen. Die Herausforderung für die Teilhabeforschung liegt hier in einer differenzierten und adäquaten Rekonstruktion der Interaktionsordnungen. Dabei stellt die Verwendung von Videodaten eine Möglichkeit dar, die interaktive Herstellung von Teilhabe in ihrer Prozesshaftigkeit vergleichsweise gut zu dokumentieren. Für den eigentlichen Analyseprozess ist dabei aber weniger entscheidend, die Daten unter dem Aspekt quantitativer Vollständigkeit zu analysieren. Vielmehr geht es darum, durch eine passgenaue Datenaufbereitung und vorbereitende Reduktion des Materials für eine Analyse im Hinblick auf eine Rekonstruktion teilhabebezogener Interaktionsprozesse zugänglich zu machen.

Die drei Fallskizzen stellen unterschiedliche Möglichkeiten dar, Interaktionsordnungen aus Videodatenmaterial zu rekonstruieren und Interaktionsverläufe für die weitere Analyse im Hinblick auf Teilhabechancen sichtbar zu machen. Dabei konnte herausgearbeitet werden, dass die Verschiedenheit der betrachteten Settings unterschiedliche Analysezugänge erfordert. Während in der ersten Studie durch den Einbezug weiterer Kommunikationsmodi in die Gesprächsanalyse die assistierende Funktion eines zweiten Interaktionsstrangs herausgearbeitet werden konnte, stellt die zweite Studie einen Versuch dar, das Primat des gesprochenen Wortes aufzulösen. Dadurch wird es möglich, auch solches Material zu erschließen, das durch die Multimodalität und Komplexität der Situation kein intuitives Verstehen ermöglicht. Die dritte Studie zeigt, wie durch Videointeraktionsanalysen eine musikalische Praxis als eine Interaktion erschlossen werden kann, in der verbalsprachliche Kommunikation keine Relevanz für Herstellungsprozesse von Teilhabe haben muss. Die drei Fallbeispiele zeigen einerseits, welche Relevanz Kommunikation für die Gestaltung von Teilhabeprozessen hat. Andererseits wird die Gefahr einer methodologischen Verengung durch eine ausschließliche Fokussierung auf das gesprochene Wort deutlich.

Teilhabe zeigt sich in den drei Fallskizzen als sehr differenzierte, komplexe und relationale Praxis. Dabei lässt sich die Beteiligung der Personen mit und ohne Behinderungserfahrung analysieren, ohne den Akteur*innen vor der Analyse bestimmte Fähigkeiten oder Defizite zuschreiben zu müssen. Dennoch bietet sich die Möglichkeit, die ambivalente Struktur von assistierenden Interaktionen ebenso herauszuarbeiten, wie auch solche Momente sichtbar zu machen, in denen Unterstützungsbedarfe irrelevant werden. Die hier skizzierten Zugänge zum Datenmaterial zeigen sich somit anschlussfähig an eine Kritik an ableistischen Regimen und eröffnen die Möglichkeit, danach zu fragen, unter welchen Bedingungen nicht unabhängige Individualität, sondern konstitutive Angewiesenheit als Grundlage von Selbstbestimmung und Teilhabe erscheinen können (Meißner, 2015).

Ein mikroanalytisches Vorgehen, wie es hier in drei Variationen skizziert werden konnte, leistet damit schließlich auch einen Beitrag dazu, asymmetrische Kommunikationsstrukturen zu analysieren und damit die Beschränkung von Möglichkeitsräumen für Teilhabe sichtbar zu machen. So zeigen sich in allen drei Studien einerseits Freiheitsgrade und Gestaltungsoptionen, die die Beteiligten kreativ zu nutzen wissen. Andererseits wird deutlich, wie insbesondere die verbalsprachliche Kommunikation Asymmetrien evoziert, die als reduzierte Teilhabechancen an der Gesamtsituation wirksam werden. Hier liegt ein Ansatzpunkt für die Gestaltung einer Handlungspraxis jenseits der Verbalsprache, um Machtasymmetrien zu reduzieren und Möglichkeitsräume für Teilhabe zu schaffen, die allen Beteiligten neue Erfahrungen ermöglichen.

„Es ginge darum, die elementare Abhängigkeit des Menschen anzuerkennen, seine undurchschaubare Beteiligung an der eigenen Unterwerfung einzugestehen, seine unleugbare Endlichkeit zu akzeptieren, seine unhintergehbare Angewiesenheit auf andere nicht länger zu verdrängen – und gleichwohl den Impuls jener beharrlichen und immer wieder neu ansetzenden ‚Arbeit an den Grenzen‘ (Foucault) wachzuhalten und diese ganz gezielt zu unterstützen“ (Rieger-Ladich, 2002, S. 450).