09.04.2024 - Metis

Die drei Musketiere wissenschaftlicher Forschung: Die Reliabilität in der Praxis

von Niklas Weber

Reliabilität, Validität, Intersubjektivität – drei Begriffe, die in Lehrbüchern und -veranstaltungen zu empirischer Forschung häufig und immer wieder vorkommen. „Zu häufig“, mag der ein oder andere Student denken. Frei nach dem Motto: „Hinterher, in der Praxis, achtet da doch niemand so genau drauf, da werden auch mal ein paar Augen zugedrückt“.
Tatsächlich aber sind die wissenschaftlichen Gütekriterien für uns in der Praxis von großer Wichtigkeit. Denn sie zu beachten und nach ihnen zu streben, macht unsere Arbeit nicht nur langfristig einfacher, sondern führt auch zu qualitativ hochwertigen und präzisen Analysen.

Doch der Reihe nach. Worum geht es überhaupt?
Bei den Begriffen Reliabilität, Validität und Intersubjektivität handelt es sich um die Gütekriterien empirischer Forschung.
Kurz gesagt: Je stärker die Ausprägung dieser drei Merkmale in einem Messinstrument oder einem Erhebungsverfahren ausfällt, desto qualitativ hochwertiger kann eben dieses eingeschätzt werden.
Dabei versteht man unter der Reliabilität, wie zuverlässig die Forschung ist. Sie gilt dann als reliabel, wenn bei einer wiederholten Messung unter gleichen Bedingungen dieselben Ergebnisse erzielt werden können.
Validität beschreibt die Gültigkeit einer Messung, also ob sie auch wirklich das misst, was gemessen werden soll.
Unter der Intersubjektivität versteht man die Unabhängigkeit der Forschung von der forschenden Person. Die Intersubjektivität ist dann gegeben, wenn die Ergebnisse der forschenden Person mindestens nachvollziehbar sind. Darüber hinaus soll angestrebt werden, dass unterschiedliche Forschende sowohl bei der Durchführung als auch bei der Auswertung unter den gleichen Bedingungen zu den gleichen Ergebnissen kommen (vgl. Baur, Blasius 2019; Przyborski, Wohlrab-Sahr 2014, S.21-28).

Allein anhand dieser kurzen Erläuterungen lässt sich bereits erahnen, dass hinter diesen Kriterien noch einiges mehr steckt, was es zu entdecken gäbe. Daher also eins nach dem anderen: An dieser Stelle widmen wir uns zunächst erstmal nur einem Kriterium – dem der Reliabilität – und zeigen, welche große Rolle dieses in unserer täglichen Arbeit spielt.

Medien und Medienresonanz messbar machen

Im Rahmen von Medienresonanzanalysen analysieren wir die Berichterstattung ausgewählter Medien über ein spezifisches Thema und / oder über einen Kunden. Hierzu braucht es zunächst ein Messinstrument, mit dem wir Medien messbar machen können. Es muss uns erlauben, zu erfassen, wo, wann, wie, über was und warum berichtet wird.
Das Gute daran ist: Wir können uns dafür an dem Klassiker unter den quantitativen Messinstrumenten, dem Fragebogen, orientieren. Für eine Medienresonanzanalyse können wir ein Erhebungsinstrument entwickeln, das einem Fragebogen in vielen Bereichen ähnelt, das sogenannte Codebuch. Denn auch wenn unsere Forschungsgegenstände – Artikel und Beiträge aus Online- und Printmedien, Hörfunk und TV – nicht selbstständig auf Fragen antworten können, liefern sie uns doch alle Antworten, die wir benötigen, um tiefgreifende Schlüsse aus ihnen ziehen zu können.

Informationen wie etwa das Erscheinungsdatum, das Medium, in dem der Beitrag erschienen ist, der Titel des Beitrags, sowie dessen Länge, können sehr einfach erkannt und mit einem entsprechenden Eingabemaske erfasst werden.
Da sich weder die Informationen, die aus dem Beitrag hervorgehen, noch das Codebuch im Rahmen einer Medienanalyse ändern, können wir auch noch Monate später einen Beitrag erneut erfassen und werden garantiert die gleichen Antworten auf die sehr „harten“ Fakten wie das Erscheinungsdatum, den Titel, oder die Länge bekommen.
Soweit also alles gut mit der Reliabilität.
Doch wie verhält sich das Ganze, wenn wir uns stattdessen mit den eher „weicheren“ Analysekriterien beschäftigen?
Mal angenommen, wir wollen im Rahmen der Analyse auch das Thema und die Bewertung eines Medienbeitrags erfassen. Auch diese Variablen lassen sich durch unser Codebuch erfassen. Spielen wir das Ganze mal mit der Analyse des Themas eines Beitrags durch.

Themen sind fluide: neuen Themen kommen hinzu, alte spielen plötzlich keine Rolle mehr. Aus einem großen Thema werden plötzlich mehrere kleine. Und: Was tun, wenn ein Medienbeitrag mehrere Themen behandelt?
Plötzlich ist die Festlegung auf ein bestimmtes Thema dann doch nicht mehr so einfach.
Gleiches gilt für die Einschätzung der Tonalität. Positive Nachrichten oder wütende Leserbriefe lassen sich recht einfach identifizieren, aber kaum ist auch nur ein Hauch von Ironie wahrzunehmen und schon gleichen die Grenzen zwischen Positivität, Negativität und Ambivalenz eher einem Venn-Diagramm. Und was ist mit kritischen Themen, über die neutral berichtet wird? Oder Beiträgen, die sowohl Lob als auch Kritik enthalten?
Der springende Punkt ist: Bei der Beobachtung und Analyse von Medien wird es immer Grenzfälle geben, die in der Analyse zunächst interpretiert werden müssen, bevor sie als intersubjektiv nachvollziehbare Fakten in eine Datenbank aufgenommen werden können. Genau bei diesen Grenzfällen schallen dann auch die Reliabilitäts-Alarmglocken: Wie kann etwas so Subjektives wie Interpretation objektiv erfolgen?

Die Bibel für Codierer

Wie können wir also die Reliabilität unserer Beobachtung und Analyse garantieren, wenn sich eine komplett objektive und sachliche Interpretation von „weicheren“ Variablen als schwierig herausstellt? Wie können wir sicherstellen, dass Analyst:in A zum selben Ergebnis kommt wie Analyst:in B. Und Analyst:in C auch an sonnigen Tagen dieselben Codierentscheidungen trifft wie an den regnerischen Tagen des Lebens 😊.
Zunächst gilt es, alle Codierer:innen gut auf das Codieren vorzubereiten. Das geschieht in Codier:innen-Schulungen: Hier wird nicht nur das Projekt vorgestellt, sondern auch die Codierung trainiert. Mithilfe von Beispielen von Grenzfällen aus vergangenen Zeiten lassen sich bereits viele aufkommende Fragen beantworten. Denn wurde in einem vorherigen Grenzfall eine Entscheidung bezüglich der Thematik oder Tonalität getroffen, wollen wir im Sinne der Reliabilität auch in zukünftigen Grenzfällen die gleiche Entscheidung treffen – vorausgesetzt der neue Grenzfall ähnelt dem ursprünglichen im besonderen Maße. Eine solche Schulung erfolgt nicht nur einmalig zum Auftakt einer Analyse, sondern auch laufend während der Analysephase, um sicherzustellen, dass Codierentscheidungen im gesamten Team zutreffend gefällt werden können und sich keine Fehler einschleichen.
Gleichzeitig müssen wir auch immer ein Auge auf unser Codebuch werfen. Auf der einen Seite muss es ein ums andere Mal aktualisiert und erweitert werden, um neu aufkommende Medien und Themen präzise erfassen zu können. Auf der anderen Seite führen solche Veränderungen zu geringerer Reliabilität, da sich die Forschungsbedingungen dadurch ändern.
Daher muss der Zeitpunkt für Veränderungen am Codebuch bewusst und strategisch klug gewählt werden, um so die Auswirkungen des Reliabilitätsverlusts möglichst gering zu halten. Ändert man im Laufe des Jahres fortwährend das Codebuch, wird man spätestens bei der Erstellung eines Jahresberichts feststellen, wie wenig die Daten zu Beginn des Jahres mit denen gegen Ende des Jahres vergleichbar sind.

Auf der sicheren Seite ist man dann, wenn alle Informationen rund um die Codierung, von den Basics bis hin zu den Entscheidungen bezüglich möglicher Grenzfälle, niedergeschrieben und verewigt werden. Auch das geschieht im Codebuch: Es enthält alle Variablen und Antwortmöglichkeiten der Eingabemaske, erklärt sie und deckt mithilfe von Beispielen Probleme anschaulich auf und löst sie. „Welche Begriffe sind Indikatoren für welche Themen?“, „Ab wann bewerten wir etwas als positiv, ab wann als negativ?“, „Was tun, wenn sich die Länge des Beitrags doch nicht so genau feststellen lässt?“. All das sind Fragen, die wir im Zweifelsfall beantworten können müssen und bei denen uns unser Codebuch unterstützt. Dabei ist ein solches Codebuch nie vollendet, wird regelmäßig geprüft und überarbeitet und auf ewig erweitert. So wie sich die Medien verändern, müssen auch wir uns in ihrer Beobachtung und Analyse verändern. Damit wir dabei so präzise und reliabel wie möglich sein können, benötigt es genauso präzise und detailreiche Instrumente und Hilfsmittel.
Dass die Aufrechterhaltung eines stets aktualisierten Codebuchs mit großem Aufwand verbunden ist, erklärt sich von allein.

Die Zeit (und Nerven) die hierdurch aber langfristig gespart werden können sind es aber wert, ganz zu schweigen von der Qualität der Analyse, die durch die verlässliche Vergleichbarkeit der Daten erreicht werden kann. Also frei nach dem Motto: „Wer billig kauft, kauft zweimal“: „Wer schlecht misst, misst (mindestens) zweimal und liegt am Ende immer noch daneben.“

P.S. (Teil-)automatisierte Auswertungen, die z.T. KI-gestützt Medien analysieren, können in einigen Bereichen bereits wertvolle Dienste leisten. In anderen Bereichen haben sie noch eklatante Schwachstellen. Eine ausführliche Betrachtung der Entwicklungen – mit ihren Chancen und Risiken – demnächst an dieser Stelle.

Quellen:
Baur, N., Blasius, J. (2019: Hrsg.): Handbuch Methoden der empirischen Sozialforschung. Springer, Wiesbaden

Przyborski, A., Wohlrab-Sahr, M. (2014): Qualitative Sozialforschung. Ein Arbeitsbuch. Oldenbourg, München

Bildquellen:
Lizenzfrei von Pexels.com

zurück zur Beitragsübersicht