Die Replizierbarkeit ist eine Anforderung innerhalb des quantitativen wissenschaftlichen Ansatzes und bedeutet, dass eine Untersuchung unter denselben Bedingungen unter Anwendung derselben Methode wiederholt werden kann und dann auch dieselben Ergebnisse gefunden werden. Das gilt auch für die wissenschaftliche Psychologie. Die Replikationskrise bezeichnet demnach das Phänomen, dass in der Psychologie wie auch in anderen empirischen Wissenschaften ein Risiko darin besteht, dass sich Ergebnisse von Studien bei einer Überprüfung etwa in Form einer Wiederholung der Studie nicht immer bestätigen lassen. Das liegt teilweise an den Bedingungen des Wissenschaftsbetriebs, der auf Publikationen ausgerichtet ist, andererseits an der Struktur empirischer Untersuchungen, die in der Regel auf Stichproben basieren und bei denen niemals alle Bedingungen, unter denen ein Ergebnis erhalten wurde, kontrolliert werden können. Hinzu kommt der Druck von Fachzeitschriften, die vor allem an positiven Resultaten interessiert sind, sodass die meisten veröffentlichten Studien statistisch signifikante Ergebnisse berichten, die sich jedoch in Nachfolgeuntersuchungen nicht bestätigen lassen.
Die Diskussion über nicht replizierbare Studien in der Psychologie ist übrigens nicht neu und seit Jahren häuft sich das empirische Material dazu, was letztlich auch eine Paradoxie darstellt. Faktenbasiert besteht seit langem Konsens darüber, dass zu viele kleine Studien publiziert werden und auch ein ausreichender p-Wert allein noch lange kein vertrauenswürdiges Ergebnis anzeigt, andererseits stellt sich die Frage, ob in der Psychologie, dort wo es z.B. nicht mehr um wahrnehmungspsychologische Fragen oder andere biologienahe Dinge geht, vielleicht auch sehr gute Studien aus grundsätzlicheren Gründen in der Replikation scheitern müssen. Für den Versuch der Replikation einer Untersuchung wird unterstellt, dass dem untersuchten Phänomen ein gesetzesförmiger Zusammenhang zugrunde liegt, der beim zweiten Mal nicht anders als beim ersten Mal sein muss, was bei „weichen Daten“ wie etwa sozialpsychologischen Phänomenen eigentlich nicht überraschend sein sollte. Man hat es daher in solchen Fällen nicht mit mangelnder Replizierbarkeit aufgrund unzureichenden Studiendesigns zu tun, sondern eher mit einem falschen Menschenbild, das die Fähigkeit bewussten Handelns auch dort ausblendet, wo es für eine gegenstandsadäquate Forschung zwingend in Rechnung zu stellen wäre.
Um dem publication bias zu entgehen, arbeitet man in der Psychologie übrigens seit einigen Jahren mit der Präregistrierung, wobei dieses Konzept verlangt, dass die Idee einer Studie und die für die Ergebnisse grundlegende Methodik wie das Sammeln und Auswerten von Daten, für eine bestimmte wissenschaftliche Fragestellung nicht erst am Ende einer Studie, sondern bereits vor dem Sammeln der Daten online registriert und teilweise auch schon in einem Peer-Review-Verfahren akzeptiert wird.
Hinzu kommt, dass die Begriffe signifikant und nichtsignifikant Teil der Alltagssprache geworden sind, denn wenn etwas signifikant ist, so ist das allgemeine Verständnis, dass ein bestimmter Effekt vermutlich wahr ist. Grundsätzlich stellt die Prüfung der statistischen Signifikanz aber nur jenes Mittel dar, um die Replizierbarkeit von Befunden sicherzustellen, und nur Befunde, die mit hinreichender Sicherheit nicht mit der Annahme eines Zufallsbefundes (Nullhypothese) kompatibel sind, werden als bestätigt akzeptiert. Dies setzt aber voraus, dass die Hypothesen vor Kenntnis der zur Prüfung verwendeten Studiendaten formuliert wurden, und die Signifikanz bzw. Nicht-Signifikanz der Befunde unabhängig von der Tatsache, ob die Alternativhypothese als bestätigt gelten kann, berichtet werden. Doch ist es bekanntlich nicht schwierig, in einem beliebigen Datensatz signifikante Effekte zu entdecken, sodass es eigentlich die größere Herausforderung darstellt, keine signifikanten Ergebnisse zu finden.
Die wissenschaftliche Statistik geht etwa davon aus, dass Messungen grundsätzlich unendlich oft wiederholbar sind und dass die Nullhypothese in Form der Abwesenheit von Effekten oder Zusammenhängen wahr ist. Der p-Wert gibt dann an, wie oft unter diesen Annahmen rein zufällig mit einem Ergebnis zu rechnen ist, das mindestens so extrem wie das beobachtete ist. Wenn diese Wahrscheinlichkeit kleiner ist als dieser bestimmte Wert, gilt das Ergebnis als statistisch signifikant, und die Nullhypothese wird verworfen. Der p-Wert wird dabei oft als Irrtumswahrscheinlichkeit interpretiert, was aber falsch ist, denn der p-Wert ist lediglich eine Kennzahl, die angibt, wie gut die vorhandenen Daten zur Nullhypothese passen. Mit welcher Wahrscheinlichkeit diese Hypothese falsch oder eine andere richtig ist, sagt der p-Wert natürlich nicht.
Grundsätzliches: Da Wissenschaft das Neue prämiert und nicht das Bestätigen von Altem, kommt es in vielen Wissenschaften, auch der Psychologie, zu einer Replikationskrise. Eine der Ursachen ist die Verwendung des heute vorherrschenden Standardansatzes zur Beurteilung wissenschaftlicher Hypothesen, die Signifikanzprüfung. Diese bringt viel zu viele positiv falsche Ergebnisse hervor, wobei es meist an methodischer Strenge mangelt. Außerdem suggeriert sie signifikante und publikationswürdige Zusammenhänge, wo es sich meist nur um interessante Auffälligkeiten handelt, die sich von bisherigen Beobachtungen nur marginal unterscheiden. Strengere statistische Verfahren könnten hier Abhilfe schaffen, wobei es generell aber auch ein viel größeres Interesse der Scientific Community an Replikationsstudien bräuchte. Natürlich ist die Replikationskrise auch eine Wachstumskrise, denn schließlich ist jede wissenschaftliche Veröffentlichung das Ergebnis eines Projektes, also eines entsprechenden Forschungsantrages, wobei GutachterInnen eine deutlich höhere Ablehnungsquoten durchsetzen müssten, damit das Problem der Replikation an Relevanz verliert.
Mede et al. (2020) haben jüngst versucht, repräsentative Belege für Befürchtungen oder Hoffnungen in Bezug auf die Replikationskrise zu finden, indem sie eine Sekundäranalyse der deutschen Wissenschaftsbarometer-Umfrage durchführten. Dabei zeigte sich, dass die meisten Menschen sich der Replikationskrise überhaupt nicht bewusst sind, und interpretieren mehrheitlich die Replikationsbemühungen als Zeichen für die wissenschaftliche Qualitätskontrolle und die selbstkorrigierende Natur der Wissenschaft: 65 Prozent halten dies für ein Zeichen der Qualitätssicherung in der Forschung, 80 Prozent sind außerdem der Meinung, dass Irrtümer und Korrekturen zur wissenschaftlichen Arbeit dazugehörten. Im übrigen ist Befragten ohne Universitätsabschluss oder mit wenigen Kontakten zu Wissenschaftler und Wissenschaftlerinnen und Wissenschaftlern überhaupt nicht bekannt, dass wissenschaftliche Studien bisweilen nicht mit demselben Ergebnis wiederholt werden können.
Literatur
Mede, N. G., Schäfer, M. S., Ziegler, R., & Weißkopf, M. (2020). The “replication crisis” in the public eye: Germans’ awareness and perceptions of the (ir)reproducibility of scientific research. Public Understanding of Science, doi:10.1177/0963662520954370.
Stangl, W. (2015). Stichwort: ‚Replizierbarkeit‘. Online Lexikon für Psychologie und Pädagogik.
WWW: https://lexikon.stangl.eu/15774/replizierbarkeit/ (2015-09-14)
Stangl, W. (2015). Präregistrierung gegen den publication bias. Werner Stangls Psychologie News.
WWW: https://psychologie-news.stangl.eu/3142/praeregistrierung-gegen-den-publication-bias (2015-09-14).
Ulrich, R., Erdfelder, E., Deutsch, R., Strauß, B., Brüggemann, A., Hannover, B., Tuschen-Caffier, B., Kirschbaum, C., Blickle, G. & Rief, W. (2016). Inflation von falsch-positiven Befunden in der psychologischen Forschung. Mögliche Ursachen und Gegenmaßnahmen. Psychologische Rundschau, 67, 163-174.
https://lexikon.stangl.eu/25437/publication-bias/ttp://scienceblogs.de/gesundheits-check/2018/12/01/replikationskrise-oder-grundlagenkrise/ (19-02-12)