RWI in den Medien

Wissenschaft oder Fiktion?

Vielen ökonomischen Forschungsergebnissen fehlt die Replizierbarkeit. Das ist ein Problem. Doch es gibt Grund zu vorsichtigem Optimismus.

Frankfurter Allgemeine Zeitung vom 01.02.2021

Das neue Buch „Science Fictions“ des schottischen Psychologen Stuart Ritchie vom King’s College London zeichnet ein düsteres Bild der Wissenschaft. Es ist eine Polemik, doch auch Ökonomen sollten es ernst nehmen. Denn es liefert nicht nur viel Evidenz für systematische Irrtümer in der Wissenschaft, sondern es beschreibt auch treffend die dahinter liegenden Anreizprobleme im System, die auch in den Wirtschaftswissenschaften wirken.

Ritchie stellt gleich zu Beginn klar, dass er antritt, „um die Wissenschaft zu lobpreisen, nicht um sie zu beerdigen“. Das ist wichtig in Zeiten, da konsolidierte wissenschaftliche Erkenntnisse die Politik zu Recht leiten und zugleich von Leuten mit einer gefährlichen politischen Agenda angezweifelt werden. In Ritchies Kritik geht es eigentlich um eben dieses Wort „konsolidiert“. Denn ein empirisches Ergebnis gilt nur dann als konsolidiert und nicht zufällig ausgelöst, wenn es replizierbar ist. Es darf also nicht nur einmalig zu beobachten sein, sondern muss in mehreren Studien und unter unterschiedlichen Rahmenbedingungen nachgewiesen werden können. Werden politische Entscheidungen auf nicht replizierbaren Forschungsergebnissen basiert, laufen diese in die Irre. Das kostet Steuergelder oder, noch schlimmer, Menschenleben. Ritchie setzt bei der Beobachtung an, dass die Replizierbarkeit einflussreicher wissenschaftlicher Ergebnisse erschreckend gering ist. Unter Fachleuten ist das bekannt. Kritiker werfen ihm vor, er spiele mit Blick auf Klimaskeptiker mit dem Feuer. Das greift zu kurz, denn der anthropogene Klimawandel ist eben genau das, was laut Ritchie große andere Teile der empirischen Wissenschaft nicht sind: konsolidiert. Wie groß die in „Science Fictions“ geschilderten Probleme disziplinübergreifend wirklich sind, ist offen. Doch gerade in den Wirtschaftswissenschaften zeichnet sich eine Replikationskrise deutlich ab.

Das Buch ist eine wortgewandte, teilweise ins Sarkastische abdriftende, doch stets analytische Beschreibung des Wissenschaftsprozesses. Die Vergabe von Forschungsmitteln und wissenschaftlichen Posten, der Publikationsprozess mitsamt „Peer Review“, aber auch die Wissenschaftskommunikation werden schonungslos beschrieben als das, was sie sind: ein von Menschen gemachtes und deshalb fehleranfälliges System. Die Wissenschaft ist ein soziales Konstrukt – und so spielen die Menschen und ihre Eitelkeiten, ihr Überlebens- und Aufstiegswille, ihre Hybris und ihre Beziehungen zueinander eine wichtige Rolle. Dies mitzudenken ist angesichts eines wachsenden gesellschaftlichen Einflusses der Wissenschaft wichtiger denn je.

Die Wirtschaftswissenschaften sind in den letzten Jahrzehnten immer empirischer, also datenbasierter geworden. Empirische Ergebnisse werden medial oft als Fakten interpretiert und auch von Wissenschaftlern selbst als solche präsentiert. Tatsächlich entspringen sie aber dem oben geschilderten sozialen Konstrukt, das sie viel fehleranfälliger macht als meist dargestellt. Diese Fehler passieren systematisch. Weil Menschen, so auch Forschende, Spektakuläres gegenüber dem Unspektakulären bevorzugen. Untersuche ich beispielsweise die Auswirkungen von Luftverschmutzung auf Atemwegserkrankungen, so ist es interessanter, einen Effekt zu finden, als ihn nicht zu finden. Über das sogenannte „p-hacking“ und den „Publication Bias“ führt diese Suche nach dem Spektakulären zu systematischen Verzerrungen. Publication Bias und p-hacking führen, kurz gesagt, dazu, dass die statistischen Methoden, auf die die quantitative Forschung so stolz ist, ad absurdum geführt werden. Um das zu verstehen, müssen wir die empirische Arbeit und den Publikationsprozess etwas genauer betrachten.

Die Datenverfügbarkeit ist über die letzten Jahrzehnte enorm gewachsen. Nicht nur durch Big Data bei Google und Amazon, sondern auch in sozioökonomischen Datensätzen von nie dagewesenem Ausmaß. Das ist deshalb wichtig, weil statistische Methoden einen Zusammenhang, den man in solchen Datensätzen findet, nur mit einer gewissen Wahrscheinlichkeit sichern. Das heißt, es gibt immer eine Restwahrscheinlichkeit, dass man ein bestimmtes Ergebnis fälschlicherweise für statistisch gesichert erachtet. Ein solches Ergebnis wäre nicht replizierbar und damit wertlos. Diese Restwahrscheinlichkeit wird per Konvention meist bei 5 Prozent angesetzt. Wenn also nun nicht nur ich meine Luftverschmutzungs-Hypothese in einem Datensatz teste, sondern es parallel noch 99 weitere Forscher in 99 anderen Datensätzen ausprobieren, werden fünf davon einen signifikanten Zusammenhang finden – auch wenn es ihn in Wahrheit nicht gibt. Würden

nun alle 100 Versuche publiziert, wäre es unproblematisch. Andere Wissenschaftler könnten dann richtigerweise erkennen, dass die fünf erfolgreichen Studien dem Zufall geschuldet sind. Allerdings werden nicht alle Ergebnisse publiziert. Peer Reviewer und Herausgeber der Fachzeitschriften befinden die fünf signifikanten Studien für interessanter und werden tendenziell eher diese publizieren und die nichtsignifikanten Studien ablehnen. Die so entstehende veröffentlichte Literatur zeigt dann ein falsches Bild der Wirklichkeit.

Verwandt damit ist das p-hacking. Es bezeichnet, was alle empirischen Forscher wissen: Unspektakuläre Ergebnisse können spektakulärer gemacht werden. Konkret geschieht dies durch subtile oder grobe Veränderungen der Datenanalyse, um das statistische Signifikanzniveau, ausgedrückt im p-Wert, zu verbessern. Es geht dabei nicht unbedingt um die klassische selbstgefälschte Statistik. Vielmehr umfasst jede empirische Untersuchung Dutzende, wenn nicht Hunderte Mikroentscheidungen. Diese beginnen bei sehr fundamentalen Entscheidungen, beispielsweise darüber, ob man den Effekt von Luftverschmutzung auf Atemwegserkrankungen untersucht oder den von Luftverschmutzung auf kardiovaskuläre Erkrankungen. Sehe ich einen Zusammenhang bei letzterem, aber nicht bei ersterem, verfolge ich diese kardiovaskuläre Hypothese weiter, die Atemwegserkrankungen nicht. Gibt es dort auch keinen Zusammenhang, versuche ich es mit Luftverschmutzung und Kopfschmerzen oder weiteren Krankheitsbildern. Irgendwann werde ich wegen der 5-Prozent-Irrtumswahrscheinlichkeit einen signifikanten Zusammenhang finden. Ein solches Vorgehen ist legitim, wenn alle Versuche dokumentiert und publiziert werden. Werden sie aber meist nicht, so dass wieder ein falsches Bild der Wirklichkeit entsteht. Doch die Mikroentscheidungen reichen weiter, hinein in auch für den Forscher selbst kaum spürbare Entscheidungen darüber, wie man beispielsweise Luftverschmutzung überhaupt misst oder wie man den verwendeten Rohdatensatz bereinigt. Es gibt dabei nicht immer die eine richtige Entscheidung, so dass sie Spielraum bieten, die Ergebnisse zu beeinflussen. Der Druck, dies in Richtung interessanterer Ergebnisse zu tun, ist hoch.

Denn zugleich hängen von Publikationen in Fachzeitschriften ganze Karrieren ab. Gerade in frühen Karrierephasen gilt: Publish or perish. Wer gut publiziert, wird etwas. Wer das nicht tut, verschwindet. Die Anreize sind also klar. In den Wirtschaftswissenschaften ist dieser Selektionsprozess besonders harsch, indem die wissenschaftliche Leistung anhand eines Journal-Rankings bewertet wird, das bereits zwischen den sogenannten Top 5 Journals und den dann folgenden Top Field Journals, vor allem aber

danach steil abfällt, so dass ein großer Teil der Zeitschriften karrieremäßig faktisch belanglos ist. Zugleich ist es naiv zu erwarten, das vielzitierte Peer Review könnte p-hacking und die besagten Mikroentscheidungen nachverfolgen und so die Qualität sichern. Durch den Publication Bias und das Faible der Gutachter für spektakuläre Ergebnisse ist das Peer Review sogar Teil des Problems.

Dies alles ist keineswegs neu. Der renommierte Stanford-Statistiker und Epidemiologe John Ioannidis veröffentlichte schon 2005 ein vielzitiertes Papier, das unter dem Titel „Why most research results are wrong“ auf Plos One erschienen ist und das Ritchies Punkte in aller Kürze zusammenfasst. Ioannidis war außerdem an unterschiedlichen Studien beteiligt, die diese Fehler im Wissenschaftssystem empirisch nachweisen – auch in den Wirtschaftswissenschaften. Hier wird in den letzten Jahren die Kritik ebenfalls aus den eigenen Reihen immer lauter, darunter Nobelpreisträger wie Angus Deaton, James Heckman und George Akerlof, oder auch in dem vielbeachteten Blogpost „Economics is a disgrace“ von Claudia Sahm. Wohl noch wichtiger: Zahlreiche aktuelle ökonomische Studien weisen auf einen beträchtlichen Publication Bias und auf p-hacking hin und ebenso auf systematische Fehler in einflussreichen Publikationen und die weitverbreitete Verwendung fragwürdiger Forschungspraktiken. Eine Replikationskultur gibt es in der Ökonomie nicht. Ritchie formuliert einige Lösungsvorschläge, die im Wesentlichen auf mehr Forschungstransparenz setzen und so einen kulturellen Wandel auslösen könnten. Auch in den Wirtschaftswissenschaften werden solche Instrumente im Ansatz diskutiert und in Teilbereichen angewendet. Es gibt also Grund zu vorsichtigem Optimismus. Daraus könnte sich eine Kultur entwickeln, in der nicht die Publikation an sich und die Zeitschrift, in der sie erscheint, Erfolgsindikatoren sind, sondern der Inhalt und – vor allem – seine Replizierbarkeit.

Dieser Selbstreinigungsprozess ist in den Wirtschaftswissenschaften aber noch ein weiter Weg. In der Zwischenzeit legt Ritchies Buch nahe, dass Politik und Öffentlichkeit einzelne wissenschaftliche Ergebnisse nicht als unumstößliche Wahrheiten ansehen sollten. Insbesondere die Wirtschaftswissenschaften müssen in der Öffentlichkeit nicht ständige Klarheit und Ideologiefreiheit suggerieren. Denn die Auswertung der die Welt abbildenden Daten ist komplex und fehleranfällig, und sie wird von Menschen betrieben, die eigene Standpunkte und Interessen haben. Das anzuerkennen sollte, wie in anderen Disziplinen üblich, generell Teil wissenschaftlicher Expertise sein, und es stärkt, so argumentiert auch Ritchie, letztlich die Resilienz gegenüber den perfiden Kräften der fundamentalen Wissenschaftsskepsis.

Hoch