Skip to main content

Proceedings of the National Academy of Sciences of the United States of America

AI-Assisted Teams Outperform AI-Led Teams but Not Human-Only Teams in Assessing Research Reproducibility in Quantitative Social Science

Große Sprachmodelle (LLMs) wie ChatGPT verändern die Art und Weise, wie Wissenschaftlerinnen und Wissenschaftler Forschung betreiben und validieren, und versprechen, als Werkzeuge zur Verbesserung der wissenschaftlichen Reproduzierbarkeit beizutragen. Reproduzierbarkeit und Fehlererkennung sind jedoch nach wie vor kostspielig und arbeitsintensiv. Wir untersuchen experimentell, wie sich die Zusammenarbeit zwischen Forschern und LLM-Assistenten auf die Reproduzierbarkeit quantitativer sozialwissenschaftlicher Ergebnisse bei unterschiedlichen Graden der KI-Autonomie auswirkt. Wir haben 288 Forscher nach dem Zufallsprinzip 103 Teams zugewiesen, die unter drei verschiedenen Bedingungen arbeiteten: ausschließlich mit menschlichen Mitarbeitern, KI-unterstützt (unter Verwendung von ChatGPT als Kollaborationswerkzeug) oder KI-gesteuert (ChatGPT unter minimaler menschlicher Aufsicht). Die Teams reproduzierten veröffentlichte Ergebnisse aus führenden sozialwissenschaftlichen Fachzeitschriften, entdeckten Programmierfehler und schlugen Robustheitsprüfungen vor. Teams, die ausschließlich aus Menschen bestanden, und KI-gestützte Teams erzielten vergleichbare Reproduktionsraten (94 % gegenüber 91 %) und schnitten bei den meisten Ergebnissen ähnlich ab, mit der Ausnahme, dass die rein menschlichen Teams deutlich mehr schwerwiegende Kodierungsfehler identifizierten. Beide Teams schnitten deutlich besser ab als die KI-geführten Teams, die nur eine Reproduktionsrate von 37 % erreichten, in allen Kategorien weniger Fehler erkannten, weniger strenge Robustheitsprüfungen vorschlugen und mehr Zeit benötigten. Dieser autonome Ansatz stellt jedoch wahrscheinlich nur eine Untergrenze der KI-Fähigkeiten dar. Trotz rascher Fortschritte bei den KI-Modellen ist das menschliche Expertenurteil derzeit für eine zuverlässige empirische Überprüfung nach wie vor unverzichtbar. Die Unterstützung durch KI führte zwar bei den meisten Ergebnissen nicht zu einer Verschlechterung, bot jedoch keine messbaren Vorteile und ging mit einer geringeren Erkennung schwerwiegender Fehler einher. Die autonome Reproduktionsrate von 37 % deutet jedoch darauf hin, dass KI in Umgebungen von Nutzen sein könnte, in denen Größen- oder Kostenbeschränkungen eine Überprüfung der Artikel durch Menschen ausschließen, auch wenn universell einsetzbare LLMs für die von Menschen überwachte Überprüfung keine unmittelbaren Vorteile bieten.

Brodeur, A., D. Valenta, A. Marcoci, J. Aparicio, D. Mikola, B. Barbarioli, R. Alexander, L. Deer, T. Stafford, L. Vilhuber, G. Bensch, F. Neubauer und e. al. (2026), AI-Assisted Teams Outperform AI-Led Teams but Not Human-Only Teams in Assessing Research Reproducibility in Quantitative Social Science. Proceedings of the National Academy of Sciences of the United States of America (forthcoming)

https://www.pnas.org/loi/pnas