Comparing Human-Only, AI-Assisted, and AI-Led Teams on Assessing Research Reproducibility in Quantitative Social Science
In dieser Studie wird die Wirksamkeit verschiedener Stufen der Integration von menschlicher und künstlicher Intelligenz (KI) bei der Bewertung der Reproduzierbarkeit quantitativer sozialwissenschaftlicher Forschung untersucht. Wir haben quantitative Ergebnisse aus veröffentlichten Artikeln in den Sozialwissenschaften mit 288 Forschern rechnerisch reproduziert, die nach dem Zufallsprinzip 103 Teams in drei Gruppen zugeteilt wurden – Teams ohne jegliche KI-Unterstützung (“human-only“ Teams), Teams mit KI-Unterstützung und Teams, deren Aufgabe darin bestand, eine KI bei der Durchführung von Reproduzierbarkeitsprüfungen minimal anzuleiten (der „KI-geführte“ Ansatz). Die Ergebnisse zeigen, dass die “human-only“ Teams bei unabhängiger Arbeit die gleichen Erfolgsquoten bei der Reproduzierbarkeit erzielten wie die Teams mit KI-Unterstützung, während beide Gruppen die KI-geführten Ansätze deutlich übertrafen (wobei die “human-only“ Teams 57 Prozentpunkte höhere Erfolgsquoten erzielten als die KI-geführten Teams, p <0,001). Menschliche Teams waren besonders effektiv bei der Erkennung schwerwiegender Probleme in der Analyse: Sie fanden signifikant mehr schwerwiegende Fehler im Vergleich sowohl zu KI- unterstützten Teams (0,7 mehr Fehler pro Team, p = 0,017) als auch zu KI-geführten Teams (1,1 mehr Fehler pro Team, p <0,001). KI-unterstützte Teams zeigten einen Vorteil gegenüber stärker automatisierten Ansätzen und entdeckten 0,4 größere Fehler pro Team als KI-geführte Teams (p = 0,029), wenn auch immer noch deutlich weniger als reine Menschenteams. Schließlich waren sowohl menschliche als auch KI-unterstützte Teams den KI-geführten Ansätzen sowohl beim Vorschlagen (25 Prozentpunkte Unterschied, p = 0,017) als auch bei der Durchführung (33 Prozentpunkte Unterschied, p = 0,005) umfassender Robustheitsprüfungen deutlich überlegen. Diese Ergebnisse unterstreichen sowohl die Stärken als auch die Grenzen der KI-Unterstützung bei der Reproduktion von Forschungsergebnissen und legen nahe, dass trotz beeindruckender Fortschritte bei den KI-Fähigkeiten wichtige Aspekte des Forschungspublikationsprozesses immer noch ein erhebliches menschliches Engagement erfordern.