Digitales und Technologie

Statements

25. März 2026

KI-generierte Studie auf Workshop angenommen

Forschungsteam stellt KI vor, deren weitgehend autonom durchgeführte Forschungsarbeit auf einem Workshop einer großen KI-Konferenz angenommen wurde
die Hoffnung: forscht KI selbstständig – von der Ideenfindung über Experimente zur Auswertung – könnten Ergebnisse entstehen, zu denen Menschen nicht kommen
Expertinnen und Experten sind wenig beeindruckt, dass KI-generierte Studie angenommen wurde und sehen Mängel in der Arbeit; insgesamt bringe KI die Forschung aber in vielen Bereichen voran, allerdings könnte sie den Peer-Review-Prozess überlasten

Anlass

Eine künstliche Intelligenz (KI) hat eine Studie zu maschinellem Lernen durchgeführt, die den wissenschaftlichen Qualitätsansprüchen des Fachgebiets zu genügen scheint: Die Forschungsarbeit wurde 2025 für einen Workshop der International Conference on Learning Representations (ICLR) akzeptiert [I]. Die ICLR ist eine bekannte Konferenz für Forschung zu KI-Themen [II] und die für den Workshop Verantwortlichen hatten dem Team erlaubt, sich mit einer KI-generierten Studie zu bewerben. Nun hat das internationale Entwicklungsteam um das japanische Unternehmen Sakana AI die forschende KI in einer Publikation vorgestellt, die in der Fachzeitschrift „Nature“ erschienen ist (siehe Primärquelle).

Das vorgestellte KI-System „AI Scientist“ – auf Deutsch: KI-Wissenschaftlerin – soll den gesamten wissenschaftlichen Prozess selbstständig durchführen können. Das umfasst die Ideenfindung, den Entwurf und die Durchführung von Experimenten, die Auswertung der Daten, die Interpretation der Ergebnisse und das Schreiben einer Studie sowie deren Bewertung in einem Modell-internen Peer-Review-Prozess. Es sei aber nur Forschung zu Experimenten möglich, die auf Computern liefen, schreiben die Forschenden. Denn die KI kann nicht mit der physischen Welt interagieren.

AI Scientist basiert auf herkömmlichen Sprachmodellen bekannter Anbietender und nutzt agentische Fähigkeiten – etwa um mögliche Experimente gegeneinander abzuwägen. In der ersten Entwicklungsphase folgte die KI noch Schritt für Schritt einer von den Forschenden vorgegebenen Mustervorlage von der Forschungsidee bis zur ausformulierten Studie. Darauf aufbauend entwickelte das Team dann eine freiere KI, die ohne konkrete Vorlage auskam. Dieses zweite Modell beauftragten die Forschenden damit, wissenschaftliche Arbeiten für den „I Can’t Believe It’s Not Better“ (ICBINB) Workshop der ICLR zu verfassen (siehe Supplementary Material, Appendix A). Für jeden Schritt des Forschungsprozesses – von der Ideenfindung bis zum Peer-Review – lieferte AI Scientist verschiedene Ansätze, die es intern evaluierte. Erreichte ein Ansatz bestimmte hinreichende Kriterien, stieg er in den nächsten Schritt des Forschungsprozesses auf und wurde weiterverfolgt.

Für den Konferenzbeitrag wählten die Forschenden allerdings händisch in jedem Schritt die vielversprechendsten Ansätze aus. Ohne diese Auswahl, schreibt das Team, hätte die KI neben den vielversprechenden noch weitere Studien produziert und somit mehr Kosten verursacht. Die Forschenden reichten drei von AI Scientist geschriebene Studien in Absprache mit den Veranstaltenden auf dem ICBINB-Workshop ein. Dort durchliefen die Beiträge den normalen verblindeten Evaluationsprozess. Einer der drei erfüllte die Qualitätsansprüche des Workshops, die anderen beiden nicht [III]. Die angenommene Studie erhielt eine mittlere Reviewbewertung von 6,33. Ein Wert von sechs bedeutet, dass die Arbeit knapp über der Akzeptanzschwelle lag. Sieben steht für einen qualitativ guten Beitrag, der angenommen werden sollte [I]. Die Forschenden merken allerdings an, dass Workshops in der Regel höhere Akzeptanzraten als die Hauptkonferenz haben und geringere Anforderungen an die eingereichten Arbeiten stellen. Vorgestellt wurde die akzeptierte Studie auf dem ICBINB-Workshop nicht. Das Forschungsteam hatte bereits im Voraus festgelegt, die Beiträge wieder zurückzuziehen, um keinen Präzedenzfall für vollständig KI-generierte Studien zu schaffen. Zunächst müssten Richtlinien entwickelt werden, wie mit solchen Beiträgen umzugehen sei, schreiben die Forschenden.

Das SMC hat Expertinnen und Experten gefragt, wie sie die von der KI verfasste Studie sowie das Vorgehen der Forschenden bewerten. Außerdem skizzieren sie, wie KI in der Forschung genutzt wird und welche Chancen und Risiken sich daraus ergeben.

Statements

Prof. Dr. Iryna Gurevych

Professorin für Ubiquitous Knowledge Processing, Fachbereich Informatik, Technische Universität Darmstadt

Bedeutung der Workshop-Akzeptanz und der Inhalte der KI-generierten Studie

„Es ist nicht das erste Mal, dass eine KI-generierte Studie von menschlichen Gutachtenden angenommen wird. Im Mai 2025 wurde eine KI-generierte Studie sogar von einer führenden Konferenz im Bereich der Automatischen Sprachverarbeitung angenommen [1]. Diese hat geringere Annahmequoten als der Workshop aus der aktuellen Publikation. Insofern ist das an sich nichts Neues.“

„Die in der aktuellen Arbeit angesprochene KI-generierte Studie leidet unter prinzipiellen Einschränkungen. Zum Beispiel überlappen einige Test- und Trainingsdaten. Das geht klar aus dem internen Review hervor, welches man im Supplement findet. Es scheint so, als hätten die menschlichen Gutachtenden die methodischen Lücken größtenteils übersehen. Die Studie haben sie wohl im Wesentlichen wegen der ansprechenden Thematik zur Annahme empfohlen. Das stellt die Qualität des menschlichen Begutachtungsprozesses des Workshops in Frage.“

Potenzial großer Sprachmodelle für die Forschung

„Aktuelle künstliche Intelligenz (KI) ist im Wesentlichen eine sehr intelligente Such- sowie Frage-Antwort-Maschine. Die KI ist darauf optimiert, plausible Texte oder Software-Code zu generieren. Plausibel ist nicht gleich korrekt. Die Fähigkeiten der KI, die erzeugten Artefakte zu verifizieren, sind noch sehr beschränkt. Das ist allerdings der wesentliche Punkt, um die Qualität einer Forschungsarbeit zu beurteilen. Es braucht sehr viel Spezialwissen und eine tiefgehende Auseinandersetzung sowie die Bewertung der Zusammenhänge.“

„Hier sind erfahrene, gut ausgebildete Forschende der KI deutlich überlegen. Daher meine klare These, dass die KI und der Mensch eng kooperieren und dabei ihre jeweiligen Stärken in die gemeinsame Arbeit einbringen sollen.“

Chancen und Risiken von KI in der Forschung

„Die größte Chance mit Blick auf vollautomatisierte Forschung ist aus meiner Sicht, einem Forschenden vielfältige Routinetätigkeiten abzunehmen. Dies ist analog zu Verbesserungen, die wir durch die Erfindung von Suchmaschinen vor circa 20 Jahren gesehen haben: Die Suchmaschinen haben den Zugang zum globalen Wissen demokratisiert.“

„Analog dazu könnten die kleineren Forschungsteams, die über wenig Ressourcen verfügen, mit Hilfe der KI-Agenten ihre Arbeiten voranbringen.“

„Das größte Risiko ist dabei ein übermäßiges Vertrauen in die KI-basierten Resultate. Ganz entscheidend ist als Gegenmaßnahme die menschliche Fähigkeit zum kritischen Denken.“

Richtlinien für KI-generierte Forschung

„Standards gibt es in diesem Bereich noch kaum. Wir beobachten einen Anstieg an Initiativen wie das ClawRxiv oder die Open Conference of AI Agents for Science 2025. Letztere ist die erste offene Konferenz, auf der KI sowohl als Hauptautor/in als auch als Gutachtende/r von Forschungsarbeiten fungierte. Bei ClawRxiv veröffentlichen, diskutieren und bewerten KI-Agenten Forschungsarbeiten. Menschen können zuschauen und sich beteiligen.“

„Wir werden sehen, wie sich die Normen in den kommenden Jahren herausbilden. Wichtig ist dabei, die guten von den schlechten Praktiken im Einsatz der KI voneinander zu unterscheiden. Die ersten Forschungsgruppen führen bereits KI-Agenten als Standardelement der Ausstattung eines Mitarbeiterarbeitsplatzes ein.“

Bedeutung von Peer-Review

„Der eigentliche Flaschenhals bei der Forschung ist allerdings die Bewertung der Resultate. Das menschliche Peer-Review ist kein sonderlich zuverlässiges Verfahren. In Zeiten, in denen man Inhalte schneller denn je produzieren kann, ist die tiefgehende Verifikation und Bewertung der wissenschaftlichen Resultate unter Zeitdruck essenziell. Hier schneiden bisher weder Menschen noch KI gut ab. Es wird in den kommenden Jahren daher darum gehen, fortgeschrittene KI-Werkzeuge genau für diesen Einsatzzweck zu entwickeln, um mit der schieren Menge an KI-generierten Inhalte zurechtzukommen.“

Prof. Dr. Florian Boge

Juniorprofessor für Wissenschaftsphilosophie mit dem Schwerpunkt Künstliche Intelligenz, Technische Universität Dortmund

Auf die Frage, ob vollautomatisierte Forschung die wichtigste Art des KI-Einsatzes in der Wissenschaft ist: „Ich glaube nicht, dass es ‚der‘ Bereich ist, in dem künstliche Intelligenz (KI) einen Unterschied macht. Sie macht inzwischen in fast allen Bereichen Unterschiede. In vielen Bereichen kann KI erfolgreich eingesetzt werden, man versteht aber die Gründe für ihren Erfolg nicht ganz. Entsprechende KI-Modelle scheinen Zusammenhänge in der Welt zu identifizieren und in ihren inneren, ‚versteckten‘ Schichten zu speichern, die für uns intransparent und schwer zugänglich sind.“

„Kann man diese Zusammenhänge im Nachgang anhand der KI-Erfolge identifizieren, so bedeutet dies meist einen wissenschaftlichen Fortschritt. Zumindest gegenwärtig halte ich solche Verwendungen, in die dann auch menschliche Wissenschaftler:innen eingebunden sind, noch für wesentlich bedeutender.“

Chancen und Risiken von KI in der Forschung

„Die größte Chance besteht vielleicht darin, dass KI auf neue Ideen kommt, auf die menschlichen Forschenden so nicht gekommen wären. Die Risiken sehe ich einerseits darin, dass damit ein wichtiger Teil des Forschens verloren gehen könnte: nämlich das eigene Verstehen und Erkennen von Zusammenhängen. Anderseits könnte bei voller Automatisierung aber auch unbemerkt ‚bullshit science‘ herauskommen. Etwa wenn die KI sich auf Zusammenhänge fixiert, die tatsächlich uninteressant oder akzidentiell sind.“

„Ich bin mir sicher, dass die KI zum Fortschritt der Wissenschaft beitragen wird – das tut sie schließlich bereits. Allerdings sollten wir ihr bei aller Leistungsfähigkeit nie blind vertrauen, da sie schlichtweg eigene Arten von Fehlerquellen mitbringt.“

Bedeutung von KI mit physischen Komponenten

„Roboter und ‚embodied AI‘ (KI, die physisch mit der Welt interagieren kann; Anm. d. Red.) könnten in der empirischen Wissenschaft nötig werden, da hier auch Laboroperationen ausgeführt werden müssen. Das birgt die Chance höherer Präzision aber gleichzeitig auch die Gefahr von neuartigen experimentellen Artefakten.“

Richtlinien für KI-generierte Forschung

„Die Standards variieren hier erheblich von Feld zu Feld und von Zeitschrift zu Zeitschrift. Es ist sicher äußerst wünschenswert, dass wir hier auf Dauer Verbindlichkeit und übergreifende Standards schaffen.“

Prof. Dr. Jakob Macke

Professor for Machine Learning in Science, Eberhard Karls Universität Tübingen

Bedeutung der aktuellen Studie

„Aus meiner Sicht zeigt das Paper vor allem, welche Fortschritte das Feld gemacht hat. Und es zeigt, wie weit die Automatisierung des wissenschaftlichen Prozesses im Bereich des maschinellen Lernens bereits fortgeschritten ist.“

„Die ursprüngliche ‚Preprint'-Version der Arbeit erschien im August 2024. Bei der aktuellen Geschwindigkeit des Feldes ist das eine gefühlte Ewigkeit. Inzwischen sind agentische Systeme weit verbreitet: Sie schreiben Code, führen numerische Experimente durch und schreiben die Ergebnisse als Artikel auf. Viele Forschende setzen sie routinemäßig ein.“

„Es gibt eine Vielzahl an solchen Systemen. Auch mit kommerziell verfügbaren Tools kann man ähnliche Arbeiten durchführen. Die Studie dokumentiert also eher den allgemeinen Fortschritt des Feldes, als dass sie selbst einen großen Sprung darstellt.“

Bedeutung der Workshop-Akzeptanz

„Man sollte die Aussage nicht überbewerten, dass eine von künstlicher Intelligenz (KI) generierte Studie einen ‚Peer-Review-Prozess durchlaufen‘ hat: Die Arbeiten waren nicht bei einer hochkarätigen Konferenz eingereicht, sondern bei einem Workshop. Diese haben normalerweise deutliche höhere Akzeptanzraten – in diesem Fall 70 Prozent. Außerdem haben Workshops oft einen wesentlich weniger rigorosen Review-Prozess. Deswegen werden dort akzeptierte Studie auch nicht von allen Forschenden als echte ‚Peer-Review-Artikel‘ angesehen.“

„Trotzdem wurde nur eine von drei eingereichten Arbeiten auch angenommen. Und das nach manueller Vorauswahl durch die Autoren und bei einem Workshop, bei dem es explizit um Studien mit negativen Ergebnissen ging. Die Autoren selbst räumen ein, dass keine der generierten Studien das Niveau der International Conference on Learning Representations (ICLR) erreicht hätte. Das ist die dem Workshop übergeordnete Hauptkonferenz. Insgesamt hat die KI-generierte Studie also nur eine sehr schwache Form von Peer-Review durchlaufen.“

Maschinelles Lernen als Forschungsfeld für KI

„Maschinelles Lernen ist für eine solche Art der Automatisierung wahrscheinlich deutlich einfacher als die meisten anderen Disziplinen: Beim Maschinellen Lernen geht es oft um messbare Performance statt um das wissenschaftliche Verständnis eines Prozesses. Nach dem Motto: ‚Unser System kann 80 Prozent genau klassifizieren‘. Es ist also viel einfacher, den Erfolg eines Systems zu quantifizieren und zu optimieren. Experimente sind rein numerisch und lassen sich meist billig und schnell im Computer produzieren. Dafür müssen keine realen Daten erhoben. Dazu würde man zum Beispiel in der Biologie oft automatisierte Labore benötigen.“

„Außerdem sind die Publikationsformate beim maschinellen Lernen hochgradig standardisiert. Auf Plattformen wie OpenReview kann man Reviews herunterladen und Systeme darauf trainieren. Das ist auch in der aktuellen Studie geschehen.“

„Das Ziel hier war also nicht, eine Studie zu generieren, die einen wissenschaftlichen Einblick bringt. Sondern es ging um eine Studie, die möglichst gute Chancen hat, bei einem Review-Prozess angenommen zu werden.“

Auswirkungen auf den Review-Prozess

„Automatisierung von wissenschaftlichen Prozessen durch KI hat das Potenzial, den wissenschaftlichen Prozess radikal zu beschleunigen und damit potenziell revolutionäre Durchbrüche zu ermöglichen. Kurzfristig allerdings besteht ein erhebliches Risiko, dass KI-generierte Einreichungen das wissenschaftliche System überfluten. Vor allem mit Blick auf den Review-Prozess.“

„Bereits heute steigt die Anzahl der Einreichungen bei großen Konferenzen und Archiven explosionsartig. Ein substanzieller Anteil davon sind wahrscheinlich Artikel, die zumindest teilweise von KI generiert wurden. Das gleiche gilt auch für Gutachten: Die International Conference on Machine Learning (ICML) hat 2025 etwa ein Prozent der eingereichten Reviews identifiziert und abgelehnt, die offensichtlich von Sprachmodellen verfasst wurden. KI-generierte Arbeiten sind nach den für diese Reviews geltenden Regeln nicht zulässig. Die Dunkelziffer ist wahrscheinlich deutlich höher.“

„Damit wir dieses Potenzial also wirklich nutzen können, wird es notwendig sein, dass wir schleunigst neue Wege der Veröffentlichung und Qualitätssicherung sowie Anreizsysteme in der Wissenschaft finden.“

Angaben zu möglichen Interessenkonflikten

Prof. Dr. Iryna Gurevych

„Keine Interessenkonflikte.“

Prof. Dr. Florian Boge

„Ich habe keine Interessenkonflikte.“

Prof. Dr. Jakob Macke

„Es bestehen keine Interessenkonflikte.“

Quellen

Primärquelle

Yamada Y et al. (2026): Towards end-to-end automation of AI research. Nature. DOI: 10.1038/s41586-026-10265-5.

Weiterführende Recherchequellen

Science Media Center (2025): Einfluss künstlicher Intelligenz auf den Forschungsprozess. Press Briefing. Stand: 21.10.2025.

Literaturstellen, die von den Expert:innen zitiert wurden

[1] Intology (27.05.2025): Zochi Achieves Main Conference Acceptance at ACL 2025. Blogbeitrag.

Literaturstellen, die vom SMC zitiert wurden

[I] Sakana AI (12.03.2025): The AI Scientist Generates its First Peer-Reviewed Scientific Publication. Blogbeitrag. Zuletzt aktualisiert: 07.04.2025.

[II] Google Scholar (2026): Top publications. Artificial Intelligence. KI-Konferenzen nach h5-Index sortiert. Abgerufen am: 24.03.2026.

[III] Sakana AI (2025): Compositional Regularization: Unexpected obstacles in enhancing Neural Network Generalization. KI-generierte Studie für: AI-Scientist-ICLR2025-Workshop-Experiment. GitHub repository. Stand: 24.03.2026.

Prof. Dr. Iryna Gurevych

Professorin für Ubiquitous Knowledge Processing, Fachbereich Informatik, Technische Universität Darmstadt

Mehr Informationen

Angaben zu möglichen Interessenkonflikten

„Keine Interessenkonflikte.“

Prof. Dr. Florian Boge

Juniorprofessor für Wissenschaftsphilosophie mit dem Schwerpunkt Künstliche Intelligenz, Technische Universität Dortmund

Mehr Informationen

Angaben zu möglichen Interessenkonflikten

„Ich habe keine Interessenkonflikte.“

Prof. Dr. Jakob Macke

Professor for Machine Learning in Science, Eberhard Karls Universität Tübingen

Mehr Informationen

Angaben zu möglichen Interessenkonflikten

„Es bestehen keine Interessenkonflikte.“

Expert:innen

Literatur