KI-generierte Studie auf Workshop angenommen
Forschungsteam stellt KI vor, deren weitgehend autonom durchgeführte Forschungsarbeit auf einem Workshop einer großen KI-Konferenz angenommen wurde
die Hoffnung: forscht KI selbstständig – von der Ideenfindung über Experimente zur Auswertung – könnten Ergebnisse entstehen, zu denen Menschen nicht kommen
Expertinnen und Experten sind wenig beeindruckt, dass KI-generierte Studie angenommen wurde und sehen Mängel in der Arbeit; insgesamt bringe KI die Forschung aber in vielen Bereichen voran, allerdings könnte sie den Peer-Review-Prozess überlasten
Eine künstliche Intelligenz (KI) hat eine Studie zu maschinellem Lernen durchgeführt, die den wissenschaftlichen Qualitätsansprüchen des Fachgebiets zu genügen scheint: Die Forschungsarbeit wurde 2025 für einen Workshop der International Conference on Learning Representations (ICLR) akzeptiert [I]. Die ICLR ist eine bekannte Konferenz für Forschung zu KI-Themen [II] und die für den Workshop Verantwortlichen hatten dem Team erlaubt, sich mit einer KI-generierten Studie zu bewerben. Nun hat das internationale Entwicklungsteam um das japanische Unternehmen Sakana AI die forschende KI in einer Publikation vorgestellt, die in der Fachzeitschrift „Nature“ erschienen ist (siehe Primärquelle).
Das vorgestellte KI-System „AI Scientist“ – auf Deutsch: KI-Wissenschaftlerin – soll den gesamten wissenschaftlichen Prozess selbstständig durchführen können. Das umfasst die Ideenfindung, den Entwurf und die Durchführung von Experimenten, die Auswertung der Daten, die Interpretation der Ergebnisse und das Schreiben einer Studie sowie deren Bewertung in einem Modell-internen Peer-Review-Prozess. Es sei aber nur Forschung zu Experimenten möglich, die auf Computern liefen, schreiben die Forschenden. Denn die KI kann nicht mit der physischen Welt interagieren.
Professorin für Ubiquitous Knowledge Processing, Fachbereich Informatik, Technische Universität Darmstadt
„Es ist nicht das erste Mal, dass eine KI-generierte Studie von menschlichen Gutachtenden angenommen wird. Im Mai 2025 wurde eine KI-generierte Studie sogar von einer führenden Konferenz im Bereich der Automatischen Sprachverarbeitung angenommen [1]. Diese hat geringere Annahmequoten als der Workshop aus der aktuellen Publikation. Insofern ist das an sich nichts Neues.“
„Die in der aktuellen Arbeit angesprochene KI-generierte Studie leidet unter prinzipiellen Einschränkungen. Zum Beispiel überlappen einige Test- und Trainingsdaten. Das geht klar aus dem internen Review hervor, welches man im Supplement findet. Es scheint so, als hätten die menschlichen Gutachtenden die methodischen Lücken größtenteils übersehen. Die Studie haben sie wohl im Wesentlichen wegen der ansprechenden Thematik zur Annahme empfohlen. Das stellt die Qualität des menschlichen Begutachtungsprozesses des Workshops in Frage.“
„Aktuelle künstliche Intelligenz (KI) ist im Wesentlichen eine sehr intelligente Such- sowie Frage-Antwort-Maschine. Die KI ist darauf optimiert, plausible Texte oder Software-Code zu generieren. Plausibel ist nicht gleich korrekt. Die Fähigkeiten der KI, die erzeugten Artefakte zu verifizieren, sind noch sehr beschränkt. Das ist allerdings der wesentliche Punkt, um die Qualität einer Forschungsarbeit zu beurteilen. Es braucht sehr viel Spezialwissen und eine tiefgehende Auseinandersetzung sowie die Bewertung der Zusammenhänge.“
„Hier sind erfahrene, gut ausgebildete Forschende der KI deutlich überlegen. Daher meine klare These, dass die KI und der Mensch eng kooperieren und dabei ihre jeweiligen Stärken in die gemeinsame Arbeit einbringen sollen.“
„Die größte Chance mit Blick auf vollautomatisierte Forschung ist aus meiner Sicht, einem Forschenden vielfältige Routinetätigkeiten abzunehmen. Dies ist analog zu Verbesserungen, die wir durch die Erfindung von Suchmaschinen vor circa 20 Jahren gesehen haben: Die Suchmaschinen haben den Zugang zum globalen Wissen demokratisiert.“
„Analog dazu könnten die kleineren Forschungsteams, die über wenig Ressourcen verfügen, mit Hilfe der KI-Agenten ihre Arbeiten voranbringen.“
„Das größte Risiko ist dabei ein übermäßiges Vertrauen in die KI-basierten Resultate. Ganz entscheidend ist als Gegenmaßnahme die menschliche Fähigkeit zum kritischen Denken.“
„Standards gibt es in diesem Bereich noch kaum. Wir beobachten einen Anstieg an Initiativen wie das ClawRxiv oder die Open Conference of AI Agents for Science 2025. Letztere ist die erste offene Konferenz, auf der KI sowohl als Hauptautor/in als auch als Gutachtende/r von Forschungsarbeiten fungierte. Bei ClawRxiv veröffentlichen, diskutieren und bewerten KI-Agenten Forschungsarbeiten. Menschen können zuschauen und sich beteiligen.“
„Wir werden sehen, wie sich die Normen in den kommenden Jahren herausbilden. Wichtig ist dabei, die guten von den schlechten Praktiken im Einsatz der KI voneinander zu unterscheiden. Die ersten Forschungsgruppen führen bereits KI-Agenten als Standardelement der Ausstattung eines Mitarbeiterarbeitsplatzes ein.“
„Der eigentliche Flaschenhals bei der Forschung ist allerdings die Bewertung der Resultate. Das menschliche Peer-Review ist kein sonderlich zuverlässiges Verfahren. In Zeiten, in denen man Inhalte schneller denn je produzieren kann, ist die tiefgehende Verifikation und Bewertung der wissenschaftlichen Resultate unter Zeitdruck essenziell. Hier schneiden bisher weder Menschen noch KI gut ab. Es wird in den kommenden Jahren daher darum gehen, fortgeschrittene KI-Werkzeuge genau für diesen Einsatzzweck zu entwickeln, um mit der schieren Menge an KI-generierten Inhalte zurechtzukommen.“
Juniorprofessor für Wissenschaftsphilosophie mit dem Schwerpunkt Künstliche Intelligenz, Technische Universität Dortmund
„Ich glaube nicht, dass es ‚der‘ Bereich ist, in dem künstliche Intelligenz (KI) einen Unterschied macht. Sie macht inzwischen in fast allen Bereichen Unterschiede. In vielen Bereichen kann KI erfolgreich eingesetzt werden, man versteht aber die Gründe für ihren Erfolg nicht ganz. Entsprechende KI-Modelle scheinen Zusammenhänge in der Welt zu identifizieren und in ihren inneren, ‚versteckten‘ Schichten zu speichern, die für uns intransparent und schwer zugänglich sind.“
„Kann man diese Zusammenhänge im Nachgang anhand der KI-Erfolge identifizieren, so bedeutet dies meist einen wissenschaftlichen Fortschritt. Zumindest gegenwärtig halte ich solche Verwendungen, in die dann auch menschliche Wissenschaftler:innen eingebunden sind, noch für wesentlich bedeutender.“
„Die größte Chance besteht vielleicht darin, dass KI auf neue Ideen kommt, auf die menschlichen Forschenden so nicht gekommen wären. Die Risiken sehe ich einerseits darin, dass damit ein wichtiger Teil des Forschens verloren gehen könnte: nämlich das eigene Verstehen und Erkennen von Zusammenhängen. Anderseits könnte bei voller Automatisierung aber auch unbemerkt ‚bullshit science‘ herauskommen. Etwa wenn die KI sich auf Zusammenhänge fixiert, die tatsächlich uninteressant oder akzidentiell sind.“
„Ich bin mir sicher, dass die KI zum Fortschritt der Wissenschaft beitragen wird – das tut sie schließlich bereits. Allerdings sollten wir ihr bei aller Leistungsfähigkeit nie blind vertrauen, da sie schlichtweg eigene Arten von Fehlerquellen mitbringt.“
„Roboter und ‚embodied AI‘ (KI, die physisch mit der Welt interagieren kann; Anm. d. Red.) könnten in der empirischen Wissenschaft nötig werden, da hier auch Laboroperationen ausgeführt werden müssen. Das birgt die Chance höherer Präzision aber gleichzeitig auch die Gefahr von neuartigen experimentellen Artefakten.“
„Die Standards variieren hier erheblich von Feld zu Feld und von Zeitschrift zu Zeitschrift. Es ist sicher äußerst wünschenswert, dass wir hier auf Dauer Verbindlichkeit und übergreifende Standards schaffen.“
Professor for Machine Learning in Science, Eberhard Karls Universität Tübingen
„Aus meiner Sicht zeigt das Paper vor allem, welche Fortschritte das Feld gemacht hat. Und es zeigt, wie weit die Automatisierung des wissenschaftlichen Prozesses im Bereich des maschinellen Lernens bereits fortgeschritten ist.“
„Die ursprüngliche ‚Preprint'-Version der Arbeit erschien im August 2024. Bei der aktuellen Geschwindigkeit des Feldes ist das eine gefühlte Ewigkeit. Inzwischen sind agentische Systeme weit verbreitet: Sie schreiben Code, führen numerische Experimente durch und schreiben die Ergebnisse als Artikel auf. Viele Forschende setzen sie routinemäßig ein.“
„Es gibt eine Vielzahl an solchen Systemen. Auch mit kommerziell verfügbaren Tools kann man ähnliche Arbeiten durchführen. Die Studie dokumentiert also eher den allgemeinen Fortschritt des Feldes, als dass sie selbst einen großen Sprung darstellt.“
„Man sollte die Aussage nicht überbewerten, dass eine von künstlicher Intelligenz (KI) generierte Studie einen ‚Peer-Review-Prozess durchlaufen‘ hat: Die Arbeiten waren nicht bei einer hochkarätigen Konferenz eingereicht, sondern bei einem Workshop. Diese haben normalerweise deutliche höhere Akzeptanzraten – in diesem Fall 70 Prozent. Außerdem haben Workshops oft einen wesentlich weniger rigorosen Review-Prozess. Deswegen werden dort akzeptierte Studie auch nicht von allen Forschenden als echte ‚Peer-Review-Artikel‘ angesehen.“
„Trotzdem wurde nur eine von drei eingereichten Arbeiten auch angenommen. Und das nach manueller Vorauswahl durch die Autoren und bei einem Workshop, bei dem es explizit um Studien mit negativen Ergebnissen ging. Die Autoren selbst räumen ein, dass keine der generierten Studien das Niveau der International Conference on Learning Representations (ICLR) erreicht hätte. Das ist die dem Workshop übergeordnete Hauptkonferenz. Insgesamt hat die KI-generierte Studie also nur eine sehr schwache Form von Peer-Review durchlaufen.“
„Maschinelles Lernen ist für eine solche Art der Automatisierung wahrscheinlich deutlich einfacher als die meisten anderen Disziplinen: Beim Maschinellen Lernen geht es oft um messbare Performance statt um das wissenschaftliche Verständnis eines Prozesses. Nach dem Motto: ‚Unser System kann 80 Prozent genau klassifizieren‘. Es ist also viel einfacher, den Erfolg eines Systems zu quantifizieren und zu optimieren. Experimente sind rein numerisch und lassen sich meist billig und schnell im Computer produzieren. Dafür müssen keine realen Daten erhoben. Dazu würde man zum Beispiel in der Biologie oft automatisierte Labore benötigen.“
„Außerdem sind die Publikationsformate beim maschinellen Lernen hochgradig standardisiert. Auf Plattformen wie OpenReview kann man Reviews herunterladen und Systeme darauf trainieren. Das ist auch in der aktuellen Studie geschehen.“
„Das Ziel hier war also nicht, eine Studie zu generieren, die einen wissenschaftlichen Einblick bringt. Sondern es ging um eine Studie, die möglichst gute Chancen hat, bei einem Review-Prozess angenommen zu werden.“
„Automatisierung von wissenschaftlichen Prozessen durch KI hat das Potenzial, den wissenschaftlichen Prozess radikal zu beschleunigen und damit potenziell revolutionäre Durchbrüche zu ermöglichen. Kurzfristig allerdings besteht ein erhebliches Risiko, dass KI-generierte Einreichungen das wissenschaftliche System überfluten. Vor allem mit Blick auf den Review-Prozess.“
„Bereits heute steigt die Anzahl der Einreichungen bei großen Konferenzen und Archiven explosionsartig. Ein substanzieller Anteil davon sind wahrscheinlich Artikel, die zumindest teilweise von KI generiert wurden. Das gleiche gilt auch für Gutachten: Die International Conference on Machine Learning (ICML) hat 2025 etwa ein Prozent der eingereichten Reviews identifiziert und abgelehnt, die offensichtlich von Sprachmodellen verfasst wurden. KI-generierte Arbeiten sind nach den für diese Reviews geltenden Regeln nicht zulässig. Die Dunkelziffer ist wahrscheinlich deutlich höher.“
„Damit wir dieses Potenzial also wirklich nutzen können, wird es notwendig sein, dass wir schleunigst neue Wege der Veröffentlichung und Qualitätssicherung sowie Anreizsysteme in der Wissenschaft finden.“
„Keine Interessenkonflikte.“
„Ich habe keine Interessenkonflikte.“
„Es bestehen keine Interessenkonflikte.“
Primärquelle
Yamada Y et al. (2026): Towards end-to-end automation of AI research. Nature. DOI: 10.1038/s41586-026-10265-5.
Weiterführende Recherchequellen
Science Media Center (2025): Einfluss künstlicher Intelligenz auf den Forschungsprozess. Press Briefing. Stand: 21.10.2025.
Literaturstellen, die von den Expert:innen zitiert wurden
[1] Intology (27.05.2025): Zochi Achieves Main Conference Acceptance at ACL 2025. Blogbeitrag.
Literaturstellen, die vom SMC zitiert wurden
[I] Sakana AI (12.03.2025): The AI Scientist Generates its First Peer-Reviewed Scientific Publication. Blogbeitrag. Zuletzt aktualisiert: 07.04.2025.
[II] Google Scholar (2026): Top publications. Artificial Intelligence. KI-Konferenzen nach h5-Index sortiert. Abgerufen am: 24.03.2026.
[III] Sakana AI (2025): Compositional Regularization: Unexpected obstacles in enhancing Neural Network Generalization. KI-generierte Studie für: AI-Scientist-ICLR2025-Workshop-Experiment. GitHub repository. Stand: 24.03.2026.
Prof. Dr. Iryna Gurevych
Professorin für Ubiquitous Knowledge Processing, Fachbereich Informatik, Technische Universität Darmstadt
Angaben zu möglichen Interessenkonflikten
„Keine Interessenkonflikte.“
Prof. Dr. Florian Boge
Juniorprofessor für Wissenschaftsphilosophie mit dem Schwerpunkt Künstliche Intelligenz, Technische Universität Dortmund
Angaben zu möglichen Interessenkonflikten
„Ich habe keine Interessenkonflikte.“
Prof. Dr. Jakob Macke
Professor for Machine Learning in Science, Eberhard Karls Universität Tübingen
Angaben zu möglichen Interessenkonflikten
„Es bestehen keine Interessenkonflikte.“