KI spielt erfolgreich Minecraft
künstliche Intelligenz baut im Open-World-Computerspiel Minecraft Diamanten ab, so Studie. Unter Forschenden galt das lange als schwierige Aufgabe
verwendete Lernmethode kann auch für Training von KI-Agenten und Robotern genutzt werden
unabhängige Experten: Minecraft ist herausfordernd, aber nur bedingt als Maßstab für Systeme geeignet, die in der realen Welt agieren sollen
Schach, Poker, StarCraft: Künstliche Intelligenz (KI) war in den vergangenen Jahren bei vielen Spielen erfolgreich [I] [II]. Das Open-World-Computerspiel Minecraft galt allerdings lange Zeit als Herausforderung für KI. Ein Team um Google Deepmind stellt mit DreamerV3 einen Algorithmus vor, der in einer auf KI-Tests ausgelegten Minecraft-Forschungswelt Diamanten abgebaut hat – ohne menschliche Daten zu nutzen und ohne spezielles Training für dieses Spiel. Eine erste Version der Studie ist bereits seit 2023 auf dem Preprint-Server Arxiv verfügbar [III]. Offiziell publiziert wurde die Studie in der Fachzeitschrift „Nature“ (siehe Primärquelle). Für ihr Experiment nutzten die Autoren die Minecraft-Forschungsversion Malmo [IV] und Umgebungen aus dem MineRL-Wettbewerb – einem KI-Wettbewerb basierend auf Minecraft [V].
Professor für die Methoden des Maschinellen Lernens, Eberhard Karls Universität Tübingen
Bedeutung der Arbeit
„Diese Arbeit des Google Deepmind Teams (in Kooperation mit der Uni Toronto) stammt aus dem Januar 2023. Sie wurde damals als großer Erfolg wahrgenommen, weil die offene Minecraft-Spielwelt als anspruchsvolles Benchmark galt. Seitdem hat die künstliche Intelligenz bekanntlich große Sprünge gemacht. Zur Erinnerung: ChatGPT-4 kam im März 2023 an die Öffentlichkeit. Der ebenfalls von OpenAI stammende Videogenerator Sora wurde im Februar 2024 angekündigt. Aus heutiger Sicht sind die Fähigkeiten der Dreamer-Architektur etwas weniger beeindruckend. Und selbst das größte Dreamer-Modell mit seinen 400 Millionen Parametern ist im Vergleich zu den neuesten Sprachmodellen ein regelrechter Winzling: Das Sprachmodell Deepseek-R1, das kürzlich Aufmerksamkeit erregte, ist in seiner größten Version mehr als eintausendmal so groß.“
Minecraft als Maßstab
„Minecraft stellt gleich zwei besondere Herausforderungen an KI-Algorithmen: Erstens wird die Spielwelt per Zufall generiert; sie sieht also jedes Mal anders aus. Ein KI-Algorithmus kann sich also nicht einfach eine feste Abfolge von Handlungen merken, die immer zum Ziel führen, sondern muss das Regelwerk dieser Welt verstehen. Zweitens verlangt das Spiel nach vergleichsweise langfristigen Plänen, die in langen Ketten aufeinander abgestimmter Handlungen realisiert werden müssen. Rein zufällige Handlungen sind also selten von Erfolg gekrönt, und die KI muss auch schon während des Lernprozesses gezielt Strategien durchtesten. Der Schwerpunkt der Deepmind-Arbeit liegt deshalb auch auf dem umfangreichen ‚World-Modell‘, das eine abstrakte Darstellung für die Minecraft-Pixelwelt lernt, und diese dann über viele Zeitschritte (hier: zeitlich aufeinanderfolgende Aktionen; Anm. d. Red.) hinaus in die Zukunft simulieren kann, um sich Pläne zurechtzulegen.“
Bedeutung der Ergebnisse für die reale Welt
„Trotz dieser Komplexität taugt Minecraft, zumindest im Frühjahr 2025, nur noch bedingt als realistische Testumgebung für KI-Algorithmen, die in der echten Welt agieren sollen. Denn trotz aller Komplexität ist Minecraft eben eine simulierte Welt, deren Pixel eine immerfort perfekte Darstellung der Aufgabe liefern, und in der wohl gewählte Handlungen zuverlässig zu für die KI klar erkennbaren Erfolgen führen. Das neue Benchmark sind robotische Systeme, die direkt in unserer physikalischen Welt agieren können. Hier stellt die Entwickler das berüchtigte ‚Sim-to-Real Gap‘ (Schwierigkeit der Übertragung von in der Simulation Gelerntem auf Anwendungen in der realen Welt; Anm. d. Red.) derzeit noch vor Probleme: Die echte Welt besteht eben nicht aus Pixeln. Und physikalische Systeme – ob Autos oder Roboterhände – sind nicht so perfekt digital kontrollierbar wie der Minecraft Avatar. Nicht zuletzt sind auch Ziele deutlich schwerer zu definieren. Allerdings sehen wir auch hier erste erfolgreiche Verwendungen von den aus Sprachmodellen bekannten Transformer-Architekturen (Spezieller Aufbau von tiefen neuronalen Netzwerken, also einem maschinellen Lernmodell; Anm. d. Red.), die zum Beispiel auch mit vage formulierten Zielvorgaben wie ‚räume mein Zimmer auf‘ umgehen können.“
„Und noch ein Aspekt der Studie scheint aus heutiger Sicht geradezu nostalgisch: Die vergleichsweise detaillierte und transparente Veröffentlichung einer KI-Technologie durch ein industrielles Forschungslabor wie Google Deepmind. Dreamer gehört zu der Art von technologischer Entwicklungsarbeit, die – im Gegensatz zur akademischen Grundlagenforschung – inzwischen fast ausschließlich hinter verschlossenen Türen stattfindet.“
Professor für Intelligente Autonome Systeme, Technische Universität Darmstadt
Bedeutung des verwendeten Algorithmus
„Der Dreamer-Algorithmus in seiner dritten Generation (DreamerV3) stellt sich als bemerkenswert universeller Reinforcement-Learning-Algorithmus dar. Er kann verschiedenste Steuerungs- und Planungsaufgaben mit einer einzigen Konfiguration, ohne domänenspezifische Anpassungen, meistern. Im Kern ist Dreamer jedoch letztlich eine ‚Bag of Tricks‘ – eine Sammlung sorgfältig abgestimmter Engineering-Heuristiken (wie symlog-Transformationen, KL-Divergenz-Balancierung, Percentile-Return-Normalisierung und spezielle Verlustfunktionen), die hauptsächlich technische Probleme lösen. Eine Engineering-Heuristik ist quasi eine Daumenregel, die man basierend auf menschlichen Erfahrungen erstellt hat. Solche Regeln können sehr effektive Algorithmen ergeben, sind aber intellektuell unbefriedigend und nützen vermutlich wenig in der realen Welt, sondern sind nur in Simulationen sinnvoll.“
„Verglichen mit den eleganten theoretischen Fundamenten von Algorithmen wie PILCO oder PETS (Algorithmen, die im Reinforcement Learning eingesetzt werden; Anm. d. Red.) fehlt Dreamer eine solide mathematische Grundlage. PILCOs probabilistische Behandlung von Unsicherheit und PETS' explizite Ensembles (Ensembles: Aggregieren von kleinen, schwächeren Modellen zu einem großen, stärkeren; Anm. d. Red.) bieten eine konzeptuell überzeugendere Lösung für das Reinforcement-Learning-Problem. Während Dreamer beeindruckende empirische Ergebnisse erzielt – sogar als erster Algorithmus ohne menschliche Demonstrationsdaten Diamanten in Minecraft sammeln kann – liegt sein Erfolg weniger in konzeptioneller Innovation als in ausgeklügelten Engineering-Heuristiken und der Kombination bestehender Techniken.”
Leiter der Gruppe Autonomous Learning, Max-Planck-Institut für Intelligente Systeme, Tübingen
Bedeutung der Arbeit
„Die Studie ist erstklassig und wegweisend. Modellbasiertes Reinforcement Learning wurde schon länger als vielversprechende Methodik gehandelt, aber erst dieses Papier hat gezeigt, dass es sehr breit und effizient eingesetzt werden kann.“
„In der Studie werden eine Vielzahl an Benchmarks, also Testszenarien, betrachtet. Diese reichen von vereinfachten Roboterkontrollproblemen zu einer Vielzahl an Videospielen. Einige davon testen auch die Generalisierungsfähigkeit, wie zum Beispiel ProcGen. Dort werden die Level und Karten im Spiel automatisch immer neu generiert.“
„Das Besondere an DreamerV3 ist, dass es alle Probleme mit den gleichen Einstellungen (Hyperparameter genannt) löst. Das ist wichtig, weil es ein Indiz dafür ist, dass der Algorithmus bei neuen Problemen auch out-of-the-box funktioniert. Sonst müssen die Algorithmen auf neue Probleme häufig durch Veränderung der Parameter angepasst werden, was viel Zeit und Rechenaufwand kostet. Beim Steuern echter Systeme würde das häufig gar nicht gehen.“
Minecraft als Maßstab
„Minecraft ist ein ‚Sandkastenspiel‘, das heißt, die simulierte Welt kann vom Spieler beliebig verändert werden. Außerdem ist die Welt auch jedes Mal zufällig generiert. Um einen Diamanten zu finden, müssen etliche Werkzeuge selbst hergestellt und viele tausend Aktionen ausgeführt werden. Vorherige Systeme haben von menschlichen Spielern gesammelte Spielverläufe genutzt. Das vereinfacht die Sache ungemein, denn damit kann der Algorithmus schonmal sehen, wie überhaupt ein Diamant gefunden werden kann. Im Fall von Dreamer ist das anders. Der Algorithmus muss ganz von selbst herausfinden, wie alles im Spiel funktioniert und bekommt nur spärliche Lernsignale (rewards), zum Beispiel beim Herstellen eines Werkzeugs, oder Abbauen eines neuen Werkstoffes.“
„Die Dreamer-Methode hat als entscheidende Komponente ein gelerntes Modell, das vorhersagen kann, welche Folgen eine Sequenz von Aktionen hat – ohne sie wirklich ausführen zu müssen. Durch eine Traumphase (daher der Name Dreamer, also Träumer) kann damit das Verhalten verbessert werden. Das Träumen passiert aber nicht direkt in Bildern (wie sich die Welt durch Aktionen verändern würde), sondern in einer gelernten Repräsentation. Aus dieser Repräsentation können Bilder rekonstruiert werden, diese müssen aber nicht unbedingt realitätstreu sein (die rekonstruierten Bilder nutzt der Algorithmus, um Aktionen mit einer möglichst hohen Belohnungswahrscheinlichkeit auszuführen; Anm. d. Red.).“
„DreamerV3 schneidet in den Versuchen durch die Bank besser ab als bis dahin existierende Methoden – insbesondere, wenn einheitliche Parameter verwendet werden.“
Bewertung nach Weiterentwicklungen
„Eine Methode, die ähnlich funktioniert, hat DreamerV3 in vielen Benchmarks überholt, auch mit einheitlichen Hyperparametern, das ist TD-MPC2. Allerdings wurde diese Methode hauptsächlich auf robotische Probleme – also mit kontinuierlichen Aktionen (der KI steht ein unendlicher Aktionsspielraum zur Verfügung; Anm. d. Red.) angewendet und weniger in Videospielen – also mit diskreten Aktionen (der KI steht eine begrenzte Anzahl möglicher Aktionen zur Verfügung; Anm. d. Red.).“
„Minecraft von Grund auf zu lernen, bleibt eine Herausforderung. Neuere Methoden haben sich zum Beispiel Large Language Models zu Hilfe genommen, um Allgemeinwissen und anderes Wissen über Minecraft hinzuzuholen.“
Bedeutung der Ergebnisse für die reale Welt
„Die Veröffentlichung der Implementation als Open-Source-Code war sehr wichtig für die rasche Verbreitung, die Weiterentwicklung und die Vergleichbarkeit. Es wird weiterhin an noch effizienteren Lernverfahren geforscht, denn wir sind immer noch nicht an der Stelle, an der wir zum Beispiel Roboter in der echten Welt zügig neue Aufgaben selbst lernen lassen können.“
„KI-Agenten, also Reinforcement-Lernverfahren, werden mittlerweile sehr erfolgreich bei der Robotersteuerung eingesetzt – insbesondere bei Laufrobotern. Vierbeinige Roboter und auch Humanoiden werden also zunehmend mit solchen KI-Agenten gesteuert. Das Erlernen erfolgt aber in Simulationen, weil das Erlernen bisher unglaublich viele Interaktionen benötigt. Die Dreamer-Methode ist nicht direkt für das Trainieren oder Verbessern von großen Sprachmodellen anwendbar.“
„Mitglieder meiner Arbeitsgruppe haben in der Vergangenheit finanzielle Unterstützung von Google in Form eines ‚unrestricted gift‘ erhalten. Zusammen mit Forschenden von Google Deepmind (vormals Google Brain) betreiben Frank Schneider (aus meiner Gruppe) und ich die open-source-‚AlgoPerf‘-Competition. Mit den Autoren des Nature-Papers habe ich keine Vorarbeiten und keine mir bekannten Interessenkonflikte. Mit der in meinem Statement erwähnten Firma OpenAI sind mir keine Interessenkonflikte bewusst. Meine Forschung wurde jedoch in der Vergangenheit von Microsoft Research finanziell unterstützt (Microsoft ist einer der größten Investoren in OpenAI). Insgesamt machen Industriemittel aber weniger als 10 Prozent der Gesamtfinanzierung meines Lehrstuhls aus.“
„Ich habe keine Interessenkonflikte.“
„Es bestehen keine Interessenkonflikte.“
Primärquelle
Hafner D et al. (2025): Mastering diverse control tasks through world models. Nature. DOI: 10.1038/s41586-025-08744-2.
Literaturstellen, die vom SMC zitiert wurden
[I] Science Media Center (2017): Künstliche Intelligenz entwickelt siegreiche Pokerstrategie. Statements. Stand: 02.03.2017.
[II] Science Media Center (2019): KI ist im Computerspiel StarCraft II besser als 99,8 Prozent der Spieler. Statements. Stand: 30.10.2019.
[III] Hafner D et al. (2023, letzte Änderung am 17.04.2024): Mastering Diverse Domains through World Models. Arxiv. DOI: 10.48550/arXiv.2301.04104.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Expertinnen und Experten begutachtet wurde.
[IV] Johnson M et al. (2016): The Malmo Platform for Artificial Intelligence Experimentation. Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence (IJCAI-16). Microsoft.
[V] Guss WH et al. (2019): NeurIPS 2019 Competition: The MineRL Competition on Sample Efficient Reinforcement Learning using Human Priors. Arxiv. DOI: 10.48550/arXiv.1904.10079.
[VI] OpenAI (2018): Proximal Policy Optimization – Quick Facts. Dokumentensammlung.
Prof. Dr. Philipp Hennig
Professor für die Methoden des Maschinellen Lernens, Eberhard Karls Universität Tübingen
Angaben zu möglichen Interessenkonflikten
„Mitglieder meiner Arbeitsgruppe haben in der Vergangenheit finanzielle Unterstützung von Google in Form eines ‚unrestricted gift‘ erhalten. Zusammen mit Forschenden von Google Deepmind (vormals Google Brain) betreiben Frank Schneider (aus meiner Gruppe) und ich die open-source-‚AlgoPerf‘-Competition. Mit den Autoren des Nature-Papers habe ich keine Vorarbeiten und keine mir bekannten Interessenkonflikte. Mit der in meinem Statement erwähnten Firma OpenAI sind mir keine Interessenkonflikte bewusst. Meine Forschung wurde jedoch in der Vergangenheit von Microsoft Research finanziell unterstützt (Microsoft ist einer der größten Investoren in OpenAI). Insgesamt machen Industriemittel aber weniger als 10 Prozent der Gesamtfinanzierung meines Lehrstuhls aus.“
Prof. Jan Peters Ph.D.
Professor für Intelligente Autonome Systeme, Technische Universität Darmstadt
Angaben zu möglichen Interessenkonflikten
„Ich habe keine Interessenkonflikte.“
Dr. Georg Martius
Leiter der Gruppe Autonomous Learning, Max-Planck-Institut für Intelligente Systeme, Tübingen
Angaben zu möglichen Interessenkonflikten
„Es bestehen keine Interessenkonflikte.“