Digitales & Technologie

Statements

2. April 2025

KI spielt erfolgreich Minecraft

künstliche Intelligenz baut im Open-World-Computerspiel Minecraft Diamanten ab, so Studie. Unter Forschenden galt das lange als schwierige Aufgabe
verwendete Lernmethode kann auch für Training von KI-Agenten und Robotern genutzt werden
unabhängige Experten: Minecraft ist herausfordernd, aber nur bedingt als Maßstab für Systeme geeignet, die in der realen Welt agieren sollen

Anlass

Schach, Poker, StarCraft: Künstliche Intelligenz (KI) war in den vergangenen Jahren bei vielen Spielen erfolgreich [I] [II]. Das Open-World-Computerspiel Minecraft galt allerdings lange Zeit als Herausforderung für KI. Ein Team um Google Deepmind stellt mit DreamerV3 einen Algorithmus vor, der in einer auf KI-Tests ausgelegten Minecraft-Forschungswelt Diamanten abgebaut hat – ohne menschliche Daten zu nutzen und ohne spezielles Training für dieses Spiel. Eine erste Version der Studie ist bereits seit 2023 auf dem Preprint-Server Arxiv verfügbar [III]. Offiziell publiziert wurde die Studie in der Fachzeitschrift „Nature“ (siehe Primärquelle). Für ihr Experiment nutzten die Autoren die Minecraft-Forschungsversion Malmo [IV] und Umgebungen aus dem MineRL-Wettbewerb – einem KI-Wettbewerb basierend auf Minecraft [V].

Einen Diamanten in Minecraft abzubauen, gilt für KI unter anderem als schwierig, weil dafür viele aufeinander aufbauende Arbeitsschritte erforderlich sind, die jeder für sich nur spärliche Belohnungen liefern. Einer KI das beizubringen, sei bisher nur mit menschlichen Trainingsdaten oder domänenspezifischen Modellen möglich gewesen, so die Autoren. Eine kleine Hilfe bekam Google Deepminds DreamerV3 allerdings: Für den Rohstoffabbau muss die Spielfigur wiederholt auf einen Block schlagen. Für diese Aktion gaben die Autoren eine Mindestmenge an Schlägen vor.

DreamerV3 ist die dritte Version des Dreamer-Algorithmus und basiert auf sogenanntem Reinforcement Learning. Dabei lernt KI durch Interaktion mit ihrer Umgebung: Über einen sogenannten Agenten führt sie eine Aktion aus und bewertet deren Folgen. Führt die Aktion zu einer Belohnung, versucht die KI durch weitere Aktionen, ähnliche Situationen hervorzurufen. Was die KI als Belohnung versteht, legen die Programmierenden vorher mittels mathematischer Belohnungsfunktionen fest. Viele auf Reinforcement Learning basierende KIs sind deshalb besonders gut in einer bestimmten Domäne, auf die die Belohnungsfunktion zugeschnitten ist. DreamerV3 soll allerdings in verschiedenen Umgebungen überzeugen: Laut den Autoren schnitt ihr Algorithmus in mehreren Spiel- und Aufgaben-Typen in weiten Teilen besser ab als verschiedene domänenspezifische Modelle – und auch als der von OpenAI bekannte PPO-Algorithmus, der ebenfalls für verschiedene Domänen ausgelegt ist [VI].

DreamerV3 besteht aus drei Modellen: einem World-Modell, einem Critic-Modell und einem Actor-Modell. So nimmt der Algorithmus seine Umgebung wahr, führt Aktionen aus und bewertet diese. Entscheidend für den Erfolg in Minecraft ist das verwendete World-Modell: Dadurch simuliert die KI vorab mehrere aufeinanderfolgende Aktionen und entwickelt so eine Strategie, um die gestellte Aufgabe – erhalte einen Diamanten – zu lösen.

In den vergangenen Jahren wurde KI deutlich weiterentwickelt. Ergebnisse, die 2023 bahnbrechend erschienen, könnten heute geringere Bedeutung haben. Unabhängige Forschende haben für das SMC eingeschätzt, ob Erfolge in Minecraft ein passender Maßstab für KI sind, ob die Ergebnisse seit Veröffentlichung des Preprints an Bedeutung verloren haben und für welche Anwendungen in der echten Welt die Arbeit wichtig sein kann. Zum Zeitpunkt der Einschätzung lag das finale Nature-Paper noch nicht vor, deswegen beziehen sich die Forschenden auf die letzte Version des Autors. Zwischen den beiden Papern gibt es inhaltlich aber keine bedeutenden Unterschiede.

Statements

Prof. Dr. Philipp Hennig

Professor für die Methoden des Maschinellen Lernens, Eberhard Karls Universität Tübingen

Bedeutung der Arbeit

„Diese Arbeit des Google Deepmind Teams (in Kooperation mit der Uni Toronto) stammt aus dem Januar 2023. Sie wurde damals als großer Erfolg wahrgenommen, weil die offene Minecraft-Spielwelt als anspruchsvolles Benchmark galt. Seitdem hat die künstliche Intelligenz bekanntlich große Sprünge gemacht. Zur Erinnerung: ChatGPT-4 kam im März 2023 an die Öffentlichkeit. Der ebenfalls von OpenAI stammende Videogenerator Sora wurde im Februar 2024 angekündigt. Aus heutiger Sicht sind die Fähigkeiten der Dreamer-Architektur etwas weniger beeindruckend. Und selbst das größte Dreamer-Modell mit seinen 400 Millionen Parametern ist im Vergleich zu den neuesten Sprachmodellen ein regelrechter Winzling: Das Sprachmodell Deepseek-R1, das kürzlich Aufmerksamkeit erregte, ist in seiner größten Version mehr als eintausendmal so groß.“

Minecraft als Maßstab

„Minecraft stellt gleich zwei besondere Herausforderungen an KI-Algorithmen: Erstens wird die Spielwelt per Zufall generiert; sie sieht also jedes Mal anders aus. Ein KI-Algorithmus kann sich also nicht einfach eine feste Abfolge von Handlungen merken, die immer zum Ziel führen, sondern muss das Regelwerk dieser Welt verstehen. Zweitens verlangt das Spiel nach vergleichsweise langfristigen Plänen, die in langen Ketten aufeinander abgestimmter Handlungen realisiert werden müssen. Rein zufällige Handlungen sind also selten von Erfolg gekrönt, und die KI muss auch schon während des Lernprozesses gezielt Strategien durchtesten. Der Schwerpunkt der Deepmind-Arbeit liegt deshalb auch auf dem umfangreichen ‚World-Modell‘, das eine abstrakte Darstellung für die Minecraft-Pixelwelt lernt, und diese dann über viele Zeitschritte (hier: zeitlich aufeinanderfolgende Aktionen; Anm. d. Red.) hinaus in die Zukunft simulieren kann, um sich Pläne zurechtzulegen.“

Bedeutung der Ergebnisse für die reale Welt

„Trotz dieser Komplexität taugt Minecraft, zumindest im Frühjahr 2025, nur noch bedingt als realistische Testumgebung für KI-Algorithmen, die in der echten Welt agieren sollen. Denn trotz aller Komplexität ist Minecraft eben eine simulierte Welt, deren Pixel eine immerfort perfekte Darstellung der Aufgabe liefern, und in der wohl gewählte Handlungen zuverlässig zu für die KI klar erkennbaren Erfolgen führen. Das neue Benchmark sind robotische Systeme, die direkt in unserer physikalischen Welt agieren können. Hier stellt die Entwickler das berüchtigte ‚Sim-to-Real Gap‘ (Schwierigkeit der Übertragung von in der Simulation Gelerntem auf Anwendungen in der realen Welt; Anm. d. Red.) derzeit noch vor Probleme: Die echte Welt besteht eben nicht aus Pixeln. Und physikalische Systeme – ob Autos oder Roboterhände – sind nicht so perfekt digital kontrollierbar wie der Minecraft Avatar. Nicht zuletzt sind auch Ziele deutlich schwerer zu definieren. Allerdings sehen wir auch hier erste erfolgreiche Verwendungen von den aus Sprachmodellen bekannten Transformer-Architekturen (Spezieller Aufbau von tiefen neuronalen Netzwerken, also einem maschinellen Lernmodell; Anm. d. Red.), die zum Beispiel auch mit vage formulierten Zielvorgaben wie ‚räume mein Zimmer auf‘ umgehen können.“

„Und noch ein Aspekt der Studie scheint aus heutiger Sicht geradezu nostalgisch: Die vergleichsweise detaillierte und transparente Veröffentlichung einer KI-Technologie durch ein industrielles Forschungslabor wie Google Deepmind. Dreamer gehört zu der Art von technologischer Entwicklungsarbeit, die – im Gegensatz zur akademischen Grundlagenforschung – inzwischen fast ausschließlich hinter verschlossenen Türen stattfindet.“

Prof. Jan Peters Ph.D.

Professor für Intelligente Autonome Systeme, Technische Universität Darmstadt

Bedeutung des verwendeten Algorithmus

„Der Dreamer-Algorithmus in seiner dritten Generation (DreamerV3) stellt sich als bemerkenswert universeller Reinforcement-Learning-Algorithmus dar. Er kann verschiedenste Steuerungs- und Planungsaufgaben mit einer einzigen Konfiguration, ohne domänenspezifische Anpassungen, meistern. Im Kern ist Dreamer jedoch letztlich eine ‚Bag of Tricks‘ – eine Sammlung sorgfältig abgestimmter Engineering-Heuristiken (wie symlog-Transformationen, KL-Divergenz-Balancierung, Percentile-Return-Normalisierung und spezielle Verlustfunktionen), die hauptsächlich technische Probleme lösen. Eine Engineering-Heuristik ist quasi eine Daumenregel, die man basierend auf menschlichen Erfahrungen erstellt hat. Solche Regeln können sehr effektive Algorithmen ergeben, sind aber intellektuell unbefriedigend und nützen vermutlich wenig in der realen Welt, sondern sind nur in Simulationen sinnvoll.“

„Verglichen mit den eleganten theoretischen Fundamenten von Algorithmen wie PILCO oder PETS (Algorithmen, die im Reinforcement Learning eingesetzt werden; Anm. d. Red.) fehlt Dreamer eine solide mathematische Grundlage. PILCOs probabilistische Behandlung von Unsicherheit und PETS' explizite Ensembles (Ensembles: Aggregieren von kleinen, schwächeren Modellen zu einem großen, stärkeren; Anm. d. Red.) bieten eine konzeptuell überzeugendere Lösung für das Reinforcement-Learning-Problem. Während Dreamer beeindruckende empirische Ergebnisse erzielt – sogar als erster Algorithmus ohne menschliche Demonstrationsdaten Diamanten in Minecraft sammeln kann – liegt sein Erfolg weniger in konzeptioneller Innovation als in ausgeklügelten Engineering-Heuristiken und der Kombination bestehender Techniken.”

Prof. Dr. Georg Martius

Leiter der Gruppe Autonomous Learning, Eberhard Karls Universität Tübingen

Bedeutung der Arbeit

„Die Studie ist erstklassig und wegweisend. Modellbasiertes Reinforcement Learning wurde schon länger als vielversprechende Methodik gehandelt, aber erst dieses Papier hat gezeigt, dass es sehr breit und effizient eingesetzt werden kann.“

„In der Studie werden eine Vielzahl an Benchmarks, also Testszenarien, betrachtet. Diese reichen von vereinfachten Roboterkontrollproblemen zu einer Vielzahl an Videospielen. Einige davon testen auch die Generalisierungsfähigkeit, wie zum Beispiel ProcGen. Dort werden die Level und Karten im Spiel automatisch immer neu generiert.“

„Das Besondere an DreamerV3 ist, dass es alle Probleme mit den gleichen Einstellungen (Hyperparameter genannt) löst. Das ist wichtig, weil es ein Indiz dafür ist, dass der Algorithmus bei neuen Problemen auch out-of-the-box funktioniert. Sonst müssen die Algorithmen auf neue Probleme häufig durch Veränderung der Parameter angepasst werden, was viel Zeit und Rechenaufwand kostet. Beim Steuern echter Systeme würde das häufig gar nicht gehen.“

Minecraft als Maßstab

„Minecraft ist ein ‚Sandkastenspiel‘, das heißt, die simulierte Welt kann vom Spieler beliebig verändert werden. Außerdem ist die Welt auch jedes Mal zufällig generiert. Um einen Diamanten zu finden, müssen etliche Werkzeuge selbst hergestellt und viele tausend Aktionen ausgeführt werden. Vorherige Systeme haben von menschlichen Spielern gesammelte Spielverläufe genutzt. Das vereinfacht die Sache ungemein, denn damit kann der Algorithmus schonmal sehen, wie überhaupt ein Diamant gefunden werden kann. Im Fall von Dreamer ist das anders. Der Algorithmus muss ganz von selbst herausfinden, wie alles im Spiel funktioniert und bekommt nur spärliche Lernsignale (rewards), zum Beispiel beim Herstellen eines Werkzeugs, oder Abbauen eines neuen Werkstoffes.“

„Die Dreamer-Methode hat als entscheidende Komponente ein gelerntes Modell, das vorhersagen kann, welche Folgen eine Sequenz von Aktionen hat – ohne sie wirklich ausführen zu müssen. Durch eine Traumphase (daher der Name Dreamer, also Träumer) kann damit das Verhalten verbessert werden. Das Träumen passiert aber nicht direkt in Bildern (wie sich die Welt durch Aktionen verändern würde), sondern in einer gelernten Repräsentation. Aus dieser Repräsentation können Bilder rekonstruiert werden, diese müssen aber nicht unbedingt realitätstreu sein (die rekonstruierten Bilder nutzt der Algorithmus, um Aktionen mit einer möglichst hohen Belohnungswahrscheinlichkeit auszuführen; Anm. d. Red.).“

„DreamerV3 schneidet in den Versuchen durch die Bank besser ab als bis dahin existierende Methoden – insbesondere, wenn einheitliche Parameter verwendet werden.“

Bewertung nach Weiterentwicklungen

„Eine Methode, die ähnlich funktioniert, hat DreamerV3 in vielen Benchmarks überholt, auch mit einheitlichen Hyperparametern, das ist TD-MPC2. Allerdings wurde diese Methode hauptsächlich auf robotische Probleme – also mit kontinuierlichen Aktionen (der KI steht ein unendlicher Aktionsspielraum zur Verfügung; Anm. d. Red.) angewendet und weniger in Videospielen – also mit diskreten Aktionen (der KI steht eine begrenzte Anzahl möglicher Aktionen zur Verfügung; Anm. d. Red.).“

„Minecraft von Grund auf zu lernen, bleibt eine Herausforderung. Neuere Methoden haben sich zum Beispiel Large Language Models zu Hilfe genommen, um Allgemeinwissen und anderes Wissen über Minecraft hinzuzuholen.“

Bedeutung der Ergebnisse für die reale Welt

„Die Veröffentlichung der Implementation als Open-Source-Code war sehr wichtig für die rasche Verbreitung, die Weiterentwicklung und die Vergleichbarkeit. Es wird weiterhin an noch effizienteren Lernverfahren geforscht, denn wir sind immer noch nicht an der Stelle, an der wir zum Beispiel Roboter in der echten Welt zügig neue Aufgaben selbst lernen lassen können.“

„KI-Agenten, also Reinforcement-Lernverfahren, werden mittlerweile sehr erfolgreich bei der Robotersteuerung eingesetzt – insbesondere bei Laufrobotern. Vierbeinige Roboter und auch Humanoiden werden also zunehmend mit solchen KI-Agenten gesteuert. Das Erlernen erfolgt aber in Simulationen, weil das Erlernen bisher unglaublich viele Interaktionen benötigt. Die Dreamer-Methode ist nicht direkt für das Trainieren oder Verbessern von großen Sprachmodellen anwendbar.“

Angaben zu möglichen Interessenkonflikten

Prof. Dr. Philipp Hennig

„Mitglieder meiner Arbeitsgruppe haben in der Vergangenheit finanzielle Unterstützung von Google in Form eines ‚unrestricted gift‘ erhalten. Zusammen mit Forschenden von Google Deepmind (vormals Google Brain) betreiben Frank Schneider (aus meiner Gruppe) und ich die open-source-‚AlgoPerf‘-Competition. Mit den Autoren des Nature-Papers habe ich keine Vorarbeiten und keine mir bekannten Interessenkonflikte. Mit der in meinem Statement erwähnten Firma OpenAI sind mir keine Interessenkonflikte bewusst. Meine Forschung wurde jedoch in der Vergangenheit von Microsoft Research finanziell unterstützt (Microsoft ist einer der größten Investoren in OpenAI). Insgesamt machen Industriemittel aber weniger als 10 Prozent der Gesamtfinanzierung meines Lehrstuhls aus.“

Prof. Jan Peters Ph.D.

„Ich habe keine Interessenkonflikte.“

Prof. Dr. Georg Martius

„Es bestehen keine Interessenkonflikte.“

Quellen

Primärquelle

Hafner D et al. (2025): Mastering diverse control tasks through world models. Nature. DOI: 10.1038/s41586-025-08744-2.

Literaturstellen, die vom SMC zitiert wurden

[I] Science Media Center (2017): Künstliche Intelligenz entwickelt siegreiche Pokerstrategie. Statements. Stand: 02.03.2017.

[II] Science Media Center (2019): KI ist im Computerspiel StarCraft II besser als 99,8 Prozent der Spieler. Statements. Stand: 30.10.2019.

[III] Hafner D et al. (2023, letzte Änderung am 17.04.2024): Mastering Diverse Domains through World Models. Arxiv. DOI: 10.48550/arXiv.2301.04104.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Expertinnen und Experten begutachtet wurde.

[IV] Johnson M et al. (2016): The Malmo Platform for Artificial Intelligence Experimentation. Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence (IJCAI-16). Microsoft.

[V] Guss WH et al. (2019): NeurIPS 2019 Competition: The MineRL Competition on Sample Efficient Reinforcement Learning using Human Priors. Arxiv. DOI: 10.48550/arXiv.1904.10079.

[VI] OpenAI (2018): Proximal Policy Optimization – Quick Facts. Dokumentensammlung.

Prof. Dr. Philipp Hennig

Professor für die Methoden des Maschinellen Lernens, Eberhard Karls Universität Tübingen

Mehr Informationen

Angaben zu möglichen Interessenkonflikten

Prof. Jan Peters Ph.D.

Professor für Intelligente Autonome Systeme, Technische Universität Darmstadt

Mehr Informationen

Angaben zu möglichen Interessenkonflikten

„Ich habe keine Interessenkonflikte.“

Prof. Dr. Georg Martius