DeepSeek: ein Ansatz für bessere Sprachmodelle?
chinesisches Unternehmen DeepSeek veröffentlichte Anfang des Jahres Sprachmodell DeepSeek-R1, nun wird zugehörige Studie mit Peer-Review publiziert
vorgestelltes Reasoning-Modell bekam wegen verhältnismäßig geringer Kosten und ressourceneffizienter Architektur Aufmerksamkeit
Forschende: Open-Source-Veröffentlichung und verwendete Trainingsmethoden sorgten für Weiterentwicklung anderer Sprachmodelle, mittlerweile ist DeepSeek aber nicht mehr führend
Das Training großer Sprachmodelle ist kosten- und ressourcenintensiv. Darum erregte das Modell des chinesischen Anbieters DeepSeek Anfang des Jahres Aufsehen: Mit DeepSeek-R1 hatte das Unternehmen ein sogenanntes Reasoning-Sprachmodell entwickelt, das ähnlich gute Ergebnisse erzielte wie etablierte Modelle, aber weniger Ressourcen für Training und Betrieb benötigen sollte. Nun stellt das Unternehmen die Sprach-KI in einer Studie vor, die in der Fachzeitschrift „Nature“ erschienen ist (siehe Primärquelle). Eine Vorabversion ist bereits seit Anfang des Jahres auf dem Preprint-Server Arxiv verfügbar [I].
Reasoning bezeichnet die Fähigkeit der Sprachmodelle, durch eine Art inneren Monolog Schritt für Schritt zu einer Lösung zu kommen. Das ist vor allem für aufwendigere Anfragen relevant – etwa das Lösen einer Matheaufgabe. DeepSeek-R1 baut auf dem Sprachmodell DeepSeek-V3 auf.
Leiter der Forschungsgruppe für safety- & efficiency-aligned learning, Max-Planck-Institut für Intelligente Systeme, Tübingen
Auswirkungen der DeepSeek-Modelle
„Die DeepSeek-Reasoning-Modelle waren vor allem überraschend, weil hier das erste Mal die technischen Details darüber veröffentlicht wurden, wie künstliche Sprachmodelle so weitertrainiert werden können, dass sie es lernen, einen detaillierten inneren Monolog zu führen. Diese technische Neuerung hat Sprachmodelle im vergangenen Jahr signifikant verbessert und war zuvor nur OpenAI bekannt und unter Verschluss gehalten. Weiterhin wurden nicht nur die Details veröffentlicht, sondern auch die Modelle selbst – und damit konnten Forscher zum ersten Mal selbst den ‚inneren Monolog‘ der Modelle untersuchen und andere Firmen diesen für ihre eigenen Modelle weiterverwenden. Innere Monologe haben die Modelle besonders bei Denkaufgaben, etwa in der Mathematik oder der Softwareentwicklung, bedeutend verbessert.“
„Diese Veröffentlichung hat zu Recht die Test-Time Scaling-Phase (Paradigma, nach dem bessere Ergebnisse durch mehr Bearbeitungszeit erzielt werden; Anm. d. Red.) für große Sprachmodelle eingeläutet und wurde von tausenden von neuen Forschungsarbeiten aufgegriffen. Viele davon konnten die Ergebnisse reproduzieren oder verbessern und die zugrundeliegende Technik wurde schnell weiter vorangetrieben.“
DeepSeek-Modelle im heutigen Vergleich
„Die Modelle selbst werden oft noch in Vergleichen aufgeführt, sind aber im schnelllebigen KI-Feld nicht mehr an der Spitze. Im frühen Sommer hat DeepSeek einmal mit DeepSeek-V3.1 ein kleines Update herausgegeben, aber sonst war es relativ still um die Firma. Durch die Veröffentlichung des Papers Anfang des Jahres (gemeint ist die Vorabversion auf Arxiv [I]; Anm. d. Red.) konnten die Modelle schnell reproduziert und die Technologie weiterentwickelt werden. Und so sind die aktuell stärksten Open-Source-Modelle vor allem von chinesischen Tech-Firmen und Startups – etwa Kimi K2 von Moonshot, Qwen-Next von Alibaba, GLM von Zhipu AI, MiniMax-M1 von MiniMax AI oder LongCat von Meituan. Sie sind nicht von DeepSeek, aber maßgeblich von der Architektur und den Algorithmen der DeepSeek-Modelle beeinflusst.“
Vorteile des verwendeten Trainingsansatzes
„DeepSeek hat mit ihrer Veröffentlichung ein Umdenken ausgelöst. Während 2024 noch viele Firmen auf das direkte Lernen von (teuren) menschlichen Beispielen gesetzt hatten, hat es einen Wandel zum Bau und Einkauf von ‚Umgebungen‘ gegeben – sogenannten Reinforcement Learning Environments. Das sind künstliche ‚Mini-Welten‘, in denen die Modelle durch Versuch und Irrtum eine bestimmte Fähigkeit autonom lernen können. Das führt besonders bei Denkaufgaben und generell bei allen Aufgaben, bei denen die Lösung aus der Umgebung berechnet werden kann, also ‚messbar‘ ist, zu signifikanten Verbesserungen. Zum Beispiel können Mathematikfähigkeiten sehr gut gemessen werden. So können dem Modell auch Belohnungen gegeben werden, wenn eine Aufgabe richtig gelöst wird – was etwa bei kreativem Schreiben von Aufsätzen schwieriger ist, da ‚das ist ein guter Aufsatz‘ nicht so einfach zu messen und damit zu belohnen ist.“
Nachteile des verwendeten Trainings und weitere Ansätze
„DeepSeek hat vor allem Reinforcement Learning via dem vom ihnen entworfenen GRPO-Algorithmus popularisiert. Dieser Algorithmus ist nur in Reinforcement-Learning-Umgebungen anwendbar, in denen das zu trainierende Modell schon etwas kompetent ist, da der Algorithmus nur beim richtigen Lösen einer Aufgabe eine Belohnung vergibt – es gibt also keine Teilpunkte. Das macht den Algorithmus robust gegenüber ‚Reward Hacking‘ (mögliches Problem beim Training mit Reinforcement Learning: Modell löst Aufgabe, aber nicht auf gewünschtem Weg; Anm. d. Red.) von Teilbewertungen oder ‚schwammigeren‘ Einschätzungen der Qualität der Lösung. Wenn aber ein Modell nie eine Aufgabe in einer bestimmten Umgebung lösen kann, kann es sich nicht verbessern. Aktuelle Forschung versucht hier, Algorithmen und Ansätze zu finden, die trotzdem vorankommen können. Eine andere Forschungsrichtung sind Versuche, sich ganz von ‚messbaren‘ Umgebungen zu lösen und selbstverbessernde – oder zumindest selbstbewertende – Systeme zu bauen, die sich auch ohne Signale von außen verbessern können.“
Professor für Sprachwissenschaft, Pragmatik und Informatik, Eberhard Karls Universität Tübingen
Auswirkungen der DeepSeek-Modelle
„Das Entwicklungsteam hinter DeepSeek-R1 ist in mehreren Hinsichten erfrischend von bisherigen Standards abgewichen. Vorherige Modelle unterliefen weitgehend einheitlich eine bestimmte Abfolge von Trainingsschritten: erstens ein Basistraining für Sprachfähigkeit und Weltwissen durch (selbst-)überwachtes Lernen auf riesigen Textmengen. Zweitens eine Feinabstimmung mit guten Beispielen für Form oder Aufgabenverständnis durch überwachtes Lernen mit zum Beispiel von Menschen geschriebene Antworten. Drittens eine Feinabstimmung auf besonders hilfreiche und harmlose Antworten durch Verstärkungslernen (Reinforcement Learning; Anm. d. Red.) mit anderen Modellen, die wiederum mit gezielt hierfür gesammelten menschlichen Daten trainiert wurden. DeepSeek-R1 hat die bisher übliche Trainingsabfolge für Sprachmodelle durchbrochen, indem die Feinabstimmung auf gute Antworten vorgezogen und darüber hinaus eine neue Technik eingesetzt wurde, die zudem weniger menschliche Daten verwendet. Das war in der Kombination sicher nicht als erfolgreiche Alternative deutlich, bevor es von DeepSeek gezeigt werden konnte.“
„Aus wissenschaftlicher Sicht ist die Transparenz positiv hervorzuheben, in der Details zum Trainingsverfahren öffentlich gemacht wurden, und natürlich auch das Veröffentlichen der Modelle selbst. Bei Veröffentlichung Anfang 2025 – und so auch im Nature-Artikel – wurde gezeigt, dass DeepSeek-R1 in allgemeinen Benchmarks oft etwas besser abschneidet als etwa o1 von OpenAI, das Anfang 2024 veröffentlicht wurde. Jedoch fällt DeepSeek-R1 im Vergleich mit neueren Modellen wie dem im Sommer 2025 veröffentlichten GPT-5 von OpenAI zurück und ist auf gängigen Ranglisten für Sprachmodelle nicht mehr im Spitzenbereich.“
Vor- und Nachteile des verwendeten Trainingsansatzes
„Die Idee ist keineswegs neu, Maschinen mit von Maschinen synthetisch generierten Daten zu trainieren oder eine Maschine die Ausgaben einer anderen Maschine zu Trainingszwecken beurteilen zu lassen. Letzteres ist bei DeepSeek-R1 geschehen, aber zum Beispiel auch in Arbeiten aus dem Forschungsteam von Anthropic angewendet worden [1]. Man muss etwas vorsichtig sein, denn es wäre irreführend zu suggerieren, DeepSeek-R1 komme komplett ohne menschlichen Input aus. Denn letztlich sind es doch Menschen, die die Lösungen vorgeben – auch wenn diese dann durch Algorithmen berechnet werden – oder die Daten geliefert haben, von denen die Maschinen lernen, die dann DeepSeek-R1 trainieren.“
„Ein Aspekt, der das Training von DeepSeek-R1 auch aus wissenschaftlicher Sicht hochinteressant macht, ist, dass das Modell in erster Instanz darauf trainiert wurde, Aufgaben zu lösen, für die es eine eindeutige Lösung gibt, die mit herkömmlichen Mitteln wie klassischer künstlicher Intelligenz, Logik und automatisierten Programmiertests einfach zu bestimmen ist.“
„Das Team um DeepSeek-R1 konnte zeigen, dass ein Modell, das nur darauf trainiert ist, am Ende korrekte Antworten zu geben, dadurch für sich selbst ‚Denkschritte‘ entwickelt, um die richtigen Antworten finden zu können. Auch bei anderen Anbietern wie GPT-5 von OpenAI wurden die sich herausbildenden ‚Denkschritte‘ selbst aber nicht auf Richtigkeit oder Kohärenz getrimmt, sondern nur auf Harmlosigkeit. Das kann im Prinzip dazu führen, dass das Modell richtig antwortet, aber aus falschen, nicht nachvollziehbaren oder gar für Menschen unverständlichen Gründen – Stichwort: ‚Right for the wrong reasons‘. Daher war weiteres Training nötig.“
Wahl der passenden Trainingsmethode für Sprachmodelle wichtig
„Zwar gibt es verschiedene Formen maschinellen Lernens, für Sprachmodelle scheint die derzeitige Kombination aus überwachtem Lernen (Supervised Learning) und Verstärkungslernen (Reinforcement Learning) derzeit aber beinahe alternativlos. Aufgrund der Mengen an digitalisiertem Text ist überwachtes Lernen einfach naheliegend – bei autoregressiven Sprachmodellen für die Vorhersage der nächsten sprachlichen Einheit. Es zeigt deutlich, dass hiermit grundsätzliche Sprachfähigkeiten wie Grammatik, Wort- und Satzbedeutungen oder Textkohärenz und allgemeines Weltwissen sehr gut gelernt werden können.“
„Verstärkungslernen ist grundsätzlich das Mittel der Wahl, wenn weniger oder keine Daten vorhanden sind, aber man Wege hat, Ausgaben des Modells als mehr oder weniger gut einzuordnen. Wenn man sich anschaut, welche Rolle genau das Verstärkungslernen in der Feinabstimmung bei Sprachmodellen spielt, zeigt sich auch, warum dieser Ansatz so wichtig ist. Denn Verstärkungslernen hilft insbesondere, Textausgaben hilfreicher, relevanter oder harmloser zu machen. Das sind Eigenschaften, die schwer bis unmöglich zu definieren sind und für die es keine großen Datenmengen gibt, die klare Beispiele dafür enthalten, was in den verschiedensten Kontexten ‚hilfreich‘ und was ‚nicht hilfreich‘ ist.“
„In der Entwicklung von DeepSeek-R1 wurde auch eine andere Methode benutzt, die als eine Mischung aus überwachtem Lernen und Verstärkungslernen gesehen werden kann: sogenanntes Rejection Sampling – eine Verwerfungsmethode. Bei der generiert das Modell selbst verschiedene Vorschläge, dann wird eine kleine Auswahl der besten getroffen, zum Beispiel mit Bewertungsmodellen, die auch im Verstärkungslernen vorkommen. Schließlich wird das Modell mittels überwachten Lernens auf dieser Auswahl trainiert.“
Limitationen und Implikationen der DeepSeek-Modelle
„Es gibt einige Einschränkungen von DeepSeek-R1 in der Grundversion, die im Nature Artikel vorgestellt wird. Erstens: Probleme dabei, Antworten im korrekten Format zu liefern – was etwa für den Einsatz innerhalb größerer Software-Anwendungen problematisch sein kann. Zweitens: Vermischung von Englisch und Chinesisch in den Antworten. Drittens: eine andere Reaktion als von anderen Sprachmodellen gewohnt auf bekannte ‚Prompt-Engineering‘-Methoden, also gängige Arten, Anfragen zu stellen, zum Beispiel über eine kleine Menge von Beispielen.“
„Verstärkungslernen ist generell anfällig für das Finden und Ausnutzen von unvorhergesehenen Schlupflöchern für das Lösen einer Aufgabe, das der artikulierten Zielsetzung entspricht, aber nicht der Intention dahinter. Das ist das sogenannte Alignment Problem. Ein einfaches Beispiel bei Menschen: ‚Sohn, Du musst Dein Zimmer aufräumen, wenn Oma kommt.‘ Lösung: Verhindern, dass Oma kommt. Bei der Entwicklung von DeepSeek-R1 wurde Verstärkungslernen benutzt, bei dem das Verstärkungssignal mittels eines regelbasierten Algorithmus eindeutig als ‚richtig‘ oder ‚falsch‘ klassifiziert wurde. Dennoch bieten sich grundsätzlich für das Modell genug Schlupflöcher, um eine als ‚richtig‘ klassifizierte Lösung mit möglicherweise widersinnigen Argumentationsschritten zu erreichen. Stichwort: ‚Right for the wrong reason‘. Der Einsatz von Verstärkungslernen mit regelbasierten Algorithmen, die klare Vorgaben zu ‚richtig‘ und ‚falsch‘ liefern, ist nur beschränkt möglich, da viele Probleme keine bekannten Goldstandards für algorithmische Lösungen haben oder diese auch wiederum nur sehr kostspielig zu berechnen sind.“
„Hochspannend ist auch die im Artikel nicht erwähnte Implikation, dass mit dem Einsatz von regelbasierten Algorithmen für Goldstandard-Trainingssignale die klassische, regelbasierte KI – aufbauend auf Logik, Symbolverarbeitung und menschlicher Interpretierbarkeit –, die von vielen im Feld als besiegter Gegenspieler missachtet wird, auch im Kontext des maschinellen Lernens wieder zu ihrem Recht kommt.“
Leiter des Fachgebiets Maschinelles Lernen, Technische Universität Darmstadt
Auswirkungen der DeepSeek-Modelle
„Stellen Sie sich vor, man könnte einen Sportwagen mit Ferrari-Leistung zum halben Preis bauen – genau diesen Eindruck hinterließ DeepSeek-R1 Anfang 2025 in der KI-Welt. Aufbauend auf einem vortrainierten Basismodell lernte R1 komplexe Denkschritte durch Ausprobieren und Belohnungen – weitgehend ohne aufwendiges menschliches Feedback. Damit gilt es als Wendepunkt für kosteneffizientes KI-Training.“
„Noch 2024 schien die Entwicklung großer Sprachmodelle zu stagnieren: Mehr Daten und Rechenleistung brachten kaum noch spürbare Fortschritte. Mit der Veröffentlichung von R1 Anfang 2025 änderte sich das. R1 befeuerte den globalen Wettlauf in der KI-Forschung. Statt immer größerer Datensätze rücken seither ‚Gedankengänge‘, Rechenzeit fürs ‚Nachdenken‘ und clevere Trainingsmethoden in den Mittelpunkt. Selbst Branchengiganten wie OpenAI und Google mussten ihre Strategien neu ausrichten. Dass die renommierte Wissenschaftszeitschrift Nature die DeepSeek-Studie nachträglich aufnimmt, unterstreicht deren wissenschaftliche Bedeutung weit über reine Produktankündigungen hinaus.“
„US-Modelle dominieren derzeit die meisten Benchmarks, doch DeepSeek-R1 etabliert sich als hocheffiziente Alternative. Es zeigt eindrucksvoll, dass kluge Trainingsmethoden wichtiger sein können als schiere Rechenpower. R1 hat sich bis heute als wegweisendes Referenzmodell für die Forschung und Open-Source-KI-Entwicklung bewährt. Aktuelle Varianten zählen beispielsweise zu den leistungsstärksten KI-Programmierassistenten. Diese können sowohl die Codequalität verbessern und Fehler frühzeitig identifizieren als auch gleichzeitig die Einstiegsbarrieren erheblich senken, wodurch mehr Menschen ihre eigenen Ideen erfolgreich realisieren können.“
Vor- und Nachteile des verwendeten Trainingsansatzes
„DeepSeek-R1 hat einen neuen Trend entfacht: Heute lernen KI-Systeme zunehmend von anderen KI-Systemen statt von Menschen. Forschungsinstitutionen und Unternehmen kombinieren kleine Mengen menschlicher Bewertungen mit riesigen Mengen maschineller Rückmeldungen. Menschen bleiben jedoch wichtig, um Qualität, Copyright, Sicherheit und Stil zu sichern.“
„Reinforcement Learning ist wahrscheinlich derzeit das zentrale Werkzeug, um Maschinen besser ‚denken‘ zu lassen. Die Forschung geht aber viel weiter. So arbeitet der Exzellenzcluster ‚Vernünftige KI‘ der TU Darmstadt an Erweiterungen der Grundidee von DeepSeek-R1: Die Forscher entwickeln eine neue Art von KI, die Wissen mit logischem Denken und kontinuierlichem Lernen verbindet – eine KI, die sich an eine sich ständig verändernde Welt anpasst, ähnlich wie biologische Systeme. So entsteht eine neue Generation lernfähiger und flexibler KI.“
„Wo Maschinen lernen, Gutes zu tun, lauern auch Risiken. KI-Systeme können trickreiche Wege finden, um Belohnungen zu maximieren, statt die eigentliche Aufgabe zu lösen. Wer kennt es nicht, wenn Taxifahrer in der Fremde bewusst Umwege fahren, um höhere Fahrpreise zu erzielen, obwohl eigentlich effizienter Kundenservice belohnt werden sollte. Dieses ‚Reward Hacking‘, das man vielleicht mit ‚Belohnungsmanipulation‘ übersetzen könnte, zeigt sich auch bei Sprachmodellen: Sie schreiben manchmal eine überzeugend klingende, aber falsche Begründung, nur um als ‚hilfreich‘ zu gelten. Bei DeepSeek-R1-Zero scheint das zu Sprachmischungen und endlosen Wiederholungen geführt zu haben. Heute setzen Entwickler deshalb auf mehrstufige Tests und menschliche Reviews, um solche Tricksereien zu verhindern. Es gibt noch viel zu tun.“
„Keine Interessenkonflikte.“
„Ich habe keine Interessenkonflikte.“
„Ich bin Co-Sprecher von dem in meinem Statement angeführten Exzellenzcluster ‚Vernünftige KI‘ an der TU Darmstadt.“
Primärquelle
Liang W et al. (2025): DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning. Nature. DOI: 10.1038/s41586-025-09422-z.
Weiterführende Recherchequellen
Science Media Center (2025): Skalierung und Reasoning: Wie geht es mit Sprachmodellen weiter? Statements. Stand: 03.02.2025.
Literaturstellen, die von den Expert:innen zitiert wurden
[1] Kaplan J et al. (2022): Constitutional AI: Harmlessness from AI Feedback. Arxiv. DOI: 10.48550/arXiv.2212.08073.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Experten und Expertinnen begutachtet wurde.
Literaturstellen, die vom SMC zitiert wurden
[I] Liang W et al. (2025): DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. Arxiv. DOI: 10.48550/arXiv.2501.12948.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Experten und Expertinnen begutachtet wurde.
Dr. Jonas Geiping
Leiter der Forschungsgruppe für safety- & efficiency-aligned learning, Max-Planck-Institut für Intelligente Systeme, Tübingen
Angaben zu möglichen Interessenkonflikten
„Keine Interessenkonflikte.“
Prof. Dr. Michael Franke
Professor für Sprachwissenschaft, Pragmatik und Informatik, Eberhard Karls Universität Tübingen
Angaben zu möglichen Interessenkonflikten
„Ich habe keine Interessenkonflikte.“
Prof. Dr. Kristian Kersting
Leiter des Fachgebiets Maschinelles Lernen, Technische Universität Darmstadt
Angaben zu möglichen Interessenkonflikten
„Ich bin Co-Sprecher von dem in meinem Statement angeführten Exzellenzcluster ‚Vernünftige KI‘ an der TU Darmstadt.“