KI-Modelle bei der Vorhersage seltener Wetterextreme unterlegen
KI-Wettermodelle unterschätzen Intensität und Häufigkeit von rekordhaften Hitze- und Kälteereignissen sowie von Windspitzen
die Modelle arbeiten mit historischen Wettermustern und haben Schwierigkeiten, wenn sie Ereignisse vorhersagen sollen, die außerhalb dieses bekannten Bereichs liegen
laut Expertin und Experten ist nicht zu erwarten, dass KI-Modelle bei den extremsten Wetterereignissen gut funktionieren, da diese in den Trainingsdaten selten vorkommen; angesichts des Klimawandels sei das eine große Herausforderung
Auf künstlicher Intelligenz (KI) basierende Wettermodelle sagen meteorologische Rekordereignisse laut einer aktuellen Studie schlechter vorher als klassische numerische Modelle. Demnach zeigen KI-Modelle Schwächen, wenn es um die Vorhersagen von extremen Hitze-, Kälte- und Windrekorden geht. Die Studie wurde am 29.04.2026 im Fachjournal „Science Advances“ veröffentlicht (siehe Primärquelle) und ist bereits im Jahr 2025 als Preprint erschienen [I]. KI-Wettervorhersagemodelle wie GraphCast [II] oder Pangu-Weather [III] liefern für durchschnittliches Wetter schnelle und präzise Vorhersagen. Allerdings war bisher unklar, wie akkurat sie extreme Wetterereignisse prognostizieren können [IV].
Zhongwei Zhang vom Karlsruher Institut für Technologie (KIT) und Koautoren aus der Schweiz und Deutschland untersuchten daher, wie KI-Wettermodelle in der Vorhersage von Rekordereignissen gegenüber numerischen Modellen abschneiden. Anders als klassische numerische Vorhersagemodelle, die auf Grundlage von Messdaten und physikalischen Gleichungen arbeiten, basieren KI-Modelle auf maschinellem Lernen [V]. Sie schließen also aus historischen Wetterlagen und statistischen Zusammenhängen auf ein wahrscheinliches zukünftiges Wetter.
Leiter der Forschungsgruppe Earth System Data Exploration sowie Co-Leiter des Bereichs Large Scale Data Science, Forschungszentrum Jülich, und Professor für Computational Earth System Science an der Universität zu Köln
Wichtig für die Berichterstattung
„Die Aussagen des Papers sind grundsätzlich stichhaltig. Aber es besteht die Gefahr, dass die Rezeption dieser Studie zu Falschaussagen führt. Es geht in der Veröffentlichung ganz konkret um ‚record-breaking extremes‘. Das sind die letzten zwei Prozentpunkte einer Häufigkeitsverteilung.“
„Demgegenüber gab es lange Zeit die vorherrschende Meinung, dass KI-Modelle generell nicht in der Lage sind, Extremwetterereignisse gut vorherzusagen. Das bezog sich auf frühere Veröffentlichungen. In denen konnten zwar Zugbahnen von großen Wirbelstürmen akkurat bestimmt werden, die Intensität des Sturms wurde aber immer zu schwach simuliert. Das hat sich in der Zwischenzeit geändert: Die aktuellen KI-Wettermodelle können Ereignisse bis etwa zum 95. Perzentil sehr gut vorhersagen– das sind schon sehr heftige Stürme“
Zukünftige Entwicklung
„Das Problem ist in der Tat, dass Extremereignisse sehr selten sind und daher in den Trainingsdaten so gut wie nicht vorkommen. Und, ja, die KI-Modelle können nicht gut extrapolieren. Aber ein bisschen was geht da schon.“
„Dennoch ist es möglich, dass man in Zukunft KI-Modelle sehen wird, die auch die stärksten Extremereignisse hinbekommen. Das könnte gelinge, indem man zum Training auch synthetische Daten benutzt. Dieser Ansatz wird in anderen Disziplinen erfolgreich eingesetzt. Hierzu braucht man dann klassische numerische Modelle, welche eine genügende Fallzahl solcher Extremereignisse in guter Qualität produzieren können.“
Professor für Erdsystemmodellierung, Technische Universität München, und Leiter der Arbeitsgruppe „Künstliche Intelligenz im Anthropozän“, Potsdam-Institut für Klimafolgenforschung (PIK), Potsdam
Vor- und Nachteile datenbasierter KI-Wettermodelle
„Rein datengesteuerte Machine-Learning-Modelle haben sich bei der Wettervorhersage bis zu 14 Tage im Voraus als äußerst erfolgreich erwiesen. Darin übertreffen sie sogar herkömmliche physikalische Wettervorhersagemodelle. Solche Machine-Learning-Modelle werden jedoch auf historischen Daten trainiert. Aus diesem Grund ist nicht zu erwarten, dass sie bei den extremsten Wetterereignissen gut funktionieren. Denn diese kommen in den Trainingsdaten selten vor.“
„Beispiellose Extremereignisse fehlen per Definition gänzlich in den Trainingsdaten. Die vorliegende Studie bestätigt die Erwartung, dass physikalische Modelle bei der Vorhersage solcher Ereignisse immer noch besser sind als datengesteuerte Modelle.“
Limitationen der KI-Modelle bei Klimaprognosen
„Im Grunde genommen sind Machine-Learning-Modelle nicht in der Lage, über ihre Trainingsverteilung hinaus zu extrapolieren. Über die Wettervorhersage hinaus ist diese Tatsache besonders für Klimaprognosen relevant. Dies gilt insbesondere, wenn versucht wird, auf historischen Daten trainierte Modelle des maschinellen Lernens für Klimaprognosen einzusetzen. Diese können unmöglich die Merkmale zukünftiger extremer Wetterereignisse erlernen.“
„Der menschengemachte Anstieg der Treibhausgaskonzentrationen und der damit verbundene Klimawandel stellen für Machine-Learning-Modelle ein klassisches Out-of-Sample-Problem dar (Modell performt auf neuen, nicht zu den Trainingsdaten gehörenden Daten schlechter; Anm. d. Red.). Wir sollten nicht erwarten, dass solche Modelle unter zukünftigen Klimabedingungen funktionieren, die in den historischen Trainingsdaten nicht vorkommen.“
Professorin für Intelligente Energiesysteme, Institut für Informatik, Universität Augsburg
Einordnung der Ergebnisse
„Die Studie zeigt systematisch, dass gängige KI-Wettermodelle bei noch nie dagewesenen Rekordereignissen größere Vorhersagefehler machen als das physikbasierte HRES-Modell des Europäischen Wetterdienstes ECMWF. Das ist ein wichtiges Ergebnis, aber kein überraschendes: Rein datengetriebene Modelle lernen aus der Vergangenheit. Was dort nicht aufgetaucht ist, können sie zunächst schlechter abbilden.“
Strukturelle Schwäche von KI-Wettermodellen
„Entscheidend für die Einordnung ist jedoch, dass die getesteten Modelle GraphCast, Pangu-Weather und Fuxi nicht mehr zur aktuellen Generation an KI-Wettermodellen gehören. Sie sind alle deterministisch. Das heißt, sie berechnen eine einzelne Vorhersage ohne jede Unsicherheitsangabe. Neuere, probabilistische und generative Modelle wie beispielsweise AIFS-CRPS des ECMWF wurde nicht untersucht. Dieses Modell erzeugt explizit Ensembles möglicher Wetterverläufe und sollte besser geeignet sein, um Extreme vorherzusagen. Grundsätzlich hat die Schwäche bei Extremen aber strukturelle Gründe.“
Meteorologische Rekordereignisse und KI-Modelle
„KI-Wettermodelle haben den Nachteil, dass sie atmosphärische Dynamiken aus historischen Daten erlernen müssen. Das bedeutet, dass Zustände, die im Training nicht oder kaum vorkamen, schlechter abgebildet werden. Physikbasierte Modelle haben hier einen konzeptuellen Vorteil: Sie lösen Erhaltungsgleichungen und sind dadurch nicht an die Grenzen des Beobachteten gebunden. Das macht sie nicht zur universell besseren Lösung, denn sie sind rechenintensiv und haben eigene systematische Fehler. Aber KI-Modelle müssen noch besser darin werden, in ungesehene Zustände zu extrapolieren.“
„Dazu gibt es verschiedene Ansätze: etwa hybride Architekturen, die atmosphärische Physik als Lernziel verankern, oder den gezielten Transfer von Wissen aus anderen Regionen der Welt – 40 Grad in Europa mag selten sein, vergleichbare Temperaturen in anderen Teilen der Welt dagegen nicht. Am vielversprechendsten erscheinen derzeit probabilistische, generative Modelle. Diese sollten mit Klimainformationen angereichert sein und über die historisch beobachteten Zustände hinaus extrapolieren können.“
Zukünftige Entwicklung
„Wichtig ist zu beachten, dass KI-Wettermodelle nicht grundsätzlich an allen Extremen scheitern und dass physikbasierte Modelle sicherlich noch weiter eine Rolle spielen werden. Die Studie testet eine spezifische Klasse von Ereignissen. Sie testet lokale Rekordüberschreitungen mit deterministischen Modellen, die nicht mehr ganz dem aktuellen Stand der Forschung entsprechen. Sie zeigt aber sehr gut, dass diese KI-Modelle im Moment keine ausreichend gute Leistung bei Extremereignissen liefern. Die gute Nachricht: Die Forschungsgemeinschaft arbeitet aktiv an den identifizierten Schwächen.“
ICREA Professor und Gruppenleiter Klimaschwankungen und Klimawandel, Barcelona Supercomputing Center, Spanien
KI-Wettermodelle und Limitationen
„Wie in vielen Bereichen der Gesellschaft und der Wissenschaft hat die KI in den letzten Jahren auch in der Wettervorhersage substanzielle und erstaunliche Fortschritte gemacht. Eine kritische Überprüfung und Evaluierung sind jedoch erforderlich, um Vertrauen in diese Modelle aufzubauen und ihre Leistungsgrenzen zu verstehen.“
„KI-Modelle verstehen die Physik nicht. Sie lernen ausschließlich aus den Daten, die ihnen vorliegen. Aus diesem Grund schneiden sie im Allgemeinen unter Bedingungen am besten ab, die ihrem Training ähneln. Vergleichbar mit großen Sprachmodellen wie ChatGPT sind KI-basierte Wettervorhersagen gut darin, das Gelernte zu kopieren und in verschiedenen Varianten zu reproduzieren.“
Einordnung der Ergebnisse
„Diese Studie liefert eine wichtige Warnung: Diese KI-basierten Vorhersagen schneiden weniger gut bei der Prognose von Bedingungen ab, die sie in ihrem Training nicht gesehen haben. Das sind wie etwa rekordbrechenden Extremereignissen. Rekordbrechende Extreme haben oft erhebliche sozioökonomische Auswirkungen. Diese Schwierigkeit beeinträchtigt bei der Vorhersage von Extremen derzeit den Einsatz von KI-basierten Wettervorhersagen für Frühwarnsysteme.“
Zukünftige Entwicklung
„Ebenso wie beim Training von KI-Modellen ist auch bei deren Evaluierung die Datenverfügbarkeit oft ein limitierender Faktor. Diese Studie präsentiert Evaluierungen auf Basis von nur ein bis zwei Jahren an Daten. Dies ist zwar geeignet, um das Problem zu veranschaulichen, doch eine systematischere und umfassendere Evaluierung wäre wünschenswert. Nur so lässt sich die Größenordnung des Problems vollends verstehen und sicherstellen, dass die Ergebnisse nicht durch Zufallseffekte bei der Datenauswahl beeinflusst wurden.“
Direktor für Meteorologische Analyse und Modellierung, Deutscher Wetterdienst (DWD), Offenbach, und Professor für Mathematik, Universität Reading, Vereinigtes Königreich
KI-Wettermodelle
„KI‑Modelle können schon heute Extremereignisse vorhersagen und bewegen sich damit auch außerhalb ihres Trainingsdatenbereichs. Dass aktuelle KI‑Modelle stärker geglättete Vorhersagen liefern als physikalische Modelle, beruht auf der Art der beim Training eingesetzten Strafterme (Methode zur Anpassung von KI-Modellen im maschinellen Lernen; Anm. d. Red.) und ist zu erwarten. Es gibt verschiedene Ansätze, die darauf abzielen, das Training auf Extremereignisse auszurichten. Diese werden in der Forschung intensiv verfolgt.“
Zukünftige Anwendung von KI-Wettermodellen
„Die Physik der Atmosphäre ist in der Vergangenheit und in der Zukunft dieselbe. Modelle beschreiben grundsätzlich dieselbe Physik in den Tropen wie in den gemäßigten Breiten. Das gilt auch für KI‑basierte Modelle. Um die Unsicherheit in der Modellierung abzubilden, werden Ensembles von Vorhersagen eingesetzt. Das könnte ein gangbarer Weg für die Zukunft der Vorhersage sein. In Zukunft wollen wir physikalische und KI‑basierte Vorhersagen in einem Gesamtsystem kombinieren. Der Deutsche Wetterdienst (DWD) hat dafür bereits mit dem Aufbau eines kombinierten Ensemble-Systems begonnen: sein globales KI‑System AICON läuft operationell parallel zu den physikalischen ICON‑Vorhersagen.“
Weitere Entwicklung
„KI‑Modelle optimieren während des Trainings eine Verlustfunktion (Strafterme). Die Modelle werden mit einer Auswahl von meteorologischen Fällen konfrontiert, sogenannten Reanalysen. Daraus lernen sie und passen dabei ihre Vorhersagen an diese Situationen an. Derzeit gibt es zwei wichtig Schritte, um KI-Modelle insbesondere für High-Impact-Situationen zu verbessern: Extremereignisse in ihrer Repräsentation im Trainingsdatensatz angemessen zu berücksichtigen und die Verlustfunktion gezielt auf Extremereignisse anzupassen.“
Hybride Vorhersagesysteme
„KI‑Modelle bieten neue und weitreichende Möglichkeiten für die meteorologische Modellierung und Vorhersage. Gleichzeitig gibt es einen großen, reichen Schatz an hochqualitativen physikalischen Modellen, in denen viele Details atmosphärischer Prozesse explizit berücksichtigt und dargestellt werden. Eine Kombination beider Welten in einem hybriden Vorhersagesystem erscheint als Königsweg. Damit könnten die Vorteile der jeweiligen Methoden vollständig der Gesellschaft zur Verfügung gestellt werden.“
Juniorprofessor für Klima-Attribution, Institut für Meteorologie, Universität Leipzig
Einordnung der Ergebnisse
„Die folgende Frage ist entscheidend für die praktische Nutzbarkeit von KI-Modelle: Können KI-basierte Wettermodelle auch Extremereignisse, die am Randbereich der statistischen Verteilung liegen, akkurat simulieren? KI-Modelle schneiden bei der Vorhersage ‚normaler‘ Wetterbedingungen häufig besser ab. In der aktuellen Studie wurde nun gezeigt, dass dies für Extremereignisse wie neue Hitzerekorde, Kälterekorde und Windrekorde nicht der Fall ist. Im Gegenteil: Umso extremer das Ereignis, desto stärker unterschätzen die KI-Modelle die Ereignisse im Vergleich zur herkömmlichen Vorhersage. KI-Wettermodelle sagen tatsächlich eingetretene Rekorde nicht nur zu schwach (Intensität), sondern auch zu selten voraus (Häufigkeit).“
Gesellschaftliche Nutzbarkeit von KI-Wettermodellen
„Dies ist ein wichtiges Ergebnis für die Bewertung von KI-Wettermodellen. Es zeigt, dass auf KI-basierenden Modellen, also datenbasierter Extrapolation, bei solchen extremen Ereignissen nicht uneingeschränkt vertraut werden kann: Dies ist eine Schlussfolgerung, die nicht ganz unerwartet ist. Denn Vorhersagen von KI-Modellen haben häufig die Tendenz, Extreme zu unterschätzen. Dennoch ist meines Erachtens der deutliche Unterschied zwischen KI-Modellen und dem physikalischen Modell bemerkenswert. Und die Schlussfolgerung ist höchst relevant für die gesellschaftliche Nutzbarkeit von KI-Wettermodellen.“
Methodische Einschränkung
„Eine methodische Einschränkung der Studie ist, dass nur die Jahre 2018 und 2020 ausgewertet wurden. Außerdem wurden darin nur Rekordereignisse betrachtet. Es bleibt abzuwarten, ob sich die Ergebnisse für weitere Jahre und Extremereignisse genauso systematisch bestätigen – wovon auszugehen ist.“
Auf die Frage, ob physikalische, numerische Modelle die „Lebensversicherung“ der Extremwetter-Prognose bleiben werden : „Physikalische Modelle bleiben das zentrale Werkzeug für die Prognose von Extremereignissen, insbesondere im Kontext des Klimawandels. Sie basieren auf fundamentalen physikalischen Gesetzmäßigkeiten und können daher auch Zustände jenseits der beobachteten Vergangenheit plausibel beschreiben. KI-Modelle hingegen werden auf historischen Reanalysedaten trainiert. Deshalb sind sie auf den Bereich der beobachteten Variabilität begrenzt.“
Hybride Vorhersagesysteme
„Gleichzeitig ist der Fortschritt bei KI-Wettermodellen und KI in der Klimaforschung in vielerlei Hinsicht beeindruckend. So kann beispielsweise eine hybride Kombination von physikalischen Gesetzmäßigkeiten und KI zu besseren Modellen und auch besserer Extrapolation führen. Gleiches gilt für gezieltes Training auf physikalischen Simulationen von sehr extremen Ereignissen. Die Entwicklung bleibt also spannend: Vermutlich liegt die Zukunft nicht in einem ‚entweder Physik oder Daten‘, sondern eher in einer cleveren Kombination beider Ansätze.“
Auf die Frage, welche Konsequenzen sich für den Einsatz von KI in der Wettervorhersage ergeben, und wie KI-Modelle für seltene Extremereignisse verbessert werden könnten: „KI-Wettermodelle sind aktuell nicht ausreichend zuverlässig, um zum Beispiel für Wetterwarnungen genutzt zu werden. Als Ergänzung zu physikalischen Modellen sowie unter Beachtung der Einschränkungen dieser Modelle können diese dennoch sehr nützlich sein.“
„Ich habe keine Interessenkonflikte in Bezug auf die Kommentierung der Studie.“
„Ich habe keine Interessenkonflikte.“
„Ich habe keine Interessenkonflikte.“
„Im Hinblick auf meine Kommentierung der Studie liegen keine Interessenkonflikte vor.“
„Keine Interessenkonflikte in Bezug auf die Kommentierung der Studie.“
Alle anderen: Keine Angaben erhalten
Primärquelle
Zhang Z et al. (2026): Physics-based models outperform AI weather forecasts of record -breaking extremes. Science Advances. DOI: 10.1126/sciadv.aec1433.
Literaturstellen, die vom SMC zitiert wurden
[I] Zhang Z et al. (2025): Physics-based models outperform AI weather forecasts of record -breaking extremes. Arxiv. DOI: 10.48550/arXiv.2508.15724.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation der Primärquelle, die zum damaligen Zeitpunkt noch keinem Peer-Review-Verfahren unterzogen wurde.
[II] Lam R et al. (2023): Learning skillful medium-range global weather forecasting. Science. DOI: 10.1126/science.adi2336.
[III] Bi K et al. (2023): Accurate medium-range global weather forecasting with 3D neural networks. Nature. DOI: 10.1038/s41586-023-06185-3.
[IV] Materia S et al (2024): Artificial intelligence for climate prediction of extremes: State of the art, challenges, and future perspectives. WIREs Climate Change. DOI: 10.1002/wcc.914.
[V] Bouallègue ZB et al. (2024): The Rise of Data-Driven Weather Forecasting: A First Statistical Assessment of Machine Learning–Based Weather Forecasts in an Operational-Like Context. Bulletin of the American Meteorological Society. DOI: 10.1175/BAMS-D-23-0162.1.
Dazu auch: Science Media Center (2024): Bessere Wettervorhersage mit maschinellem Lernen? Statements. Stand: 22.07.2024.
[VI] Chen L et al (2023): FuXi: a cascade machine learning forecasting system for 15-day global weather forecast. npj climate and atmospheric science. DOI: 10.1038/s41612-023-00512-1.
Prof. Dr. Martin Schultz
Leiter der Forschungsgruppe Earth System Data Exploration sowie Co-Leiter des Bereichs Large Scale Data Science, Forschungszentrum Jülich, und Professor für Computational Earth System Science an der Universität zu Köln
Angaben zu möglichen Interessenkonflikten
„Ich habe keine Interessenkonflikte in Bezug auf die Kommentierung der Studie.“
Prof. Dr. Niklas Boers
Professor für Erdsystemmodellierung, Technische Universität München, und Leiter der Arbeitsgruppe „Künstliche Intelligenz im Anthropozän“, Potsdam-Institut für Klimafolgenforschung (PIK), Potsdam
Angaben zu möglichen Interessenkonflikten
„Ich habe keine Interessenkonflikte.“
Prof. Dr. Nicole Ludwig
Professorin für Intelligente Energiesysteme, Institut für Informatik, Universität Augsburg
Prof. Dr. Markus Donat
ICREA Professor und Gruppenleiter Klimaschwankungen und Klimawandel, Barcelona Supercomputing Center, Spanien
Angaben zu möglichen Interessenkonflikten
„Ich habe keine Interessenkonflikte.“
Prof. Dr. Roland Potthast
Direktor für Meteorologische Analyse und Modellierung, Deutscher Wetterdienst (DWD), Offenbach, und Professor für Mathematik, Universität Reading, Vereinigtes Königreich
Angaben zu möglichen Interessenkonflikten
„Im Hinblick auf meine Kommentierung der Studie liegen keine Interessenkonflikte vor.“
Prof. Dr. Sebastian Sippel
Juniorprofessor für Klima-Attribution, Institut für Meteorologie, Universität Leipzig
Angaben zu möglichen Interessenkonflikten
„Keine Interessenkonflikte in Bezug auf die Kommentierung der Studie.“