ChatGPT: Mehrwert in der Psychotherapie
Antworten von ChatGPT bei Paartherapie-Szenarien schneiden gut ab und konnten nicht von denen realer Therapeutinnen und Therapeuten unterschieden werden
künstliche Intelligenz (KI) könnte helfen, den hohen Bedarf an psychotherapeutischer Unterstützung abzufangen, doch Wirksamkeit und Risiken müssen festgestellt werden
Expertin und Experten erläutern Möglichkeiten der Anwendung von KI im therapeutischen Alltag, die Studie könne allerdings keinen ausreichenden Wirksamkeitsnachweis erbringen
Laut einer aktuellen Studie sind die von ChatGPT generierten Antworten in fiktiven Paartherapiesitzungen für Laien kaum zu unterscheiden von denen realer Psychotherapeutinnen und -therapeuten. Sie schneiden zudem besser in Bezug auf die Wirkfaktoren von Psychotherapie ab. Die Ergebnisse wurden im Fachjournal „PLOS Mental Health“ veröffentlicht (siehe Primärquelle).
Professorin für Klinische Psychologie und Psychotherapie des Kindes- und Jugendalters, Friedrich-Alexander-Universität Erlangen-Nürnberg
Stand der Forschung zur Wirksamkeit von Psychotherapie mit KI
„Die Evidenz dazu wächst langsam, umfasst aber noch nur wenige Studien, mit sehr heterogenen Anwendungsgebieten, zum Beispiel Angststörungen, Depression, Substanzmissbrauch. KI wurde darin zur Intervention und Prävention genutzt. Generell scheint das Potenzial von Chatbots zur Verbesserung der mentalen Gesundheit vielversprechend, insbesondere bei depressiven Störungen. Es bestehen jedoch noch diverse Hürden wie Anwendungsfreundlichkeit, Vorbehalte von manchen Nutzenden, Engagement der Nutzenden und ethische Fragestellungen. Chatbots haben damit noch einen eher längeren Weg hin zur Implementierung und Integration in das Gesundheitssystem. Das Potenzial, welches digitale Technologien seit langem bieten, wird in der regelversorgenden Praxis noch nicht ausgeschöpft.“
Aussagekraft der Studie
„Die Studie ist interessant und adressiert eine aktuelle Kernfrage: Wie gut sind Chatbots als Therapeuten? Allerdings lässt dich diese Frage nur bedingt mit dem Studiendesign beantworten: Zum einen werden Fallvignetten von hypothetischen Paartherapieszenarien angewendet – also kein echter Therapieverlauf mit echten Patient:innen abgebildet. Außerdem fließt kein Wirksamkeitsmaß in die Studie ein – zum Beispiel eine verbesserte mentale Gesundheit oder eine verringerte Symptomatik. Zudem gab es nur einen Prompt für ChatGPT. Die Therapeut:innen, welche ebenfalls eine kleine und sehr heterogene Gruppe sind, waren über den Vergleich mit dem Chatbot informiert, was ihr Verhalten gegebenenfalls veränderte. Dass die Versuchspersonen Expert:innen von Bot nicht unterscheiden konnten, ist meines Erachtens mittlerweile angesichts der hohen Qualität von Large Language Models (LLM) nicht überraschend. Interessant wäre die subjektive, qualitative Einschätzung der Teilnehmenden in Bezug auf die Antworten. Da lassen die Ergebnisse durchblicken, dass es einen Unterschied gab und die Bots anders bewertet wurden. Außerhalb dieses Experiments werden LLMs längst für therapeutische Fragen von Patient:innen genutzt und bei weitem nicht mit ethischen Fragestellungen ‚gepromptet‘. Die Studie ist also sehr interessant, aber bildet nur einen kleinen Teil der Möglichkeiten ab. Die Offenlegung aller Materialen – der Open Science Ansatz – ist positiv und unterstreicht die Glaubwürdigkeit der Studie.“
Limitationen der Studie
„Die Anzahl der Therapeut:innen, die in der Studie untersucht wurden, ist sehr klein, jedoch ist die Heterogenität der Therapeut:innen ein weiteres, vermutlich größeres Problem. Es ist nicht klar, wie die Therapeut:innen ausgebildet wurden – also mit welcher therapeutischen Schule – und auch ihre Erfahrung ist gemischt: Sie hatten fünf bis 25 Jahre Erfahrung. Der kulturelle Hintergrund wird nicht berichtet, aber er fließt als Messvariable ein.“
„Die ,Key Therapy Principles‘ (Wirksamkeitsfaktoren der Psychotherapie; Anm. d. Red.) sind sehr interessant und werden als wichtige Wirkfaktoren in der Forschung diskutiert. Allerdings wird ‚Erfolg‘ der Therapie damit nicht gemessen, dafür fehlt ein Therapie-Outcome, wie zum Beispiel eine Verbesserung der Paarqualität. Wenn man das trennscharf betrachtet, sind diese Faktoren als Operationalisierung hilfreich, jedoch auch etwas unscharf in der Beschreibung – Empathie kann beispielsweise unterschiedlich empfunden werden.“
„In der Studie wurden nur Vignetten und keine echte Paartherapie untersucht. Für eine Paartherapie wären drei Parteien nötig, was den Versuchsaufbau und die Möglichkeiten der Reaktion des Chatbots vergrößert oder verkompliziert. Dann könnte ein Chatbot aber zum Beispiel die Paarinteraktion beobachten, was in der Einzeltherapie nicht möglich ist.“
Realistischerer Studienansatz
„Rein wissenschaftlich gesehen, wäre es spannend, einen Therapieverlauf einer klinischen Population – Patienten mit depressiven Störungen – durch LLMs mit dem einer Therapeut:innengruppe – zum Beispiel ausgebildet in Kognitiver Verhaltenstherapie – zu vergleichen. Dabei stellt sich jedoch die Frage, ob es ethisch vertretbar ist, eine Gruppe ‚nur‘ an einen Chatbot zu verweisen. Da die Anonymität einer Maschine jedoch sogar häufig als positiv betrachtet wird, und viele Patient:innen diesen Zugang als niederschwelliger, weniger bewertend und schambesetzt empfinden, steigt meines Erachtens die Vertretbarkeit eines Versuchs, insbesondere wenn die Wirksamkeitsnachweise von Chatbots wachsen.“
Möglichkeiten der Nutzung von KI in der Psychotherapie
„Für Personen, die Hemmungen haben, sich in Psychotherapie zu begeben – etwa auf Grund des Stigmas für psychische Erkrankungen, oder wegen schambesetzter Themen –, kann es entlastend sein, mit einer nicht-bewertenden Maschine anonym in Kontakt zu treten. Allein seine Gedanken zu sortieren und negative Gefühle zu verbalisieren kann positive Effekte haben. Nichtsdestotrotz ist Psychotherapie verbunden mit Konfrontation von vermeidendem Verhalten und Unterstützung von Klient:innen dabei, beispielsweise durch Expositionen, Ängste zu überwinden. Dieser Prozess ist in dem konkreten Moment sehr anstrengend und kurzfristig nicht nur ‚wohltuend‘, längerfristig wird das Problemverhalten jedoch positiv beeinflusst. Es ist fraglich, ob Chatbots neben ihrer Rolle eines empathischen und vielleicht auch konfrontativen, motivierenden Gesprächspartners, dies leisten können. Darüber hinaus, bei allen Vorteilen, die die Anonymität bietet, ist die Person im Gespräch mit einem Chatbot im virtuellen Raum und es stellt sich die Frage, ob die Lerneffekte auf die mitunter enttäuschenden Beziehungen mit anderen Personen gut übertragen und generalisiert werden können.“
Stand der Angebote im Bereich digitale Psychotherapie
„Digitale Gesundheitsanwendungen (DiGA) sind ein guter erster Schritt, um niedrigschwellig Zugang zu Informationen zu psychischen Störungen und Interventionen zu ermöglichen. Einige wurden auch dauerhaft in das DiGA-Register aufgenommen. Andere hingegen werden nach der Erprobungsphase wieder vom Markt genommen, da sie keine ausreichenden Wirksamkeitsnachweise erbringen konnten. Das ist sehr problematisch, da potenzielle Nebenwirkungen von DiGAs unberücksichtigt bleiben. Der Zertifizierungsprozess ist aufwendig und kostspielig, weshalb viele unabhängige Anbieter ihre Produkte als ‚Wellness‘-Angebote vertreiben und so für ein unübersichtliches Feld sorgen. Grundsätzlich zeigt sich: Digitale Anwendungen, die menschliche Interaktion einbeziehen, sind wirksamer als reine ‚Selbsthilfe‘-Angebote. Wesentliche Herausforderungen sind die Nutzerfreundlichkeit technischer Lösungen, technische Barrieren, Evidenzbasierung, Datenschutz- und Sicherheitslücken sowie insbesondere eine fundierte, ethisch reflektierte Implementierung durch geschulte Fachkräfte, um eine korrekte Indikationsstellung zu gewährleisten.“
Leiter der Abteilung Arbeits- und Organisationspsychologie, Institut für Psychologie, Albert-Ludwigs-Universität Freiburg
Stand der Forschung zur Wirksamkeit von Psychotherapie mit KI
„Es gibt inzwischen einige Studien und auch Übersichtsarbeiten zu diesem Thema – allerdings wurden die Studien darin nicht unbedingt mit ‚aktuellen‘ KI-Systemen durchgeführt, sondern auch ‚einfacheren‘ Vorgängern von dem, was heute oft als KI verstanden wird, etwa ChatGPT und DeepSeek. Viel der Forschung dreht sich aktuell noch um die Frage: Was ist theoretisch möglich [1]? Wir sind noch am Anfang davon, zu verstehen, ob und wie KI in der Psychotherapie wirksam sein kann.“
„Erste Übersichtsarbeiten zeigen aber, dass sich für bestimmte psychische Erkrankungen kleine Effekte erzielen lassen: Zum Beispiel zeigt eine Studie von Lau et al., dass KI-basierte Tools – dazu zählen Konversationen mit Chatbots aber auch einfach nur Aufklärung zu psychotherapeutischen Themen – einen kleinen Effekt auf die Verringerung von depressiver Symptomatik haben kann [2]. Allerdings gibt es große Unterschiede zwischen den Studien und die Arbeit von Lau et al. zeigte keine signifikanten Effekte für Angst- oder Stresssymptomatik.“
Aussagekraft der Studie
„Die vorliegende Studie ist kaum aussagekräftig für die Frage, ob KI wirksam in der Psychotherapie sein kann. Die Studie untersucht, ob Menschen unterscheiden können, ob ein kurzer Text von menschlichen TherapeutInnen oder einer KI kommt – die TeilnehmerInnen konnten das nicht unterscheiden. Aber in Realität würden Menschen laut KI-Verordnung der EU informiert werden müssen, ob sie mit einem Menschen oder einer KI reden. Und es wäre ethisch sehr fragwürdig, Menschen nicht zu sagen, ob eine KI oder ein Mensch mit ihnen gerade psychotherapeutische Interventionen durchführt.“
„Auch die Aussagekraft zur ‚therapeutischen Allianz‘ ist sehr schwach, da hierfür nur gefragt wurde, ob die TeilnehmerInnen denken, dass der ‚Therapeut sie versteht‘. Zwar betonen auch die AutorInnen der Studie einige der Schwächen ihrer Studie, dennoch werden dann recht starke Schlussfolgerungen hinsichtlich der möglichen Effektivität von KI in der Psychotherapie gezogen. Diese Studie kann dazu eigentlich keine Aussage treffen, da die Effektivität von KI für Psychotherapie nicht untersucht wurde.“
Möglichkeiten der Nutzung von KI in der Psychotherapie
„KI-basierte Systeme wie ChatGPT haben das Potenzial Psychotherapie zu verbessern [1] [2]. Allerdings sehe ich die aktuellen Potenziale eher in der Unterstützung von Therapeuten im Alltag für beispielsweise administrative Tätigkeiten. Auch kann ich mir KI als verlängerten Arm von TherapeutInnen gut vorstellen, ein Tool das Wartezeiten vor und während der Therapie überbrückt, als Ansprechpartner dient, Informationen anbietet – wie Aufklärung zu psychotherapeutischen Themen – und damit Therapie vor- und nachbereitet.“
„Wie allerdings KI akzeptiert in die therapeutische Versorgung eingebaut werden kann und sollte, dazu fehlen die Studien mit PatientInnen und TherapeutInnen. Darüber hinaus fehlen Studien mit starker Aussagekraft zur Wirksamkeit von KI in der Therapie selbst – zum Beispiel über längere Zeiträume, mit Wartekontrollgruppen, Gruppen, die Zugriff auf klassische Therapie haben, in denen der Einsatz von KI für unterschiedliche Tätigkeiten überprüft wird.“
Forschungsgruppenleiter, Institut für Medizinische Psychologie und Medizinische Soziologie, Albert-Ludwigs-Universität Freiburg
Lasse Sander hat sein Statement nachträglich vor allem zum Stand der Forschung ergänzt. Die ursprüngliche Version finden Sie hier.
Stand der Forschung zur Wirksamkeit von Psychotherapie mit KI
„Hierzu gibt es keine belastbare Evidenz. In diesem Zusammenhang sollte hier begrifflich deutlicher differenziert werden. Aktuell ist keine KI in der Lage, Psychotherapie im eigentlichen Sinne zu betreiben. Wenn die KI entsprechend trainiert ist, dann kann psychotherapeutische Interaktion simuliert werden, wie in dem vorliegenden Artikel geschehen. Die wissenschaftlichen Studien zur Wirksamkeit von KI basieren wiederum häufig auf hoch standardisierten Studiendesigns in stark kontrollierten bis simulierten Settings und auf wenig repräsentativen Stichproben. An dieser Stelle kann man noch nicht von einer belastbaren Evidenz zur Wirksamkeit zur Reduktion von Symptomen sprechen, erst recht nicht in versorgungsrealistischen Settings.“
Aussagekraft der Studie
„Die Studie sagt aus meiner Sicht nicht viel aus über die Wirksamkeit von KI als Ersatz von Psychotherapie. Mal abgesehen davon, dass das Studiendesign zur Beantwortung dieser Frage nicht das richtige ist: Paartherapie ist keine Psychotherapie. Psychotherapie hat zum Ziel, Symptome einer psychischen Erkrankung zu reduzieren. Darüber sagt die Studie wirklich gar nichts aus, denn das ist in der Regel nicht das Ziel einer Paartherapie.“
„Die Einschätzungen zu den ,key therapy principles' wie in dem vorliegenden Artikel von Hatch und Kollegen, sagen wiederum überhaupt nichts darüber aus, ob diese Form der Interaktion im Paartherapie-Setting in irgendeiner Form zu relevanten Outcomes für die Paare führt.“
Auf die Frage, was angemessene Vergleichsgruppen sind, um ChatGPT als realistische Alternative für Gesprächstherapie durch eine reale Psychotherapeutin oder einen realen Psychotherapeuten zu untersuchen:
„Ja, dazu müsste eben eine kontrollierte Studie durchgeführt werden mit entsprechend randomisierten Teilnehmenden. Die Korrektheit oder Güte der Antworten ist dabei nur ein Aspekt unter vielen, die den potenziellen Nutzen zeigen würden. Andere Aspekte sind Vertrauen in die Behandlung, Effektivität, Adhärenz und Fehlerquellen, um nur einige zu nennen.“
Maße für Erfolg von Psychotherapieangeboten
„Der ,Erfolg‘ kann auf viele unterschiedliche Arten gemessen werden. In der Regel geht es um Reduktion von klinisch-bedeutsamen Symptomen, gemessen mit entsprechenden Fragebögen. Im Kern sollte es sich dabei um sogenannte ,patient-relevant outcomes‘ handeln, das heißt Verbesserungen in Bereichen, die aus Patientensicht als relevant erscheinen. Die Befolgung der key therapy principles ist zwar wünschenswert, aber sagt nichts über die Effektivität aus.“
Möglichkeiten der Nutzung von KI in der Psychotherapie
„Ob es unbedingt ChatGPT sein muss, kann ich nicht beurteilen und wage ich zu bezweifeln. Aber grundsätzlich sehe ich eine Reihe vielversprechender Einsatzmöglichkeiten von Large Language Models (LLM), den psychotherapeutischen Prozess – von Kontakt über Diagnose bis zur Behandlung – zu unterstützen. Vom Ersetzen sind wir sehr weit entfernt. Am Ende ist es auch eine gesellschaftliche Frage, welche Unterstützung wir uns im Falle einer psychischen Erkrankung wünschen. Wenn sich hier die Gesellschaft dazu entschließt, dass eine KI hier ein gutes Instrument ist, dann bitte. Das wage ich allerdings aktuell zu bezweifeln, weil Psychotherapie eine Reihe weiterer Funktionen hat beziehungsweise menschliche Bedürfnisse erfüllt, was über die korrekte Widergabe von therapeutischen Inhalten weit hinaus geht.“
Auf die Frage, in welchen Aspekten KI oder reale Therapie besser sei:
„Beides hat Vor- und Nachteile und es unterscheidet sich sehr je nach dem individuellen Einzelfall. Ein Chatbot hat enorme Vorteile: Er ist sehr ressourcensparend, 24/7 verfügbar und man kann sich verhältnismäßig anonym an ihn wenden, was für Personen mit einem hohen Stigma-Erleben von Vorteil ist. Viele Menschen mit psychischen Belastungen suchen selbst dann keine psychotherapeutische Praxis auf, wenn diese kostenlos und verfügbar ist. Wir müssen uns insgesamt vergegenwärtigen, dass die aktuelle Versorgungslandschaft nicht in der Lage ist, die Krankheitslast von psychischen Erkrankungen effektiv zu senken. Das ist ein Problem, wo LLMs vielleicht in der Zukunft einen wichtigen Baustein leisten können.“
Stand der Angebote im Bereich digitale Psychotherapie
„Dass es überhaupt digitale Gesundheitsanwendungen (DiGA) gibt, ist schon ein enormer Fortschritt. Insbesondere in einem Land, was so innovationsskeptisch ist wie Deutschland. KI ist derzeit in keiner DIGA integriert und dafür gibt es auch rechtliche Hürden.“
Leiter der Abteilung für Klinische Psychologie und Psychotherapie, Institut für Psychologie und Pädagogik, Universität Ulm
Stand der Forschung zur Wirksamkeit von Psychotherapie mit KI
„Die Evidenz zur Wirksamkeit von KI-Chatbots zur Verbesserung psychischer Störungen ist gegeben und hat sich die vergangenen Jahre substanziell verbessert. Die Arbeit von Li et al. [3] zeigte erste Hinweise auf die Wirksamkeit von KI-Chatbots gegenüber keiner Behandlung oder Wartelistenkontrollgruppen. Die Evidenz ist nach wie vor gering jenseits von häufig untersuchten depressiven Störungen. Bei der Ergebnisinterpretation von solchen Primärstudien muss man methodische Einschränkungen beachten: Sprachlich sollten KI-Chatbots nicht mit Psychotherapie gleichgesetzt werden, um eine Differenzierung der verschiedenen Angebote zu erreichen, die sich bezüglich des Prozesses, Settings, der Interaktion und Patient:innenpräferenz stark unterscheiden.“
Aussagekraft der Studie
„Die aktuelle Studie bietet einen weiteren Hinweis darauf, dass generative KI in der Lage ist, Sätze wie sie von Psychotherapeut:innen produziert werden, in einem psychotherapeutischen Prozess derart zu produzieren, dass sie von unbeteiligten Dritten nicht oder kaum von den Sätzen der Psychotherapeut:innen unterscheidbar sind und tendenziell als wohlformulierter eingeschätzt werden. Dieses Ergebnis ist in Einklang mit der Evidenz zum Potenzial generativer KI im Kontext sprachbasierter Medizin und somit wenig überraschend. Hierzu sei zum Beispiel auf die Arbeiten von Singhal et al. [4] zu dem Sprachmodell MedPalm2 verwiesen: Das Sprachmodell könne ärztliche Prüfungsfragen bestehen und die Antworten werden von unbeteiligten Dritten mehrheitlich den Antworten von Ärzt:innen als klar überlegen eingeschätzt.“
„Die aktuelle Studie weist einige methodische Einschränkungen auf, was die Repräsentativität und Generalisierbarkeit einschränkt. Zudem stellt die Arbeit keinen Wirksamkeitsbeleg der von der KI generierten Antworten dar. Somit ist die Arbeit als explorative Arbeit zu sehen, die die Forschung zu AI-Chatbots weiter vertieft, aber insgesamt eher den Beginn und nicht das Ende der Forschung in diesem Feld markiert.“
Realistischerer Studienansatz
„Dass es Forschung zu Grenzen und Risiken von KI zur Behandlung von psychischen Störungen bedürfte – das sind zentrale und noch unbeantworteter Aspekte. So wäre es zum Beispiel wünschenswert, wenn eine solche Arbeit auch gezielt komplexe Vignetten umfasst – mit Hinweisen auf Eigen- und Fremdgefährdungsszenarien sowie Therapiebruchhinweisen. Diese sollten idealerweise analog zu Thread Analysis im Software Bereich derart konzipiert sein, dass sie KI – und Psychotherapeut:innen – herausfordern, beispielsweise durch die Nutzung von Metaphern, versteckten Hinweisen, bildhafter Sprache oder Ironie .Zumindest mein letzter Nutzungsversuch von ChatGPT in diesem Kontext verdeutlichte eindeutige Grenzen und somit auch Gefahren, die eine Person von der Klippe hätte springen lassen, wenn sie ChatGPT gefolgt wäre. Aber dieser Nutzungsversuch ist nun auch bereits wieder ein bis zwei Jahre zurückliegend, was ja bekanntlich im Bereich der Digitalisierung und KI-Weiterentwicklung bereits Geschichte sein könnte.“
„Ich habe keine Interessenkonflikte.“
„Ich sehe keine Interessenkonflikte.“
„Interessenkonflikte jenseits dessen, dass ich in diesem Bereich wissenschaftlich arbeite, habe ich keine.“
Alle anderen: Keine Angaben erhalten.
Primärquelle
Hatch SG et al. (2025): When ELIZA meets therapists: A Turing test for the heart and mind. PLOS Mental Health. DOI: 10.1371/journal.pmen.0000145.
Weiterführende Recherchequellen
Science Media Center (2023): Durch KI sollen Chats zu mentaler Gesundheit empathischer werden. Statements. Stand: 23. Januar 2023.
Literaturstellen, die von den Expert:innen zitiert wurden
[1] Stade EC et al. (2024): Large language models could change the future of behavioral healthcare: a proposal for responsible development and evaluation. npj Mental Health Research. DOI: 10.1038/s44184-024-00056-z.
[2] Lau Y et al. (2025): Artificial Intelligence–Based Psychotherapeutic Intervention on Psychological Outcomes: A Meta-Analysis and Meta-Regression. Depression and Anxiety. DOI: 10.1155/da/8930012.
[3] Li H et al. (2023): Systematic review and meta-analysis of AI-based conversational agents for promoting mental health and well-being. npj Digital Medicine. DOI: 10.1038/s41746-023-00979-5.
[4] Singhal K et al. (2025): Toward expert-level medical question answering with large language models. Nature Medicine. DOI: 10.1038/s41591-024-03423-7.
Literaturstellen, die vom SMC zitiert wurden
[I] Barbara L et al. (2020): Digitale Gesundheitsanwendungen (DiGA) – Neue psychotherapeutische Wunderwelt?. Psychotherapie aktuell.
[II] Wampold B (2015): How important are the common factors in psychotherapy? An update. World Psychiatry. DOI: 10.1002/wps.20238.
Prof. Dr. Johanna Löchner
Professorin für Klinische Psychologie und Psychotherapie des Kindes- und Jugendalters, Friedrich-Alexander-Universität Erlangen-Nürnberg
Angaben zu möglichen Interessenkonflikten
„Ich habe keine Interessenkonflikte.“
Prof. Dr. Markus Langer
Leiter der Abteilung Arbeits- und Organisationspsychologie, Institut für Psychologie, Albert-Ludwigs-Universität Freiburg
Angaben zu möglichen Interessenkonflikten
„Ich sehe keine Interessenkonflikte.“
Dr. Lasse Sander
Forschungsgruppenleiter, Institut für Medizinische Psychologie und Medizinische Soziologie, Albert-Ludwigs-Universität Freiburg
Prof. Dr. Harald Baumeister
Leiter der Abteilung für Klinische Psychologie und Psychotherapie, Institut für Psychologie und Pädagogik, Universität Ulm
Angaben zu möglichen Interessenkonflikten
„Interessenkonflikte jenseits dessen, dass ich in diesem Bereich wissenschaftlich arbeite, habe ich keine.“