Medizin & Lebenswissenschaften

23. Januar 2023

Durch KI sollen Chats zu mentaler Gesundheit empathischer werden

KI sorgt dafür, dass Aussagen in Chats zu psychischen Problemen empathischer sind
birgt Potenzial, Chatforen empathischer zu machen, aber auch Risiko, sich zu sehr auf KI zu verlassen
bisher kein Durchbruch, insbesondere noch nicht für professionelle psychologische Behandlung

Anlass

Ein KI-Programm sorgt dafür, dass Aussagen von Nutzerinnen und Nutzern in Chats empathischer sind. Diesen Befund stellt ein Team von Forschenden aus den USA in einer Studie vor, die am 23.01.2023 im Fachjournal „Nature Machine Intelligence“ erschienen ist (siehe Primärquelle). Das Programm überprüft Formulierungen bei Laien-Gesprächen zu Problemen bei mentaler Gesundheit und schlägt mögliche empathischere Antworten vor.

In der randomisierten Studie mit 300 Teilnehmenden wurde das „Hailey“ genannte Modell auf einem App-Interface, das der Plattform TalkLife nachempfunden war, getestet. Auf TalkLife können User im nicht-klinischen Kontext mit anderen Usern über ihre psychischen Probleme schreiben. Dabei sind die Rollen so festgelegt, dass eine Person über ihre Erfahrungen und mentalen Probleme schreibt und die andere darauf reagiert und Feedback oder Ratschläge gibt. Die KI schlug bei Antworten der beratenden User Verbesserungs- und Ergänzungsvorschläge vor – mit dem Ziel, dass die Antworten empathischer wirken. Die User konnten sich entscheiden, die Vorschläge anzunehmen oder sie zu ignorieren.

Diese Hinweise haben laut den Autorinnen und Autoren dazu geführt, dass die Nachrichten im Durchschnitt als 19,6 Prozent empathischer beurteilt wurden als die von den Probandinnen und Probanden allein verfassten Nachrichten. Bei Usern, die von Problemen berichteten, sich empathisch auszudrücken, wurden die durch die KI überprüften Antworten als durchschnittlich 38,9 Prozent empathischer bewertet. Diese Verbesserungen in der Empathie der Nachrichten wurden zum einen von 50 Probandinnen und Probanden beurteilt, die ansonsten nicht an der Studie teilnahmen, zum anderen von einem weiteren KI-Modell. Da dieses aber auf dem gleichen Empathie-Modell beruht wie Hailey, hat dieser Befund allein nur begrenzte Aussagekraft – was die Forschenden auch betonen.

Bei der Frage nach der Authentizität der Antwort – also ob eine Antwort den Eindruck erweckt, dass sie von einem Menschen geschrieben wurde – schnitten die von Menschen allein verfassten Antworten am besten ab, knapp vor den von Menschen nach KI-Hinweis verfassten. Die nur von der KI verfassten Antworten lagen in der Bewertung ungefähr 30 Prozentpunkte dahinter. Daraus schließen die Forschenden, dass ein Human-in-the-Loop-Ansatz, bei dem Menschen von der KI unterstützt werden, der vielversprechendste ist, da dieser ein hohes Ausmaß an Empathie sowie Authentizität aufweist.

Diese Befunde könnten Implikationen für psychologische Behandlungen geben. Gerade in einer Zeit, in der viel darüber diskutiert wird, was KI-Modelle wie ChatGPT leisten können und in welchen Bereichen sie besser nicht eingesetzt werden sollten, stellt sich die Frage, wie solche Sprachgeneratoren in der Psychologie verwendet werden könnten. Da Therapieplätze oft schwer zu bekommen und mit langen Wartezeiten verbunden sind, rufen mögliche Alternativen großes Interesse hervor – aber auch Bedenken, da Fehler und schlechte Beratung in so einem sensiblen Bereich schwerwiegende Auswirkungen haben können.

Um die Implikationen dieser Studie und solcher Ansätze generell einzuordnen, hat das SMC Expertinnen und Experten um Statements gebeten.

Statements

Prof. Dr. Sonja Utz

Leiterin der Arbeitsgruppe Alltagsmedien, Leibniz-Institut für Wissensmedien (IWM), Tübingen

„Die Studie hat einige Stärken. Mit 300 Teilnehmenden und 10 Posts pro Person verfügt sie über eine hinreichend große Stichprobe, um belastbare Aussagen zu treffen. Sowohl die Experimentalgruppe (die Posts mit Hilfe der KI schrieb) als auch die Kontrollgruppe (ohne KI) hat ein kurzes Training zu Empathie erhalten, sodass allen Teilnehmenden klar sein sollte, was das Ziel ist. Zudem wurde der Empathiegehalt der verfassten Posts auf zwei Arten gemessen – durch menschliche Urteiler*innen und durch eine maschinelle Analyse. Dass die Empathie nicht durch die tatsächlichen Verfasser*innen der Ursprungsposts beurteilt wurde, halte ich aus ethischen Gründen für vertretbar. Es ist ein Pluspunkt, dass die Teilnehmenden nur auf zufällig ausgewählte Posts antworten sollten, diese Antworten aber nicht tatsächlich gepostet wurden.“

„Eine Schwäche ist, dass die Personen, die den Empathiegehalt der Posts beurteilen sollten, nur gefragt wurden, welche von zwei Nachrichten (mit und ohne KI) empathischer ist. Hier wäre eine Skala mit mehr Abstufungen schöner gewesen – jetzt weiß man nicht, ob die eine Nachricht nur ein kleines bisschen oder deutlich empathischer ist, und es ist auch unklar, ob beide Antworten eher wenig empathisch oder ohnehin schon recht empathisch sind. Immerhin zeigt sich dasselbe Muster für die menschliche und die automatische Kodierung. Die automatische Kodierung erfolgte auf einer Skala von 0 bis 6 – damit ist auch bei den mit Hilfe einer KI generierten Antworten mit einem Mittelwert von 1.77 noch reichlich Luft nach oben. Das sollte man bei der Interpretation der Ergebnisse berücksichtigen.“

„Es ist nicht erstaunlich, dass sich die Empathiewerte verbessern. Ein ähnlicher Effekt wäre vermutlich aufgetreten, wenn andere Personen, insbesondere erfahrene Therapeut*innen, Verbesserungsvorschläge gemacht hätten. Es gibt einige Studien, die zeigen, dass Menschen einen Ratschlag eher annehmen, wenn sie glauben, er käme von einem Menschen, als wenn sie glauben, er käme von einer KI, wenn es um moralische Entscheidungen geht. Von daher wäre es auch interessant, diese beiden Bedingungen zu vergleichen.“

Auf die Frage nach Vor- und Nachteilen des von Plattformen wie TalkLife verwendeten Ansatzes der „Peer Supporters“:
„Soziale Unterstützung ist generell hilfreich – es gibt schon seit Jahrzehnten Studien, die zeigen, dass Online Social Support-Gruppen positive Auswirkungen haben können, insbesondere für Personen, die Stigmatisierung befürchten oder wenige Personen mit dem gleichen Problem in ihrer Umgebung haben. Auch in Online-Gruppen kann ja meist jede/r kommentieren, ohne dass die Expertise überprüft wird. In Online-Foren sind die Diskussionen aber für alle sichtbar, und es kann leichter jemand eingreifen, wenn Falschinformationen verbreitet werden oder der Ton nicht angemessen ist. Dyadische Konversationen, zum Beispiel mit einem Therapie-Chatbot, halte ich für deutlich riskanter. Bei ernsthaften psychologischen Störungen ist ohnehin professionelle Hilfe angebracht.“

„Die Ergebnisse sind auch über den Therapiekontext hinaus sehr relevant, weil Sprachmodelle im letzten Jahr sehr große Fortschritte gemacht haben und mehr und mehr Menschen anfangen werden, Tools wie ChatGPT zumindest für eine erste Version ihrer Texte zu benutzen. Dadurch wird es sehr wichtig, sich die verschiedenen Kooperationsformen (alles blind übernehmen oder anpassen) anzuschauen und dann im nächsten Schritt zu untersuchen, was die Auswirkungen in den jeweiligen Domänen sind – zum Beispiel wahrgenommene Kompetenz im beruflichen Kontext. Sehr spannend ist auch die Frage, ob Menschen durch solche Tools mit der Zeit lernen, fehlerfreier, besser oder empathischer zu kommunizieren, insbesondere in einer Fremdsprache, oder ob sie sich stattdessen auf die Tools verlassen.“

„Die Studie hat auch Angaben dazu, wie viele Personen jedes Mal die KI konsultiert haben, wie viele das nur ab und zu oder gar nicht getan haben, und ob sie die Vorschläge übernommen haben. Auch wenn man die Zusammenhänge der Nutzung mit den Empathiewerten mit Vorsicht genießen sollte, weil die Untergruppen oft recht klein sind, bieten diese Daten Anknüpfungspunkte für weitere Studien.“

Prof. Dr. Nicole Krämer

Leiterin des Fachgebiets Sozialpsychologie: Medien und Kommunikation, Universität Duisburg-Essen

„Der in der Studie gewählte Ansatz ist spannend, aber die Überlegungen sind nicht komplett neu. Unter dem Stichwort ‚behavioral enhancement‘ wird in der Forschung bereits seit vielen Jahren erforscht, inwieweit in computervermittelten Diskursen das menschliche Verhalten durch technische Eingriffe ‚verbessert‘ werden kann – so finden sich bei der Kommunikation über Avatare Studien, bei denen der*die Nachrichtenempfänger*in länger angeblickt oder stärker angelächelt wurde [1]. Neu ist hier, dass dahinter nun tatsächlich ein automatisiertes System steht, das die Aussagen auf Basis eines machine learning Ansatzes selbst generiert. Leider erfährt man ausgerechnet über diesen Ansatz und das genaue Vorgehen sowie sie generelle Leistungsfähigkeit des machine learning Ansatzes im Paper vergleichsweise wenig. Was ist die Datenbasis der Trainingsdaten? Wie und von wem wurden die zugrundeliegenden Daten annotiert? Die Studie mit Nutzer*innen erscheint methodisch sauber durchgeführt, auch hier bleiben allerdings einige Aspekte unklar, die in psychologischen Journals erforderlich gewesen wären.“

Auf die Frage nach der Wirkung des KI-Systems und die Verbesserung der Empathie und ob diese überraschend ist:
„Letztlich beruhen machine learning Ansätze darauf, dass auf Basis der Daten von Menschen gelernt wird. Das Ergebnis ist also erwartungsgemäß ähnlich zu dem, was entstehen würde, wenn man die Nachrichten eines nicht-empathischen Menschen durch einen empathischen Menschen redigieren lassen würde. Insbesondere, dass die Nachrichten von eher nicht-empathisch agierenden Menschen in ihrer Wirkung verbessert werden, ist also nicht besonders erstaunlich.“

Auf die Frage nach Vor- und Nachteilen des von Plattformen wie TalkLife verwendeten Ansatzes der „Peer Supporters“:
„Sollte sich ein solches Vorgehen breit durchsetzen, kann und sollte natürlich aus ethisch-normativer Sicht sowie auch aus rechtlicher Sicht diskutiert werden, inwieweit das problematisch ist. Personen sollten vor allem immer darüber informiert sein, woher die Aussagen kommen und dass möglicherweise die Person, mit der man spricht, nicht der alleinige Urheber der Nachricht ist. Die*der Verfasser*in der Nachricht wählt zwar aus, welche Änderungsvorschläge sie*er vom KI-System übernimmt, dennoch würde die Empfänger*in über die Art des Urhebers getäuscht.“

„Die Studie bedeutet keinen Durchbruch in der zukünftigen verbesserten Behandlung psychisch kranker Menschen. Für eine solche erfolgreiche Behandlung ist mehr erforderlich als eine Steigerung der Empathie durch Anpassung der Äußerungen. Der hier gewählte Ansatz kann eventuell geeignet sein, empathischere Sprache im Alltag zu nutzen – mit der Notwendigkeit auch das ethisch und rechtlich kritisch zu reflektieren, damit die Botschäftsempfänger*innen nicht unwissentlich halb mit einem Bot sprechen.“

Dr. Tobias Rieger

Wissenschaftlicher Mitarbeiter am Fachgebiet Handlungs- und Automationspsychologie, Technische Universität Berlin

„Der Befund, dass von künstlicher Intelligenz (KI) unterstützte Teilnehmende als empathischer bewertete Antworten geben als Teilnehmende ohne derartige Unterstützung ist auf den ersten Blick keine große Überraschung. So gibt es hinreichende Befunde aus dem Bereich der Mensch-Automation-Interaktion, die nahelegen, dass Nutzende durchaus den Empfehlungen von automatisierten Unterstützungssystemen oder KI-Assistenzsystemen folgen. Die Erweiterung dieser Befunde auf eine soziale Interaktion und Empathie ist hierbei jedoch neu.“

„Besonders interessant erscheinen mir zwei Untergruppen von Studienteilnehmenden. Zum einen ist die Gruppe von Studienteilnehmenden interessant, die berichtet, ohne KI beim Formulieren empathischer Antworten Probleme zu haben: Diese Teilnehmenden zeigten eine besonders klare Verbesserung und scheinbar kann die KI hierbei als eine Art Trainingspartner fungieren, um empathischeres Verhalten zu erlernen. Dabei wäre für zukünftige Forschung relevant zu prüfen, inwiefern dieser Fertigkeitserwerb überdauern kann – also ob diese Personen auch ohne KI-Unterstützung weiterhin empathischere Nachrichten schreiben können. Zum anderen ist eine Untergruppe an gegebenen Antworten der Teilnehmenden hervorzuheben, in der lediglich die Vorschläge der KI akzeptiert wurden, ohne dass noch weitere Veränderungen am vorgeschlagenen Text vorgenommen wurden. Derartiges Verhalten kann ein Zeichen von Übervertrauen in das Assistenzsystem sein, was im Gegensatz zur oben beschriebenen Möglichkeit zum Fertigkeitserwerb auf Dauer sogar zum Fertigkeitsverlust führen kann. In diesem Fall wäre dies dann zum Beispiel der Verlust der Fertigkeit, selbst empathische Antworten zu formulieren, wenn auf Dauer immer nur direkt der KI-Empfehlung gefolgt wird. Das hätte auch zur Folge, dass die Formulierungshilfe der KI keine Unterstützung mehr ist, sondern letztlich eine gemeinsame Mensch-KI Formulierung nur noch eine KI-Formulierung werden könnte.“

„Methodisch scheint die Messung von Empathie in den Formulierungen der Teilnehmenden prinzipiell valide zu sein, da hier andere Nutzende der Plattform nach einer Einschätzung gefragt wurden. Hier wäre jedoch für eine künftige Verfestigung der Ergebnisse wünschenswert, das Level an Empathie in den geschriebenen Antworten von Expert:innen – wie etwa Psychotherapeut:innen – beurteilen zu lassen. Zudem ist klar, dass die zweite Messmethode – Bewertung der geschriebenen Antworten durch ein anderes computerbasiertes System – zumindest mit Vorsicht zu betrachten ist: Aufgrund des hohen Anteils direkt übernommener Formulierungsvorschläge beurteilt hier dann letztlich ein System das andere.“

„Um den Anwendungskontext dieser KI auf mögliche professionelle Kontexte zu erweitern, wäre sowohl eine Evaluation der Antworten durch Expert:innen wichtig als auch ein Training für den Umgang mit derartigen KI-Unterstützungssystemen.“

Angaben zu möglichen Interessenkonflikten

Prof. Dr. Sonja Utz

„Ich habe keine Interessenkonflikte.“

Dr. Tobias Rieger

„Es bestehen keine Interessenkonflikte.“

Alle anderen: Keine Angaben erhalten.

Quellen

Primärquelle

Althoff T et al. (2023): Human–AI collaboration enables more empathic conversations in text-based peer-to-peer mental health support. Nature Machine Intelligence. DOI: 10.1038/s42256-022-00593-2.

Weiterführende Recherchequellen

Prof. Dr. Nicole Krämer weist noch auf folgende Quellen hin:
Beall AC et al. (2003): Non-zero-sum mutual gaze in collaborative virtual environments. Proceedings of HCI International.

Impact, eine Tagung am 06.03. und 07.03. in Berlin, die sich mit automatisierter Kommunikation auseinandersetzt.

Literaturstellen, die von den Expert:innen zitiert wurden

[1] Oh SY et al. (2016): Let the Avatar Brighten Your Smile: Effects of Enhancing Facial Expressions in Virtual Environments. PLOS ONE. DOI: 10.1371/journal.pone.0161794.

Prof. Dr. Sonja Utz

Leiterin der Arbeitsgruppe Alltagsmedien, Leibniz-Institut für Wissensmedien (IWM), Tübingen

Mehr Informationen

Angaben zu möglichen Interessenkonflikten

„Ich habe keine Interessenkonflikte.“

Prof. Dr. Nicole Krämer

Leiterin des Fachgebiets Sozialpsychologie: Medien und Kommunikation, Universität Duisburg-Essen

Mehr Informationen

Dr. Tobias Rieger

Wissenschaftlicher Mitarbeiter am Fachgebiet Handlungs- und Automationspsychologie, Technische Universität Berlin

Mehr Informationen

Angaben zu möglichen Interessenkonflikten

„Es bestehen keine Interessenkonflikte.“

Expert:innen

Literatur