Zum Hauptinhalt springen
23.03.2023

Sprachmodelle, Robotik, Mensch-Maschine-Interaktion: What's next?

In den letzten Monaten scheint sich im Bereich der künstlichen Intelligenz (KI) besonders viel getan zu haben. Seit der Veröffentlichung von ChatGPT und den Ankündigungen anderer Tech-Giganten, bald ähnliche Modelle zur Verfügung stellen zu wollen, wurden Sprachmodelle und ihre Implikationen für verschiedenste Kontexte medial und gesellschaftlich breit diskutiert. Durch die Ankündigung und Veröffentlichung von GPT-4 vergangene Woche hat die Aufmerksamkeit für das Thema weiter zugenommen. Immer wieder kommen Fragen auf, wie Sprachmodelle und KI unser Leben in Zukunft verändern werden.

Auch für den Bereich der Robotik können Sprachmodelle wichtig werden. Hier stellte kürzlich eine Forschungsgruppe von Google und der TU Berlin Palm-E vor [1], ein mit einem visuellen Modell kombiniertes Sprachmodell. Laut den Forschenden konnte durch das Modell ein mit Greifarm und Kamera ausgestatteter Roboter Befehle wie „Bring mir die Reis-Chips aus der Schublade.“ ausführen – und dabei sogar auf Veränderungen in der Umgebung reagieren.

Sollten solche Systeme zukünftig vermehrt zu unserem Alltag gehören, stellt sich neben technischen Aspekten auch die Frage, wie Menschen mit ihnen umgehen und interagieren werden. Einerseits verhalten sich Menschen meist anders, wenn sie mit Maschinen oder Programmen interagieren und nicht mit anderen Menschen. Andererseits vermenschlichen sie maschinelle „Gesprächspartner“ oft. Und in manchen Fällen wurden von Entwicklerinnen und Entwicklern bewusst Entscheidungen getroffen, die Sprachmodelle menschlicher wirken lassen – sei es Bings Einsatz von Emojis oder die Tatsache, dass Antworten von ChatGPT nach und nach erscheinen, so als würden die Sätze gerade live getippt.

Das alles möchten wir zum Anlass nehmen, in einem Press Briefing Fragen zum Stand der Forschung und möglichen Entwicklungen bei Sprachmodellen, Robotik und Mensch-Maschine-Interaktion zu besprechen.

Was sind die nächsten Schritte in der Forschung zu und der Anwendung von Sprachmodellen? Können die Modelle noch größer und dadurch leistungsfähiger werden oder werden bald andere Methoden relevant, wie die Kombination von Sprachmodellen mit Recherchesystemen? Wo geht es in der Robotik hin, inwiefern können Sprachmodelle in diesem Bereich zu Fortschritten führen? Und was hat es mit den sogenannten emergenten Fähigkeiten auf sich – Fähigkeiten, auf die ein Sprachmodell nicht explizit trainiert wurde, die es sich aber ab einer gewissen Menge an Trainingsdaten und einer bestimmten Modellgröße „aneignet“, wie zum Beispiel die Fähigkeit zum Rechnen mit größeren Zahlen bei ChatGPT? Wie wird die Interaktion zwischen Mensch und Maschine aussehen – wie viel können wir aus der Sicht heutiger Forschung dazu überhaupt schon sagen? Und was sind die psychologischen Auswirkungen dieser Interaktionen auf Menschen?

Diese Fragen – und vor allem Ihre! – beantworteten Forschende in einem 50-minütigen virtuellen Press Briefing.

Expertin und Experten im virtuellen Press Briefing

     

  • Prof. Dr. Nicole Krämer
    Leiterin des Fachgebiets Sozialpsychologie: Medien und Kommunikation, Universität Duisburg-Essen

  •  

  • Prof. Dr. Hinrich Schütze
    Inhaber des Lehrstuhls für Computerlinguistik und Direktor des Centrums für Informations- und Sprachverarbeitung, Ludwig-Maximilians-Universität München (LMU)

  •  

  • Prof. Dr. Marc Toussaint
    Leiter des Fachgebietes Intelligente Systeme, Technische Universität Berlin, und einer der Autoren des Palm-E-Papers

  •  

Abschluss-Statements aus dem Press Briefing

Zum Abschluss des Press Briefings hat das SMC den Forschenden die Frage gestellt, welche Entwicklungen im Bereich der Sprachmodelle sie aus der Perspektive ihres Fachbereiches momentan für die wichtigsten halten.

Prof. Dr. Marc Toussaint

Leiter des Fachgebietes Intelligente Systeme, Technische Universität Berlin, und einer der Autoren des Palm-E-Papers

„Aus meiner Sicht als Robotiker ist das Interessante, dass das, was man jetzt mit Sprachmodellen macht, über Sprache hinausgehen wird. Natürlich, Sprachemodelle sind sehr stark darin, Sprache zu generieren. Aber wir kennen auch andere generative Modelle aus der KI, die jetzt auch Bilder oder Videos generieren. Und ich glaube, dass die Entwicklung dahin gehen kann, dass solche Systeme mit ähnlichen Architekturen, wie sie jetzt für Sprache entwickelt wurden – Transformern –, es schaffen, mehr und mehr Dinge zu verschränken und dadurch auch andere Dinge zu generieren. Das bedeutet zum Beispiel auch, dass Systeme womöglich Maschinen erfinden können, also mechanische Maschinen – oder sich überlegen können, wie eine Fabrik zu designen ist. Das finde ich faszinierend. Da kann also physisches Design als Gegenstand und vielleicht auch als Output einer KI entstehen. Ich glaube, dass dahin jetzt auch Entwicklungen gehen können und dass in der Hinsicht das Spannende auch Grundlagenforschung ist.“

Prof. Dr. Nicole Krämer

Leiterin des Fachgebiets Sozialpsychologie: Medien und Kommunikation, Universität Duisburg-Essen

„Ich finde besonders wichtig, zu hinterfragen, wie anthropomorph solche Systeme gestaltet sein sollten. Es birgt gewisse Gefahren, über die wir schon gesprochen haben. Es verschleiert auch ein bisschen, was die Systeme tatsächlich können, wie sehr man ihnen vertrauen kann. Eventuell verschleiert es auch, was mit den eigenen Daten passiert.“

„Mehr Aufklärung, mehr tatsächlich informierte Einwilligung zu ermöglichen, dadurch, dass Menschen besser informiert sind, ist aus meiner Sicht wichtig. Das kann man aus den psychologischen Forschungen schließen. Da sehen wir, dass Menschen viel zu wenig verstehen, was da vor sich geht. Und es muss dann auch mit rechtswissenschaftlicher und ethischer Forschung verbunden werden, um zu schauen, wie man das einhegen kann – beziehungsweise dafür sorgen kann, dass eine wirklich informierte Einwilligung erfolgt und dass Menschen wirklich wissen, womit sie da sprechen. Dass das eben kein anderer Mensch ist. Es ist ein System, das zwar am Ende auf Menschen beruht, aber auch stark fehlerbehaftet ist. So können die Nutzerinnen und Nutzer besser einschätzen, an welcher Stelle sie vertrauen können, an welcher Stelle sie das nicht sollten und an welcher Stelle sie Aussagen noch einmal im Internet prüfen und nach der eigentlichen Quelle suchen sollten. Da werden wir noch viel mehr Forschung brauchen, um zu verstehen, unter welchen Bedingungen Menschen blind vertrauen. Und wie man so ein blindes Vertrauen verhindern kann.“

Prof. Dr. Hinrich Schütze

Inhaber des Lehrstuhls für Computerlinguistik und Direktor des Centrums für Informations- und Sprachverarbeitung, Ludwig-Maximilians-Universität München (LMU)

„Ich würde zwei wichtige Entwicklungen nennen. Ich mag den Ansatz, dass man sich von Menschen inspirieren lässt. Der Mensch hat eine sehr komplexe kognitive Architektur im Gehirn, wo zum Beispiel nicht alles mit allem verknüpft ist. Das würde ich jedenfalls so sehen. Da gibt es unterschiedliche Meinungen. Deswegen bin ich ein bisschen skeptisch, dass der Transformer wirklich für die nächsten 10, 20, 30 Jahre das Grundgerüst unserer Architekturen sein wird, denn das ist eine Architektur, die überhaupt keine Annahmen über die Daten macht. Das ist völlig generalistisch, und ich kann mir nicht vorstellen, dass das zum Ziel führt. Beim Menschen ist es zumindest anders. Ich denke, architektonisch wird es neue Entwicklungen geben, die sehr wichtig sein werden.“  

„Und das zweite – das geht jetzt in dieser Debatte vielleicht ganz unter – ist, dass wir meiner Meinung nach bisher keine echte künstliche Intelligenz erreicht haben. Wir haben zwar enorme Fortschritte gemacht, und ich halte das für eine technologische Revolution, aber echte KI heißt für mich, dass man schlussfolgern kann, dass man wirklich ein tiefes Verständnis der physischen Welt und sozialen Welt hat und natürlich auch beispielsweise Mathematik lernen kann. Und all das können diese Modelle nicht. Das heißt, da ist noch sehr, sehr viel zu tun. Ich glaube, das wird uns noch für Jahrzehnte, wenn nicht länger, beschäftigen. Da wäre ich den Journalistinnen und Journalisten dankbar, wenn sie das immer im Hinterkopf behalten, dass das jetzt nicht die Lösung aller Probleme ist.“

Video-Mitschnitt & Transkript

Auf unserem YouTube-Kanal können Sie das Video auch in Sprecheransicht oder Galerieansicht sehen.

Ein Transkript kann hier als pdf heruntergeladen werden.

Angaben zu möglichen Interessenkonflikten

Prof. Dr. Nicole Krämer: „Ich habe keine Interessenkonflikte.“

Prof. Dr. Hinrich Schütze: „Ich habe keine Interessenkonflikte.“

Prof. Dr. Marc Toussaint: „Mein Doktorand (Danny Driess, Erstautor Palm-E) wurde während eines Praktikums von Google bezahlt – sonst bekamen wir keine Mittel von Google. In einem Kooperationsprojekt mit Amazon forschen wir an Robotik im Allgemeinen – ohne Bezug zu Sprachmodellen.“

Literaturstellen, die vom SMC verwendet wurden

[1] Driess D et al. (2023): PaLM-E: An Embodied Multimodal Language Model. ArXiv.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Experten und Expertinnen begutachtet wurde.