Sprachmodelle, Robotik, Mensch-Maschine-Interaktion: What's next?
In den letzten Monaten scheint sich im Bereich der künstlichen Intelligenz (KI) besonders viel getan zu haben. Seit der Veröffentlichung von ChatGPT und den Ankündigungen anderer Tech-Giganten, bald ähnliche Modelle zur Verfügung stellen zu wollen, wurden Sprachmodelle und ihre Implikationen für verschiedenste Kontexte medial und gesellschaftlich breit diskutiert. Durch die Ankündigung und Veröffentlichung von GPT-4 vergangene Woche hat die Aufmerksamkeit für das Thema weiter zugenommen. Immer wieder kommen Fragen auf, wie Sprachmodelle und KI unser Leben in Zukunft verändern werden.
Auf unserem Youtube-Kanal können Sie das Video in der Sprecheransicht oder Galerieansicht anschauen.
Das Transkript können Sie hier als pdf herunterladen.
Zum Abschluss des Press Briefings hat das SMC den Forschenden die Frage gestellt, welche Entwicklungen im Bereich der Sprachmodelle sie aus der Perspektive ihres Fachbereiches momentan für die wichtigsten halten.
Leiter des Fachgebietes Intelligente Systeme, Technische Universität Berlin, und einer der Autoren des Palm-E-Papers
„Aus meiner Sicht als Robotiker ist das Interessante, dass das, was man jetzt mit Sprachmodellen macht, über Sprache hinausgehen wird. Natürlich, Sprachemodelle sind sehr stark darin, Sprache zu generieren. Aber wir kennen auch andere generative Modelle aus der KI, die jetzt auch Bilder oder Videos generieren. Und ich glaube, dass die Entwicklung dahin gehen kann, dass solche Systeme mit ähnlichen Architekturen, wie sie jetzt für Sprache entwickelt wurden – Transformern –, es schaffen, mehr und mehr Dinge zu verschränken und dadurch auch andere Dinge zu generieren. Das bedeutet zum Beispiel auch, dass Systeme womöglich Maschinen erfinden können, also mechanische Maschinen – oder sich überlegen können, wie eine Fabrik zu designen ist. Das finde ich faszinierend. Da kann also physisches Design als Gegenstand und vielleicht auch als Output einer KI entstehen. Ich glaube, dass dahin jetzt auch Entwicklungen gehen können und dass in der Hinsicht das Spannende auch Grundlagenforschung ist.“
Leiterin des Fachgebiets Sozialpsychologie: Medien und Kommunikation, Universität Duisburg-Essen
„Ich finde besonders wichtig, zu hinterfragen, wie anthropomorph solche Systeme gestaltet sein sollten. Es birgt gewisse Gefahren, über die wir schon gesprochen haben. Es verschleiert auch ein bisschen, was die Systeme tatsächlich können, wie sehr man ihnen vertrauen kann. Eventuell verschleiert es auch, was mit den eigenen Daten passiert.“
„Mehr Aufklärung, mehr tatsächlich informierte Einwilligung zu ermöglichen, dadurch, dass Menschen besser informiert sind, ist aus meiner Sicht wichtig. Das kann man aus den psychologischen Forschungen schließen. Da sehen wir, dass Menschen viel zu wenig verstehen, was da vor sich geht. Und es muss dann auch mit rechtswissenschaftlicher und ethischer Forschung verbunden werden, um zu schauen, wie man das einhegen kann – beziehungsweise dafür sorgen kann, dass eine wirklich informierte Einwilligung erfolgt und dass Menschen wirklich wissen, womit sie da sprechen. Dass das eben kein anderer Mensch ist. Es ist ein System, das zwar am Ende auf Menschen beruht, aber auch stark fehlerbehaftet ist. So können die Nutzerinnen und Nutzer besser einschätzen, an welcher Stelle sie vertrauen können, an welcher Stelle sie das nicht sollten und an welcher Stelle sie Aussagen noch einmal im Internet prüfen und nach der eigentlichen Quelle suchen sollten. Da werden wir noch viel mehr Forschung brauchen, um zu verstehen, unter welchen Bedingungen Menschen blind vertrauen. Und wie man so ein blindes Vertrauen verhindern kann.“
Inhaber des Lehrstuhls für Computerlinguistik und Direktor des Centrums für Informations- und Sprachverarbeitung, Ludwig-Maximilians-Universität München (LMU)
„Ich würde zwei wichtige Entwicklungen nennen. Ich mag den Ansatz, dass man sich von Menschen inspirieren lässt. Der Mensch hat eine sehr komplexe kognitive Architektur im Gehirn, wo zum Beispiel nicht alles mit allem verknüpft ist. Das würde ich jedenfalls so sehen. Da gibt es unterschiedliche Meinungen. Deswegen bin ich ein bisschen skeptisch, dass der Transformer wirklich für die nächsten 10, 20, 30 Jahre das Grundgerüst unserer Architekturen sein wird, denn das ist eine Architektur, die überhaupt keine Annahmen über die Daten macht. Das ist völlig generalistisch, und ich kann mir nicht vorstellen, dass das zum Ziel führt. Beim Menschen ist es zumindest anders. Ich denke, architektonisch wird es neue Entwicklungen geben, die sehr wichtig sein werden.“
„Und das zweite – das geht jetzt in dieser Debatte vielleicht ganz unter – ist, dass wir meiner Meinung nach bisher keine echte künstliche Intelligenz erreicht haben. Wir haben zwar enorme Fortschritte gemacht, und ich halte das für eine technologische Revolution, aber echte KI heißt für mich, dass man schlussfolgern kann, dass man wirklich ein tiefes Verständnis der physischen Welt und sozialen Welt hat und natürlich auch beispielsweise Mathematik lernen kann. Und all das können diese Modelle nicht. Das heißt, da ist noch sehr, sehr viel zu tun. Ich glaube, das wird uns noch für Jahrzehnte, wenn nicht länger, beschäftigen. Da wäre ich den Journalistinnen und Journalisten dankbar, wenn sie das immer im Hinterkopf behalten, dass das jetzt nicht die Lösung aller Probleme ist.“
„Mein Doktorand (Danny Driess, Erstautor Palm-E) wurde während eines Praktikums von Google bezahlt – sonst bekamen wir keine Mittel von Google. In einem Kooperationsprojekt mit Amazon forschen wir an Robotik im Allgemeinen – ohne Bezug zu Sprachmodellen.“
„Ich habe keine Interessenkonflikte.“
„Ich habe keine Interessenkonflikte.“
Literaturstellen, die vom SMC zitiert wurden
[1] Driess D et al. (2023): PaLM-E: An Embodied Multimodal Language Model. ArXiv.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Experten und Expertinnen begutachtet wurde.
Prof. Dr. Marc Toussaint
Leiter des Fachgebietes Intelligente Systeme, Technische Universität Berlin, und einer der Autoren des Palm-E-Papers
Prof. Dr. Nicole Krämer
Leiterin des Fachgebiets Sozialpsychologie: Medien und Kommunikation, Universität Duisburg-Essen
Prof. Dr. Hinrich Schütze
Inhaber des Lehrstuhls für Computerlinguistik und Direktor des Centrums für Informations- und Sprachverarbeitung, Ludwig-Maximilians-Universität München (LMU)