Zum Hauptinhalt springen
12.05.2023

Open-Source-Sprachmodelle – Konkurrenz für ChatGPT und Co.?

     

  • Tech-Unternehmen geben oft kaum Details über Funktionsweise ihrer großen Sprachmodelle preis
  •  

  • Open-Source-Ansätze könnten für Transparenz sorgen
  •  

  • Experten betonen die Vorteile, große proprietäre Modelle sind aber weiterhin leistungsfähiger
  •  

Spätestens seit der Einführung von ChatGPT sind Sprachmodelle auch für die breite Gesellschaft ein Begriff. Oft wird aber kritisiert, dass sich die meisten großen Sprachmodelle im Besitz von Tech-Unternehmen wie Google und Microsoft befinden, die – gerade auch im Fall von GPT-4 – kaum Informationen über das „Innenleben“ der Modelle preisgeben. Demgegenüber steht eine Open-Source-Bewegung, die an öffentlich einseh- und nutzbaren Sprachmodellen arbeitet. Als Anfang März das Sprachmodell LLaMA von Meta – das vorher schon teilweise veröffentlicht worden war – samt Gewichtungen geleakt wurde, hat diese Bewegung noch einmal Aufwind bekommen.

Seitdem hat es in der Open-Source-Szene einige vielversprechende Entwicklungen im Bereich von Sprachmodellen gegeben, die zum Teil auch auf LLaMA basieren. Trotz, oder gerade wegen dieser Fortschritte stellt sich aber die Frage, inwiefern solche offenen Modelle leistungstechnisch den großen proprietären Sprachmodellen wie OpenAIs GPT-4 oder Googles kürzlich angekündigtes PaLM 2 ebenbürtig sind.

Können durch den offenen und transparenten Ansatz einige der größten Kritikpunkte an den bisherigen großen Modellen ausgeräumt werden? Und inwiefern könnten die Modelle durch kleinteilige Nachjustierung, die durch die öffentliche Verfügbarkeit und Veränderbarkeit des Codes möglich wird, besser und einfacher an spezialisierte Aufgaben angepasst werden?

Ein kürzlich veröffentlichtes, angeblich von einem Google-Forscher stammendes geleaktes Dokument hat diese Fragen nach dem Potenzial von Open-Source-Sprachmodellen auch noch einmal öffentlichkeitswirksam thematisiert [I]. Um diese Debatte wissenschaftlich fundiert einzuordnen, haben wir Wissenschaftlerinnen und Wissenschaftler um Statements zu dem Thema gebeten.

Übersicht

     

  • Dr. Sven Schmeier, Chief Engineer und stellvertretender Leiter des Speech & Language Technology Lab, Deutsches Forschungszentrum für Künstliche Intelligenz GmbH (DFKI), Berlin
  •  

  • Prof. Dr. Hinrich Schütze, Inhaber des Lehrstuhls für Computerlinguistik, und Direktor des Centrums für Informations- und Sprachverarbeitung, Ludwig-Maximilians-Universität München (LMU), München
  •  

  • Prof. Dr. Holger Hoos, Alexander von Humboldt Professor für Methodik der Künstlichen Intelligenz, Rheinisch-Westfälische Technische Hochschule Aachen (RWTH), Aachen
  •  

  • Prof. Dr. Bernd Bischl, Professor für Statistical Learning and Data Science, Ludwig-Maximilians-Universität München (LMU), München, und Mitbegründer der Plattform OpenML
  •  

Statements

Dr. Sven Schmeier

Chief Engineer und stellvertretender Leiter des Speech & Language Technology Lab, Deutsches Forschungszentrum für Künstliche Intelligenz GmbH (DFKI), Berlin

„Die Vorteile von Open-Source-Modellen liegen, wie auch bei anderen Open-Source-Projekten, größtenteils in: Transparenz und Nachvollziehbarkeit der Ergebnisse, Anpassbarkeit auf Domänen, dezentrale Kontrolle, Möglichkeit des ‚on premise‘ Betriebs (Nutzung von ‚fremder‘ Software auf eigener Hardware; Anm. d. Red.), schnellerer Innovation, Qualität und gesteigerter Sicherheit (als Nebenwirkung der dezentralen Kontrolle). Zusätzlich geht es um Kosteneffizienz, Unabhängigkeit von kommerziellen Anbietern und damit um das Fehlen eines Vendor Lock Ins (die Abhängigkeit von Dienstleistungen oder Produkten eines bestimmten Anbieters; Anm. d. Red.). Diese Aspekte sind insbesondere für den Mittelstand in Deutschland von hoher Bedeutung. Im Kontext der wissenschaftlichen Arbeit können die Open-Source-Modelle für Ausbildung und Lehre sowie für interdisziplinäre Kollaboration genutzt werden.“

„Das Arbeiten mit Open-Source-Modellen ist ähnlich komfortabel wie bei kommerziellen Modellen. Aktuell sind die großen Modelle von Google und OpenAI für viele Anwendungen allerdings noch leistungsfähiger. Die Vergangenheit hat jedoch gezeigt, dass Open-Source-Projekte die kommerziellen Angebote zeitlich verzögert vor allem dann überholen, wenn es sich um Basistechnologien handelt, wie Sprachmodelle, und nicht um hochspezialisierte Produkte.“

„Die Grenzen von Open-Source-Modellen bestehen letztlich in der Beschränktheit der gebündelten Hardware-Ressourcen, auf die zugegriffen werden kann. Anbieter wie Google und OpenAI/Microsoft haben außerordentlich große zentrale Hardware-Cluster und sind deshalb skalierbarer. Allerdings gibt es auch hier bereits Open-Source-Ansätze wie zum Beispiel Petals [1], in denen mit verteilter Hardware innerhalb der Community gearbeitet wird.“

Auf die Frage, welchen Einfluss solche Open-Source-Modelle in Zukunft auf die Forschung haben können und ob die Abhängigkeit von den Anbietern der großen Sprachmodelle abnehmen wird:
„Die fehlende Transparenz – sowohl was die Modelle als auch die Herkunft der Daten und damit verbundene Urheber- oder Persönlichkeitsschutzrechte anbelangt – macht die direkte Forschung an den kommerziell angebotenen Systemen unmöglich. Natürlich sind die Ressourcen für angewandte Forschung sehr gut nutzbar, aber auch hier stellt sich die Frage bezüglich der Nachhaltigkeit. Ähnliches hat sich bereits früher im Bereich der maschinellen Übersetzung gezeigt: War es eine gewisse Zeit möglich, die Ressourcen von zum Beispiel Google innerhalb der Forschung zu nutzen, wurde ab einem gewissen Zeitpunkt durch neue Lizenzbestimmungen ein Riegel davorgeschoben. Ebenso hatte man keinen Einfluss auf die verwendeten Modelle, sodass eine kontinuierliche Qualität in Forschungsprototypen nicht gewährleistet war.“

„Die genannten Vorteile von Open-Source-Modellen schlagen sich unmittelbar in der Forschung nieder, und insofern sind wir als Forschungseinrichtung sehr froh über die derzeitigen Entwicklungen im Bereich der Open-Source-Sprachmodelle.“

Auf die Frage, welche Rolle Open-Source-Sprachmodelle schon jetzt spielen und welche Modelle Potenzial haben:
„Es gibt verschiedene Open-Source-Sprachmodelle, die wir in der Forschung seit Jahren nutzen. Anbieter wie HuggingFace [2] oder European Language Grid [3] und weitere stellen diese Sprachmodelle auf ihrer Plattform zur Verfügung. Der Zugriff ist unkompliziert und sowohl für direkte als auch für angewandte Forschung nutzbar. Kommerzielle Anbieter dürften schon auf diese Möglichkeit zurückgegriffen haben – zum Beispiel Anbieter von Chatbot-Lösungen, Customer Relationship Management, E-Commerce und so weiter.“

„Im Bereich der großen Sprachmodelle hat Meta mit LLaMA (Large Language Model Meta AI) [4] der Forschung einen großen Dienst erwiesen. Aufbauend auf diesem Sprachmodell wurden Weiterentwicklungen in Richtung ChatGPT von Forschenden durchgeführt – zum Beispiel von Studierenden der Stanford Universität, die das Modell Alpaca entwickelt haben [5]. Es kommen derzeit fast wöchentlich neue Sprachmodelle ‚auf den Markt‘, sodass erwartbar ist, dass der Vorsprung kommerzieller Produkte kleiner wird.“

Prof. Dr. Hinrich Schütze

Inhaber des Lehrstuhls für Computerlinguistik, und Direktor des Centrums für Informations- und Sprachverarbeitung, Ludwig-Maximilians-Universität München (LMU), München

„Open-Source-Sprachmodelle sind immer noch nicht so leistungsstark wie GPT-4. Ich denke, es gibt keine ernsthaften Evaluationen, die bei den momentan veröffentlichten Open-Source-Modellen eine Performanz beim Chat zeigen, die mit GPT-4 vergleichbar ist.“

„Ich hoffe natürlich, dass ich falsch liege. Das würde meine Arbeit sehr viel einfacher machen. Und einige Open-Source-Modelle sind auch für uns in der Forschung und der Arbeit bereits jetzt nützlich. Mit Modellen wie Cerebras und Ablegern von LLaMA arbeiten Doktoranden von mir bereits erfolgreich.“

„Es kann gut sein, dass es in wenigen Jahren so weit ist, dass Open-Source-Sprachmodelle von der Leistung her an die proprietären Modelle der großen Tech-Firmen wie OpenAI/Microsoft oder Google herankommen. Vielleicht auch schon im nächsten Jahr. Momentan halte ich das aber noch für Wunschdenken.“

„Das angeblich von einem Google-Forscher geleakte Dokument, das kürzlich veröffentlicht wurde, hat die öffentliche Debatte um Open-Source-Sprachmodelle noch einmal angestoßen. Allerdings wurde das Dokument unmittelbar nach einer Verschärfung der Google-Richtlinien zur Veröffentlichung von Forschungsarbeiten und -daten veröffentlicht. Bisher konnte man bei Google problemlos veröffentlichen. Jetzt nicht mehr. Der Verdacht liegt nahe, dass denjenigen bei Google, die für mehr Freiraum kämpfen, durch dieses Dokument und die öffentliche Debatte der Rücken gestärkt werden soll. Ich persönlich fand das Dokument in den meisten Punkten nicht überzeugend.“

Prof. Dr. Holger Hoos

Alexander von Humboldt Professor für Methodik der Künstlichen Intelligenz, Rheinisch-Westfälische Technische Hochschule Aachen (RWTH), Aachen

„Aus meiner Sicht sind Open-Source-Ansätze bei generativen KI-Modellen, und insbesondere Sprachmodellen, von großer Bedeutung. Kleinere Open-Source-Modelle können prinzipiell nützlich sein – zum Beispiel in spezifischen Bereichen, wie der Medizin – aber es ist essenziell, dass Deutschland und Europa auch bei den großen, universellen Modellen global mithalten kann, dass solche Modelle breit verfügbar, und dass die Architektur und das Training dieser Modelle nachvollziehbar wird.“

„Sprachmodelle – kommerziell sowie Open Source – haben nach wie vor große Schwächen im Bereich der Zuverlässigkeit in der Anwendung. Insbesondere neigen sie zur Erzeugung von fiktiven Fakten und Quellen und haben stark eingeschränkte Fähigkeiten, selbst relativ einfache logische Schlüsse zu ziehen. Das macht zum Beispiel ihren Einsatz in der Wissenschaft und in der Forschung, aber auch im kritischen Journalismus problematisch. Für die Erstellung korrekter Software – ein Bereich, in dem Modelle wie ChatGPT und GPT-4 zunehmend eingesetzt werden – sind diese Schwächen besonders brisant, da sie hier zu teilweise sehr subtilen aber möglicherweise kostspieligen Fehlern führen.“

„Weiterhin bilden derzeitige Sprachmodelle – übrigens auch dem Grundansatz nach – die Vielfalt an Perspektiven, die uns nicht nur in Deutschland und Europa wichtig ist, nur ungenügend ab. Das macht beispielsweise den Einsatz in der Websuche problematisch, da sich hier durch den Einsatz solcher Modelle eine kritische Verengung der Perspektive auf eine statistische Mehrheit ergeben kann.“

„Das größte Problem für uns in Deutschland und Europa im Zusammenhang mit generativen KI-Modellen ist allerdings eine schnell zunehmende, tiefe und zunehmend schwer aufzuholende technologische Abhängigkeit von einer kleinen Anzahl von US-basierten kommerziellen Unternehmen. Der zu erwartende breite Einsatz dieser trotz ihrer Schwächen sehr wichtigen KI-Methoden führt schnell in eine Situation, in der große Teile unserer Wirtschaft und Verwaltung bei einer etwaigen Einschränkung der Nutzung – zum Beispiel aus politischen Gründen – schwerst betroffen wären. Genauso wenig wie eine breite Abhängigkeit von Energielieferungen aus Russland können wir uns eine solche Abhängigkeit von KI-Schlüsseltechnologie aus den USA leisten. Auch marktwirtschaftlich wäre eine solche Abhängigkeit von wenigen Anbietern äußerst bedenklich, denn auch in der KI gilt: Konkurrenz belebt das Geschäft.“

„Open-Source-Modelle sind nur ein wirklicher Teil der Lösung, wenn Sie bezüglich ihrer Leistungsstärke und breiten Einsetzbarkeit mit den kommerziellen Produkten mithalten können – und Ähnliches gilt für andere Schlüsseltechnologien aus dem Bereich der KI, sowie für die Rechenressourcen, die in diesem Zusammenhang benötigt werden.“

„Es ist daher von großer Wichtigkeit, dass sich Deutschland und Europa nicht nur auf kleine Sprachmodelle und andere spezialisierte KI-Methoden verlassen, sondern jetzt entschieden und wirksam in die KI investieren, um sicherzustellen, dass diese Schlüsseltechnologie ‚made in Europe‘, basierend auf europäischen Werten und Anforderungen – zum Beispiel im Bereich Produktsicherheit – in echter Konkurrenz zu Entwicklungen in den USA und anderswo stehen können. Dabei sollte Europa in öffentliche Forschung und forschungsnahe Entwicklung in diesem Bereich investieren, um sicherzustellen, dass KI-Technologien wie Sprachmodelle breit zur Verfügung stehen und ihre Schwächen und Grenzen gründlich erforscht werden können.“

„Die derzeitige Entwicklung im Bereich der Sprachmodelle zeigt einmal mehr, dass wir uns in Europa nicht darauf beschränken dürfen, nur zu regulieren. Wir benötigen dringend eine große, gezielte Investition – und zwar nicht nur in Forschungsnetzwerke, sondern auch in eine zentrale Einrichtung, die mit OpenAI/Microsoft, Google und Meta in der KI mithalten kann – ein CERN für KI mit internationaler Magnetwirkung für Top-Talente, an dem frei und nur den Interessen der Öffentlichkeit verpflichtet KI-Forschung auf internationalem Spitzenniveau betrieben werden kann, als bewusstes Gegengewicht zur Dominanz der Big-Tech-Firmen aus den USA.“

„KI ist zu bedeutsam für unsere Wirtschaft und Gesellschaft, um Spitzenforschung in diesem Bereich einer kleinen Anzahl US-Großunternehmen allein zu überlassen, und dies gilt insbesondere für große, breit einsetzbare Sprachmodelle. Kleine, spezialisierte Open-Source-Sprachmodelle allein sind keine wirkliche Lösung für dieses Problem.“

Prof. Dr. Bernd Bischl

Professor für Statistical Learning and Data Science, Ludwig-Maximilians-Universität München (LMU), München, und Mitbegründer der Plattform OpenML

„Open-Source-Modelle, meist mit freizügigen Lizenzen (zum Beispiel Apache 2.0 oder CC BY 4.0) veröffentlicht, können von anderen Forschern als eine Art Fundament verwendet werden. Basierend darauf können andere Forscher Änderungen, Weiterentwicklungen und Verbesserungen ohne Einschränkungen vornehmen. Dies ist vermutlich als der größte Vorteil solcher Modelle anzusehen, genauso wie es auch mit der Entwicklung anderer Open-Source-Software ist.“

„Die objektive Evaluation kleinerer Open-Source-Modelle ist eine der großen zukünftigen Herausforderungen, vor denen das Feld steht. Während ‚klassische‘ Machine-Learning-Modelle mithilfe von mehr oder weniger eindeutigen Metriken wie zum Beispiel der Accuracy evaluiert werden können, fällt dies bei Modellen, die Text generieren, deutlich schwerer. Ebenso ist die Definition davon, was als ‚klein‘ zu bezeichnen ist, äußerst unscharf: Im Vergleich zu LLMs wie GPT-3 (175 Milliarden Parameter), ChatGPT (unklar, vermutlich jenseits der Billion) und Co. können viele Open-Source-Modelle mit zwischen einer und zehn Milliarden Parametern als ‚klein‘ angesehen werden. Weiterhin auch nicht außer Acht gelassen werden dürfen hierbei jedoch auch Modelle unterhalb einer Milliarde Parameter, die nicht generativer Natur, für viele fachspezifische Anwendungsfälle jedoch immer noch sehr relevant sind.“

„Unabhängig von der Modellgröße weisen viele kommerzielle sowie Open-Source-Modelle weiterhin gravierende Schwächen auf, da die Eliminierung von Biases und Stereotypen weiterhin ein ungelöstes Problem darstellt und auch die Qualität solcher Modelle für andere Sprachen als Englisch deutlich schlechter und sehr heterogen ist.“

Auf die Frage, welchen Einfluss solche Open-Source-Modelle in Zukunft auf die Forschung haben können und ob die Abhängigkeit von den Anbietern der großen Sprachmodelle abnehmen wird:
„Wie schon in dem geleakten Dokument des Google-Forschers geschrieben, spielt die Wieder- und Weiterverwendbarkeit von Sprachmodellen eine zentrale Rolle. Lediglich Modelle, die Open Source verfügbar sind und deren Entstehungsprozess transparent dokumentiert ist, können als solides Fundament für weitere Forschung angesehen werden. Darüber hinaus wird in der Community darüber diskutiert, ob das aktuelle ‚höher, schneller, weiter‘ auf Dauer die Richtung des Felds bestimmen sollte. Es gibt eine durchaus nicht zu vernachlässigende Anzahl an Forschungsbemühungen, die wieder in Richtung kleinerer und recheneffizienterer Modelle gehen. Hierfür ist natürlich Open-Source-Verfügbarkeit ebenfalls ein großes Plus.“

„Fakt ist, dass die Big-Tech-Unternehmen weiterhin sowohl sehr viel menschliche und finanzielle Ressourcen als auch sehr viele Rechenressourcen in die Entwicklung der Modelle stecken, was eher so zu deuten ist, dass sie weiterhin ein wichtiger Player bleiben werden. Nicht außer Acht gelassen werden darf bei diesen Überlegungen aber der Faktor ‚Daten‘, da die Qualität der Modelle auch maßgeblich von den Daten abhängt. Hier hat sich in der Vergangenheit gezeigt, dass auch die Open-Source-Community in der Lage war, qualitativ hochwertige Daten zu erzeugen. Darüber hinaus zeigt es sich, dass allein der Zugang zu Closed-Source-Modellen ausreicht, um eine hinreichende Menge an Input-Output-Paaren zu generieren, die wiederum als Daten für das Training eines eigenen Modells dienen können.“

Auf die Frage, welche Rolle Open-Source-Sprachmodelle schon jetzt spielen und welche Modelle Potenzial haben:
„Die Neuigkeiten über die Entwicklung solcher Open-Source-Modelle sind omnipräsent, egal ob auf einschlägigen Fachkonferenzen, Diskussionen im Kollegenkreis oder auf Plattformen akademischer Kommunikation (zum Beispiel Twitter). Die Berichterstattung in den Medien fokussiert sich hingegen weitestgehend auf kommerzielle Closed-Source-Modelle wie ChatGPT oder BARD. Berichte über die kommerzielle Nutzung von Open-Source-Modellen halten sich aktuell noch sehr in Grenzen, jedoch werden mittlerweile vermehrt Open-Source-Modelle veröffentlicht, welche kommerzielle Nutzung explizit erlauben (Apache- Lizenz 2.0, zum Beispiel das Sprachmodell MPT-7B). Darüber hinaus sind diese Entwicklungen für diese Generation von Doktoranden und Forschern ein zweischneidiges Schwert: Auf der einen Seite erleben wir vermutlich so spannende Zeiten für dieses Forschungsfeld wie nie zuvor, auf der anderen Seite herrscht auch große Verunsicherung, ob es weiterhin möglich sein wird, mit Big Tech beziehungsweise großen Forschungslaboren zu konkurrieren und erfolgreich zu forschen. Weiterhin ist es noch unklar, wie diese Entwicklungen die Art und Weise verändern, wie Forschung in diesem Feld in Zukunft betrieben wird.“

„Die Frage, welche Open-Source-Sprachmodelle Potenzial haben, ist (und bleibt vermutlich) sehr schwer zu beantworten, da der Horizont, für den es möglich ist, einen ‚informed guess‘ bezüglich zukünftiger Entwicklungen abzugeben, aktuell extrem zusammengeschrumpft ist. Kein einzelnes Modell, sondern eine Methode beziehungsweise Technik, die aufgrund der enormen Reduktion des Rechenaufwands vielversprechend erscheint, ist die sogenannte Low Rank Adaption [6], die es erlaubt, bestehende Modelle zu einem Bruchteil des Rechenaufwands anzupassen. Generell ist das dauerhafte Potenzial bei Open-Source-Modellen mit freizügigen Lizenzen höher einzuschätzen, da diese als eine Art Fundament angesehen werden können, auf dem andere Forscher Änderungen, Weiterentwicklungen und Verbesserungen ohne Einschränkungen vornehmen können.“

Angaben zu möglichen Interessenkonflikten

Prof. Dr. Hinrich Schütze: „Keine Interessenkonflikte.“

Prof. Dr. Holger Hoos: „Keine.“

Prof. Dr. Bernd Bischl: „Ich sehe bei mir absolut keine Interessenkonflikte.“

Alle anderen: Keine Angaben erhalten.

Literaturstellen, die von den Experten zitiert wurden

[1] Petals. Dezentralisierte Plattform zum Ausführen von großen Sprachmodellen.

[2] Hugging Face. Unternehmen, das Werkzeuge und Bibliotheken für Anwendungen des maschinellen Lernens bereitstellt.

[3] European Language Grid. Plattform für Sprachtechnologie in Europa.

[4] Meta AI (24.02.2023): Introducing LLaMA: A foundational, 65-billion-parameter large language model.

[5] Janssen JK (24.03.2023): ChatGPT-Klon läuft lokal auf jedem Rechner | Alpaca/LLaMA ausprobiert. Heise online.

[6] Hu EJ et al. (2021): LoRA: Low-Rank Adaptation of Large Language Models. Arxiv.
Hinweis der Redaktion: Es handelt sich hierbei um eine Vorabpublikation, die noch keinem Peer-Review-Verfahren unterzogen und damit noch nicht von unabhängigen Experten und Expertinnen begutachtet wurde.

Literaturstellen, die vom SMC zitiert wurden

[I] Patel D et al. (04.05.2023): Google "We Have No Moat, And Neither Does OpenAI". SemiAnalysis.