Digitales & Technologie

Statements

14. Januar 2026

Sprachmodelle entwickeln unerwünschte Verhaltensweisen

  • Chatbots übertragen in Studie erlerntes, aufgabenspezifisches schädliches Verhalten auf alle Anfragen

  • laut Autor:innen ist dieses Fehlverhalten emergent, entstand also unvorhergesehen, konnte nicht direkt aus dem Training abgeleitet werden und könnte daher auch in anderen Kontexten auftreten

  • Expertinnen und Experten: emergente Fähigkeiten von Sprachmodellen bereits bekannt, aber Gründe weiter unklar; bestimmtes Training könnte „bösartige“ Persönlichkeitsanteile der Modelle prominenter machen