Angebliche Verbesserungen bei der automatisierten Erkennung von Bots

22.04.2020

Unterschiede im Verhalten von Menschen und Bots über die Dauer einer online-Sitzung auf Twitter können erkannt und zur besseren Unterscheidung von Menschen und Bots verwendet werden. Zu diesem Schluss kommt eine Studie von Emilio Ferrara und Iacopo Pozzana, die soeben im Journal „Frontiers in Physics“ erschienen ist (siehe Primärquelle) und die auch bereits auf dem Preprint Server arXiv veröffentlicht wurde.

Dazu haben die Autoren mehrere Twitter-Datensets betrachtet. Einen Datensatz zu Twitter-Beiträgen zur Wahl in Frankreich 2017, bei dem Beiträge von angeblichen Bots und Menschen vom Tool Botometer als solche klassifiziert und aufgeteilt wurden, und einen Datensatz zu Tweets von drei Gruppen von Bots aus drei viralen Spam-Kampagnen sowie einer Gruppe echter Nutzer, bei dem sich die Klassifikation auf menschliche Einschätzungen aus einer anderen Studie beruft. Bei beiden Datensätzen wurden die „activity sessions“ der verschiedenen Gruppen betrachtet. Dabei wurde auf die Anzahl Retweets, Anzahl Antworten auf Tweets, Anzahl und Länge eigener Tweets und die Anzahl der „Mentions“ anderer Nutzer geachtet. Laut den Autoren war dabei zu sehen, dass sich das Verhalten menschlicher Nutzer in einer Session mit der Zeit leicht ändert, ein Problem, das bei den als Bots klassifizierten Gruppen weniger ausgeprägt war. Die als Bots klassifizierte Gruppe gab ebenfalls weniger Antworten, Retweets und Mentions ab, die Unterschiede waren in den meisten Fällen jedoch nicht statistisch signifikant.

Aus diesen Funden haben die Autoren verschiedene Merkmale herausgebildet, durch die Bots und Menschen angeblich voneinander unterschieden werden können und mittels maschinellem Lernen einen Algorithmus angelernt, der auf Basis dieser Erkenntnisse angeblich Bots besser erkennen kann, da die zuvor beschriebenen Faktoren bedacht werden.

Die Autoren verwenden eine recht breite Definition von Social Bots, sie definieren Social Bots als Accounts auf sozialen Medien, die nicht von menschlicher, sondern künstlicher Intelligenz kontrolliert werden.

Die verwendeten Daten sind aufgrund der Nutzungsbedingungen von Twitter leider nicht zugänglich. Außerdem ist bei der Studie zu bedenken, dass Tools wie Botometer bezüglich ihrer Genauigkeit umstritten sind, der Anteil von Bots in dem entsprechenden Datensatz also keinesfalls gesichert ist.

Übersicht

Prof. Dr. Adrian Rauchfleisch, Assistant Professor für Social Media, Social Network Analysis und Networked Journalism, Graduate Institute of Journalism, National Taiwan University (NTU), Taipeh, Taiwan
Dr. Jonas Kaiser, Affiliate am Berkman Klein Center for Internet & Society, Harvard University, USA und assoziierter Wissenschaftler am Alexander von Humboldt Institut für Internet und Gesellschaft (HIIG), Berlin

Prof. a.Z. Dr. Lena Frischlich, Vertretungsprofessorin für Medienwandel, Institut für Kommunikationswissenschaft und Medienforschung, Ludwig-Maximilians-Universität München

Statements

Prof. Dr. Adrian Rauchfleisch

Assistant Professor für Social Media, Social Network Analysis und Networked Journalism, Graduate Institute of Journalism, National Taiwan University (NTU), Taipeh, Taiwan

Dr. Jonas Kaiser

Affiliate am Berkman Klein Center for Internet & Society, Harvard University, USA und assoziierter Wissenschaftler am Alexander von Humboldt Institut für Internet und Gesellschaft (HIIG), Berlin

Zur Frage, wie die Studie methodisch zu bewerten ist:
„Die Studie weist mehrere Mängel auf: Kürzlich konnten wir zeigen, dass Botometer nur unzuverlässig zwischen Bot und Mensch unterscheiden kann [1]. So werden viele Menschen als Bots und Bots als Menschen kategorisiert. In unserer Studie konnten wir zudem zeigen, dass nicht-englische Sprachen wie etwa Deutsch Botometer noch unzuverlässiger machen. In der vorliegenden Studie wenden die Autoren jedoch Botometer auch auf einen französischen Twitter-Datensatz an. Die Klassifizierung durch Botometer ist die Grundlage für den Hauptteil der Studie.“

„Darüber hinaus versucht die Studie zwischen klassischen Sessions von Bots und Menschen zu unterscheiden. Die intuitive Annahme der Autoren: Wenn Menschen längere Zeit auf Twitter aktiv sind, werden sich diese anders verhalten als Bots. Jetzt gibt es mehrere Probleme bei dieser Herangehensweise: Selbst, wenn die Autoren hundertprozentig richtig Bots von Menschen unterscheiden würden, was sie nicht können, definieren sie ‚Sessions‘ derart willkürlich, dass kaum noch Accounts tatsächlich untersucht werden (nur maximal 0,73 Prozent der Accounts für den französischen Datensatz). Anders gesagt: So entsprechen die Resultate kaum noch dem, was typische Twitter-Nutzung widerspiegeln würde.“

Zur Frage, wie genau Ansätze wie Botometer sind und inwiefern es problematisch sein kann, Studien auf den Ergebnissen dieser Ansätze aufzubauen:
„Machine-Learning Ansätze haben zwei grundsätzliche Probleme: Sie sind einerseits stets nur so gut wie die für das Training des Tools verwendeten Daten, das heißt wenn diese Probleme aufweisen, werden diese in die Zukunft projiziert. Oder haben eben das Problem, dass ein Algorithmus, der an englischsprachigen Tweets und Accounts trainiert wird, wesentlich schlechter bei anderen Sprachen abschneidet. Und andererseits messen solche Methoden zukünftige Bots am Verhalten alter Bots. Das bedeutet, dass Bots, die eben permanent angepasst werden, um einer Sperrung von Twitter zu entgehen, so kaum identifiziert werden können. Je älter also die Datenbasis, desto schlechter die Resultate. Eine Studie auf solchen Methoden aufzubauen, kann und muss insofern nur Hand in Hand mit händischer Validierung gehen.“

Zur Frage, inwiefern die gewonnenen Erkenntnisse bei der künftigen Bestimmung von Bots hilfreich sein können:
„Unseres Erachtens sind die Ergebnisse kaum hilfreich. So ist die grundsätzliche Idee zwar intuitiv, jedoch weist die Studie auch große Probleme auf und so kann die Frage, ob es wirklich Unterschiede zwischen Sessions von Bots und Menschen gibt, nicht beantwortet werden.“

Prof. a.Z. Dr. Lena Frischlich

Vertretungsprofessorin für Medienwandel, Institut für Kommunikationswissenschaft und Medienforschung, Ludwig-Maximilians-Universität München

„Wie bei vielen Studien im Forschungsbereich wird auch bei der aktuellen Studie von Pozzana und Ferrara nicht vollkommen klar, was eigentlich mit Social Bots gemeint ist und entsprechend gemessen wird. Die renommierten Autoren definieren Social Bots als Accounts, die durch Software beziehungsweise ‚künstliche Intelligenz‘ statt durch Menschen gesteuert würden. Tatsächlich könnte es sein, dass die Bot-Entwicklung in den letzten Jahren große Sprünge gemacht hat – unsere eigenen Studien zeigen jedoch, dass bis Oktober 2018 ein Großteil des frei verfügbaren Programmiercodes für Social Bots eher simplere Funktionen (zum Beispiel Links teilen oder Liken) ermöglichte und ausgeklügelte Machine-Learning Algorithmen (‚Intelligenz‘) eher selten waren [2].“

Zur Frage, wie die Studie methodisch zu bewerten ist:
„Die Autoren berufen sich auf ein Datenset zur französischen Wahl, dass auf Basis von 23 (nicht näher beschriebenen) Stichworten 16 Millionen Tweets von über zwei Millionen Accounts umfasst. Ohne die Nennung der Begriffe und Hashtags ist es schwierig, zu bewerten, ob der Datensatz den Kern des Diskurses abbildet, die Datenbasis ist in jedem Fall groß. Einschränkend ist zu beachten, dass die Daten sich auf Twitter und die von Twitter angebotene Programmierschnittstelle (API) beschränken – weder kann also auf Soziale Medien im Allgemeinen, noch auf ‚ganz Twitter‘ generalisiert werden.“

Zur Frage, inwiefern die in der Studie erwähnte Prämisse stimmt, dass die überwiegende Mehrheit von Bots auf sozialen Medien dazu verwendet wird, die öffentliche Meinung zu manipulieren:
„Da wir die Grundgesamt von Social Bots gar nicht kennen, wissen wir eigentlich nur, dass es in den letzten Jahren vor allem Forschung gab, die sich aus dieser Perspektive mit potenziell automatisierten Pseudo-Nutzern beschäftigt haben. Zudem konzentriert sich ein Großteil der Forschung auf Twitter, bildet also nur einen kleinen Teil der digitalen Welt ab. Studien zu den verwandten Begriffen ‚Astroturfing‘ oder ‚Siblings‘ hingegen adressieren eher marktwirtschaftliche Manipulationsversuche oder sogar kriminelle Aktivitäten. Auch hier zeigt sich das Problem der fehlenden theoretischen Präzision.“

Zur Frage, wie genau Ansätze wie Botometer sind und inwiefern es problematisch sein kann, Studien auf den Ergebnissen dieser Ansätze aufzubauen:
„Die Autoren haben das – von einem der Autoren mitentwickelte – Botometer über ihren Datensatz laufen lassen und jedem Account einen sogenannten Bot-Score zugeordnet: einen Wert von 0 (definitiv ein Mensch) bis 1 (definitiv ein Bot). Botometer benutzt sehr viele verschiedene Merkmale (sogenannte Features) um Twitteraccounts als wahrscheinlich automatisiert zu klassifizieren. Damit ist es wahrscheinlich simpleren Verfahren, die nur auf ein einzelnes Merkmal setzen, überlegen. Allerdings beruhen die verwendeten Merkmale (‚Features‘) auf sogenannten Trainingsdatensätzen, bei denen die verwendeten Algorithmen lernen was als ‚Social Bot‘ klassifiziert werden soll. Diese Trainingsdatensätze sind entscheidend für die Qualität der Klassifizierung. Ohne sehr große Datensätze, die gesichert Social Bots (und nicht etwa hyperaktive Teenager oder halbautomatisierte Accounts) enthalten ist schwierig, zu sagen, was genau eigentlich klassifiziert wird. Solche Datensätze sind rar und veralten schnell.“

„Ein zentrales Problem ist, dass man oft gar nicht genau weiß, was da als Social Bot betrachtet wird. Es ist daher kaum verwunderlich, dass es bei genauer Prüfung einzelner Accounts immer wieder dazu kommt, dass sich ‚sichere Bots‘ als Personen herausstellen.“

„Die theoretischen (und damit auch praktischen) Lücken einer unklaren Social Bot Definition fallen auch in der aktuellen Studie auf. Die Autoren beschrieben ‚Social Bot‘ als ‚als Accounts, die durch Software beziehungsweise ‚künstliche Intelligenz‘ statt durch Menschen gesteuert würden. Diese Definition zeigt sich in der tatsächlichen Umsetzung dann aber kaum: Verwendet wird zum einen ein Datensatz mit manuell gelabelten Spambots (definiert als Accounts, die einen bestimmten Kandidaten immer retweetet haben, oder dubiose Werbung und Links verbreitet haben – nicht sehr ‚intelligent‘ im Alltagssinne). Zudem ist der Datensatz schon etwas älter (der zitierte Text von Cresci et al. 2017 verwendet Datensets, die teilweise noch älter sind).
Weiterhin verwenden die Autoren einen Datensatz, den sie mit Hilfe des ‚Botometers‘ klassifiziert haben. Neben den offenen Fragen, was dieser Klassifikation zu Grunde liegt, warnen die Autoren selber auf der Botometer Seite vor ‚künstlichen Grenzen zwischen Bot und Mensch‘ [3], definieren hier aber alle Accounts mit einem Bot-Score von 0.53/ 1 als Bots, während Accounts mit einem Wert unter 0.4 als Menschen gelabelt werden. Das ist ein sehr schmaler Grat, der zudem theoretisch nicht begründet wird.“

Zur Frage, inwiefern die gewonnenen Erkenntnisse bei der künftigen Bestimmung von Bots hilfreich sein können:
„Die Autoren schaffen es, durch die Berücksichtigung von Interaktionsdynamiken mit verbesserter Treffsicherheit zwischen Accounts, die das Botometer als ‚Bots‘ klassifiziert oder einfachen Spambots und – wie auch immer definierten – menschlichen Accounts zu unterscheiden. Ob die ‚Bot‘-Accounts aber tatsächlich einzig und allein algorithmisch gesteuert sind, bleibt auch hier weiterhin unklar. Zudem gilt: Pseudo-User, die teilweise auch menschlich betrieben werden (sogenannte Cyborgs), oder Accounts, die nur von Menschen zu Manipulationszwecken gesteuert werden, bleiben weiterhin wahrscheinlich unerkannt.“

„Hinzu kommt: Für die Wirkung digitaler Manipulationskampagnen ist die Frage ‚bot or not‘ fast egal – andere Ansätze (etwa von Kolleg*innen der Uni Mainz, siehe [4] oder aus unserem eigenen PropStop Projekt, siehe [5]) setzen daher eher darauf hoch aktive Pseudo-User zu erkennen, die ähnliche Inhalte in großer Zahl im Netz verbreiten und damit den Diskurs verzerren – ob es nun Menschen sind oder nicht.“

Angaben zu möglichen Interessenkonflikten

Prof. a.Z. Dr. Lena Frischlich: „Ich bin an einem der genannten Paper als Autorin beteiligt (Assenmacher et al.) mit den Autoren eines weiteren (Grimme et al.) besteht eine enge Zusammenarbeit.“

Alle anderen: Keine Angaben erhalten.

Primärquelle

Pozzana I und Ferrara E (2020): Measuring bot and human behavioural dynamics. Frontiers in Physics.

Literaturstellen, die von den Experten zitiert wurden

[1] Rauchfleisch A und Kaiser J (2020) The False Positive Problem of Automatic Bot Detection in Social Science Research. Berkman Klein Center Research Publication No. 2020-3.

[2] Assenmacher D et al. (2020): Inside the Tool Set of Automation: Free Social Bot Code Revisited. In: Grimme C et al. (Eds.): Disinformation in open online media (pp. 101–114). Springer International Publishing.

[3] Botometer FAQ: How should I interpret a bot score?

[4] Kruschinski S et al. (2019): In search of the known unknowns. The methodological challenges in developing a heuristic multi-feature framework for detecting social bot behavior on Facebook. In: Müller P. et al. (Eds.): Dynamische Prozesse der öffentlichen Kommunikation: Methodische Herausforderungen (Vol. 15). Herbert von Halem Verlag.

[5] Grimme C et al. (2018): Changing Perspectives: Is It Sufficient to Detect Social Bots? In: International Conference on Social Computing and Social Media (pp. 445-461). Springer, Cham.