Prof. Dr. Helena Mihaljević, Professorin für Data Science und Analytics an der HTW Berlin © HTW Berlin / Alexander Rentsch

01 Juli 2024

„Ein zentrales Anliegen ist es, zivilgesellschaftliche Akteur*innen in die Mitentwicklung der Technologie einzubinden.“

Die Corona-Pandemie und die anschließende Impfdebatte, der russische Angriffskrieg auf die Ukraine und die politische Reaktion des Westens oder die vermeintliche Beeinflussung von Wahlen weltweit. Seit Jahren stehen zivilgesellschaftliche Akteur*innen vor der Herausforderung, die wachsende Menge an Online-Inhalten demokratiefeindlicher Bewegungen zu erfassen und zu analysieren. Verschwörungserzählungen stellen dabei eine besondere Herausforderung dar.

Unter dem Namen “Analyse- und Recherche-Software zur KI-gestützten Analyse antidemokratischer Bewegungen online (ARAI)” entwickelt ein Team der HTW Berlin gemeinsam mit democ e. V. eine KI-gestützte Open-Source-Technologie, die nicht nur Texte, sondern auch Bild und Ton auf Telegram durchsuchen und analysieren kann. Im Gespräch mit #ai_berlin spricht Projektleiterin Prof. Dr. Helena Mihaljević im Detail über den technologischen Ansatz hinter dem BMBF-geförderten Forschungsprojekt, das Thema Open Source, ethische Grundsätze von KI-Systemen sowie Gender Bias.

Prof. Dr. Mihaljević, was hat Sie dazu bewogen, sich auf Data Science und Analytics zu spezialisieren, und was inspiriert und motiviert Sie besonders an Ihrer Arbeit?

Während meiner Arbeit beim FIZ Karlsruhe war ich in verschiedenen Projekten für angewandte Forschung involviert – wir haben beispielsweise Verfahren für die Disambiguierung von Autor*innen wissenschaftlicher Publikationen entwickelt, oder auch Suchmaschinen für mathematische Formeln. Diese Projekte haben mein Interesse an Data Science geweckt, ein vielseitiges und interdisziplinäres Feld, in dem ich meine Skills als Mathematikerin gut einsetzen kann.

Datenanalysen und datenbasierte Modelle werden in sehr vielen Bereichen eingesetzt. Das eröffnet die Möglichkeit, sich mit unterschiedlichen Problemen und Anwendungen zu befassen. Mich interessieren dabei vor allem Projekte, in denen ich eine hohe gesellschaftliche Relevanz sehe. Die Komplexität der Arbeit mit Daten ist eine weitere Motivation. Wer in diesem Kontext gearbeitet hat, weiß, wie viele Dimensionen ein Data-Science-Projekt hat und wie wichtig es ist, die einzelnen Schritte immer wieder kritisch zu hinterfragen. Die heutigen Modelle und Technologien im Bereich des Maschinellen Lernens und der NLP sind mächtige Werkzeuge, die vielseitig einsetzbar sind. Doch sobald man den kontrollierten Laborrahmen verlässt, in dem viele Verfahren entwickelt und evaluiert werden, sieht man sich mit einer Vielzahl von Herausforderungen konfrontiert, die interdisziplinäre und kreative Lösungen erfordern.

Ich arbeite gerne mit Fachleuten aus verschiedenen Disziplinen zusammen und lerne dabei täglich Neues, insbesondere aus den Anwendungsdomänen. Diese Vielfalt und die ständige Weiterentwicklung machen meine Arbeit besonders spannend und erfüllend.

Erst einmal herzlichen Glückwunsch zur Auswahl von ARAI als eines der BMBF-geförderten DATI-Pilotprojekte. Wie ist dieses entstanden und können Sie erklären, wie KI ganz generell dazu beitragen kann, die Zivilgesellschaft zu unterstützen?

In ARAI geht es darum, ein Open-Source-Tool für KI-gestützte Analysen und Monitoring von verschwörungsideologischen Inhalten auf dem Messengerdienst Telegram zu entwickeln. Diese Arbeit wird von zahlreichen zivilgesellschaftlichen Organisationen und Journalist*innen durchgeführt, um demokratiefeindliche, oftmals rechtsextreme Bewegungen zu beobachten und auf entsprechende Entwicklungen reagieren zu können. Welche Tragweite Verschwörungstheorien haben können, sehen wir vor allem bei Krisen – seien es die COVID-19-Pandemie oder Kriege, aber auch Ereignisse von großer politischer Tragweite wie Proteste oder Wahlen. Das von uns entwickelte Tool soll kontinuierlich in Zusammenarbeit mit zivilgesellschaftlichen Akteur*innen evaluiert werden, wobei wir diese aktiv in den Entwicklungsprozess einbinden möchten.

In einem unserer früheren Projekte haben wir digitale Hassrede im Kontext der COVID-19-Pandemie erforscht. In einem weiteren Projekt mit Matthias Becker vom Zentrum für Antisemitismusforschung (ZfA) haben wir an der automatisierten Erkennung antisemitischer Äußerungen in Mainstream-Online-Medien gearbeitet. Diese Projekte umfassten unter anderem die Entwicklung von Annotationsschemata für Verschwörungserzählungen und antisemitische Rede in Social-Media-Texten, die Erstellung und Annotation von Datensätzen, das Training von Detektionsmodellen und die Evaluation bestehender Technologien.

Dabei kooperierten wir bereits eng mit verschiedenen Akteur*innen der Zivilgesellschaft. Es wurde deutlich, dass es einen großen Bedarf an besseren technologischen Lösungen gibt, insbesondere für das Monitoring einschlägiger Kanäle und Communities auf Plattformen wie Telegram. Die Menge an Nachrichten ist mit manueller Bearbeitung kaum zu bewältigen. Zudem sind einfache Methoden wie stichwortbasierte Suche oft unzureichend, da Wörter je nach Kontext unterschiedliche Bedeutungen haben können, Nutzer*innen ihre Aussagen kodieren und neue Trends ein neues Vokabular mit sich bringen. Viele zivilgesellschaftliche Akteur*innen empfinden die rasante technologische Entwicklung als schwer zugänglich, was die Effizienz ihrer Arbeit beeinträchtigt.

Deshalb haben wir uns mit democ e. V. zusammengeschlossen, einem Verein, der sich der Dokumentation und Analyse demokratiefeindlicher Bewegungen widmet. Democ verfügt über eine enge Einbindung in die Zivilgesellschaft sowie über technische Expertise in den Bereichen Online-Monitoring und der Entwicklung von Open-Source-Software.

Wie geht das Projekt ARAI im Detail mit der Herausforderung um, die wachsende Menge an demokratiefeindlichen Online-Inhalten und Verschwörungstheorien zu identifizieren und zu bekämpfen?

In einem früheren Projekt haben wir ein Modell zur Erkennung verschwörungstheoretischer Inhalte auf Telegram entwickelt. Für die Erstellung der Trainingsdaten haben wir bewusst einen Ansatz gewählt, der eine Auswahl der Daten mit Hilfe bestimmter Schlüsselwörter vermeidet. Das Modell lernte somit, mehr als nur einige vorab spezifizierte Verschwörungserzählungen zu erkennen. Unsere Ergebnisse zeigen, dass die Leistung des Modells auch bei der Anwendung auf Kanäle außerhalb des Trainingsdatensatzes sowie auf Nachrichten zu späteren Zeitpunkten und anderen Themen nur geringfügig abnimmt. Dieses Modell werden wir in das ARAI-Projekt integrieren.

Darüber hinaus werden wir Komponenten für multimodale Analysen einbeziehen, da Inhalte in sozialen Medien zunehmend multimodal kommuniziert werden. Je nach Plattform und Community wird vermehrt auf Bilder, Videos oder Audioaufnahmen zurückgegriffen. Um dem gerecht zu werden, planen wir den Einsatz von Verfahren die es Nutzer*innen ermöglichen, multimodal zu suchen, Inhalte zu clustern und Trends zu identifizieren. So können wir nicht nur textbasierte Inhalte erfassen, sondern auch komplexe multimodale Daten analysieren, was entscheidend ist, um die Vielfalt der Kommunikationsformen auf modernen Social-Media-Plattformen zu berücksichtigen.

Das Projekt folgt einem Open-Source-Ansatz. Welche Vorteile sehen Sie in dieser Offenheit für die Entwicklung und Verbreitung von KI-Tools in der Zivilgesellschaft? Ist dies der richtige Weg bei der Entwicklung zukünftiger Tools?

Durch die Bereitstellung der Software als Open Source möchten wir eine kollaborative Weiterentwicklung fördern. Dies ermöglicht es verschiedenen Akteur*innen, die Technologie anzupassen und eigenständig zu nutzen. Forschungsprojekte haben in der Regel eine begrenzte Laufzeit. Ein Open-Source-Modell sehe ich somit als eine zwingende Voraussetzung, um eine langfristige Wartung und Nutzbarkeit der entwickelten Software zu ermöglichen. Ein weiterer wesentlicher Vorteil ist die Transparenz, die besonders wichtig ist, wenn es um datengetriebene Anwendungen geht.

Ein zentrales Anliegen unseres Projekts ist es, zivilgesellschaftliche Akteur*innen aktiv in die Mitentwicklung der Technologie einzubinden. KI-Modelle sind nicht statisch – sie müssen kontinuierlich weiterentwickelt werden, um relevant zu bleiben. Nutzer*innen der Technologie sind am besten in der Lage zu beurteilen, wann ein Modell seine Leistungsfähigkeit verliert. Indem wir technologisch geeignete Feedback-Möglichkeiten schaffen, können wir die täglichen Erfahrungen der User*innen in die Trainings- und Deployment-Prozesse einfließen lassen.

Diese aktive Einbindung der User*innen ist unserer Meinung nach nur durch Technologien realisierbar, die Offenheit und Zusammenarbeit fördern. Ein Open-Source-Ansatz unterstützt genau diese Werte und ist daher der richtige Weg für die Entwicklung zukünftiger Tools mit gesellschaftlichem Impact. Er ermöglicht eine flexible Anpassung an die sich ständig ändernden Anforderungen und schafft eine Plattform für gemeinschaftliche Innovation und kontinuierliche Verbesserung.

Mit Blick auf die komplexen ethischen Fragen, die KI aufwirft, und neue Reglementierung wie etwa der AI Act der EU – wie stellen Sie sicher, dass die von Ihnen entwickelten Technologien ethischen Grundsätzen entsprechen und Vertrauen in der Gesellschaft fördern?

Unsere Software möchte einen Beitrag dazu leisten, Demokratie, vor allem im Online-Raum, zu stärken. Wir fokussieren uns auf Telegram, da es eine entscheidende Rolle spielt bei der Verbreitung verschwörungsideologischer Inhalte; die Plattform ist aufgrund quasi fehlender Moderation besonders beliebt bei vielen demokratiefeindlichen Akteur*innen, wie rechtsextreme und islamistische Gruppen. Wie bereits ausgeführt, trägt unsere Entscheidung, die Software als Open Source bereitzustellen, maßgeblich zur Transparenz bei. Die Öffentlichkeit hat somit die Möglichkeit, den Quellcode einzusehen, die Funktionsweise unserer Modelle zu überprüfen und Verbesserungen vorzuschlagen. Durch die aktive Einbindung von zivilgesellschaftlichen Akteur*innen in den Entwicklungsprozess stellen wir zudem sicher, dass verschiedene Perspektiven und Bedürfnisse berücksichtigt werden, insbesondere in Bezug auf ethische Fragen. Diese Akteur*innen helfen uns, mögliche negative Auswirkungen frühzeitig zu erkennen und anzugehen. Wir setzen auf regelmäßiges Feedback von Nutzer*innen, um die Modelle fortlaufend zu verbessern und ihre Leistung sowie ihre ethische Angemessenheit zu gewährleisten. Der Anspruch, Transparenz herzustellen, muss dabei unserer Ansicht nach aber auch stets abgewogen werden mit dem Risiko eines Missbrauchs von Technologien und Datensätzen. Vor diesem Hintergrund achten wir etwa bei der Bereitstellung von Technologien auf mögliche Risiken und bemühen uns darum, diese möglichst zu minimieren. Zusätzlich zu den ethischen Fragestellungen werden wir uns in dem Projekt intensiv und kontinuierlich mit den relevanten rechtlichen Regularien beschäftigen und diese bei der Entwicklung der Komponenten berücksichtigen.

In Ihrer Forschung beschäftigen Sie sich auch mit Gender Bias und der Diversität in KI-Systemen. Wie manifestieren sich diese Probleme in der Praxis, und welche Ansätze verfolgen Sie, um sie zu adressieren?

In zwei früheren Projekten haben wir uns mit Technologien für die Personalauswahl beschäftigt, die zunehmend Algorithmen des Maschinellen Lernens nutzen. Diese Technologien decken eine Vielzahl von Aufgaben ab, von der automatisierten Erstellung und Verbesserung von Stellenausschreibungen (Augmented Writing) über das CV-Parsing und Candidate Ranking bis hin zur psychologischen Profilierung von Bewerber*innen anhand von Videos, Tonaufnahmen oder Texten.

Der Personalbereich ist von zentraler Bedeutung, da er bestimmt, ob Menschen eine Beschäftigung finden, ihre materielle Existenz sichern und sich beruflich verwirklichen können. Daher sollte es unser gesellschaftlicher Anspruch sein, dass diese Technologien vorhandene Diskriminierungspotenziale in der Personalauswahl reduzieren und nicht verstärken. Auch der AI Act der EU stuft Personalauswahltechnologien als Hochrisikoanwendungen ein. Geschlechtsspezifische Benachteiligungen spielen hier nach wie vor eine erhebliche Rolle.

Unser erstes Projekt untersuchte u. a., wie Technologien im Bereich des Augmented Writings Gender Bias adressieren und technologisch umsetzen können. Dabei stellten wir fest, dass verschiedene Technologien, die dasselbe Ziel verfolgen – nämlich Job-Ausschreibungen hinsichtlich ihrer Ausschlusspotenziale für Frauen zu bewerten und ggf. zu verbessern – zu sehr unterschiedlichen Ergebnissen kommen. Dies wirft die grundlegende Frage auf, welche Technologie in der Praxis die besten Ergebnisse liefert und wie Praktiker*innen eine fundierte Entscheidung über deren Nutzung treffen können.

Ideal wäre es, diese Technologien in der Praxis zu testen und ihre Effekte zu messen. Dies stellt jedoch eine große Herausforderung dar, da solche Experimente personenbezogene Daten erfordern und es keine klaren Handlungsempfehlungen gibt, wie solche wissenschaftlichen Untersuchungen umzusetzen sind. Die grundlegende Frage, wie KI-basierte (oder anderweitig komplexe algorithmische) Technologien für die Personalauswahl auditiert werden sollten, ist keinesfalls geklärt. Dies betrifft sowohl Evaluationskonzepte und -metriken als auch rechtliche Rahmenbedingungen und die Frage, wie relevante Diversitätsmerkmale – insbesondere Migrationshintergrund oder Migrationserfahrung – erhoben werden sollten. In einem zweiten Projekt haben wir daher ein Data-Trust-basiertes Konzept zur Auditierung solcher Technologien entwickelt, welches eine Beteiligung verschiedener Stakeholder sicherstellt.

Wie sehen Sie das KI-Ökosystem in Berlin und die Überschneidung von Forschung und Industrie? Was macht den Standort so besonders?

Berlin ist ein vielfältiges KI-Ökosystem. Die Stadt bietet eine beeindruckende Dichte an Universitäten und Hochschulen, die intensiv an KI forschen, sowie zahlreiche Unternehmen und Startups, die KI-Technologien entwickeln und anwenden.

In Berlin gibt es eine Vielzahl von Einrichtungen, die verschiedene Sphären zusammenbringen und den Austausch zwischen Forschung und Praxis fördern. Besonders hervorheben möchte ich das Einstein Center Digital Future, mit dem ich assoziiert bin. Es schafft Möglichkeiten für interdisziplinäre Zusammenarbeit zwischen Wissenschaftler*innen und unterstützt den Transfer von Forschungsergebnissen in die Praxis. Diese Verbindung von Wissenschaft und Industrie ist entscheidend, um praxisnahe und anwendbare Lösungen zu entwickeln.

In diesem Kontext spielen auch weitere Institutionen eine zentrale Rolle. Die Technologiestiftung Berlin und insbesondere deren CityLab sind wertvolle Partner, mit denen ich bereits in mehreren Projekten zusammengearbeitet habe und weiterhin kooperiere. Diese Einrichtungen fördern die Integration von technologischen Innovationen in städtischen und gesellschaftlichen Kontexten.

Berlin beherbergt auch das Weizenbaum-Institut für die vernetzte Gesellschaft und das Alexander von Humboldt Institut für Internet und Gesellschaft (HIIG), die beide wichtige Beiträge zur Erforschung der sozialen und ethischen Implikationen digitaler Technologien leisten. Die zunehmenden Vernetzungsbestrebungen im Bereich der Digital Humanities in Berlin und Brandenburg sind ebenfalls vielversprechend und fördern die regionale und interdisziplinäre Zusammenarbeit.

Als Letztes: Welchen Rat würden Sie jungen Data Scientists geben, die daran interessiert sind, soziale und ethische Aspekte in ihre Arbeit zu integrieren?

Es gibt eine wachsende Forschungs-Community, die sich intensiv mit den ethischen Aspekten von Machine Learning und KI auseinandersetzt. Viele Forschende in diesem Bereich sind an Berliner Institutionen tätig. Ich empfehle, die zahlreichen Veranstaltungen und Events im Auge zu behalten, die von diesen Institutionen organisiert werden. Diese bieten hervorragende Gelegenheiten, sich weiterzubilden und mit der Community in Kontakt zu treten. Einrichtungen mit einem zivilgesellschaftlichen Auftrag beschäftigen zunehmend Data Scientists. Dies eröffnet die Möglichkeit, ihre Fähigkeiten direkt in Projekten mit gesellschaftlicher Relevanz praxisnah anzuwenden. Ich finde interdisziplinäre Zusammenarbeit besonders wichtig, um unterschiedliche Perspektiven praktisch einzubeziehen. Die Verbindung von technologischem Wissen mit sozialwissenschaftlichen, rechtlichen und ethischen Ansätzen ist wichtig, um verantwortungsvollere Lösungen zu entwickeln.

Vielen Dank für das Gespräch.