„KI sicher zu machen, ist ein komplexeres Problem“

Als Leiter der Abteilung „Künstliche Intelligenz“ am Fraunhofer Heinrich-Hertz-Institut (HHI) in Berlin arbeitet Dr. Wojciech Samek daran, KI erklärbar und sicher zu machen. Sein aktuelles Whitepaper zur Prüfung und Zertifizierung von KI-Anwendungen, das er gemeinsam mit dem TÜV-Verband und dem Bundesamt für Sicherheit in der Informationstechnik (BSI) veröffentlicht hat, soll ein Anstoß für die momentan diskutierte Richtlinie in Europa zur Reglementierung von KI sein.

Das Berliner Fraunhofer Heinrich-Hertz-Institut (HHI) ist weltweit eines der führenden Institute in der Erforschung von erklärbarer KI (XAI). Wie sind Sie dazu gekommen und was genau versteht man darunter?

Seit einer Dekade geht der Trend dahin, tiefere neuronale Netze und komplexere KI-Modelle mit immer mehr Parametern und Schichten zu benutzen. Aufgrund ihrer Komplexität wurden diese KI-Modelle lange Zeit als „Blackboxen“ betrachtet, also als Modelle, deren Funktionsweise man weder komplett verstehen noch deren Ergebnisse man nachvollziehbar erklären kann. Das hat sich 2015 geändert, als wir zusammen mit Prof. Klaus-Robert Müller von der TU Berlin eine generelle Technik entwickelt haben, mit deren Hilfe man tiefe neuronale Netze erklärbar machen kann. Seitdem haben wir um die 30 Arbeiten geschrieben, in denen wir erläutern, wie wir diese Techniken theoretisch erweitert, aber auch in verschiedenen Bereichen angewendet haben.

Gehen wir zurück zu den Anfängen. Was haben Sie damals herausgefunden?

Wir haben einige KI-Modelle, die von führenden Forschungsgruppen entwickelt und publiziert wurden, untersucht, um herauszufinden, wie sie Entscheidungen treffen. Wir wollten damit einen tieferen Einblick in diese Blackboxen bekommen und auch die gelernten Problemlösungsstrategien der Modelle vergleichen. Eine Sache, die uns sehr erstaunt hat, war: Wir haben gesehen, dass viele Modelle ganz anders entscheiden als erwartet.

Können Sie ein Beispiel geben?

Es gab eine internationale Challenge, in der die besten Forschungsgruppen ihre KI-Modelle zur Bilder-Klassifizierung eingereicht haben. Es gab 20 Kategorien. Eine davon war, Pferdebilder zu erkennen. Die Challenge hat man acht Jahre lang gemacht und jedes Jahr wurde die beste KI ausgezeichnet. Dabei hat man aber nur die Performance-Werte der Modelle verglichen und berechnet, wie korrekt die Modelle die Pferdebilder unterscheiden. Es war nicht klar, worauf das Modell dabei schaut. Mit unserer Technik haben wir die Modelle , die die Challenge gewonnen haben, im Nachhinein untersucht. Dabei haben mit Erstaunen festgestellt, dass viele davon schummeln. Sie machen nicht das, was man erwartet hatte. Zum Beispiel haben sie Boote anhand der Präsenz von Wasser unterschieden. Sie haben nicht auf das Boot, sondern auf das Wasser geschaut. Bei den Pferdebildern wurde ebenfalls nicht aufs Pferd selbst geschaut, sondern auf ein Copyright-Zeichen im Bild. Als die Datensätze nämlich gesammelt wurden, hat man auf Daten aus dem Internet zurückgegriffen. Viele dieser Websites hatten Pferdebilder mit Copyright. Das ist niemandem aufgefallen. Diese krassen Fälle haben wir öfters gesehen, und auch andere haben darüber berichtet, dass KI-Modelle öfters schummeln. Wir verlassen uns zu oft auf die Performance-Werte, wissen aber nicht, wie die Modelle zu ihren Entscheidungen kommen. Das war für uns der Einstieg in das Thema Verlässlichkeit und Prüfung von KI-Zuverlässigkeit. Schließlich will man vor allem bei medizinischen und kritischen Anwendungen sicherstellen, dass die KI so funktioniert, wie man es gern hätte. Dafür braucht man aber eine gewisse Erklärbarkeitskomponente. Das Interesse daran ist von Seiten der Forscher und allen Akteuren, die KI anwenden, groß. Chemiker, Physiker, Mediziner… sie alle wollen KI anwenden und gleichzeitig verstehen, was die KI macht. Eine Blackbox bringt ihnen gar nichts.

Eine Ihrer Entwicklungen, um KI erklärbar zu machen, ist die Analysemethode Layer-wise Relevance Propagation (LRP). Was versteht man genau darunter?

Wichtig ist grundlegend zu verstehen, was das neuronale Netz macht. Wenn es zum Beispiel Bildelemente erkennen soll, erhält es Pixelwerte als Input und verarbeitet diese Schicht für Schicht weiter. Durch nicht-lineare Operationen wird die Information weitergegeben, bis man am Ende eine Entscheidung hat. Dann feuert ein Neuron ab, das - in unserem Beispiel - fürs Pferd zuständig ist. Bei LRP gehen wir rückwärts und verteilen das Ergebnis mathematisch sinnvoll und theoretisch fundiert zurück. Wir haben uns sehr genau überlegt, wie man das Ergebnis Schicht für Schicht zurückverteilen kann, sodass jedes Element des neuronalen Netzes seinen Anteil an der Entscheidung zugesprochen bekommt. Daran kann man sehen, welche Pixel besonders wichtig waren, und welchen Beitrag welches Neuron zum Ergebnis geleistet hat. Wir vergleichen diesen Prozess oft mit dem Fluss oder Stromkreis, nur dass bei uns nicht Wasser oder Strom, sondern die sogenannte „Relevanz“ wieder zurückfließt. Durch bestimmte Neuronen fließt mehr Relevanz, weil sie besonders wichtig fürs Ergebnis sind. Wir haben eine Technik gefunden, das zu berechnen und haben einen sehr effizienten Algorithmus dafür gefunden. Heute können wir das Ergebnis in Millisekunden zurückverteilen.

Wofür kann man diese Erklärungen nutzen?

Diese Frage interessiert uns sehr. Einerseits können wir daraus lernen, andererseits verifizieren, ob ein Ergebnis sinnvoll ist oder nicht. Wichtig ist außerdem, die Erklärung dafür zu nutzen, das Modell besser zu machen. Hier arbeiten wir momentan daran, wie wir diese Techniken ins Training der KI einbauen können, sodass die Modelle nicht nur das gewünschte Ergebnis liefern, sondern auch der Weg zum Ergebnis der Richtige ist. Die Erklärungen sind auch gut nutzbar, um etwaigen Bias in Daten zu finden. In einer Arbeit wurde etwa eine KI mit einem großen Datensatz von Gesichtsbildern trainiert, um das Alter einer Person zu schätzen. Allerdings haben wir gesehen, dass es für die Alterseinschätzung eine Rolle gespielt hat, ob die Person lacht oder nicht. Denn in den Datensätzen haben Jüngere mehr gelacht als Ältere. Auch die Tatsache, ob jemand einen Anzug oder ein Hemd trägt, hat eine starke Rolle gespielt. Das Modell hat Features genutzt, die entweder irrelevant sind oder einen Bias darstellen und die man deshalb nicht haben will. Wir gucken uns an, wie man das automatisch ausrechnen kann, um Modelle zuverlässiger, fairer und ethischer zu machen. Hier spielt die Erklärbarkeit eine wichtige Rolle, weil sie uns erlaubt, das schnell festzustellen. Es genügte ein Bild, um zu sehen, dass auf den Kragen des Hemds geachtet wurde. Da wussten wir: Hier ist ein Problem. Es gibt auch Leute, die sagen, es brauche keine Erklärbarkeit, weil die KI am Ergebnis gemessen wird. In der Praxis stimmt das aber nicht. Wenn Daten einen Bias haben, schränkt das ein. Die Erklärbarkeit hilft, diese Beschränktheit zu überwinden.

Erklärbarkeit braucht es auch für eine KI-Zuverlässigkeitszertifizierung, mit der Sie sich in Ihrem kürzlich erschienen Whitepaper „Towards Auditable AI Systems“ beschäftigt haben.

Ja, was man durch Erklärbarkeit gewinnt, trägt dazu bei, eine KI zuverlässig zu machen. Aber da spielen noch andere Aspekte eine Rolle.

Welche wären das?

Die Robustheit des Modells. Dass es resilient ist gegenüber Störfaktoren. Wenn ein autonomes Auto fährt, soll es nicht von äußeren Einflüssen wie den Witterungsbedingungen gestört werden. Das verlangt man auch von allen anderen technischen Systemen. Ein wichtiger Bereich ist der erwähnte Bias, dass das Modell möglichst gut generalisiert und nicht Features wählt, die in den Trainingsdaten relevant sind, aber mit der Realität nichts zu tun haben. Ein weiterer Bereich ist das Thema Sicherheit. Dass die KI vor Angriffen oder Manipulation geschützt wird. Sie kennen sicher das Beispiel, bei dem ein Stoppschild mit einem Aufkleber nicht als Stoppschild erkannt wird. Oder dass Angreifer Backdoors in die Trainingsdaten einbauen, um das Modell für Attacken vulnerabel zu machen. Diese Sicherheitskomponente kann bis zu einem gewissen Grad getestet werden. Außerdem gibt es viel Forschung in diesem Bereich. Ich persönlich denke, dass wir mit diesen Techniken aber noch nicht hinkommen. Heutige neuronale Netze funktionieren nur „Bottom Up“: Pixel werden verarbeitet, dann erhält man ein Ergebnis. Wenn wir es mit uns Menschen vergleichen, bekommen wir zwar auch Pixelwerte in Form von Licht auf unsere Netzhaut, die dann bestimmte Zellen anregen. Das ist ebenfalls ein Bottom-Up-Prozess. Es gibt aber immer noch den Top-Down-Prozess, der die Wahrnehmung steuert. Wir nutzen viel Erfahrungswissen, das Fehler in der Wahrnehmung ausgleicht. Dieses sagt uns auch, dass es sich um ein Stoppschild handelt - auch wenn ein Aufkleber drauf ist. Heutige Modelle haben diesen Prozess nicht.

Wenn man diese Aspekte bei den Modelle nicht gewährleisten kann, wie kann man - dennoch - eine KI prüfen und zertifizieren. Worauf kommt es an?

In unserem Whitepaper schreiben wir, dass es enorm wichtig ist, nicht nur auf das Modell selbst zu schauen, sondern auf den gesamten Lebenszyklus der KI. Alle Schritte im Lebenszyklus - angefangen von den Daten bis zum Trainingsprozess - müssen eine Qualitätskontrolle durchlaufen und bestimmte Kriterien erfüllen. Natürlich muss das Modell robust sein und machen, was es soll. Doch auch im Betrieb kann man Maßnahmen ergreifen, um auf Fehler zu reagieren. Zum Beispiel kann man einen Unsicherheitswert zusätzlich zum Ergebnis ausgeben, um dem User anzuzeigen, ob das Resultat sicher ist oder nicht. Die Wahrnehmung der eigenen Unsicherheit ist möglich. Auch für das Umfeld, in dem das Modell agiert, gibt es Anforderungen an die Sicherheit. Es arbeitet ja nicht im luftleeren Raum, sondern ist in andere Systeme integriert. Da könnten redundante Prüfungsmechanismen helfen, dass sich die Systeme wechselseitig absichern. KI sicher zu machen, ist ein komplexeres Problem, weil all diese Aspekte berücksichtigt werden müssen.

Welche weiteren Erkenntnisse konnten Sie im Whitepaper zur Prüfung und Zertifizierung von KI-Anwendungen gelangen?

Prozesse kann man zertifizieren, aber es braucht verschiedene Prozesse für verschiedene Anwendungen. Im Detail gibt es viele Unterschiede. Hier muss für jeden Bereich genau geschaut werden, ob und wie man so ein System zertifiziert und zulässt. Das passiert zum Teil schon. Wenn man an die Medizin denkt, haben einige Systeme von der FDA eine Zulassung bekommen. Wir arbeiten in der Fokus-Gruppe „AI for Health“, die von der ITU und WHO gegründet wurde, auch mit Vertretern der FDA zusammen und schauen gemeinsam, wie so ein Prozess in der Medizin aussehen sollte. Wir lernen auch von den Experten, wie man Systeme benchmarken kann. In dem internationalen Konsortium sind Regulierungsbehörden anderer Länder, Universitäten, aber auch Unternehmen vertreten, die sich auf die Fahnen geschrieben haben, diese Aspekte zu untersuchen und voranzutreiben: Wie kann KI in der Medizin geprüft werden, wie kann der Prozess aussehen. Dafür haben wir eine Plattform mitentwickelt, die so etwas der Öffentlichkeit zur Verfügung stellen kann.

Apropos Plattform: Diese Plattform geht am 19.-21. Mai an den Start. Können Sie uns mehr verraten?

Die Fokusgruppe, die von der ITU und WHO gegründet wurde und vom HHI geleitet wird, besteht aus Teilgruppen, die sich auf verschiedene medizinische Problemstellungen wie etwa die Dermatologie konzentrieren. Das Ziel ist es, für diese verschiedenen Bereiche Prüfverfahren und Tests zu entwickeln. Ein Entwickler soll seine Modelle hochladen können. Diese werden dann verschlüsselt, sodass der Entwickler sicher sein kann, dass sein Wissen vor unbefugten Zugriff sicher ist. Danach durchlaufen sie eine Reihe von definierten Tests, die wir entwickelt haben. Die erste Version wird generische Tests enthalten. Da geht es um Robustheit oder Erklärbarkeit, also um Bereiche, die unabhängig von der Anwendung zu testen sind. Die Plattform wird laufend weiterentwickelt. Wenn jemand etwa eine KI-App entwickelt, die Hautkrebs anhand von Fotoaufnahmen erkennt, soll die in Zukunft ebenfalls prüfbar werden.

In der Fokusgruppe arbeiten Sie ja mit verschiedenen Ländern zusammen. Wie gehen beispielsweise die Kollegen aus den USA an das Thema Prüfung und Zertifizierung heran?

Wir sind sehr froh darüber, dass wir von anderen Ländern lernen können. Die FDA ist schon sehr weit und hat sich früh Gedanken um diese Fragen gemacht. Sie hat sich auch mit den Fragen von Updates beschäftigt. Man hat ein zertifiziertes System, aber was passiert bei einem Update? Muss alles neu zertifiziert werden? Oder wie kann man etwaige Updates und damit den gesamten Lebenszyklus mit nur einer Zertifizierung abdecken. Das ist noch eine Stufe weiter, schließlich will man ja nicht nochmals zertifizieren. Updates und Weiterlernen sind wichtig für KI-Modelle. Da sind wir sehr froh darüber, dass die Kollegen Teil davon sind und die Relevanz des Themas klar erkannt haben.

Auch innerhalb der EU wird momentan eine Richtlinie zur Reglementierung von KI diskutiert. Was sind da essentielle Fragen?

Es geht darum, eine Regulation zu finden, um die Anwendung von KI zu regulieren und in manchen Bereichen zu beschränken oder transparent zu machen, wenn etwa ein User mit einem Chatbot spricht. Gewisse Manipulationen versucht man ebenfalls zu reglementieren. Da wird besonders die biometrische Gesichtserkennung diskutiert, und auch Privacy-Aspekte sind wichtig. Wem gehören die Daten? Es geht um die Manipulierbarkeit mit KI auf der einen Seite, aber auch um Diskriminierung und Erklärbarkeit von KI. Diese Fragen stellen sich schon eine Weile. Die Datenschutzverordnung spricht von einem „Recht auf Erklärbarkeit“. Das habe ich von vornherein unterstützt, da passen unsere Methoden gut. Doch was heißt das juristisch für diese oder jene Anwendung? Das muss man für bestimmte Anwendungen konkret machen. Hier sind auf der High-Level-Ebene erste Schritte gemacht, aber was das in der Praxis bedeutet, müssen Industrien und Gesetzgeber noch beantworten.

Einen Anstoß dafür liefern Sie ja auch mit Whitepaper zur Prüfung und Zertifizierung von KI-Anwendungen namens „Towards Auditable AI Systems“, das Sie kürzlich mit dem TÜV und dem Bundesamt für Sicherheit in der Informationstechnik (BSI) veröffentlicht haben. Was hat es damit genau auf sich?

Ich bin sehr froh über die Zusammenarbeit mit VdTÜV und BSI. Beide sind Experten darin, Standards zu setzen und wissen, wie man in der klassischen Industrie Zertifizierungen und Prüfungen macht. Wir haben uns zusammengetan, um den State-of-the-Art abzudecken: Wie kann man sich laienhaft den Lebenszyklus einer KI vorstellen? Wie ist der Stand der Technik? Das Whitepaper ist ja aus einem Workshop entstanden, bei dem wir führende internationale Experten zum Beispiel vom MIT zu diesen Themen eingeladen hatten. Wichtig war uns, offene Fragen zu identifizieren und zu versuchen, Empfehlungen zu geben und Richtungen zu benennen, die man sich stärker anschauen muss. Diesen Oktober ist ein Follow-Up Event geplant, bei dem es noch stärker um Anwendungen in der Praxis gehen soll. Industrievertreter sollen konkret berichten, wie man Qualitätsstandards in bestimmten Bereichen durchsetzt, was die Best Practices sind. Das ist der nächste Schritt: Vom State-of-the-Art hinunter auf die Anwendungsebene, aber auch auf die Probleme.

Wenn wir schon bei der Zukunft sind: Was haben Sie sonst noch geplant?

Eine Sache habe ich ja schon kurz angesprochen. Ein großes Thema ist, wie man die Erklärung nutzen kann, um KI-Modelle besser zu machen. Nicht nur die Erklärbarkeit, die erklärt, sondern die das Modell verbessert. Erklärbarkeit 2.0 im Prinzip.

Abgesehen davon bin ich glücklich, in Berlin zu sein. Hier ist das Umfeld extrem gut. Die kritische Masse an exzellenten Forschern und Industrie ist hier in Berlin. Am BIFOLD (Anm.: The Berlin Institute for the Foundations of Learning and Data) arbeite ich mit Kollegen daran, wie man Zuverlässigkeit messen kann. Auch innerhalb unseres Instituts und mit anderen Akteuren möchte ich die Forschung zu Erklärbarkeit und Zuverlässigkeit weiter ausbauen.