Die Verflechtung von Datenmanagement und maschinellem Lernen wird die Art und Weise, wie Unternehmen mit Informationen umgehen, revolutionieren, und Prof. Dr. Sebastian Schelter steht an der vordersten Reihe dieser Transformation. Mit seiner jüngsten Berufung an das Berlin Institute for the Foundations of Learning and Data (BIFOLD) und die Technische Universität Berlin nimmt Schelter einige der drängendsten Herausforderungen im Bereich der KI in Angriff. Von der Verbesserung der Datenqualität in maschinellen Lernmodellen bis hin zur Förderung eines verantwortungsvollen Umgangs mit Daten - seine Arbeit wird sowohl die Wissenschaft als auch die Industrie nachhaltig beeinflussen. In seinem Interview mit #ai_berlin spricht Prof. Schelter über die Beweggründe für seine Forschung, die Herausforderungen bei der Integration von Datenmanagement und KI, die Zukunft der vertrauenswürdigen KI und darüber, wie Berlins dynamisches Tech-Ökosystem eine entscheidende Rolle beim Vorantreiben von Innovationen spielt.
Professor Schelter, herzlichen Glückwunsch zu Ihrer neuen Position am Berlin Institute for the Foundations of Learning and Data (BIFOLD) und der Technischen Universität Berlin. Können Sie uns den Weg beschreiben, der Sie zu diesem spannenden neuen Kapitel Ihrer Karriere geführt hat? Welche persönlichen Erfahrungen oder Inspirationen haben Ihren Weg geprägt?
Mein Forschungsweg begann vor vielen Jahren, als ich als Werkstudent das Empfehlungssystem von Zalando neu aufbaute. Dies weckte meine Neugierde für Probleme an der Schnittstelle von Datenmanagement und maschinellem Lernen und brachte mich dazu, der Datenbankgruppe an der TU Berlin beizutreten. Dort habe ich über massiv-parallele Datenverarbeitungssysteme promoviert und hatte die Möglichkeit, zwei Sommerpraktika bei IBM Research und Twitter in Kalifornien zu absolvieren.
Nach meinem Abschluss war ich neugierig darauf, praktische Erfahrungen in einem Unternehmen zu sammeln, und trat dem neu gegründeten ML-Labor von Amazon in Berlin bei, wo ich mehrere Jahre lang an Problemen im Zusammenhang mit groß angelegten Vorhersagen und Datenqualität arbeitete. Nach einer Weile war ich von der kurzfristigen Ausrichtung in der Industrie ein wenig frustriert und beschloss, an die Hochschule zurückzukehren.
Ich hatte das Glück, mehrere Jahre im Ausland zu verbringen, als Stipendiat an der New York University und als Assistenzprofessor an der Universität von Amsterdam. Der einzigartige Charakter von BIFOLD als ein Institut, das sich auf Probleme an der Schnittstelle von Datenmanagement und ML konzentriert, hat mich 2024 wieder nach Berlin zurückkehren lassen, und ich bin sehr dankbar für diese Gelegenheit.
Ihre Arbeit im DEEM Lab (Data Engineering for ML Lab) liegt an der Schnittstelle von Datenmanagement und maschinellem Lernen. Können Sie uns einige der besonderen Herausforderungen nennen, mit denen Ihre Forschungsgruppe konfrontiert ist, und die Ziele, die Sie mit großer Leidenschaft verfolgen?
Unsere Forschung befasst sich mit datenbezogenen Problemen bei ML-Anwendungen, die negative wirtschaftliche, gesellschaftliche oder wissenschaftliche Auswirkungen haben. Trotz des ganzen Hypes um ML und KI ist es immer noch sehr schwierig und teuer, datengesteuerte Anwendungen zu entwickeln. Außerdem stürzen ML-Modelle oft ab oder geben falsche Antworten, wenn sie mit realen Daten konfrontiert werden. Unser Ziel ist es, die technische Hürde für die Arbeit mit datenwissenschaftlichen Technologien zu senken und den verantwortungsvollen Umgang mit Daten zu fördern.
Eine besondere Herausforderung für unser Labor besteht darin, dass wir Doktoranden mit Fachkenntnissen in Datenmanagement und Machine Learning (ML) einstellen müssen, was sehr selten ist. Glücklicherweise hatten wir bisher das Glück, talentierte Leute aus der ganzen Welt anzuziehen :)
Vor dem Hintergrund des AI-Acts ist „Trustworthy AI made in Europe“ zum Begriff der Stunde geworden. Sehen Sie Ihre Arbeit bei BIFOLD und DEEM als Beitrag zu dieser Agenda?
Auf jeden Fall! Wir arbeiten bereits mit Juraprofessoren an einem Gespräch über die technischen Auswirkungen der neuen Vorschriften für risikoreiche Anwendungen. Außerdem bereiten wir derzeit eine große Umfrage vor, um die aktuellen Herausforderungen von Praktikern in diesem Bereich besser zu verstehen.
Unser Ziel ist es, Open-Source-Datensysteme zu entwickeln, die es Unternehmen und Organisationen leicht machen, Datenanwendungen zu erstellen, die die digitalen Rechte der Bürger einhalten. Dies ist besonders wichtig für Start-ups und KMU, die oft nicht über die gleichen Ressourcen wie große Unternehmen verfügen, um in regulierten Bereichen zu konkurrieren.
Das „Recht auf Vergessenwerden“ ist ein Konzept, das viele Menschen sehr persönlich berührt. Wie stellen Sie sich vor, dieses Recht im Rahmen der derzeitigen Datenverwaltungspraktiken mit Leben zu erfüllen, insbesondere angesichts der technischen Hürden? Was motiviert Sie, sich diesen Herausforderungen zu stellen?
Die Motivation für diese Forschung ergibt sich aus Risiken in der realen Welt. Stellen Sie sich eine Person vor, die mit ihrer Alkoholsucht kämpft und beschließt, keine alkoholischen Produkte mehr zu konsumieren. Leider wird diese Person immer noch online mit Werbung und Empfehlungen für Alkoholprodukte konfrontiert, da die zugrunde liegenden KI-Modelle ihre Vorliebe für Alkohol gelernt haben. Wenn man die Person in die Lage versetzt, ihre Empfehlungen durch eine geringe Latenzzeit zu verlernen, könnte dies die Wahrscheinlichkeit eines Rückfalls verringern.
Wir gehen die daraus resultierenden technischen Herausforderungen an, indem wir bewährte Datenbanktechnologien für die ML-Welt „neu erfinden“, z. B. die Verfolgung der Herkunft von Daten durch Berechnungen und die effiziente Verwaltung der Ergebnisse von Abfragen bei Datenaktualisierungen.
Gibt es spezifische Tools oder Frameworks, die Sie entwickeln, um Organisationen bei der Umsetzung dieses Rechts zu unterstützen, und wie hoffen Sie, dass diese Tools die Gesellschaft beeinflussen werden?
Wir haben mehrere Prototypen von Open-Source-Empfehlungssystemen für den elektronischen Handel entwickelt, die personenbezogene Daten von Nutzern innerhalb von Millisekunden „vergessen“ können. Wir hoffen, dass das sofortige Löschen und Entfernen von persönlichen Daten mit einem einfachen Klick zu einer Standardfunktion jeder datengesteuerten Anwendung wird.
Nachdem wir nun über Ihre Forschungsschwerpunkte gesprochen haben, was hat Sie zu BIFOLD und Berlin hingezogen? Wie sehen Sie das regionale KI-Ökosystem?
BIFOLD ist einer der wenigen Orte auf der Welt mit einem speziellen Forschungsschwerpunkt auf Problemen an der Schnittstelle von Datenmanagement und maschinellem Lernen, und ich bin sehr dankbar, dass ich mit all den talentierten Professoren und Studenten dort arbeiten kann.
Berlin hat mich schon immer wegen seiner Offenheit, seines internationalen Charakters und seiner historischen Rolle im Herzen Europas angezogen. Außerdem hat Berlin ein lebendiges Daten- und KI-Ökosystem, was auch der Grund dafür ist, dass führende globale Unternehmen wie Databricks, Amazon, Snowflake, SAP oder Confluent hier Niederlassungen haben.
Was sind Ihre Erwartungen für Ihre Arbeit bei BIFOLD und dem DEEM Lab? Welchen Einfluss erhoffen Sie sich, sowohl in der akademischen Welt als auch auf die Gesellschaft im Allgemeinen zu haben?
Ich arbeite hart daran, das DEEM Lab zu einem Ort für großartige Forschung zu machen, der kreative Menschen aus der ganzen Welt in Berlin zusammenbringt. Ich hoffe, die Welt durch die Ausbildung von Talenten beeinflussen zu können, und ich hoffe, dass ich meinen Studenten helfen kann, großartige Dinge zu schaffen und vielleicht sogar selbst Professor zu werden.