„Ein Software-Projekt, das eine Vision war, die man dann mit seinen Kollegen und Doktoranden umgesetzt hat; ein Projekt, welches man von der Grundlagenforschung in die Open-Source-Community und an reale Nutzer gibt; das ist, als würde man dem eigenen Kind beim Erwachsenwerden zuschauen“. Wovon andere träumen, das ist für Prof. Dr. Volker Markl, Leiter des Fachgebiets Datenbanksysteme und Informationsmanagement an der TU Berlin Realität geworden. In den vergangenen zehn Jahren ist aus der Software-Lösung „Apache Flink”, für das ein Team aus Studierenden und Wissenschaftlern den ersten Prototypen unter seiner Leitung im Rahmen des Stratosphere-Projekts an der TU Berlin entwickelt hat, ein weltweit führendes System zum Verarbeiten riesiger Datenströme „Big Data“ geworden. Mittlerweile verlassen sich internationale Großunternehmen auf das hochflexible, skalierbare und erweiterbare Stream-Processing Framework, dessen Prototyp bereits mit dem „Humboldt Innovation Award“ ausgezeichnet wurde, und an der eine Community von mehr als 21.000 Mitgliedern und mehr als 400 Code-Mitwirkenden beteiligt ist. Für Prof. Dr. Markl hat die Arbeit damit erst begonnen: Als Leiter der Forschungsgruppe „Intelligente Analyse von Massendaten – Smart Data“ am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI), Direktor des Berlin Big Data Centers und Co-Direktor des Bundeszentrums für Maschinelles Lernen (BZML) möchte er den Experten von heute und morgen weitere Werkzeuge in die Hand geben, um Daten effizient nutzen zu können.
Herr Prof. Dr. Markl, Sie bezeichnen Daten als „Produktionsfaktor des 21. Jahrhunderts“. Wie meinen Sie das?
Viele vergleichen Daten mit Öl. So wie aus dem Öl neue Produkte entstanden, wie Nylon oder Benzin, können wir aus Daten, wenn wir die richtigen Programmierwerkzeuge entwickeln, neues Wissen und neue Dinge „raffinieren“. Zum Beispiel wäre es denkbar, dass es uns gelingt, die Gedanken eines stummen Menschen in gesprochene Sprache umzuwandeln, so wie es heute schon gelingt, einen Computer mit Gedanken zu steuern. Oder nehmen Sie das selbstfahrende Auto, auch ein Produkt der Digitalisierung. Es wird die deutsche Automobilindustrie grundlegend verändern, und die Branche muss aufpassen, dass sie nicht den Anschluss verliert. Denn von ihr hängt ganz wesentlich der Wohlstand Deutschlands ab. Digitalisierung sichert also auch unseren Wohlstand. Allerdings spreche ich weniger gerne von Öl, sondern sehe Daten eher als Produktionsfaktor, vergleichbar einem Nährboden, auf dem neue Dinge wachsen. Genau wie Humus werden die Daten nicht zerstört, wenn etwas neues entsteht und Daten müssen gepflegt, gereinigt und integriert werden, um daraus wertvolle Anwendungen zu bauen.
Vorausgesetzt, die Daten werden richtig genutzt, um all diese Innovationen zu generieren. Leichter gesagt als getan?
Richtig, die Daten, die heutzutage anfallen, sind mit denen von vor 30, 40 Jahren nicht mehr vergleichbar. Wir Informatiker sprechen von den drei großen Vs, die die Daten heute charakterisieren. Das sind „Volume“, „Velocity“ und „Variety“. Die Datenmengen sind riesig, sie fallen mit einer ungeheuren Schnelligkeit an, müssen in Echtzeit ausgewertet werden und sie sind extrem heterogen. In einem Auto sind 200 Sensoren eingebaut; pro Stunde werden 1,3 Gigabyte Sensordaten aus dem Fahrzeug gesendet und ein großer deutscher Automobilkonzern erhält pro Tag 30 Gigabyte Daten aus Autos. Das ist eine regelrechte Datenexplosion. Gleichzeitig werden die Datenanalysen aus den Bereichen der Statistik und des Maschinellen Lernens immer komplexer. Der Data Scientist, also der Experte, muss über extrem umfangreiche Kenntnisse verfügen, um diese Daten zu beherrschen, daher rede ich gerne von der ‚eierlegenden Wollmilchsau‘. Von denen gibt es nicht viele. Die umfassende Ausbildung von Data Scientists an unseren Universitäten muss von der Forschung an Werkzeugen flankiert werden, die die Arbeit des Data Scientists erleichtern.
Als Leiter des vom BMBF geförderten Kompetenzzentrum „Berlin Big Data Center“ (BBDC) sind Sie unter anderem für die Entwicklung von Werkzeugen zuständig, die die Verarbeitung und Handhabung solcher riesiger Datenmengen vereinfachen. Aus ihren Forschungsprojekten sind viele Werkzeuge hervorgegangen, Emma als Programmierschnittstelle, Myriad zur Datengenerierung, PEEL zur Leistungsanalyse, um nur einige zu nennen. Weltweit am bekanntesten ist vermutlich das Apache Flink-System, welches bereits vor zehn Jahren aus einem Projekt der Grundlagenforschung an der TU Berlin entstanden ist. Was ist das Besondere dieser Lösung?
Apache Flink lässt sich einsetzen, wenn die Rechenstärke eines einzelnen Computers nicht ausreicht, um Datenströme zu analysieren. Es arbeitet nach dem System: Teile und herrsche. Der Datensatz wird auf beliebig viele Computer in einem System aufgeteilt; jeder einzelne Computer muss dann nur noch einen Teil der Gesamtmenge analysieren. Apache Flink koordiniert auch die weitere Arbeit, denn wenn ich eine Fragestellung anhand von Big Data beantwortet haben will, dann muss sichergestellt sein, dass Apache Flink zu jeder Zeit den Überblick hat, auf welchem Rechner welcher Teil des Datensatzes zu finden ist und wie daraus das Endergebnis zusammengesetzt wird.
Zu dem BBDC ist jetzt mit dem Berliner Zentrum für Maschinelles Lernen (BZML) ein zweites Kompetenzzentrum aus dem Dunstkreis der KI-Forschung an die TU Berlin gekommen. Welche Rolle spielt hier der Standort Berlin?
In Berlin wird an verschiedenen wissenschaftlichen Institutionen hervorragende Forschungsarbeit auf den Gebieten Data Science, Big Data, Datenmanagement, Datenanalyse und Maschinellen Lernen sowie KI insgesamt geleistet. Das ist eine der Stärken von Berlin. Die gute Kooperation des BBDCs und BZMLs bewirkt eine enge Verzahnung der bislang isoliert voneinander existierenden Gebiete Datenmanagement und Maschinelles Lernen. Die anhaltende Förderung der Grundlagenforschung in diesen beiden Bereichen ist nach wie vor extrem wichtig, da die Wissenschaft immer wieder die Grenzen der Technologien aufbrechen muss. Insbesondere entstehen heutzutage in der Wirtschaft immense Wettbewerbsvorteile, wenn man moderne Verfahren der Datenanalyse und des Maschinellen Lernens auf Big Data anwenden kann. Somit sind Big Data und Maschinelles Lernen die technologischen Grundpfeiler von Data Science und Anwendungen der modernen Künstlichen Intelligenz. In diesem Bereich hat Berlin eine internationale Spitzenposition, in der Grundlagenforschung begründet durch das BBDC und das BZML, aber auch durch die verwandten Forschungsthemen der Mathematik in dem Exzellenzcluster Math+ sowie in grundlegender KI durch den Exzellenzcluster Science of Intelligence. Dies wird flankiert von Instituten zu den sozialen Auswirkungen der KI wie dem Weizenbauminstitut, Kommunikationsplattformen wie dem Smart Data Forum sowie durch anwendungsnahe Forschung im ECDF und Technologietransfer durch Institute wie das DFKI, dem Deutschen Forschungszentrum für Künstliche Intelligenz, und Fraunhofer, um nur einige zu nennen. Dazu kommen führende Unternehmen mit starkem KI-Bezug wie Amazon, SAP, Google und Siemens sowie eine spannende Gründerszene. Insgesamt bietet Berlin ein einzigartiges Ökosystem für die Forschung und den Technologietransfer im Bereich der Künstlichen Intelligenz, mit Spitzenforschung im Bereich Data Science, insbesondere in den wesentlichen Grundlagen Datenmanagement und Maschinelles Lernen.
Diese Stärken sollen künftig ausgebaut werden, möchte doch die Bundeshauptstadt zu einem digitalen Hotspot werden. Was braucht es Ihrer Ansicht nach dafür?
Ich antworte mal mit einem Blick zurück. Als 1999 zwei junge Männer im Silicon Valley einen Algorithmus entwickelt hatten, der letztendlich die Grundlage für Google wurde, wussten selbst die beiden jungen Männer nicht, welche Geschäftsidee sich daraus machen lassen könnte, aber sie haben dafür Geld bekommen, sehr viel Geld. Was ich damit sagen will, ist, wir müssen zum einen technologiegetriebener und risikobereiter werden. Zum anderen sollten wir uns an der Bottom-up-Mentalität des Silicon Valley ein Beispiel nehmen. Leute, die eine neue Idee für eine Technologie haben, sollten wir massiv fördern und ihnen helfen, daraus Geschäftsideen zu entwickeln. Erfinder sind oft keine Geschäftsleute, daher braucht es technologieaffine, risikobereite und visionäre Business Angels, die Technologien und deren Potenziale verstehen. Obwohl es davon in Berlin mehr als an vielen anderen Orten in Europa gibt, sind es leider immer noch zu wenige. Bei vielen Absolventen der Wirtschaftswissenschaften oder ähnlicher Bereiche vermisse ich die erforderliche technische Tiefe und Vision, die ich im Silicon Valley angetroffen habe. Gleichzeitig müssen wir die Spitzenforschung an den Universitäten massiv aufbauen, in den Zukunftsbereichen Datenmanagement und Maschinelles Lernen gibt es noch nicht genügend Lehrstühle und Forschungsgruppen in Berlin im Verhältnis zum Bedarf in Wirtschaft, Wissenschaft und Gesellschaft. Nur so werden wir genügend Experten ausbilden und Innovationen erzeugen, um die Chancen der KI auch in wirtschaftliche, wissenschaftliche und soziale Erfolge zu überführen. Gleichzeitig benötigen wir eine nachhaltige Finanzierung, um die Forschung zu Big Data und Maschinellem Lernen in Berlin dauerhaft auf Weltniveau zu halten.