"Unser Ziel ist es, ein wichtiger Akteur im Bereich der KI-Infrastruktur auf der Server- und Geräteseite zu werden."

In der heutigen Welt wird unser Auge täglich mit einer fast unüberschaubaren Menge an Daten konfrontiert. Und jedes Jahr wachsen die Zahlen in einem immer höheren Tempo. Wie wird es also in Zukunft möglich sein, diese riesigen Mengen zu verarbeiten? Mobius Labs hat sich auf die Entwicklung fortschrittlicher multimodaler KI spezialisiert, die es Maschinen ermöglicht, visuelle, akustische und sprachliche Daten genau wie Menschen zu sehen, zu verstehen und zu interpretieren. Wir sprachen mit CEO Dr. Appu Shaji, um tiefer in die Welt der Multimodalität einzutauchen, ihr Potenzial zur Revolutionierung von Branchen und zur Verbesserung der Nutzererfahrung zu erkunden und zu erfahren, was nötig ist, um Isaac Asimovs Fiktion Wirklichkeit werden zu lassen.

Herr Dr. Shaji, der Markt für KI-gestützte Technologieanwendungen in den Bereichen Bild, Text und Audio hat nicht erst seit dem Siegeszug großer Sprachmodelle an Dynamik gewonnen. Können Sie kurz die Vision und die Hauptziele von Mobius Labs beschreiben und wie sich Ihre Produkte von anderen auf dem Markt unterscheiden?

Das menschliche Verständnis und die menschliche Wahrnehmung sind multimodal und ergeben sich aus dem Zusammenspiel von Sehen, Hören und Sprache. Als ich zum Beispiel Isaac Asimovs Bücher las, gab es Roboter, die alle Aufgaben erledigten, die auch Menschen erledigen. Die Vorstellung, dass wir eine Software entwickeln könnten, die zu einem solchen Verständnis fähig ist, hat mich immer fasziniert, und das scheint jetzt Realität zu sein, statt nur Science-Fiction. Allerdings schien die frühe KI auf Unternehmen mit großen Investitionsbudgets beschränkt zu sein. Wir sind auf dem Weg, sie zu demokratisieren, indem wir eine KI entwickeln, die äußerst effizient zu betreiben und einzusetzen ist und zudem als Open Source zur Verfügung steht. Unser Ziel ist es, ein wichtiger Akteur im Bereich der KI-Infrastruktur auf Server- und Geräteseite zu werden.

Sie sprechen oft von "Superhuman Vision" als Schlüsselkonzept Ihrer Technologie. Können Sie erklären, was damit gemeint ist und wie diese Technologie den aktuellen und zukünftigen Kundenbedürfnissen gerecht wird?

Das ist der alte Begriff, den wir verwendet haben. Wir begannen als Unternehmen für Computer Vision und erkannten, dass Computer in vielen Bereichen dem Menschen überlegen sind (z. B. wenn es darum geht, Milliarden von Bildern konsistent zu klassifizieren oder zu erkennen). Wir haben jedoch unsere Bemühungen auf andere Modalitäten wie Audio und Sprache ausgeweitet.

Ein Kernaspekt bleibt gleich: Wir produzieren, verarbeiten und nutzen eine riesige Datenflut, die es dem Menschen unmöglich macht, sie durchsuchbar, empfehlenswert oder verwertbar zu machen. Hier kommen die übermenschlichen Fähigkeiten von Maschinen ins Spiel.

Mobius Labs stützt sich auf offene Intelligenz und Open-Source-Initiativen. Wie integrieren Sie diese Philosophien in Ihre Produktentwicklung und welche Vorteile ergeben sich daraus für Ihre Nutzer?

Dafür gibt es zwei Hauptgründe, einen strukturellen/emotionalen und einen strategischen/kommerziellen. Was die KI-Forschung und -Entwicklung so einzigartig macht, ist die Tatsache, dass sie aus einer grundlegenden akademischen Arbeit hervorgegangen ist, bei der Offenheit und Reproduzierbarkeit zentrale Grundsätze sind. Mobius Labs, das aus einigen hochkarätigen Forschern im Gründungsteam besteht, hat diese Philosophie in sich verankert. Uns gefällt die demokratische und leistungsorientierte Natur der Welt, in der Ideen ausgetauscht und vor allen anderen bewiesen werden. Wir sind immer noch sehr leidenschaftlich und engagiert dabei.

Praktischer und strategischer ist jedoch die Art und Weise, wie die KI-Landschaft aufgebaut ist. Noch vor einem Jahr waren Closed-Source-KI-Systeme wie ChatGPT ihren Open-Source-Gegenstücken meilenweit voraus. Die Lücke schließt sich jedoch schnell und ist fast nicht mehr vorhanden.

In einer solchen Welt birgt Open-Source-Software eine Menge Potenzial und Endkundenvorteile, wie Transparenz, keine Anbieterbindung, Individualisierbarkeit und volle Eigenverantwortung.

Talent ist auch ein wichtiger Treiber für Kerninnovationen in der KI. Die Einführung von OSS ermöglichte uns die freie Zusammenarbeit. Wir arbeiten jetzt mit Menschen auf der ganzen Welt zusammen (z. B. mit Ingenieuren/Wissenschaftlern von Meta, Hugging Face, Answer.AI und vielen anderen Projekten). Als kleines Startup können wir nicht davon träumen, mit großen proprietären Lösungen zu konkurrieren, aber als OSS-Community können wir das definitiv!

Außerdem ist die Art unserer Arbeit enorm wichtig für die Zukunft der KI-Berechnungen. Insbesondere unsere Arbeit daran, KI-Berechnungen schneller, kleiner und billiger zu machen. Das ist wirklich eine Richtung und ein Schritt in Richtung Demokratisierung der KI für Menschen, die nicht viel Geld zur Verfügung haben.

Wir glauben, dass der KI-Enterprise-Stack (B2B) von Betriebssystemen beherrscht werden wird. Wir sehen eine ähnliche Dynamik wie bei Linux/Microsoft. Als Linux in den späten 90er Jahren aufkam, hatte es noch seine Ecken und Kanten, aber durch die Arbeit der Community erreichte es über 80 % des serverseitigen Marktes und etwa 50 % der Mobiltelefone (Android). Wir sind ziemlich zuversichtlich, dass die Gewinner im KI-Unternehmensbereich Open-Source-Software sein werden.

Datenschutz ist eine große Herausforderung in der KI-Branche und insbesondere seit der Verabschiedung des KI-Gesetzes der Europäischen Union. Wie geht Mobius Labs mit Datenschutzbedenken um, insbesondere im Zusammenhang mit der Verarbeitung visueller Daten?

Ja, Datenschutz ist ein zentraler Wert, an den wir uns halten. Die Philosophie lautet "privacy by design". Wir erreichen dies, indem wir den Code einfach an den Nutzer liefern (und nicht umgekehrt, wo Dritte die Daten auf ihre Server bringen). Wir sehen niemals Kundendaten oder haben Zugang zu ihnen, es sei denn, unsere Kunden bitten uns ausdrücklich darum. Vor allem KI-Firmen haben versucht, Nutzer zu ihrem Produkt zu machen, indem sie Modelle auf Kunden-/Nutzerdaten trainierten. Wir trainieren unsere Modelle nur auf öffentlichen Datensätzen, für die wir eine entsprechende Lizenz haben, und entwickeln Tools, die sich mit einer sehr begrenzten Anzahl von Datensätzen an einen bestimmten Anwendungsfall anpassen lassen. Dies ist auch ein Bereich, in dem das Unternehmen aktiv forscht.

Ihr Unternehmen bietet Lösungen an, mit denen Anwender KI ohne Programmierkenntnisse implementieren können. Wie funktioniert das in der Praxis, und welche Branchen profitieren am meisten von diesen Lösungen?

Dies ist Teil einer alten Produktlinie, die viel mit "few-shot learning" gearbeitet hat, gekoppelt mit einem no-code KI-Trainingstool, mit dem Nutzer ihre eigenen Modelle trainieren können. Mit dem generativen KI-Stack hat sich dies jedoch ein wenig geändert. Wir geben derzeit Informationen darüber, wie man Modelle fein abstimmt, und als Business Case stimmen wir Modelle für unsere Kunden ab.

Sie haben kürzlich über Ihre Arbeit an 1-Bit-Modellen für maschinelles Lernen berichtet. Können Sie die Vorteile dieser Technologie erläutern und wie sie die Effizienz und Zugänglichkeit von KI-Anwendungen verbessert?

Eine der größten Herausforderungen aktueller KI-Lösungen, wenn nicht sogar die größte Herausforderung, ist die Berechnung. Der Energiebedarf ist so hoch, dass es schwierig sein könnte, Energie zu erzeugen. Wir müssen also Wege finden, um die Modelle effizienter zu machen. Die Arbeit an der Quantisierung ist ein Schritt in diese Richtung.

Zur Erklärung: Die meisten dieser Transformatormodelle beinhalten eine Menge Matrixmultiplikationen mit Gleitkommazahlen. Wir können jedoch die Dezimalstellen entfernen, so dass weniger Berechnungen erforderlich sind (d. h. 3*100 ist viel einfacher zu berechnen als 3.1415926535 * 100.4123414). Die extreme Version ist, wenn alle Zahlen Binärzahlen sind, d. h. 1-Bit (0s und 1s). Normalerweise benötigen alle LLMs 16 Bits, um eine Zahl zu speichern, und 1 Bit ist 16 Mal kleiner. Aber interessanterweise sind Multiplikationen mit Binärzahlen nur Additionen (was 70 Mal schneller ist).

Wir müssen noch weiter forschen, um mit 1-Bit-Modellen die gleiche Genauigkeit wie mit 16-Bit-Modellen zu erreichen, aber es ist ein wichtiger Schritt in die richtige Richtung. Zum Beispiel kommen unsere 2-Bit- bis 4-Bit-Modelle der vollen Genauigkeit sehr nahe.

Welche Rolle spielen Berlin und sein starkes KI-Ökosystem für Sie? Wie ist der Austausch zwischen Start-ups, Unternehmen und Forschung hier?

Berlin ist aufgrund seiner einzigartigen Mischung aus Ideen und Gedanken ein interessanter Ort. Am faszinierendsten finde ich den Austausch mit den Kreativen (Künstlern, Fotografen, DJs) und nicht mit den Tech-Buildern. Da KI und menschliches Verhalten eng miteinander verbunden sind, sind diese Interaktionen von größter Bedeutung und machen unser Denken sehr multidimensional. Es ist auch eine recht junge Stadt, in der Menschen aus der ganzen Welt leben. Außerdem befindet sich unser Büro auf dem Merantix AI Campus, der viele interessante KI-Unternehmen und eine lebendige Gemeinschaft beherbergt.

Wie sehen Sie die Zukunft der Computer Vision in den nächsten fünf Jahren? Welche neuen Anwendungsbereiche oder technologischen Fortschritte erwarten Sie?

Die verkörperte KI wird sehr interessant werden (wie die Roboter von Isaac Asimov, über die ich gesprochen habe). Die KI wird die Welt wahrnehmen, auf seltsame Situationen stoßen und Lösungen für diese finden. Wir werden starke Modelle haben, die ständig lernen und auf einer Vielzahl von Geräten laufen können.

Vielen Dank für das Gespräch.