Was braucht man eigentlich, um in der sich schnell entwickelnden Welt der multimodalen KI eine Vorreiterrolle zu spielen? Jina AI mit Sitz in der Technologiemetropole Berlin gibt eine überzeugende Antwort. Das innovative Unternehmen unter der Leitung von Dr. Han Xiao steht an vorderster Front, wenn es darum geht, KI für eine transformative Wertschöpfung und Kosteneinsparungen nutzbar zu machen. In unserem exklusiven Interview mit Dr. Han Xiao sprechen wir über den Weg, die Vision und die bahnbrechenden Strategien, die Jina AI ausmachen.
Jina AI hat sich von einem Pionier auf dem Gebiet der neuronalen Suche (siehe unseren Artikel vom Februar 2022) und Open-Source-Frameworks zu einer Plattform für multimodale KI-Lösungen wie "PromptPerfect" und "Rationale" entwickelt. Was steckt hinter diesem Strategiewechsel?
Die Entwicklung von Jina AI von einem Pionier der neuronalen Suche zu einem Leuchtturm für multimodale KI-Lösungen spiegelt sowohl die sich verändernde Landschaft der KI-Technologie als auch unser Engagement wider, der Entwicklung immer einen Schritt voraus zu sein. Im Jahr 2023 konzentrierte sich unsere Strategie auf zwei bahnbrechende Technologien: Prompt-basierte und Embedding-basierte Technologien, die sich in unseren Vorzeigeprodukten PromptPerfect, SceneXplain und Jina Embeddings manifestieren. Unsere Neuausrichtung basierte auf zwei wichtigen Beobachtungen: dem seismischen Wandel, der durch ChatGPT/GPT4 von OpenAI eingeleitet wurde, und den unschätzbaren Erkenntnissen, die wir auf unserer Reise zwischen 2020 und 2023 gewonnen haben. Als wir sahen, dass viele KI-Workflows und -Pipelines überflüssig wurden, was größtenteils auf die Innovationen von OpenAI zurückzuführen ist, haben wir eine Zwischenbilanz gezogen. Wir haben unseren Entwickler-Stack überdacht und uns entschieden, in Prompts und Embeddings zu investieren – Technologien, von denen wir fest überzeugt sind, dass sie die Grundlage für zukünftige Entwickler- und Unternehmensanwendungen bilden werden.
Um dies zu kontextualisieren, sollten Sie sich die transformativen Auswirkungen von großen Sprachmodellen (LLMs) auf die Interaktion zwischen Mensch und Maschine vor Augen führen. Aufgaben, die früher eine komplizierte Codierung durch spezialisierte Entwickler erforderten, können jetzt mühelos durch Eingabeaufforderungen von Power-User ausgeführt werden, was einen tiefgreifenden Paradigmenwechsel darstellt. Diese Revolution zeigt sich in dem viralen Erfolg von Projekten wie ChatPDF im Januar 2023, AutoGPT im April 2023 und GPT-gestützten Agentensystemen ab August 2023. Auffallend ist, dass diese Initiativen komplexe Architekturen, Modell-Hosting und Plattformen wie Pytorch und Kubernetes mieden und stattdessen auf die Einfachheit und Effizienz von Eingabeaufforderungen und API-Weiterleitung setzten. Und doch standen sie im Mittelpunkt der KI-Diskussionen im Jahr 2023.
Angesichts dieser Entwicklungen stelle ich mir eine Zukunft vor, in der die traditionelle Programmierung zu einer seltenen Fähigkeit werden könnte. Entwickler*innen könnten dazu übergehen, Prompts zu verwenden, eine intuitivere und menschlichere Sprache, um mit Maschinen zu kommunizieren. In dieser Welt werden LLMs der Dreh- und Angelpunkt sein, der die menschlichen Absichten nahtlos in umsetzbare Maschinenanweisungen übersetzt.
Jina AI beobachtet diese Zukunft nicht nur, sondern gestaltet sie durch seine strategischen Veränderungen und Innovationen aktiv mit.
Können Sie ein paar konkrete Anwendungsfälle für Ihre Lösungen nennen?
Unsere jüngste Veröffentlichung von jina-embeddings-v2 am 26. Oktober ist ein Beweis für das Engagement von Jina AI, Innovationen im Bereich der KI voranzutreiben. Dieses Texteinbettungsmodell der zweiten Generation ist nicht nur ein Upgrade, es ist ein Paradigmenwechsel. Mit einem beispiellosen Open-Source-Angebot, das eine beeindruckende Kontextlänge von 8K (8192 Token) unterstützt, haben wir uns nicht nur mit dem proprietären Modell von OpenAI, text-embedding-ada-002, gemessen, sondern uns auch Schulter an Schulter positioniert. Dieser Vergleich zeigt sich in unserer Leistung auf dem Massive Text Embedding Benchmark (MTEB) Leaderboard.
Das weltweit erste Unternehmen zu sein, das ein Modell mit der gleichen Leistung wie OpenAI liefert, ist keine kleine Leistung. Es ist eine monumentale Leistung, die unser Engagement für Spitzenleistungen und Innovation unterstreicht. Aber was bedeutet das für die Endnutzer*innen? Die Fähigkeit unseres Modells, 8K-Kontextlängen zu erkennen, bedeutet eine erhebliche Verbesserung, insbesondere für Systeme, die mit umfangreichen Dokumenten arbeiten, und erhöht die Suchgenauigkeit und die Qualität der Empfehlungen.
Die Anwendungsmöglichkeiten von jina-embeddings-v2 sind vielfältig und transformativ und erschließen Potenziale, die zuvor unerreichbar waren:
1. Analyse von Rechtsdokumenten: Damit wird sichergestellt, dass jedes noch so kleine Detail in umfangreichen Rechtsdokumenten sorgfältig erfasst und analysiert wird.
2. Medizinische Forschung: Umfassende wissenschaftliche Arbeiten können nun vollständig eingebettet werden und ebnen den Weg für bahnbrechende Analysen und Entdeckungen.
3. Literaturanalyse: Gründliche Analyse literarischer Werke und Erfassung der nuancierten thematischen Elemente mit noch nie dagewesener Präzision.
4. Finanzprognosen: Gewinnung beispielloser Erkenntnisse aus umfangreichen Finanzanalysen und -berichten.
5. Konversations-KI: Verbesserung von Chatbot-Interaktionen durch präzisere und maßgeschneiderte Antworten auf komplexe Nutzer*innenanfragen.
Mit jina-embeddings-v2 setzen wir nicht nur neue Maßstäbe, sondern definieren die Grenzen dessen, was im Bereich der Texteinbettung möglich ist, neu und läuten eine neue Ära der Innovation und Anwendung ein.
Spielt die Technologie- und Open-Source-Gemeinschaft bei dieser Strategie immer noch eine wichtige Rolle?
Absolut, das Ethos von Open-Source ist nach wie vor zentral für unsere Strategie. So wie sich die Tech-Landschaft weiterentwickelt, so entwickelt sich auch das Konzept von "Open". In diesem Jahr hat OpenAI den Begriff von "Open-Source" zu "Open Access" umdefiniert. Viele Entwickler*innen legen heute den Schwerpunkt auf eine schnelle Markteinführung und ziehen daher die Nutzung von Open-Access-API-Anbietern wie OpenAI den traditionellen Open-Source-Plattformen vor.
Wir bei Jina AI beschreiten jedoch einen Weg, der eine ganzheitlichere Interpretation von Openness verdeutlicht. Mit der Einführung von jina-embeddings-v2 haben wir unser Engagement für drei primäre Säulen der Openness dargelegt:
1. Open Research: Wir haben Schritte unternommen, um die Transparenz unserer Methodik zu erhalten, indem wir den Trainingsansatz unseres Modells auf ArXiv veröffentlicht haben.
2. Open Dataset: Im Rahmen unserer Verpflichtung haben wir unsere Trainingsdaten der Community zugänglich gemacht, indem wir sie auf Hugging Face hochgeladen haben, wo sie öffentlich zugänglich sind.
3. Open Public Model und Open-Source Code: Wir sind noch einen Schritt weiter gegangen und haben sichergestellt, dass jede:r, ob angehende:r Entwickler:in oder etabliertes Unternehmen, unser Modell frei nutzen und sogar für kommerzielle Anwendungen anpassen kann.
Im riesigen Ozean der technischen Innovationen sehen wir Open-Source nicht nur als einen für alle zugänglichen Code, sondern als eine Philosophie. Es ist ein Beweis für unseren Glauben an kollektives Wachstum, Transparenz und die Förderung einer Gemeinschaft, die von der Zusammenarbeit profitiert. Wir glauben fest an die transformative Kraft von Open-Source und seine Fähigkeit, die Art und Weise, wie wir denken, entwickeln und innovieren, zu revolutionieren. Bei Jina AI befürworten wir diese Philosophie nicht nur, wir leben sie jeden Tag.
Welche grundlegenden Unterschiede sehen Sie aufgrund Ihrer Erfahrungen aus erster Hand in den KI-Ökosystemen der USA, Chinas und Deutschlands?
Die KI-Ökosysteme der USA, Chinas und Deutschlands miteinander zu vergleichen, ist in der Tat ein komplexes Unterfangen, und ein paar Sätze können ihrer einzigartigen Komplexität kaum gerecht werden. Für diejenigen, die an einer ausführlicheren Diskussion interessiert sind, habe ich kürzlich an einem Dokumentarfilm eines deutschen Fernsehsenders teilgenommen, der einen umfassenden Überblick über genau dieses Thema bietet.
Um es kurz zu machen:
USA: Die USA sind wohl das Epizentrum der globalen Tech-Innovation und genießen eine Fülle von Vorteilen: reichlich Kapital, eine enorme Dynamik im Tech-Sektor, ein robustes Ökosystem, das Innovationen fördert, zahlreiche erfolgreiche Tech-Startups, die als Vorbild dienen, ein Reservoir an Spitzentalenten und eine Kultur, die von Innovation und Unternehmer*innengeist lebt. Es ist schwierig, Gründe zu finden, warum das Land seine Spitzenposition in der KI nicht behalten sollte. Es ist jedoch erwähnenswert, dass die jüngsten geopolitischen Spannungen, insbesondere die gegen China gerichteten, ein Fehltritt und meiner Meinung nach eine fehlgeleitete Strategie zu sein scheinen.
China: Chinas KI-Ökosystem verfügt über bemerkenswerte Talente, eine beeindruckende Dynamik, eine Flut von Startups und eine unbestreitbare Unterstützung von oben, durch die Regierung. Der expansive Inlandsmarkt bietet einen fruchtbaren Boden für Innovationen, die dort Wurzeln schlagen und gedeihen. Die Haltung des Landes zur generativen KI, die durch politische Unklarheiten und strenge Zensur gekennzeichnet ist, stellt jedoch eine Herausforderung dar. Die allumfassende Unsicherheit darüber, wo die Grenzen liegen, macht es zunehmend schwieriger, ein KI-zentriertes Unternehmen zu führen. Während der Markt in vielerlei Hinsicht dynamisch und frei zu sein scheint, gibt es in der Realität Einschränkungen.
Deutschland/Europa: Europa, mit Deutschland an der Spitze, zeichnet sich durch eine harmonische Work-Life-Balance, eine tief verwurzelte KI-Forschungskultur, einen Pool qualifizierter Talente und relativ niedrige Lebenshaltungskosten aus. Es kämpft jedoch mit einem langsameren Innovationstempo und einem Mangel an bahnbrechenden Führungspersönlichkeiten, die als Vorbild für andere dienen können. Dem hiesigen Startup-Ökosystem fehlt oft der kollaborative Geist, der es ermöglicht, Chancen gemeinsam zu erweitern. Darüber hinaus ist die konservative Einstellung der europäischen Risikokapitalgeber*innen ein bemerkenswerter Engpass. Sie neigen dazu, ehrgeizige Bewertungen für Tech-Startups zu scheuen, und ziehen es oft vor, dem Beispiel ihrer amerikanischen oder chinesischen Kolleg*innen zu folgen, anstatt das Tempo vorzugeben.
Zusammenfassend lässt sich sagen, dass zwar jedes Ökosystem seine Stärken und Herausforderungen hat, es aber für die Länder und Regionen unerlässlich ist, voneinander zu lernen, sich anzupassen und weiterzuentwickeln, um sicherzustellen, dass die globale KI-Landschaft lebendig, vielfältig und fortschrittlich bleibt.
Was hat Sie dazu bewogen, Jina AI im Jahr 2020 in Berlin zu gründen, und welche Vorteile nutzen Sie an Ihren anderen Standorten?
Die Entscheidung für Berlin als Geburtsort von Jina AI im Jahr 2020 war eine Kreuzung aus persönlicher Affinität und strategischer Einsicht. Meine Verbindung zu Berlin geht auf das Jahr 2014 zurück, als ich von München hierher zog. Die Jahre, die ich hier gelebt und gearbeitet habe, haben meine Vorliebe für die Stadt nur noch vertieft. Berlin verbindet mich auf kultureller Ebene, denn die Überreste der kommunistischen Architektur wecken Erinnerungen an bestimmte Teile meiner Heimatstadt Peking. Es ist eine reizvolle Mischung aus Nostalgie und Neuem.
Über das Persönliche hinaus bietet Berlin auch praktische Vorteile für Startups. Es ist eine erschwingliche Stadt, in der es von ungenutztem Potenzial nur so wimmelt. Im Gegensatz zu Orten wie München, die von einer einzigen Branche dominiert werden (im Falle Münchens von der Automobilindustrie), ist die Tech-Landschaft Berlins vielfältig und wird nicht von ein paar großen Unternehmen überschattet. Diese Vielfalt öffnet neuen Unternehmen die Türen, um sich einen Namen zu machen.
Außerdem ist Berlin ein Schmelztiegel für globale Talente. Seine kosmopolitische Natur zieht Spitzenkräfte aus der ganzen Welt an und macht die Stadt zu einer Brutstätte für Innovationen und neue Perspektiven. Die ungezwungene Atmosphäre der Stadt, gepaart mit ihrer Lebendigkeit und ihrem Spaßfaktor, macht sie zu einem attraktiven Ziel für junge Fachkräfte und Unternehmer*innen gleichermaßen.
Ein zusätzlicher Vorteil, insbesondere für die globale Vision von Jina AI, ist die direkte Flugverbindung zwischen Berlin und Peking. Dies erleichtert das Pendeln und, was noch wichtiger ist, den nahtlosen Wissensaustausch und schlägt eine Brücke zwischen den beiden Welten, die mir sehr am Herzen liegen.
Ihr beeindruckender Werdegang umfasst vielfältige internationale Erfahrungen und Einblicke in die Arbeitsweise führender Technologieunternehmen. Wie sehen Sie die internationale Zusammenarbeit und den Wissensaustausch im Bereich der Künstlichen Intelligenz, und wie beurteilen Sie die aktuellen Bemühungen um deren Regulierung?
Die Welle der Technologieglobalisierung, die einst hochschwappte, scheint zu schwinden, da sich der Diskurs auf die Souveränität der Technologie konzentriert, insbesondere in der Europäischen Union. In China herrscht eine ähnliche Stimmung, die mit dem Begriff "自主创新" oder "unabhängige Innovation" umschrieben wird. Nach meiner persönlichen Erfahrung gedeiht Innovation jedoch nicht in der Isolation, sondern in der Interaktion. In der Abgeschiedenheit zu arbeiten, losgelöst von globalen Fortschritten und Erkenntnissen, schränkt das Innovationspotenzial erheblich ein.
KI wird, wie die meisten bahnbrechenden Bereiche, durch ein dynamisches Zusammenspiel von Zusammenarbeit und Wettbewerb angetrieben. Sie sind so etwas wie das Yin und Yang der Innovation, wobei sich die beiden Kräfte gegenseitig ergänzen und beflügeln. Leider scheint das Gleichgewicht heute zu kippen. Die übermäßige Konzentration auf den Wettbewerb, insbesondere in politischen Kreisen, sowohl in China als auch in den USA, fördert ein Umfeld, das von geopolitischen Spannungen und Verschwörungstheorien geprägt ist.
Es macht mich sehr traurig, diese Entwicklung zu beobachten. Es gab Fälle, in denen ich über die nationale Identität von Jina AI befragt wurde, ob sie eher deutsch oder chinesisch ist. Manchmal musste ich die deutschen Wurzeln schlüssig nachweisen, indem ich meinen eigenen deutschen Pass vorlegte und die Holdingstruktur des Unternehmens erläuterte. Solche Fragen zwingen mich zum Nachdenken: Seit wann ist die Pionierarbeit im Bereich der Künstlichen Intelligenz oder die Gründung eines Tech-Startups mit Fragen des Aussehens, der Nationalität oder der Identität verknüpft? Es ist ein ergreifender Spiegel der Zeit und eine krasse Abweichung vom Wesen der Innovation, die grenzenlos und frei von solchen Zwängen sein sollte.
Vielen Dank für Ihre Zeit!