BIFOLD Colloquium 08/2025: Long Context Inference and Key-value Caching: What It Is, and Why It Matters

Warum ist der Betrieb moderner großer Sprachmodelle (LLMs) so teuer? Wir argumentieren, dass ein Hauptgrund dafür das rasante Wachstum der Kontextlängen ist, das Anwendungsfälle wie die Codesynthese aus einem gesamten Repository, Ketten von Gedankengängen, agentenbasierte Workflows mit vielen Tools und Chat-Konversationen mit vielen Turns ermöglicht. Der größte Engpass bei der Inferenz in langen Kontexten ist der Schlüsselwert-Cache, der grundsätzlich linear mit der Kontextbreite, der Einbettungsdimension und der Anzahl der Schichten wächst. Wir geben einen Überblick über die wichtigsten Richtungen der Langkontext-Inferenz und des KV-Caching und argumentieren, dass insbesondere selektives KV-Caching (auch bekannt als „Sparse Attention“) eine wichtige Richtung für die Entscheidungsfindung ist, um die LLM-Inferenz erschwinglicher zu machen.

Biografie

Matthias W. Seeger promovierte 2003 in Edinburgh, war Postdoktorand in Berkeley (bei Michael Jordan) und am MPI Tübingen (bei Bernhard Schoelkopf), leitete eine Forschungsgruppe in Saarbrücken und war Assistenzprofessor an der EPF Lausanne. Seit 2014 ist er bei Amazon tätig, wo er derzeit als Principal Applied Scientist arbeitet. Im Jahr 2020 wurde er mit dem ICML Test of Time Award ausgezeichnet.

 

 

TU-Berlin

MAR Gebäude - R 2.057, Marchstraße 23, 10587 Berlin

Zur Registrierung