BLISS Speaker Series Episode #16

BLISS freut sich, Dr. Martin Genzel, Senior Research Engineer bei Merantix Momentum, begrüßen zu dürfen, der einen 45-minütigen Vortrag mit dem Titel „Can Compressing Foundation Models be as Easy as Image Compression?“ halten wird. Im Anschluss an den Vortrag haben die Teilnehmer die Möglichkeit, sich mit anderen KI-Begeisterten auszutauschen, Ideen und Fragen zu stellen und kostenlose Getränke zu genießen. Die Türen werden um 19:15 Uhr geschlossen, daher wird frühes Erscheinen dringend empfohlen.

Bitte beachte, dass eine RSVPing über Meetup unbedingt erforderlich ist, um die Teilnahme zu garantieren. Obwohl Meetup in letzter Zeit aktiv für sein Plus-Programm geworben hat, ist es nicht notwendig, dieses zu erwerben - sowohl die Plattform als auch die BLISS-Veranstaltungen sind weiterhin völlig kostenlos.

 

Abstract: 
Die weitverbreitete Einführung von Foundation-Modellen, insbesondere LLMs, wird oft durch deren beträchtliche Größe und Rechenanforderungen behindert, insbesondere in ressourcenbeschränkten Umgebungen. Während die Komprimierung nach dem Training einen vielversprechenden Weg bietet, um diese Herausforderungen zu mildern, kann sich der Prozess für den Benutzer wie eine „Black Box“ anfühlen, die viel Fachwissen und Ausprobieren erfordert, um die richtige Balance zwischen Modellgröße und Leistung zu finden. In diesem Vortrag wird Any Compression via Iterative Pruning (ACIP) vorgestellt, ein neuartiger algorithmischer Ansatz, bei dem der Benutzer im Mittelpunkt steht. ACIP ermöglicht eine intuitive und direkte Kontrolle über den Kompromiss zwischen Kompression und Leistung, ähnlich wie bei der Komprimierung eines Bildes. Es nutzt einen einzigen Gradientenabstiegslauf mit iterativem Pruning, um ein globales Parameter-Ranking zu erstellen, aus dem Modelle jeder Zielgröße sofort materialisiert werden können. ACIP zeigt eine starke Vorhersageleistung bei nachgelagerten Aufgaben ohne kostspielige Feinabstimmung. Bei verschiedenen LLMs mit offenem Gewicht erzielt es im Vergleich zu bestehenden faktorisierungsbasierten Methoden die besten Komprimierungsergebnisse. Darüber hinaus ergänzt es nahtlos gängige Quantisierungstechniken für eine noch stärkere Kompression.

TU Berlin

Straße des 17. Juni 135, 10623 Berlin

Zur Registrierung