Das Seminar untersucht, wie die Integration von Bild- und Sprachmodellen Erkennungsaufgaben in verschiedenen Bereichen verändert. Im Mittelpunkt dieser Diskussion steht die Herausforderung der Erkennung und Anpassung an bisher unbekannte oder sich entwickelnde Kategorien in einer offenen Welt, insbesondere ohne vordefinierte Vokabularien oder umfassende Trainingsdaten zu verwenden. Die vorgestellten Arbeiten nutzen vortrainierte Vision-Language-Modelle (VLMs) wie CLIP und schlagen Techniken zur Verbesserung der Erkennung und Anpassung in verschiedenen komplexen Szenarien vor.
Das Seminar hebt die zunehmende Verlagerung hin zu unüberwachten und trainingsfreien Methoden hervor, die die Grenzen bestehender Modelle, die umfangreiche gelabelte Daten oder spezielles Training erfordern, überwinden. Zum Beispiel schlägt AutoLabel einen Weg zur automatischen Generierung von Klassennamen in der Open-set Unsupervised Video Domain Adaptation vor, wodurch die Notwendigkeit von Orakelwissen über die Namen der Bezeichnungen entfällt. In ähnlicher Weise führt eine neuartige Aufgabe zur vokabelfreien Bildklassifizierung einen Rahmen für die Klassifizierung von Bildern in einem unbeschränkten semantischen Raum ein, wobei die Beschränkungen fester Vokabulare durch dynamische Kategoriensuchmethoden umgangen werden.
Ein weiterer wichtiger Bereich ist die Zero-Shot Temporal Action Localization (ZS-TAL), bei der Modelle ungesehene Handlungen in Videos identifizieren müssen, ohne mit markierten Daten zu trainieren. Die Testzeitanpassung erweist sich hier als ein vielversprechender Ansatz, der es den Modellen ermöglicht, sich an neue Kontexte anzupassen, ohne dass ein Vortraining erforderlich ist. Dies spiegelt die Betonung flexibler Echtzeitlösungen wider, die auch in der automatischen Programmierung von Experimenten (APEx) zu finden sind, einem Rahmenwerk, das den Benchmarking-Prozess für große multimodale Modelle automatisiert und damit die Bewertung und Hypothesenprüfung beschleunigt.
Die Veranstaltung findet am 15.10.2024 von 10:00 bis 11:30 Uhr statt.
TU Berlin
Einsteinufer 17, 10587 Berlin