BLIP2: BLIP с кодировщиками замороженных изображений и LLM
Автор: Data Science Gems
Загружено: 2023-11-18
Просмотров: 4178
Стоимость предварительной подготовки зрительно-языковых моделей становится всё более непомерной из-за сквозного обучения крупномасштабных моделей. BLIP-2 — это универсальная и эффективная стратегия предварительной подготовки, которая использует предварительное обучение зрительно-языковых моделей на основе готовых замороженных предобученных кодеров изображений и замороженных больших языковых моделей. BLIP-2 устраняет разрыв в модальности с помощью легкого Querying Transformer, который предварительно обучается в два этапа. На первом этапе запускается обучение зрительно-языковым моделям на основе замороженного кодера изображений. На втором этапе запускается генеративное обучение зрительно-языковых моделей на основе замороженной языковой модели. BLIP-2 достигает высочайшего уровня производительности при решении различных задач зрительно-языковых моделей, несмотря на значительно меньшее количество обучаемых параметров по сравнению с существующими методами. Например, BLIP-2 превосходит Flamingo80B на 8,7% на нулевом VQAv2 с в 54 раза меньшим количеством обучаемых параметров. BLIP-2 также обладает новыми возможностями генерации изображений в текст с нулевой точностью, которая может следовать инструкциям на естественном языке.
В этом видео я расскажу о следующем: Что может модель BLIP-2? Как проходит предобучение модели BLIP-2? Какова эффективность модели BLIP-2?
Подробнее см. на сайтах https://arxiv.org/pdf/2301.12597.pdf и https://github.com/salesforce/LAVIS/t...
Ли, Цзюньнань, Дунсюй Ли, Сильвио Саварезе и Стивен Хой. «Blip-2: Бутстрэппинг предобучения «язык-изображение» с помощью кодировщиков замороженных изображений и больших языковых моделей». Препринт arXiv, arXiv:2301.12597 (2023).
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: