BLIP2: BLIP с кодировщиками замороженных изображений и LLM

Автор: Data Science Gems

Загружено: 2023-11-18

Просмотров: 4178

Описание:

Стоимость предварительной подготовки зрительно-языковых моделей становится всё более непомерной из-за сквозного обучения крупномасштабных моделей. BLIP-2 — это универсальная и эффективная стратегия предварительной подготовки, которая использует предварительное обучение зрительно-языковых моделей на основе готовых замороженных предобученных кодеров изображений и замороженных больших языковых моделей. BLIP-2 устраняет разрыв в модальности с помощью легкого Querying Transformer, который предварительно обучается в два этапа. На первом этапе запускается обучение зрительно-языковым моделям на основе замороженного кодера изображений. На втором этапе запускается генеративное обучение зрительно-языковых моделей на основе замороженной языковой модели. BLIP-2 достигает высочайшего уровня производительности при решении различных задач зрительно-языковых моделей, несмотря на значительно меньшее количество обучаемых параметров по сравнению с существующими методами. Например, BLIP-2 превосходит Flamingo80B на 8,7% на нулевом VQAv2 с в 54 раза меньшим количеством обучаемых параметров. BLIP-2 также обладает новыми возможностями генерации изображений в текст с нулевой точностью, которая может следовать инструкциям на естественном языке.

В этом видео я расскажу о следующем: Что может модель BLIP-2? Как проходит предобучение модели BLIP-2? Какова эффективность модели BLIP-2?

Подробнее см. на сайтах https://arxiv.org/pdf/2301.12597.pdf и https://github.com/salesforce/LAVIS/t...

Ли, Цзюньнань, Дунсюй Ли, Сильвио Саварезе и Стивен Хой. «Blip-2: Бутстрэппинг предобучения «язык-изображение» с помощью кодировщиков замороженных изображений и больших языковых моделей». Препринт arXiv, arXiv:2301.12597 (2023).

BLIP2: BLIP с кодировщиками замороженных изображений и LLM

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

InstructBLIP: Vision-Language Models with Instruction Tuning

InstructBLIP: Vision-Language Models with Instruction Tuning

BLIP: LLM для задач на визуальный язык

BLIP: LLM для задач на визуальный язык

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Multimodal RAG - Chat with Text, Images and Tables

Multimodal RAG - Chat with Text, Images and Tables

Создание мультимодального ИИ RAG с помощью LlamaIndex, NVIDIA NIM и Milvus | Разработка приложени...

Создание мультимодального ИИ RAG с помощью LlamaIndex, NVIDIA NIM и Milvus | Разработка приложени...

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

Низкоранговая адаптация больших языковых моделей: объяснение ключевых концепций LoRA

Низкоранговая адаптация больших языковых моделей: объяснение ключевых концепций LoRA

Фальшивые цифры раскрыты: госпрограмма поддерживает профицит Китая на $1 трлн

Фальшивые цифры раскрыты: госпрограмма поддерживает профицит Китая на $1 трлн

BLIP: Начальная загрузка предварительной подготовки языка и изображения для унифицированного пони...

BLIP: Начальная загрузка предварительной подготовки языка и изображения для унифицированного пони...

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

NotebookLM: большой разбор инструмента (12 сценариев применения)

NotebookLM: большой разбор инструмента (12 сценариев применения)

Ледяной сейф на триллионы: 33 причины, почему США готовы забрать Гренландию СИЛОЙ

Ледяной сейф на триллионы: 33 причины, почему США готовы забрать Гренландию СИЛОЙ

Травматолог №1: Суставы в 40, будут как в 20! Главное внедрите эти простые привычки

Травматолог №1: Суставы в 40, будут как в 20! Главное внедрите эти простые привычки