Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

BLIP: Начальная загрузка предварительной подготовки языка и изображения для унифицированного пони...

Автор: Yannic Kilcher

Загружено: 2022-03-23

Просмотров: 34954

Описание:

#blip #review #ai

Кросс-модальное предобучение в последнее время стало очень популярным в глубоком обучении, особенно при совместном обучении моделей зрения и языка. Однако существует ряд проблем, таких как низкое качество наборов данных, ограничивающее производительность любой обученной на них модели, а также тот факт, что чисто контрастное предобучение сложно настроить для большинства последующих задач. BLIP объединяет различные задачи и цели в одном запуске предобучения и позволяет получить гораздо более универсальную модель, которую в статье сразу же используют для создания, фильтрации, очистки и, таким образом, самообучения собственного набора данных для ещё большего повышения производительности!

Спонсор: Zeta Alpha
https://zeta-alpha.com
Используйте код YANNIC, чтобы получить скидку 20%!

ПЛАН:
0:00 — Введение
0:50 — Спонсор: Zeta Alpha
3:40 — Обзор статьи
6:40 — Предварительное обучение Vision-Language
11:15 — Вклад в статью
14:30 — Архитектура модели: множество частей для множества задач
19:50 — Как потоки данных в модели
26:50 — Совместное использование параметров между модулями
29:45 — Самонастройка субтитров и фильтрации
41:10 — Тонкая настройка модели для последующих задач

Статья: https://arxiv.org/abs/2201.12086
Код: https://github.com/salesforce/BLIP
Демонстрация: https://huggingface.co/spaces/Salesfo...

Аннотация:
Предварительное обучение Vision-Language (VLP) повысило производительность многих задач Vision-Language. Однако большинство существующих предобученных моделей демонстрируют отличные результаты только в задачах, основанных на понимании, или в задачах, основанных на генерации. Более того, повышение производительности было в значительной степени достигнуто за счет масштабирования набора данных с использованием зашумленных пар «изображение-текст», собранных из интернета, что является неоптимальным источником контроля. В данной статье мы предлагаем BLIP, новую платформу VLP, которая гибко переносится как на задачи понимания, так и на задачи генерации визуальных текстов. BLIP эффективно использует зашумленные веб-данные путем бутстрапа субтитров, где создатель субтитров генерирует синтетические субтитры, а фильтр удаляет зашумленные. Мы достигли передовых результатов в широком спектре задач, основанных на визуальном тексте, таких как поиск изображений и текста (+2,7% в средней отзывчивости при 1), создание субтитров к изображениям (+2,8% в CIDEr) и VQA (+1,6% в оценке VQA). BLIP также демонстрирует сильную способность к обобщению при прямом переносе на задачи, связанные с видеотекстом, с нуля. Код, модели и наборы данных доступны по этому https-адресу.

Авторы: Цзюньнань Ли, Дунсюй Ли, Цаймин Сюн, Стивен Хой

Ссылки:
Автодополнение кода TabNine (реферальная ссылка): http://bit.ly/tabnine-yannick
YouTube:    / yannickilcher  
Twitter:   / ykilcher  
Discord:   / discord  
BitChute: https://www.bitchute.com/channel/yann...
LinkedIn:   / ykilcher  
BiliBili: https://space.bilibili.com/2017636191

Если хотите поддержать меня, лучше всего поделиться контентом :)

Если хотите поддержать меня финансово (это совершенно необязательно и добровольно, но многие просили об этом):
SubscribeStar: https://www.subscribestar.com/yannick...
Patreon:   / yannickilcher  
Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq
Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2
Лайткойн (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m
Монеро (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n

BLIP: Начальная загрузка предварительной подготовки языка и изображения для унифицированного пони...

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

OpenAI CLIP: Соединение текста и изображений (объяснение в статье)

OpenAI CLIP: Соединение текста и изображений (объяснение в статье)

Computer Vision Study Group Session on BLIP-2

Computer Vision Study Group Session on BLIP-2

DINO: Emerging Properties in Self-Supervised Vision Transformers (Facebook AI Research Explained)

DINO: Emerging Properties in Self-Supervised Vision Transformers (Facebook AI Research Explained)

[Classic] Deep Residual Learning for Image Recognition (Paper Explained)

[Classic] Deep Residual Learning for Image Recognition (Paper Explained)

Цепи Маркова — математика предсказаний [Veritasium]

Цепи Маркова — математика предсказаний [Veritasium]

В чем разница между матрицами и тензорами?

В чем разница между матрицами и тензорами?

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

BLIP: LLM для задач на визуальный язык

BLIP: LLM для задач на визуальный язык

How AI 'Understands' Images (CLIP) - Computerphile

How AI 'Understands' Images (CLIP) - Computerphile

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Введение в модели языка визуализации (VLM)

Введение в модели языка визуализации (VLM)

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Perceiver: General Perception with Iterative Attention (Google DeepMind Research Paper Explained)

Perceiver: General Perception with Iterative Attention (Google DeepMind Research Paper Explained)

RAG vs Fine-Tuning vs Prompt Engineering: Optimizing AI Models

RAG vs Fine-Tuning vs Prompt Engineering: Optimizing AI Models

Introduction to Generative AI

Introduction to Generative AI

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

Implement and Train VLMs (Vision Language Models) From Scratch - PyTorch

Implement and Train VLMs (Vision Language Models) From Scratch - PyTorch

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Author Interview - Transformer Memory as a Differentiable Search Index

Author Interview - Transformer Memory as a Differentiable Search Index

Для Чего РЕАЛЬНО Нужен был ГОРБ Boeing 747?

Для Чего РЕАЛЬНО Нужен был ГОРБ Boeing 747?

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: infodtube@gmail.com