Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

LLM Chronicles #6.3: Multi-Modal LLMs for Image, Sound and Video

Автор: Donato Capitella

Загружено: 2024-07-01

Просмотров: 28271

Описание:

In this episode we look at the architecture and training of multi-modal LLMs. After that, we’ll focus on vision and explore Vision Transformers and how they are trained with contrastive learning (OpenAI's CLIP and Google's SigLIP). Vision Transformers are the most commonly used building block in MLLMs with vision capabilities. Finally, we’ll get hands-on and look into Google’s open-weight PaliGemma, analysing its implementation to see these concepts in action within a real-world multi-modal LLM.

Series website: https://llm-chronicles.com/

🖹 Canvas and Colab Notebook:
LLM Limitations and Challenges: https://llm-chronicles.com/pdfs/llm-c...
Colab Notebook: https://colab.research.google.com/dri...

🕤 Timestamps:
01:32 - MLLM Architecture
03:49 - Training MLLMs
07:02 - Vision Transformer
09:24 - Contrastive Learning (CLIP, SigLIP)
12:35 - Lab: PaliGemma
22:53 - Summary

References:
Vision transformer: https://arxiv.org/pdf/2010.11929
Survey of multi modal LLMs: https://arxiv.org/pdf/2306.13549
Microsoft's CLAP: https://arxiv.org/pdf/2206.04769
SigLip: https://arxiv.org/pdf/2303.15343

LLM Chronicles #6.3: Multi-Modal LLMs for Image, Sound and Video

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

array(10) { [0]=> object(stdClass)#5271 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "GWaoin6bprQ" ["related_video_title"]=> string(83) "LLM Chronicles #6.3a: OpenAI CLIP for Zero-Shot Image Classification and Similarity" ["posted_time"]=> string(27) "7 месяцев назад" ["channelName"]=> string(16) "Donato Capitella" } [1]=> object(stdClass)#5244 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "wjZofJX0v4M" ["related_video_title"]=> string(148) "LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры" ["posted_time"]=> string(19) "1 год назад" ["channelName"]=> string(11) "3Blue1Brown" } [2]=> object(stdClass)#5269 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "0VLAoVGf_74" ["related_video_title"]=> string(42) "How DeepSeek Rewrote the Transformer [MLA]" ["posted_time"]=> string(25) "3 месяца назад" ["channelName"]=> string(10) "Welch Labs" } [3]=> object(stdClass)#5276 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "7xTGNNLPyMI" ["related_video_title"]=> string(32) "Deep Dive into LLMs like ChatGPT" ["posted_time"]=> string(25) "4 месяца назад" ["channelName"]=> string(15) "Andrej Karpathy" } [4]=> object(stdClass)#5255 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "sr2iWz133eg" ["related_video_title"]=> string(92) "Что такое RAG в LLM и причём тут векторные базы данных" ["posted_time"]=> string(25) "3 недели назад" ["channelName"]=> string(23) "Rustam Kamalov | Python" } [5]=> object(stdClass)#5273 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "aircAruvnKk" ["related_video_title"]=> string(101) "Но что такое нейронная сеть? | Глава 1. Глубокое обучение" ["posted_time"]=> string(19) "7 лет назад" ["channelName"]=> string(11) "3Blue1Brown" } [6]=> object(stdClass)#5268 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "22tkx79icy4" ["related_video_title"]=> string(55) "RAG | САМОЕ ПОНЯТНОЕ ОБЪЯСНЕНИЕ!" ["posted_time"]=> string(23) "1 месяц назад" ["channelName"]=> string(8) "AI RANEZ" } [7]=> object(stdClass)#5278 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "yuHobnmVpXc" ["related_video_title"]=> string(121) "АСЛАНЯН. Россия бастует. Украина снова удивляет. Будет второе НАТО" ["posted_time"]=> string(21) "3 часа назад" ["channelName"]=> string(29) "Ходорковский LIVE" } [8]=> object(stdClass)#5254 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "WA72wSHR4V0" ["related_video_title"]=> string(121) "Удары Израиля по Ирану: первые результаты и возможные последствия" ["posted_time"]=> string(23) "5 часов назад" ["channelName"]=> string(15) "ihar Tyshkevich" } [9]=> object(stdClass)#5272 (5) { ["video_id"]=> int(9999999) ["related_video_id"]=> string(11) "KFgwXXWT7sQ" ["related_video_title"]=> string(170) "ИИ-агенты — вот что действительно изменит разработку. Пишем ИИ-агент на Python, LangChain и GigaChat" ["posted_time"]=> string(25) "3 недели назад" ["channelName"]=> string(29) "Диджитализируй!" } }
LLM Chronicles #6.3a: OpenAI CLIP for Zero-Shot Image Classification and Similarity

LLM Chronicles #6.3a: OpenAI CLIP for Zero-Shot Image Classification and Similarity

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

How DeepSeek Rewrote the Transformer [MLA]

How DeepSeek Rewrote the Transformer [MLA]

Deep Dive into LLMs like ChatGPT

Deep Dive into LLMs like ChatGPT

Что такое RAG в LLM и причём тут векторные базы данных

Что такое RAG в LLM и причём тут векторные базы данных

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

RAG | САМОЕ ПОНЯТНОЕ ОБЪЯСНЕНИЕ!

RAG | САМОЕ ПОНЯТНОЕ ОБЪЯСНЕНИЕ!

АСЛАНЯН. Россия бастует. Украина снова удивляет. Будет второе НАТО

АСЛАНЯН. Россия бастует. Украина снова удивляет. Будет второе НАТО

Удары Израиля по Ирану: первые результаты и возможные последствия

Удары Израиля по Ирану: первые результаты и возможные последствия

ИИ-агенты — вот что действительно изменит разработку. Пишем ИИ-агент на Python, LangChain и GigaChat

ИИ-агенты — вот что действительно изменит разработку. Пишем ИИ-агент на Python, LangChain и GigaChat

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]