Multimodal AI from First Principles - Neural Nets that can see, hear, AND write.

Автор: Neural Breakdown with AVB

Загружено: 2023-05-27

Просмотров: 13558

Описание:

Generative Large Language Models like OpenAI's GPT-4, Google's PaLM 2, and Discriminative models like ImageBind are models released in 2023 that combine visual and textual input to perform multi-modal tasks. Multimodal modeling combines multiple modalities to train neural networks - images, text, audio, etc empowering ML models to perform amazing multimodal tasks like text-image retrieval, multimodal vector arithmetic, visual question answering, and language modelling.

To support the channel and access the Word documents/slides used in this video, consider JOINING the channel on Youtube or Patreon. Members get access to scripts, slides, animations, and illustrations for most of the videos on my channel!

Patreon - / neuralbreakdownwithavb

Follow on Twitter: @neural_avb

In this video, I covered the essential published techniques for Multimodal Modelling and so many amazing results of the past few years that have left my jaws on the floor. Hope you enjoy it!

Watch how Multimodal models generate images:
• If LLMs are text models, how do they gener...

#deeplearning #languagemodel #gpt #computervision

Papers references in this video:
Unifying Visual-Semantic Embeddings: https://arxiv.org/pdf/1411.2539.pdf
CLIP: https://arxiv.org/abs/2102.02779
ImageBInd: https://arxiv.org/abs/2305.05665
BLIP: https://arxiv.org/abs/2201.12086
HERO: https://arxiv.org/pdf/2005.00200.pdf
VL-T5: https://arxiv.org/pdf/2102.02779.pdf
OFA: https://arxiv.org/abs/2202.03052
SimVLM: https://arxiv.org/abs/2108.10904
Frozen: https://arxiv.org/abs/2106.13884
Flamingo: https://arxiv.org/abs/2204.14198
MiniGPT4: https://arxiv.org/abs/2304.10592
Kosmos-1: https://arxiv.org/abs/2302.14045
PaLM-E: https://arxiv.org/abs/2303.03378

Timestamps:
0:00 - Intro
02:55 - Basics
05:05 - Contrastive Learning
07:54 - Masked Visual Language Models
10:20 - Unified Models
13:41 - Generative LLMs

Multimodal AI from First Principles - Neural Nets that can see, hear, AND write.

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Text to Image Diffusion AI Model from scratch - Explained one line of code at a time!

Text to Image Diffusion AI Model from scratch - Explained one line of code at a time!

But how do AI images and videos actually work? | Guest video by Welch Labs

But how do AI images and videos actually work? | Guest video by Welch Labs

LeMaterial Reading Group | Predicting Equivariant Hessians with MLIPs

LeMaterial Reading Group | Predicting Equivariant Hessians with MLIPs

10 лет истории НЛП в 50 концепциях | От Word2Vec, RNN до GPT

10 лет истории НЛП в 50 концепциях | От Word2Vec, RNN до GPT

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Claude за 20 минут: Полный курс для новичков

Claude за 20 минут: Полный курс для новичков

If LLMs are text models, how do they generate images?

If LLMs are text models, how do they generate images?

18 КРУТЫХ способов для ChatGPT (что кажется нелегально)

18 КРУТЫХ способов для ChatGPT (что кажется нелегально)

MAMBA from Scratch: Neural Nets Better and Faster than Transformers

MAMBA from Scratch: Neural Nets Better and Faster than Transformers

Multimodal AI: LLMs that can see (and hear)

Multimodal AI: LLMs that can see (and hear)

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

20 концепций искусственного интеллекта, объясненных за 40 минут

20 концепций искусственного интеллекта, объясненных за 40 минут

What Are Vision Language Models? How AI Sees & Understands Images

What Are Vision Language Models? How AI Sees & Understands Images

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Может ли у ИИ появиться сознание? — Семихатов, Анохин

Может ли у ИИ появиться сознание? — Семихатов, Анохин

Почему диффузия работает лучше, чем авторегрессия?

Почему диффузия работает лучше, чем авторегрессия?

Магистратура по речевым технологиям: модели, которые слушают и отвечают

Магистратура по речевым технологиям: модели, которые слушают и отвечают

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Тренды в ИИ 2026. К чему готовиться каждому.

Тренды в ИИ 2026. К чему готовиться каждому.

Multimodality and Data Fusion Techniques in Deep Learning

Multimodality and Data Fusion Techniques in Deep Learning