Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Turns out Attention wasn't all we needed - How have modern Transformer architectures evolved?

Автор: Neural Breakdown with AVB

Загружено: 2024-12-16

Просмотров: 6547

Описание:

In this video, we discuss the evolution of the classic Neural Attention mechanism from early adoptions of Bahnadau Attention and more specifically Self-Attention and Causal Masked Attention introduced in the seminal "Attention is all you need" paper. This video discusses more advanced forms of the Multi Headed Attention such as Multi Query Attention and Grouped Query Attention. Along the way, we also talk about important innovations in the Transformers and Large Language Models (LLMs) architecture, such as KV Caching. The video contains visualizations and graphics to further explain these concepts.

Correction in the slide at 22:03 - MHA has high latency (runs slow) MQA has low latency (runs faster)

All the slides, animations and write-up in this video will soon be shared in our Patreon. Go have fun! :)
Join the channel on Patreon to receive updates about the channel, and get access to bonus content used in all my videos. Here is the link:
  / neuralbreakdownwithavb  

Videos you might like:
Attention to Transformers playlist:    • Attention to Transformers from zero to her...  
50 concepts to know NLP:    • 10 years of NLP history explained in 50 co...  
Guide to fine-tuning open source LLMs:    • Finetune LLMs to teach them ANYTHING with ...  
Generative Language Modeling from scratch:    • From Attention to Generative Language Mode...  

#deeplearning #machinelearning

Timestamps:
0:00 - Intro
1:15 - Language Modeling and Next Word Prediction
5:22 - Self Attention
10:40 - Causal Masked Attention
14:45 - Multi Headed Attention
16:03 - KV Cache
19:49 - Multi Query Attention
21:43 - Grouped Query Attention

Turns out Attention wasn't all we needed - How have modern Transformer architectures evolved?

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Visually explaining Byte Latent Transformers - LLMs just got a massive breakthrough!

Visually explaining Byte Latent Transformers - LLMs just got a massive breakthrough!

От внимания к генеративным языковым моделям — по одной строке кода за раз!

От внимания к генеративным языковым моделям — по одной строке кода за раз!

How's your Pipeline of future business?

How's your Pipeline of future business?

10 лет истории НЛП в 50 концепциях | От Word2Vec, RNN до GPT

10 лет истории НЛП в 50 концепциях | От Word2Vec, RNN до GPT

Почему «Трансформеры» заменяют CNN?

Почему «Трансформеры» заменяют CNN?

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Finetune LLMs to teach them ANYTHING with Huggingface and Pytorch | Step-by-step tutorial

Finetune LLMs to teach them ANYTHING with Huggingface and Pytorch | Step-by-step tutorial

I Visualised Attention in Transformers

I Visualised Attention in Transformers

How FlashAttention Accelerates Generative AI Revolution

How FlashAttention Accelerates Generative AI Revolution

Момент, когда мы перестали понимать ИИ [AlexNet]

Момент, когда мы перестали понимать ИИ [AlexNet]

The Misconception that Almost Stopped AI [How Models Learn Part 1]

The Misconception that Almost Stopped AI [How Models Learn Part 1]

Вот как «Трансформеры» положили конец традиции индуктивного смещения в нейронных сетях.

Вот как «Трансформеры» положили конец традиции индуктивного смещения в нейронных сетях.

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

Who's Adam and What's He Optimizing? | Deep Dive into Optimizers for Machine Learning!

Who's Adam and What's He Optimizing? | Deep Dive into Optimizers for Machine Learning!

Механизм внимания в больших языковых моделях

Механизм внимания в больших языковых моделях

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Что я думаю про будущее разработки в эпоху ИИ

Что я думаю про будущее разработки в эпоху ИИ

Neural Attention - This simple example will change how you think about it

Neural Attention - This simple example will change how you think about it

Sparse Mixture of Experts - The transformer behind the most efficient LLMs (DeepSeek, Mixtral)

Sparse Mixture of Experts - The transformer behind the most efficient LLMs (DeepSeek, Mixtral)

Руководство по созданию конвейеров дополненной генерации данных (RAG), которые действительно рабо...

Руководство по созданию конвейеров дополненной генерации данных (RAG), которые действительно рабо...

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]