Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Visually explaining Byte Latent Transformers - LLMs just got a massive breakthrough!

Автор: Neural Breakdown with AVB

Загружено: 2024-12-27

Просмотров: 7905

Описание:

In this video, we discuss Meta's latest paper on the Byte Latent Transformers (BLT) model from the paper Byte Latent Transformers - Patches scale better than Tokens. Quite literally, we go over each word in that sentence, and what they mean. Personally, I think dynamic compute allocation is a huge deal and this feels like a pretty exciting research direction for LLMs going forward. I tried to present visually engaging material that explains the architectural design behind various ideas in the paper.

Paper link: Paper - https://arxiv.org/abs/2412.09871

#deeplearning #ai

Join our Patreon to support the channel! Your support keeps the channel going! Members also get access to all the code, slides, documents, animations produced in all my videos including this one. Files are usually shared within a day of upload.

Patreon link:   / neuralbreakdownwithavb  
Direct link for the material used in this video:   / byte-latent-blt-118825972  

Related videos you may enjoy:
Transformers playlist:    • Attention to Transformers from zero to her...  

The History of Attention:    • Turns out Attention wasn't all we needed -...  
Coding Language Models from scratch:    • From Attention to Generative Language Mode...  
Latent Space Models:    • Visualizing the Latent Space: This video w...  
Advanced Latent Space LLMs:    • If LLMs are text models, how do they gener...  
History of NLP:    • 10 years of NLP history explained in 50 co...  


Timestamps:
0:00 - Intro
1:21 - Intro to Transformers
3:39 - Subword Tokenizers
4:48 - Embeddings
7:10 - How does vocab size impact Transformer FLOPs?
11:15 - Byte Encodings
12:33 - Pros and Cons of Byte Tokens
15:05 - Patches
17:00 - Entropy
19:34 - Entropy model
23:40 - Dynamically Allocate Compute
25:11 - Latent Space
27:15 - BLT Architecture
29:30 - Local Encoder
34:06 - Latent Transformer and Local Decoder in BLT
36:08 - Outro

Visually explaining Byte Latent Transformers - LLMs just got a massive breakthrough!

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Turns out Attention wasn't all we needed - How have modern Transformer architectures evolved?

Turns out Attention wasn't all we needed - How have modern Transformer architectures evolved?

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Почему «Трансформеры» заменяют CNN?

Почему «Трансформеры» заменяют CNN?

Руководство по созданию конвейеров дополненной генерации данных (RAG), которые действительно рабо...

Руководство по созданию конвейеров дополненной генерации данных (RAG), которые действительно рабо...

Программируем с ИИ в VS Code - БЕСПЛАТНО! Сможет каждый!

Программируем с ИИ в VS Code - БЕСПЛАТНО! Сможет каждый!

Text diffusion: A new paradigm for LLMs

Text diffusion: A new paradigm for LLMs

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

What If We Remove Tokenization In LLMs?

What If We Remove Tokenization In LLMs?

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

От внимания к генеративным языковым моделям — по одной строке кода за раз!

От внимания к генеративным языковым моделям — по одной строке кода за раз!

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

How to solve Reinforcement Learning when there are ZERO rewards (Curiosity & RND)

How to solve Reinforcement Learning when there are ZERO rewards (Curiosity & RND)

Context Engineering with DSPy - the fully hands-on Basics to Pro course!

Context Engineering with DSPy - the fully hands-on Basics to Pro course!

Больше, чем генераторы изображений: наука решения проблем с использованием теории вероятностей | ...

Больше, чем генераторы изображений: наука решения проблем с использованием теории вероятностей | ...

Do you know about these 17 NLP and LLM research directions?

Do you know about these 17 NLP and LLM research directions?

Kolmogorov Arnold Networks (KAN) Paper Explained - An exciting new paradigm for Deep Learning?

Kolmogorov Arnold Networks (KAN) Paper Explained - An exciting new paradigm for Deep Learning?

Vision Transformers - The big picture of how and why it works so well.

Vision Transformers - The big picture of how and why it works so well.

Поворотные позиционные вложения: сочетание абсолютного и относительного

Поворотные позиционные вложения: сочетание абсолютного и относительного

Finetune LLMs to teach them ANYTHING with Huggingface and Pytorch | Step-by-step tutorial

Finetune LLMs to teach them ANYTHING with Huggingface and Pytorch | Step-by-step tutorial

THIS is why large language models can understand the world

THIS is why large language models can understand the world

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]