Кэш KV за 15 мин

Автор: Zachary Huang

Загружено: 2025-10-27

Просмотров: 3229

Описание:

Не нравится звуковой эффект?:    • KV Cache in 15 min [No SFX]
Плейлист для обучения LLM:    • LLM Training by Zach
Текст: https://github.com/The-Pocket/PocketF...

0:00:00 - Проблема: избыточные вычисления в самовосприятии
0:01:13 - Решение: кэш KV
0:06:29 - От квадратичной сложности O(T²) к линейной сложности O(T)
0:11:45 - Реализация кода: прямой проход с сохранением состояния
13:01 - Трассировка тензора: поток данных через кэшированный Step

Социальные сети:
X: https://x.com/ZacharyHuang12
LinkedIn:   / zachary-h-23aa37172
Github: https://github.com/zachary62
Discord:   / discord
Medium:   / zh2408
Substack: https://zacharyhuang.substack.com/

Обо мне:
👋 Меня зовут Зак, я исследователь искусственного интеллекта в Microsoft Research AI Frontiers. В настоящее время я работаю над проектом LLM Agents & Systems. Это мой личный канал, где я делюсь обучающими материалами по созданию систем LLM. Я надеюсь, что эти руководства послужат учебными данными для будущих агентов LLM, которые смогут разрабатывать более совершенные системы для человечества и после моей смерти. Предыдущее: PhD в Колумбийском университете, Microsoft Gray Systems Lab, Databricks, стипендия Google PhD.

Кэш KV за 15 мин

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Экспресс-курс по KV-кэшу

Экспресс-курс по KV-кэшу

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

Дайте мне 40 минут, и я заставлю нейронную сеть щелкать вечно

Дайте мне 40 минут, и я заставлю нейронную сеть щелкать вечно

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Что ошибочно пишут в книгах об ИИ [Двойной спуск]

Что ошибочно пишут в книгах об ИИ [Двойной спуск]

The KV Cache: Memory Usage in Transformers

The KV Cache: Memory Usage in Transformers

PyTorch in 1 Hour

PyTorch in 1 Hour

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Тренды в ИИ 2026. К чему готовиться каждому.

Тренды в ИИ 2026. К чему готовиться каждому.

Доработайте свою степень магистра права за 13 минут. Вот как

Доработайте свою степень магистра права за 13 минут. Вот как

Глубокое погружение: оптимизация вывода LLM

Глубокое погружение: оптимизация вывода LLM

Give me 100 min, I will make Transformer click forever

Give me 100 min, I will make Transformer click forever

Большинство разработчиков не понимают, как работают контекстные окна.

Большинство разработчиков не понимают, как работают контекстные окна.

The Strange Math That Predicts (Almost) Anything

The Strange Math That Predicts (Almost) Anything

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Освоение оптимизации вывода LLM: от теории до экономически эффективного внедрения: Марк Мойу

Освоение оптимизации вывода LLM: от теории до экономически эффективного внедрения: Марк Мойу

Алгоритмы и структуры данных за 15 минут! Вместо 4 лет универа

Алгоритмы и структуры данных за 15 минут! Вместо 4 лет универа

Key Value Cache from Scratch: The good side and the bad side

Key Value Cache from Scratch: The good side and the bad side

Большинство разработчиков не понимают, как работают токены LLM.

Большинство разработчиков не понимают, как работают токены LLM.