Кэширование KV: ускорение вывода LLM [Лекция]

Автор: Jordan Boyd-Graber

Загружено: 2025-11-30

Просмотров: 133

Описание:

Это отдельная лекция из курса. Если вам понравился материал,
и вы хотите больше информации (например, о предыдущих лекциях), ознакомьтесь
с полным курсом:
https://users.umiacs.umd.edu/~jbg/tea...
(Включая домашние задания и материалы для чтения.)

Я часто называю LLM/Foundation Models/Frontier Models «Muppet Models». Вот почему:
• What general term should you use for model...

Я получил бесплатную подписку на EdCafe, чтобы добавить её в эти слайды:
https://www.edcafe.ai/

Музыка: / review-and-rest

Кэширование KV: ускорение вывода LLM [Лекция]

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Глубокое погружение: оптимизация вывода LLM

Глубокое погружение: оптимизация вывода LLM

Оптимизация моделей: тонкая настройка, дистилляция, LoRA и QLoRA [Лекция]

Оптимизация моделей: тонкая настройка, дистилляция, LoRA и QLoRA [Лекция]

Использование DSPy для оптимизации подсказок в Python: пример калибровки вопросов для Quiz Bowl [...

Использование DSPy для оптимизации подсказок в Python: пример калибровки вопросов для Quiz Bowl [...

Почему «Трансформеры» заменяют CNN?

Почему «Трансформеры» заменяют CNN?

Почему использование простой языковой модели может ускорить работу более умной: спекулятивное дек...

Почему использование простой языковой модели может ускорить работу более умной: спекулятивное дек...

Программируем с ИИ в VS Code - БЕСПЛАТНО! Сможет каждый!

Программируем с ИИ в VS Code - БЕСПЛАТНО! Сможет каждый!

i think this is what AI should look like

i think this is what AI should look like

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Faster LLMs: Accelerate Inference with Speculative Decoding

Faster LLMs: Accelerate Inference with Speculative Decoding

4 шага, которые превращают ответы ChatGPT до уровня 98/100

4 шага, которые превращают ответы ChatGPT до уровня 98/100

Почему я не сторонник подсказок для ИИ [Лекция]

Почему я не сторонник подсказок для ИИ [Лекция]

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

How to find and measure AI's weak spots [Research, NAACL 2025 Outstanding Paper]

How to find and measure AI's weak spots [Research, NAACL 2025 Outstanding Paper]

Адам / AdamW: Чем оптимизатор «по умолчанию» отличается от SGD [Лекция]

Адам / AdamW: Чем оптимизатор «по умолчанию» отличается от SGD [Лекция]

Объяснение тензорных процессоров (TPU)

Объяснение тензорных процессоров (TPU)

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

Где начало СХЕМЫ? Понимаем, читаем, изучаем схемы. Понятное объяснение!

Где начало СХЕМЫ? Понимаем, читаем, изучаем схемы. Понятное объяснение!

Google Antigravity: ЛУЧШАЯ AI IDE?

Google Antigravity: ЛУЧШАЯ AI IDE?

Экспресс-курс RAG для начинающих

Экспресс-курс RAG для начинающих