Переосмысление инфраструктуры ИИ для агентов: насыщение KV-кэша и появление агентного кэша.

Автор: Faradawn Yang

Загружено: 2025-12-09

Просмотров: 491

Описание:

Обзор и основные моменты NeurIPS 2025. Конференция выявила серьёзный сдвиг в инфраструктуре ИИ: KV-кэш достигает своего предела, а следующая волна рабочих нагрузок — агентные системы — полностью разрушает как KV-кэш, так и семантический кэш. В этом видео мы разберём статью Стэнфордского университета, представляющую Agentic Planning Cache — новый подход, разработанный для многоходовых, многомодельных агентов.

Мы рассмотрим:

• Почему оптимизация KV-кэша почти достигла насыщения

• Почему семантический кэш не работает для задач агентов, зависящих от данных

• Как агентные рабочие нагрузки меняют предположения, лежащие в основе vLLM, SGLang и TensorRT-LLM

• Как может выглядеть будущий «Agent-vLLM» или «движок обслуживания агентов»

• Как Agentic Cache снижает затраты, сохраняя при этом высокую точность

Если вы создаёте инфраструктуру ИИ, движки вывода LLM или агентные системы, это тренд, который вы не можете пропустить.

#aiagents #llm #sglang

Переосмысление инфраструктуры ИИ для агентов: насыщение KV-кэша и появление агентного кэша.

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

MiMo V2 Flash

Код работает в 100 раз медленнее из-за ложного разделения ресурсов.

Код работает в 100 раз медленнее из-за ложного разделения ресурсов.

Лекция 5 по оптимизации LLM: Непрерывное пакетирование и комбинированное декодирование

Лекция 5 по оптимизации LLM: Непрерывное пакетирование и комбинированное декодирование

Создание локального ИИ-агента для тестирования программного обеспечения

Создание локального ИИ-агента для тестирования программного обеспечения

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

[VL-JEPA] LLM не будут заменены! Совместная архитектура прогнозирования на основе встраивания про...

[VL-JEPA] LLM не будут заменены! Совместная архитектура прогнозирования на основе встраивания про...

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

БЕЛЫЕ СПИСКИ: какой VPN-протокол справится? Сравниваю все

БЕЛЫЕ СПИСКИ: какой VPN-протокол справится? Сравниваю все

Напишите своё первое ядро CUDA за 15 минут (потоки, блоки, сетка объяснены подробнее)

Напишите своё первое ядро CUDA за 15 минут (потоки, блоки, сетка объяснены подробнее)

Все стратегии RAG объясняются за 13 минут (без лишних слов)

Все стратегии RAG объясняются за 13 минут (без лишних слов)

Мгновенное внимание: самый быстрый механизм внимания?

Мгновенное внимание: самый быстрый механизм внимания?

Почему спагетти-код лучше чистой архитектуры

Почему спагетти-код лучше чистой архитектуры

Комментарий к текущим событиям от 15 января 2026 года. Михаил Хазин

Комментарий к текущим событиям от 15 января 2026 года. Михаил Хазин

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Ilya Sutskever – We're moving from the age of scaling to the age of research

Ilya Sutskever – We're moving from the age of scaling to the age of research

Новый искусственный интеллект чеснока от OpenAI, Клара от Apple, живой аватар и другие интенсивны...

Новый искусственный интеллект чеснока от OpenAI, Клара от Apple, живой аватар и другие интенсивны...

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем