Переосмысление инфраструктуры ИИ для агентов: насыщение KV-кэша и появление агентного кэша.
Автор: Faradawn Yang
Загружено: 2025-12-09
Просмотров: 491
Обзор и основные моменты NeurIPS 2025. Конференция выявила серьёзный сдвиг в инфраструктуре ИИ: KV-кэш достигает своего предела, а следующая волна рабочих нагрузок — агентные системы — полностью разрушает как KV-кэш, так и семантический кэш. В этом видео мы разберём статью Стэнфордского университета, представляющую Agentic Planning Cache — новый подход, разработанный для многоходовых, многомодельных агентов.
Мы рассмотрим:
• Почему оптимизация KV-кэша почти достигла насыщения
• Почему семантический кэш не работает для задач агентов, зависящих от данных
• Как агентные рабочие нагрузки меняют предположения, лежащие в основе vLLM, SGLang и TensorRT-LLM
• Как может выглядеть будущий «Agent-vLLM» или «движок обслуживания агентов»
• Как Agentic Cache снижает затраты, сохраняя при этом высокую точность
Если вы создаёте инфраструктуру ИИ, движки вывода LLM или агентные системы, это тренд, который вы не можете пропустить.
#aiagents #llm #sglang
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: