VLLM K/V Caching With Ceph - Kyle Bader, IBM & Tushar Gohad, Intel

Автор: Ceph

Загружено: 2025-11-19

Просмотров: 104

Описание:

VLLM K/V Caching With Ceph - Kyle Bader, IBM & Tushar Gohad, Intel

Generative AI and LLMs are all the rage right now, and many people are asking where storage fits in and how it can help with either accelerating or reducing the cost of various AI workflows. In this session we will dive into a prototype Ceph caching plugin for vLLM that allows offloading attention states to Ceph, lowering the cost of inference by allowing clustered NVMe to complement GPU memory. We will describe how K/V caching fits into inference workloads, caching plugin implementation details, how we think it should evolve, and share some preliminary performance data.

VLLM K/V Caching With Ceph - Kyle Bader, IBM & Tushar Gohad, Intel

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Производительность Ceph: Основы гонок на щупальцах — Ли Сандерс, IBM UK

Производительность Ceph: Основы гонок на щупальцах — Ли Сандерс, IBM UK

Защита данных в движении и состоянии покоя: количественная оценка эффективности сквозного шифрова...

Защита данных в движении и состоянии покоя: количественная оценка эффективности сквозного шифрова...

Panther Lake Overview: In-Depth with Architects & Engineers | Talking Tech | Intel Technology

Panther Lake Overview: In-Depth with Architects & Engineers | Talking Tech | Intel Technology

Сессия по плану развития объектного хранилища Ceph на Cephalocon 2025 — Дэниел Паркс и Мэтью Бенд...

Сессия по плану развития объектного хранилища Ceph на Cephalocon 2025 — Дэниел Паркс и Мэтью Бенд...

Краткий обзор новой версии n8n 2.0 🚀

Краткий обзор новой версии n8n 2.0 🚀

Storage и FS - что подходит для enterprise

Storage и FS - что подходит для enterprise

Стоило ли покупать УБИТЫЙ MacBook за 5000₽? Результат ШОКИРОВАЛ! Ремонт MacBook Pro 15 1013 a1398

Стоило ли покупать УБИТЫЙ MacBook за 5000₽? Результат ШОКИРОВАЛ! Ремонт MacBook Pro 15 1013 a1398

Может ли Ceph стать больше похож на базу данных? — Радослав Зажински, IBM

Может ли Ceph стать больше похож на базу данных? — Радослав Зажински, IBM

Рабочая станция 3 GPU? ИИ, CAD, Blender и даже игры. Проверили все!

Рабочая станция 3 GPU? ИИ, CAD, Blender и даже игры. Проверили все!

Принц Персии: разбираем код гениальной игры, вытирая слезы счастья

Принц Персии: разбираем код гениальной игры, вытирая слезы счастья

Устранение неэффективности стирающего кодирования Ceph — Алекс Эйнскоу и Билл Скейлс, IBM

Устранение неэффективности стирающего кодирования Ceph — Алекс Эйнскоу и Билл Скейлс, IBM

«Сыграй На Пианино — Я Женюсь!» — Смеялся Миллиардер… Пока Еврейка Не Показала Свой Дар

«Сыграй На Пианино — Я Женюсь!» — Смеялся Миллиардер… Пока Еврейка Не Показала Свой Дар

Проактивные агенты – Кэт Коревец, Google Labs

Проактивные агенты – Кэт Коревец, Google Labs

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Windows 11 Bitlocker не предназначен для вашей защиты

Windows 11 Bitlocker не предназначен для вашей защиты

Делаем графические процессоры по-настоящему быстрыми: глубокий анализ эффективности тренировок

Делаем графические процессоры по-настоящему быстрыми: глубокий анализ эффективности тренировок

Сложность пароля — это ложь. Вот что на самом деле защищает вас

Сложность пароля — это ложь. Вот что на самом деле защищает вас

MSR (Mutli-Step Retry): обобщение CRUSH, допускающее несколько OSD на домен сбоя — S. Just

MSR (Mutli-Step Retry): обобщение CRUSH, допускающее несколько OSD на домен сбоя — S. Just

Gemini на рабочих 13 задачах: имба и слабости

Gemini на рабочих 13 задачах: имба и слабости

MCP vs API: Simplifying AI Agent Integration with External Data

MCP vs API: Simplifying AI Agent Integration with External Data