Chameleon: Heterogeneous & Disaggregated Accelerator System for Retrieval-Augmented Language Models

Автор: Scalable Parallel Computing Lab, SPCL @ ETH Zurich

Загружено: 2025-07-02

Просмотров: 126

Описание:

Paper Title: Chameleon: A Heterogeneous and Disaggregated Accelerator System for Retrieval-Augmented Language Models
Speaker: Wenqi Jiang
Authors: Wenqi Jiang, Marco Zeller, Roger Waleffe, Torsten Hoefler, Gustavo Alonso
Venue: Proceedings of the VLDB Endowment, Volume 18, Issue 1
Abstract:
A Retrieval-Augmented Language Model (RALM) combines a large language model (LLM) with a vector database to retrieve context-specific knowledge during text generation. This strategy facilitates impressive generation quality even with smaller models, thus reducing computational demands by orders of magnitude. To serve RALMs efficiently and flexibly, we propose Chameleon, a heterogeneous accelerator system integrating both LLM and vector search accelerators in a disaggregated architecture. The heterogeneity ensures efficient serving for both inference and retrieval, while the disaggregation allows independent scaling of LLM and vector search accelerators to fulfill diverse RALM requirements. Our Chameleon prototype implements vector search accelerators on FPGAs and assigns LLM inference to GPUs, with CPUs as cluster coordinators. Evaluated on various RALMs, Chameleon exhibits up to 2.16× reduction in latency and 3.18× speedup in throughput compared to the hybrid CPU-GPU architecture. The promising results pave the way for adopting heterogeneous accelerators for not only LLM inference but also vector search in future RALM systems

Chameleon: Heterogeneous & Disaggregated Accelerator System for Retrieval-Augmented Language Models

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Exploring GPU-to-GPU Communication: Insights into Supercomputer Interconnects

Exploring GPU-to-GPU Communication: Insights into Supercomputer Interconnects

Все стратегии RAG объясняются за 13 минут (без лишних слов)

Все стратегии RAG объясняются за 13 минут (без лишних слов)

Синьор 1С: 10 привычек, без которых ты не вырастешь

Синьор 1С: 10 привычек, без которых ты не вырастешь

Гренландия в прицеле США. Новый миропорядок. Что сказал Путин послам? Венедиктов*, Колесников*

Гренландия в прицеле США. Новый миропорядок. Что сказал Путин послам? Венедиктов*, Колесников*

Почему RAG терпит неудачу — как CLaRa устраняет свой главный недостаток

Почему RAG терпит неудачу — как CLaRa устраняет свой главный недостаток

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

Reasoning Language Models Will Solve All Our Problems (given the right machines)

Reasoning Language Models Will Solve All Our Problems (given the right machines)

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Proximity is all You Need– Two Tricks for Chiplet Interconnects

Proximity is all You Need– Two Tricks for Chiplet Interconnects

LLAMP: Assessing Network Latency Sensitivity Tolerance of HPC Applications with Linear Programming

LLAMP: Assessing Network Latency Sensitivity Tolerance of HPC Applications with Linear Programming

Атака на Харьков, Иран договорился с Трампом? Баумгертнера нашли. Орешкин, Романова, Чижов

Атака на Харьков, Иран договорился с Трампом? Баумгертнера нашли. Орешкин, Романова, Чижов

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Что наука знает об Иисусе, если он существовал?

Что наука знает об Иисусе, если он существовал?

EDAN: Towards Understanding Memory Parallelism and Latency Sensitivity in HPC

EDAN: Towards Understanding Memory Parallelism and Latency Sensitivity in HPC

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Если у тебя спросили «Как твои дела?» — НЕ ГОВОРИ! Ты теряешь свою силу | Еврейская мудрость

Если у тебя спросили «Как твои дела?» — НЕ ГОВОРИ! Ты теряешь свою силу | Еврейская мудрость

Почему Трамп в последний момент отменил удар по Ирану

Почему Трамп в последний момент отменил удар по Ирану

18 КРУТЫХ способов для ChatGPT (что кажется нелегально)

18 КРУТЫХ способов для ChatGPT (что кажется нелегально)

Zettelkasten + AI: Как я связал ChatGPT и Obsidian в единую систему знаний

Zettelkasten + AI: Как я связал ChatGPT и Obsidian в единую систему знаний