USENIX ATC '25 - Resource Multiplexing in Tuning and Serving Large Language Models

Автор: USENIX

Загружено: 2025-09-04

Просмотров: 81

Описание:

Resource Multiplexing in Tuning and Serving Large Language Models

Yongjun He and Haofeng Yang, ETH Zurich; Yao Lu, National University of Singapore; Ana Klimovic and Gustavo Alonso, ETH Zurich

Large language models (LLMs) have been increasingly adopted in a variety of application scenarios. However, in spite of the high demand for both tuning and inference, GPUs are often underutilized because they are devoted to a single task. A common argument for single-purpose deployments is the need to meet strict service-level objectives (SLOs). As LLM workloads become more complex, there are, indeed, significant challenges in achieving high utilization while still guaranteeing the necessary low latency. In this paper, we present LLMStation, a flexible spatial-temporal multiplexing and scheduling system for concurrent LLM fine-tuning and inference. LLMStation adopts several novel approaches, including a new iteration-level multitasking scheduling mechanism, an Autograd engine that transforms a tuning task into a suspendable pipeline, and an inference engine capable of batching inference and tuning requests. Our evaluation shows that LLMStation delivers 1.38× to 14.77× the throughput of state-of-the-art systems while meeting inference latency SLOs. These performance gains remain under various setups and workloads, proving LLMStation to be an effective tool to increase the efficiency of LLM deployments.

View the full USENIX ATC '25 program at https://www.usenix.org/conference/atc...

USENIX ATC '25 - Resource Multiplexing in Tuning and Serving Large Language Models

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

USENIX ATC '25 - Colocating ML Inference and Training with Fast GPU Memory Handover

USENIX ATC '25 - Colocating ML Inference and Training with Fast GPU Memory Handover

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

SREcon25 Европа/Ближний Восток/Африка — Компьютер хочет потерять ваши данные

SREcon25 Европа/Ближний Восток/Африка — Компьютер хочет потерять ваши данные

Удаляем свои фото, выходим из чатов, скрываем фамилию? Как избежать штрафов

Удаляем свои фото, выходим из чатов, скрываем фамилию? Как избежать штрафов

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Глава DeepMind: миллионы ИИ-агентов выйдут в интернет - и это меняет всё

Глава DeepMind: миллионы ИИ-агентов выйдут в интернет - и это меняет всё

20 концепций искусственного интеллекта, объясненных за 40 минут

20 концепций искусственного интеллекта, объясненных за 40 минут

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

ДАМПЫ В JAVA на практике, разбираем проблемы

ДАМПЫ В JAVA на практике, разбираем проблемы

Почему Собаки Вдруг ЗАЛЕЗАЮТ На Вас? (Причина шокирует)

Почему Собаки Вдруг ЗАЛЕЗАЮТ На Вас? (Причина шокирует)

ATC '25 and OSDI '25 -Joint Keynote Address: Accelerating Software Development: The LLM (R)evolution

ATC '25 and OSDI '25 -Joint Keynote Address: Accelerating Software Development: The LLM (R)evolution

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Neovim 0.12: новый менеджер плагинов и минимальный IDE-конфиг

Neovim 0.12: новый менеджер плагинов и минимальный IDE-конфиг

USENIX ATC '25 - Learning-Enhanced High-Throughput Pattern Matching Based on Programmable Data Plane

USENIX ATC '25 - Learning-Enhanced High-Throughput Pattern Matching Based on Programmable Data Plane

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Что такое Rest API (http)? Soap? GraphQL? Websockets? RPC (gRPC, tRPC). Клиент - сервер. Вся теория

Что такое Rest API (http)? Soap? GraphQL? Websockets? RPC (gRPC, tRPC). Клиент - сервер. Вся теория

Я случайно создал приложение на работе. Gemini Canvas + NotebookLM гайд.

Я случайно создал приложение на работе. Gemini Canvas + NotebookLM гайд.

Claude Code: полный гайд по AI-кодингу (хаки, техники и секреты)

Claude Code: полный гайд по AI-кодингу (хаки, техники и секреты)