Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Распределенный вывод с использованием «хорошо освещенных путей» llm-d

Автор: Red Hat

Загружено: 2025-11-19

Просмотров: 705

Описание:

Для выполнения сложных задач таким крупным языковым моделям, как DeepSeek-R1, требуется большое количество параметров, что обуславливает необходимость в распределенной аппаратной системе. Для оптимизации производительности такой системе необходим распределенный вывод. Представляем llm-d — фреймворк с открытым исходным кодом для распределенного вывода LLM.

Присоединяйтесь к Роберту Шоу, директору по разработке ИИ в Red Hat, который подробно расскажет о подходе llm-d с использованием хорошо освещенных путей — простом и эффективном способе управления распределением вывода LLM и удовлетворения требований масштабных рабочих нагрузок ИИ.

00:00 Введение
00:43 Стек платформ корпоративного генеративного вывода ИИ
04:36 Обзор архитектуры llm-d
08:39 Знакомство с Well-Lit Paths
09:54 Интеллектуальное планирование вывода: маршрутизация с учётом префиксов и нагрузки
14:14 Дезагрегация P/D: разделение предварительного заполнения и декодирования для повышения эффективности
17:45 Эффективная передача кэша KV в VLLM с NIXL и RDMA
18:36 Гибкие, настраиваемые развёртывания с гетерогенным тензорным параллелизмом
19:32 Управление кэшем KV
22:58 Обзор смешанного экспертного подхода и развёртывание модели
24:26 Оптимизация широкого экспертного параллелизма (WideEP) для масштабирования MoE
27:45 Подведение итогов по производительности и закрытие

🔗 Подробнее о распределённом выводе: https://www.redhat.com/ru/topics/ai/w...

#AI #RedHat #Kubernetes #llmd

Распределенный вывод с использованием «хорошо освещенных путей» llm-d

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Решение проблем в инфраструктуре ИИ

Решение проблем в инфраструктуре ИИ

[vLLM Office Hours #27] Intro to llm-d for Distributed LLM Inference

[vLLM Office Hours #27] Intro to llm-d for Distributed LLM Inference

Освоение оптимизации вывода LLM: от теории до экономически эффективного внедрения: Марк Мойу

Освоение оптимизации вывода LLM: от теории до экономически эффективного внедрения: Марк Мойу

Архитектура памяти на основе нейробиологии. Моя система локального обучения ИИ без файн-тюнинга!

Архитектура памяти на основе нейробиологии. Моя система локального обучения ИИ без файн-тюнинга!

Как устроен PHP 🐘: фундаментальное знание для инженеров

Как устроен PHP 🐘: фундаментальное знание для инженеров

Mixture of Experts: How LLMs get bigger without getting slower

Mixture of Experts: How LLMs get bigger without getting slower

Cybersecurity Architecture: Networks

Cybersecurity Architecture: Networks

Создание корпоративных ИИ-агентов с использованием Model Context Protocol

Создание корпоративных ИИ-агентов с использованием Model Context Protocol

[vLLM Office Hours #38] vLLM 2025 Retrospective & 2026 Roadmap - December 18, 2025

[vLLM Office Hours #38] vLLM 2025 Retrospective & 2026 Roadmap - December 18, 2025

Создание агентного ИИ с открытым исходным кодом

Создание агентного ИИ с открытым исходным кодом

Apache Iceberg: что это такое и почему все о нем говорят.

Apache Iceberg: что это такое и почему все о нем говорят.

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Агентская доставка ИИ с помощью Llama Stack

Агентская доставка ИИ с помощью Llama Stack

⚡️ Флот РФ ударил по Киеву || Зеленский предложил Путину сделку

⚡️ Флот РФ ударил по Киеву || Зеленский предложил Путину сделку

Куда инвестировать в 2026? SP500 - переоценен? - Говард Маркс

Куда инвестировать в 2026? SP500 - переоценен? - Говард Маркс

Да, ИИ отнимет у вас работу. Но то, что произойдёт дальше, ещё хуже.

Да, ИИ отнимет у вас работу. Но то, что произойдёт дальше, ещё хуже.

Distributed ML Talk @ UC Berkeley

Distributed ML Talk @ UC Berkeley

MCP vs API: Simplifying AI Agent Integration with External Data

MCP vs API: Simplifying AI Agent Integration with External Data

System Design Concepts Course and Interview Prep

System Design Concepts Course and Interview Prep

GitOps Guide to the Galaxy (ep 97) | Templates and Observability Best Practices

GitOps Guide to the Galaxy (ep 97) | Templates and Observability Best Practices

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]