Lecture 79 Mirage (MPK): Compiling LLMs into Mega Kernels

Автор: GPU MODE

Загружено: 2025-09-14

Просмотров: 1768

Описание:

Talk by Mengdi Wu and Xinhao Cheng on Mirage. Mirage Persistent Kernel (MPK) is a compiler and runtime system that automatically transforms LLM inference into a single megakernel—a fused GPU kernel that performs all necessary computation and communication within a single kernel launch. This end-to-end GPU fusion approach reduces LLM inference latency by 1.2× to 6.7×, all while requiring minimal developer effort.

Repo: https://github.com/mirage-project/mirage

Lecture 79 Mirage (MPK): Compiling LLMs into Mega Kernels

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Лекция 77: Предметно-ориентированные языки для ядер графических процессоров

Лекция 77: Предметно-ориентированные языки для ядер графических процессоров

Lecture 78 Iris: Multi-GPU Programming in Triton

Lecture 78 Iris: Multi-GPU Programming in Triton

How FlashAttention 4 Works

How FlashAttention 4 Works

Lecture 75 [ScaleML Series] GPU Programming Fundamentals + ThunderKittens

Lecture 75 [ScaleML Series] GPU Programming Fundamentals + ThunderKittens

Everything You Need To Know About CUDA Tensor Cores (98% util)

Everything You Need To Know About CUDA Tensor Cores (98% util)

Tri Dao: Конец доминирования Nvidia, почему снизилась стоимость вывода и следующий десятикратный ...

Tri Dao: Конец доминирования Nvidia, почему снизилась стоимость вывода и следующий десятикратный ...

Кирилл Колодяжный — Роль C++ в архитектуре современных платформ машинного обучения

Кирилл Колодяжный — Роль C++ в архитектуре современных платформ машинного обучения

F88: Оплата за результат | Аттестации | Доклады | Unit тесты | Дональд Трамп | Кодер в 17 лет | ГОСТ

F88: Оплата за результат | Аттестации | Доклады | Unit тесты | Дональд Трамп | Кодер в 17 лет | ГОСТ

Полная история программирования, Часть 1: от Assembler до Pascal (с разбором кода)

Полная история программирования, Часть 1: от Assembler до Pascal (с разбором кода)

Iris: Multi-GPU Programming in Triton

Iris: Multi-GPU Programming in Triton

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ВСЕ ЧТО НУЖНО ЗНАТЬ О ДЕПЛОЕ, DOCKER, CI/CD, ЕСЛИ ТЫ НОВИЧОК

ВСЕ ЧТО НУЖНО ЗНАТЬ О ДЕПЛОЕ, DOCKER, CI/CD, ЕСЛИ ТЫ НОВИЧОК

Решаю ТЕСТОВОЕ ЗАДАНИЕ JUNIOR Backend Разработчика на Python

Решаю ТЕСТОВОЕ ЗАДАНИЕ JUNIOR Backend Разработчика на Python

Helion: A high-level DSL for ML kernels

Helion: A high-level DSL for ML kernels

Вся IT-база в ОДНОМ видео: Память, Процессор, Код

Вся IT-база в ОДНОМ видео: Память, Процессор, Код

Как Перельман доказал гипотезу Пуанкаре? // 900 секунд

Как Перельман доказал гипотезу Пуанкаре? // 900 секунд

Что нового в C# 14

Что нового в C# 14

Математическая тревожность, нейросети, задачи тысячелетия / Андрей Коняев

Математическая тревожность, нейросети, задачи тысячелетия / Андрей Коняев

Европа душит приватность, Россия блокирует WhatsApp, Google качает ИИ: Nano Banana Pro и Gemini 3

Европа душит приватность, Россия блокирует WhatsApp, Google качает ИИ: Nano Banana Pro и Gemini 3