Lightning Talk: d-Matrix LLM Compression Flow Based on Torch.Fx: Simplify... Zifei Xu & Tristan Webb

Автор: PyTorch

Загружено: 2024-10-01

Просмотров: 484

Описание:

Lightning Talk: d-Matrix LLM Compression Flow Based on Torch.Fx: Simplifying PTQ/QAT - Zifei Xu & Tristan Webb, d-Matrix Corporation

We introduce dmx-compressor, d-Matrix's open-source LLM compression toolkit that is modular, robust, efficient, and user-friendly. It utilizes symbolic tracing and fx.Transformer for network compression while keeping the model a first-class citizen in PyTorch for the user, despite prevalent graph dynamism in LLMs. It achieves this by maintaining both the original nn.Module and a just-in-time (JIT) traced and transformed fx.GraphModule representation behind the scenes, in conjunction with an abstraction that cleanly decouples network compression from the original model graph definition. This design allows the FXIR to dynamically adapt to diverse forward call signatures and flow-control arguments throughout quantization-aware training and post-training quantization written in plain PyTorch, yielding a compressed FXIR fully compatible with application-level APIs like the Hugging Face pipeline. We also provide a graph visualizer based on fx.Interpreter for ease of debugging. We believe this project shall empower the community to build efficient LLMs for deployment on custom hardware accelerators and contribute to the PyTorch ecosystem.

Lightning Talk: d-Matrix LLM Compression Flow Based on Torch.Fx: Simplify... Zifei Xu & Tristan Webb

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Lightning Talk: Accelerated Inference in PyTorch 2.X with Torch...- George Stefanakis & Dheeraj Peri

Lightning Talk: Accelerated Inference in PyTorch 2.X with Torch...- George Stefanakis & Dheeraj Peri

Inside Helion: Live Q&A with the Developers

Inside Helion: Live Q&A with the Developers

Зачем взял UHD 620 вместо RTX 2060. Купил ноутбук мечты!

Зачем взял UHD 620 вместо RTX 2060. Купил ноутбук мечты!

PyTorch 2.0: Unlocking the Power of Deep Learning with the Torch Compile API - Christian Keller

PyTorch 2.0: Unlocking the Power of Deep Learning with the Torch Compile API - Christian Keller

PyTorch 2.0: TorchDynamo

PyTorch 2.0: TorchDynamo

Lecture 61: D-Matrix Corsair

Lecture 61: D-Matrix Corsair

ОБЫЧНЫЙ VPN УМЕР: Чем обходить блокировки в 2026

ОБЫЧНЫЙ VPN УМЕР: Чем обходить блокировки в 2026

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Где начало СХЕМЫ? Понимаем, читаем, изучаем схемы. Понятное объяснение!

Где начало СХЕМЫ? Понимаем, читаем, изучаем схемы. Понятное объяснение!

Орешник: новые и старые сведения

Орешник: новые и старые сведения

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

Т-90М2 «РЫВОК» - ТАНК, КОТОРЫЙ ЗАМЕНИТ «АРМАТУ» НА ФРОНТЕ!

Т-90М2 «РЫВОК» - ТАНК, КОТОРЫЙ ЗАМЕНИТ «АРМАТУ» НА ФРОНТЕ!

How d Matrix Is Leveraging ODSAs BoW Die to Die Link to Transform Generative AI Inference fro

How d Matrix Is Leveraging ODSAs BoW Die to Die Link to Transform Generative AI Inference fro

Запуск нейросетей локально. Генерируем - ВСЁ

Запуск нейросетей локально. Генерируем - ВСЁ

Stanford Seminar - NVIDIA GPU Computing: A Journey from PC Gaming to Deep Learning

Stanford Seminar - NVIDIA GPU Computing: A Journey from PC Gaming to Deep Learning

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Превратите ЛЮБОЙ файл в знания LLM за СЕКУНДЫ

Typst: Современная замена Word и LaTeX, которую ждали 40 лет

Typst: Современная замена Word и LaTeX, которую ждали 40 лет

What is In-Memory Computing?

What is In-Memory Computing?