Семинар IFML: 14.11.25 — Модели языка более быстрого распространения

Автор: IFML

Загружено: 2025-11-14

Просмотров: 125

Описание:

Аннотация: Диффузионные языковые модели (DLM) представляют собой зарождающуюся, но многообещающую альтернативу языковым моделям авторегрессии (AR) в стиле GPT: в отличие от генерации одного токена слева направо, DLM начинают с набора шумовых токенов, которые они итеративно преобразуют в текст. Генерация в произвольном порядке потенциально может привести к более согласованному тексту, в то время как параллельная генерация может быть быстрее. Однако на практике параллельная генерация приводит к значительному снижению качества вывода, и в настоящее время DLM, как правило, не соответствуют AR-моделям, за исключением случаев использования в режиме «один токен за раз».

В этом докладе мы рассмотрим две проблемы существующих DLM: (a) параллельная генерация выборок из маргинальных продуктов вместо истинного совместного распределения токенов и (b) ранние ошибки являются основной причиной снижения точности. Затем мы разрабатываем новую архитектуру для более качественной выборки, а также новый процесс самообучения для существенного устранения этих проблем.

Предварительные знания DLM не предполагаются.

В докладе представлена совместная работа с Парикшитом Бансалом (совместная выборка) и Хуайшэном Чжу (самообучение).

Биография докладчика: Суджай Сангхави — профессор кафедры машинного обучения имени Бетти Маргарет Смит в Техасском университете в Остине, где он проводит исследования в области машинного обучения с группой талантливых студентов. Он является директором Института штативов Национального научного фонда (NSF) и основателем Научного центра Amazon Science Hub в Техасском университете в Остине. В настоящее время он также является стипендиатом Amazon Scholar и ведущим научным сотрудником Amazon.

Семинар IFML: 14.11.25 — Модели языка более быстрого распространения

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

MIT 6.S184: Flow Matching and Diffusion Models - Lecture 01 - Generative AI with SDEs

MIT 6.S184: Flow Matching and Diffusion Models - Lecture 01 - Generative AI with SDEs

Deep Proteins Research: Danny Diaz

Deep Proteins Research: Danny Diaz

Stanford CS25: V5 I Large Language Model Reasoning, Denny Zhou of Google Deepmind

Stanford CS25: V5 I Large Language Model Reasoning, Denny Zhou of Google Deepmind

But how do AI images and videos actually work? | Guest video by Welch Labs

But how do AI images and videos actually work? | Guest video by Welch Labs

Scaling Latent Reasoning via Looped Language Models - Rui-Jie Zhu | ASAP 48

Scaling Latent Reasoning via Looped Language Models - Rui-Jie Zhu | ASAP 48

Семинар IFML: 21.11.25 — Динамика обучения в многопользовательских играх

Семинар IFML: 21.11.25 — Динамика обучения в многопользовательских играх

Основной докладчик исследования: Амин Карбаси

Основной докладчик исследования: Амин Карбаси

Маркеры дестабилизации: как могут выглядеть признаки системной неустойчивости?

Маркеры дестабилизации: как могут выглядеть признаки системной неустойчивости?

IFML Seminar: 11/07/25 - Model Self-improvement via Optimal Retraining

IFML Seminar: 11/07/25 - Model Self-improvement via Optimal Retraining

Text diffusion: A new paradigm for LLMs

Text diffusion: A new paradigm for LLMs

Deep Learning Day: Generative Modeling

Deep Learning Day: Generative Modeling

МФТИ — как учат ГЕНИЕВ? Полнометражный фильм

МФТИ — как учат ГЕНИЕВ? Полнометражный фильм

How language model post-training is done today

How language model post-training is done today

Lecture 23: Sanjay Shakkottai: Diffusion language models

Lecture 23: Sanjay Shakkottai: Diffusion language models

IFML SEMINAR: 1/26/24 - Meta Optimization

IFML SEMINAR: 1/26/24 - Meta Optimization

Токены и вложения — что это такое и чем они отличаются?

Токены и вложения — что это такое и чем они отличаются?

Build a small language model from scratch: Data pre-processing

Build a small language model from scratch: Data pre-processing

Diffusion Language Models: The Next Big Shift in GenAI

Diffusion Language Models: The Next Big Shift in GenAI

Понимание мультимодальной активности — Кристен Грауман

Понимание мультимодальной активности — Кристен Грауман

Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)