Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Семинар IFML: 14.11.25 — Модели языка более быстрого распространения

Автор: IFML

Загружено: 2025-11-14

Просмотров: 125

Описание:

Аннотация: Диффузионные языковые модели (DLM) представляют собой зарождающуюся, но многообещающую альтернативу языковым моделям авторегрессии (AR) в стиле GPT: в отличие от генерации одного токена слева направо, DLM начинают с набора шумовых токенов, которые они итеративно преобразуют в текст. Генерация в произвольном порядке потенциально может привести к более согласованному тексту, в то время как параллельная генерация может быть быстрее. Однако на практике параллельная генерация приводит к значительному снижению качества вывода, и в настоящее время DLM, как правило, не соответствуют AR-моделям, за исключением случаев использования в режиме «один токен за раз».

В этом докладе мы рассмотрим две проблемы существующих DLM: (a) параллельная генерация выборок из маргинальных продуктов вместо истинного совместного распределения токенов и (b) ранние ошибки являются основной причиной снижения точности. Затем мы разрабатываем новую архитектуру для более качественной выборки, а также новый процесс самообучения для существенного устранения этих проблем.

Предварительные знания DLM не предполагаются.

В докладе представлена ​​совместная работа с Парикшитом Бансалом (совместная выборка) и Хуайшэном Чжу (самообучение).

Биография докладчика: Суджай Сангхави — профессор кафедры машинного обучения имени Бетти Маргарет Смит в Техасском университете в Остине, где он проводит исследования в области машинного обучения с группой талантливых студентов. Он является директором Института штативов Национального научного фонда (NSF) и основателем Научного центра Amazon Science Hub в Техасском университете в Остине. В настоящее время он также является стипендиатом Amazon Scholar и ведущим научным сотрудником Amazon.

Семинар IFML: 14.11.25 — Модели языка более быстрого распространения

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

MIT 6.S184: Flow Matching and Diffusion Models - Lecture 01 - Generative AI with SDEs

MIT 6.S184: Flow Matching and Diffusion Models - Lecture 01 - Generative AI with SDEs

Deep Proteins Research: Danny Diaz

Deep Proteins Research: Danny Diaz

Stanford CS25: V5 I Large Language Model Reasoning, Denny Zhou of Google Deepmind

Stanford CS25: V5 I Large Language Model Reasoning, Denny Zhou of Google Deepmind

But how do AI images and videos actually work? | Guest video by Welch Labs

But how do AI images and videos actually work? | Guest video by Welch Labs

Scaling Latent Reasoning via Looped Language Models - Rui-Jie Zhu | ASAP 48

Scaling Latent Reasoning via Looped Language Models - Rui-Jie Zhu | ASAP 48

Семинар IFML: 21.11.25 — Динамика обучения в многопользовательских играх

Семинар IFML: 21.11.25 — Динамика обучения в многопользовательских играх

Основной докладчик исследования: Амин Карбаси

Основной докладчик исследования: Амин Карбаси

Маркеры дестабилизации: как могут выглядеть признаки системной неустойчивости?

Маркеры дестабилизации: как могут выглядеть признаки системной неустойчивости?

IFML Seminar: 11/07/25 - Model Self-improvement via Optimal Retraining

IFML Seminar: 11/07/25 - Model Self-improvement via Optimal Retraining

Text diffusion: A new paradigm for LLMs

Text diffusion: A new paradigm for LLMs

Deep Learning Day: Generative Modeling

Deep Learning Day: Generative Modeling

МФТИ — как учат ГЕНИЕВ? Полнометражный фильм

МФТИ — как учат ГЕНИЕВ? Полнометражный фильм

How language model post-training is done today

How language model post-training is done today

Lecture 23: Sanjay Shakkottai: Diffusion language models

Lecture 23: Sanjay Shakkottai: Diffusion language models

IFML SEMINAR: 1/26/24 - Meta Optimization

IFML SEMINAR: 1/26/24 - Meta Optimization

Токены и вложения — что это такое и чем они отличаются?

Токены и вложения — что это такое и чем они отличаются?

Build a small language model from scratch: Data pre-processing

Build a small language model from scratch: Data pre-processing

Diffusion Language Models: The Next Big Shift in GenAI

Diffusion Language Models: The Next Big Shift in GenAI

Понимание мультимодальной активности — Кристен Грауман

Понимание мультимодальной активности — Кристен Грауман

Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]