Семинар IFML: 14.11.25 — Модели языка более быстрого распространения
Автор: IFML
Загружено: 2025-11-14
Просмотров: 125
Аннотация: Диффузионные языковые модели (DLM) представляют собой зарождающуюся, но многообещающую альтернативу языковым моделям авторегрессии (AR) в стиле GPT: в отличие от генерации одного токена слева направо, DLM начинают с набора шумовых токенов, которые они итеративно преобразуют в текст. Генерация в произвольном порядке потенциально может привести к более согласованному тексту, в то время как параллельная генерация может быть быстрее. Однако на практике параллельная генерация приводит к значительному снижению качества вывода, и в настоящее время DLM, как правило, не соответствуют AR-моделям, за исключением случаев использования в режиме «один токен за раз».
В этом докладе мы рассмотрим две проблемы существующих DLM: (a) параллельная генерация выборок из маргинальных продуктов вместо истинного совместного распределения токенов и (b) ранние ошибки являются основной причиной снижения точности. Затем мы разрабатываем новую архитектуру для более качественной выборки, а также новый процесс самообучения для существенного устранения этих проблем.
Предварительные знания DLM не предполагаются.
В докладе представлена совместная работа с Парикшитом Бансалом (совместная выборка) и Хуайшэном Чжу (самообучение).
Биография докладчика: Суджай Сангхави — профессор кафедры машинного обучения имени Бетти Маргарет Смит в Техасском университете в Остине, где он проводит исследования в области машинного обучения с группой талантливых студентов. Он является директором Института штативов Национального научного фонда (NSF) и основателем Научного центра Amazon Science Hub в Техасском университете в Остине. В настоящее время он также является стипендиатом Amazon Scholar и ведущим научным сотрудником Amazon.
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: