SparseD: Разреженное внимание к моделям диффузного языка
Автор: AIDAS Lab
Загружено: 2025-12-08
Просмотров: 51
Модели диффузионного языка демонстрируют высокую производительность, но их вывод всё ещё медленный из-за дорогостоящего двунаправленного внимания. Чтобы лучше понять это узкое место, анализируются несколько ключевых характеристик внимания в моделях DLM.
Во-первых, паттерны внимания сильно привязаны к голове, что делает фиксированные разреженные паттерны неэффективными. Во-вторых, паттерны внимания остаются очень схожими на всех этапах диффузии, что позволяет эффективно повторно использовать паттерны. В-третьих, ранние этапы диффузии критически важны для качества генерации, поэтому разреженное внимание нельзя применять слишком рано.
Основываясь на этих наблюдениях, представлен SparseD — метод разреженного внимания, специализированный для моделей DLM. SparseD использует изолированный выбор, повторное использование разреженных паттернов и полное внимание на ранних этапах для сокращения задержки без потери точности, достигая ускорения до 1,50 раз при генерации длинного контекста.
Доклад: SparseD: Разреженное внимание для моделей диффузионного языка (Ван и др., arXiv 2025)
Докладчик: Джинхёк Ким
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: