FastAttention против FlashAttention-3. Приблизительное внимание к ближайшему соседу (ANNA и MPC)....
Автор: AI Podcast Series. Byte Goose AI.
Загружено: 2025-10-30
Просмотров: 104
Быстрое внимание требует ограниченного ввода.
FastAttention против FlashAttention-3. Приблизительное внимание к ближайшим соседям (ANNA и MPC). Вывод
В подкасте были представлены технические сведения о методах ускорения механизмов внимания в больших языковых моделях, в первую очередь сосредоточенных на достижении субквадратичной временной сложности с анализом базовых вычислительных и теоретических ограничений. В одной статье исследуются фундаментальные ограничения на быстрые вычисления внимания, доказывающие резкий переход сложности в зависимости от величины элементов входной матрицы и показывающие, что истинно субквадратичное время невозможно в рамках гипотезы сильного экспоненциального времени (SETH), если эта граница выполняется. В другой статье представлен FlashAttention-3, оптимизированный алгоритм, использующий асинхронные аппаратные инструкции Warpgroup Matrix Multiply-Accumulate (WGMMA) и методы точности FP8 для перекрытия операций и максимизации производительности графических процессоров. Наконец, в третьей статье представлено приблизительное внимание к ближайшим соседям (ANNA) – субквадратичное устройство, которое, как доказано, сохраняет выразительную мощь стандартных трансформеров, демонстрируя тесную эквивалентность с Massively Модель параллельных вычислений (MPC) и решение ключевых задач рассуждения на глубине, близкой к оптимальной.
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: