Pushing the Limits of Sparse Attention in LLMs - Marcos Treviso | ASAP 49

Автор: ASAP Seminar Series

Загружено: 2025-11-20

Просмотров: 157

Описание:

Paper: https://arxiv.org/pdf/2502.12082
Speaker: https://mtreviso.github.io/
Slides: https://asap-seminar.github.io/assets...

0:00: Seminar introduction
0:28: Talk overview
1:36: Transformer context limits
3:11: Attention dispersion issues
4:40: Softmax as culprit
5:24: Probability simplex view
7:59: Alpha-entmax family
11:02: Long-context theory
14:33: NAPE positional encodings
15:53: Generalization benchmarks
18:34: Scaling and efficiency
21:18: FlashAttention recap
23:40: Root-finding for tau
26:04: Hybrid Halley-bisection
27:54: Sparse block kernels
29:24: Language modeling gains
31:24: Llama3 sparsity patterns
33:18: Inference-time sparsity ideas
36:01: Adapting softmax models
40:37: Trainable alpha experiments
43:07: Block size considerations
45:44: Fine-grained sparsity discussion
51:07: Tau sensitivity questions
55:38: Attention sink discussion
59:55: Closing thanks

Pushing the Limits of Sparse Attention in LLMs - Marcos Treviso | ASAP 49

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

The Serial Scaling Hypothesis - Yuxi Liu & Konpat Preechakul | ASAP 47

The Serial Scaling Hypothesis - Yuxi Liu & Konpat Preechakul | ASAP 47

Реальное собеседование на Data Engineer с зарплатой 450.000 рублей | Собес на DE

Реальное собеседование на Data Engineer с зарплатой 450.000 рублей | Собес на DE

Scaling Latent Reasoning via Looped Language Models - Rui-Jie Zhu | ASAP 48

Scaling Latent Reasoning via Looped Language Models - Rui-Jie Zhu | ASAP 48

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Что такое индексы? Какие есть виды индексов?

Что такое индексы? Какие есть виды индексов?

Parallelizing "Inherently Sequential" Processes: Parallel Newton methods for nonlinear SSMs｜ASAP 40

THIS is why large language models can understand the world

THIS is why large language models can understand the world

Куда исчезает ёмкость MLCC? Эффект DC-Bias и старение керамики X7R

Куда исчезает ёмкость MLCC? Эффект DC-Bias и старение керамики X7R

Diffusion Language Models: The Next Big Shift in GenAI

Diffusion Language Models: The Next Big Shift in GenAI

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

GEMINI 3 от GOOGLE САМЫЙ ДОЛГОЖДАННЫЙ ВЫПУСК ГОДА

GEMINI 3 от GOOGLE САМЫЙ ДОЛГОЖДАННЫЙ ВЫПУСК ГОДА

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models - Tianyu Fu｜ASAP 50

Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models - Tianyu Fu｜ASAP 50

Pre-training under infinite compute - Konwoo Kim & Suhas Kotha ｜ ASAP 42

Pre-training under infinite compute - Konwoo Kim & Suhas Kotha ｜ ASAP 42

Делаем графические процессоры по-настоящему быстрыми: глубокий анализ эффективности тренировок

Делаем графические процессоры по-настоящему быстрыми: глубокий анализ эффективности тренировок

Вы думали, что допинг — это плохо? Подождите, пока не услышите об электромагнитных велосипедах.

Вы думали, что допинг — это плохо? Подождите, пока не услышите об электромагнитных велосипедах.

Что такое «хакерство с целью получения вознаграждения» в сфере искусственного интеллекта и почему...

Что такое «хакерство с целью получения вознаграждения» в сфере искусственного интеллекта и почему...

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

Скрытый шпион вашего компьютера с Windows 11: тёмная правда о чипах TPM

Скрытый шпион вашего компьютера с Windows 11: тёмная правда о чипах TPM

Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)