Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Pushing the Limits of Sparse Attention in LLMs - Marcos Treviso | ASAP 49

Автор: ASAP Seminar Series

Загружено: 2025-11-20

Просмотров: 157

Описание:

Paper: https://arxiv.org/pdf/2502.12082
Speaker: https://mtreviso.github.io/
Slides: https://asap-seminar.github.io/assets...

0:00: Seminar introduction
0:28: Talk overview
1:36: Transformer context limits
3:11: Attention dispersion issues
4:40: Softmax as culprit
5:24: Probability simplex view
7:59: Alpha-entmax family
11:02: Long-context theory
14:33: NAPE positional encodings
15:53: Generalization benchmarks
18:34: Scaling and efficiency
21:18: FlashAttention recap
23:40: Root-finding for tau
26:04: Hybrid Halley-bisection
27:54: Sparse block kernels
29:24: Language modeling gains
31:24: Llama3 sparsity patterns
33:18: Inference-time sparsity ideas
36:01: Adapting softmax models
40:37: Trainable alpha experiments
43:07: Block size considerations
45:44: Fine-grained sparsity discussion
51:07: Tau sensitivity questions
55:38: Attention sink discussion
59:55: Closing thanks

Pushing the Limits of Sparse Attention in LLMs - Marcos Treviso | ASAP 49

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

The Serial Scaling Hypothesis - Yuxi Liu & Konpat Preechakul | ASAP 47

The Serial Scaling Hypothesis - Yuxi Liu & Konpat Preechakul | ASAP 47

Реальное собеседование на Data Engineer с зарплатой 450.000 рублей | Собес на DE

Реальное собеседование на Data Engineer с зарплатой 450.000 рублей | Собес на DE

Scaling Latent Reasoning via Looped Language Models - Rui-Jie Zhu | ASAP 48

Scaling Latent Reasoning via Looped Language Models - Rui-Jie Zhu | ASAP 48

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Что такое индексы? Какие есть виды индексов?

Что такое индексы? Какие есть виды индексов?

Parallelizing

Parallelizing "Inherently Sequential" Processes: Parallel Newton methods for nonlinear SSMs|ASAP 40

THIS is why large language models can understand the world

THIS is why large language models can understand the world

Куда исчезает ёмкость MLCC? Эффект DC-Bias и старение керамики X7R

Куда исчезает ёмкость MLCC? Эффект DC-Bias и старение керамики X7R

Diffusion Language Models: The Next Big Shift in GenAI

Diffusion Language Models: The Next Big Shift in GenAI

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

GEMINI 3 от GOOGLE САМЫЙ ДОЛГОЖДАННЫЙ ВЫПУСК ГОДА

GEMINI 3 от GOOGLE САМЫЙ ДОЛГОЖДАННЫЙ ВЫПУСК ГОДА

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models - Tianyu Fu|ASAP 50

Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models - Tianyu Fu|ASAP 50

Pre-training under infinite compute - Konwoo Kim  & Suhas Kotha | ASAP 42

Pre-training under infinite compute - Konwoo Kim & Suhas Kotha | ASAP 42

Делаем графические процессоры по-настоящему быстрыми: глубокий анализ эффективности тренировок

Делаем графические процессоры по-настоящему быстрыми: глубокий анализ эффективности тренировок

Вы думали, что допинг — это плохо? Подождите, пока не услышите об электромагнитных велосипедах.

Вы думали, что допинг — это плохо? Подождите, пока не услышите об электромагнитных велосипедах.

Что такое «хакерство с целью получения вознаграждения» в сфере искусственного интеллекта и почему...

Что такое «хакерство с целью получения вознаграждения» в сфере искусственного интеллекта и почему...

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

Скрытый шпион вашего компьютера с Windows 11: тёмная правда о чипах TPM

Скрытый шпион вашего компьютера с Windows 11: тёмная правда о чипах TPM

Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]