Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Do we need Attention? A Mamba Primer

Автор: Sasha Rush

Загружено: 2024-04-05

Просмотров: 12733

Описание:

A Technical Primer on Mamba and Friends. With Yair Schiff (https://yair-schiff.github.io/)

Slides: https://github.com/srush/mamba-primer...

Main focus:
Mamba: Linear-Time Sequence Modeling with Selective State Spaces http://arxiv.org/abs/2312.00752 from Albert Gu and Tri Dao.
Simplified State Space Layers for Sequence Modeling http://arxiv.org/abs/2208.04933 from Smith JT, Warrington A, Linderman SW

00:00 - Intro
04:03 - Section 1 - Linear Time Varying recurrences
12:07 - Section 2 - Associative Scan
16:27 - Section 3 - Continuous-Time SSMs
26:55 - Section 4 - Large States and Hardware-Aware Parameterizations
34:56 - Conclusion

Yang S,Wang B,Shen Y,Panda R,Kim Y Gated Linear Attention Transformers with Hardware-Efficient Training http://arxiv.org/abs/2312.06635
Arora S,Eyuboglu S,Zhang M,Timalsina A,Alberti S,Zinsley D,Zou J,Rudra A,Ré C Simple linear attention language models balance the recall-throughput tradeoff http://arxiv.org/abs/2402.18668
De S,Smith SL,Fernando A,Botev A,Cristian-Muraru G,Gu A,Haroun R,Berrada L,Chen Y,Srinivasan S,Desjardins G,Doucet A,Budden D,Teh YW,Pascanu R,De Freitas N,Gulcehre C Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models http://arxiv.org/abs/2402.19427
Sun Y,Dong L,Huang S,Ma S,Xia Y,Xue J,Wang J,Wei F Retentive Network: A Successor to Transformer for Large Language Models http://arxiv.org/abs/2307.08621

Do we need Attention? A Mamba Primer

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

MambaByte: Token-Free Language Modeling

MambaByte: Token-Free Language Modeling

Mamba: Linear-Time Sequence Modeling with Selective State Spaces (Paper Explained)

Mamba: Linear-Time Sequence Modeling with Selective State Spaces (Paper Explained)

Long-Context LLM Extension

Long-Context LLM Extension

Speculations on Test-Time Scaling (o1)

Speculations on Test-Time Scaling (o1)

State Tracking in Scalable Linear RNNs - Riccardo Grazzi & Julien Siems  | ASAP Seminar #04

State Tracking in Scalable Linear RNNs - Riccardo Grazzi & Julien Siems | ASAP Seminar #04

«Мамба» — замена «Трансформерам»?

«Мамба» — замена «Трансформерам»?

Большие языковые модели в пяти формулах

Большие языковые модели в пяти формулах

Нужно ли нам внимание? — Линейные рекуррентные нейронные сети и модели пространства состояний (SS...

Нужно ли нам внимание? — Линейные рекуррентные нейронные сети и модели пространства состояний (SS...

How DeepSeek Rewrote the Transformer [MLA]

How DeepSeek Rewrote the Transformer [MLA]

Самый важный алгоритм в машинном обучении

Самый важный алгоритм в машинном обучении

Mamba and S4 Explained: Architecture, Parallel Scan, Kernel Fusion, Recurrent, Convolution, Math

Mamba and S4 Explained: Architecture, Parallel Scan, Kernel Fusion, Recurrent, Convolution, Math

Simple Diffusion Language Models

Simple Diffusion Language Models

Mamba 2 - Transformers are SSMs: Generalized Models and Efficient Algorithms Through SSS Duality

Mamba 2 - Transformers are SSMs: Generalized Models and Efficient Algorithms Through SSS Duality

MAMBA from Scratch: Neural Nets Better and Faster than Transformers

MAMBA from Scratch: Neural Nets Better and Faster than Transformers

Модели пространства состояний (SSM) и Mamba

Модели пространства состояний (SSM) и Mamba

Размышления в дикой природе — Вэньтин Чжао

Размышления в дикой природе — Вэньтин Чжао

Объяснение LoRA (и немного о точности и квантизации)

Объяснение LoRA (и немного о точности и квантизации)

Mamba, SSMs & S4s Explained in 16 Minutes

Mamba, SSMs & S4s Explained in 16 Minutes

Поворотные позиционные вложения: сочетание абсолютного и относительного

Поворотные позиционные вложения: сочетание абсолютного и относительного

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]