Do we need Attention? A Mamba Primer

Автор: Sasha Rush

Загружено: 2024-04-05

Просмотров: 12733

Описание:

A Technical Primer on Mamba and Friends. With Yair Schiff (https://yair-schiff.github.io/)

Slides: https://github.com/srush/mamba-primer...

Main focus:
Mamba: Linear-Time Sequence Modeling with Selective State Spaces http://arxiv.org/abs/2312.00752 from Albert Gu and Tri Dao.
Simplified State Space Layers for Sequence Modeling http://arxiv.org/abs/2208.04933 from Smith JT, Warrington A, Linderman SW

00:00 - Intro
04:03 - Section 1 - Linear Time Varying recurrences
12:07 - Section 2 - Associative Scan
16:27 - Section 3 - Continuous-Time SSMs
26:55 - Section 4 - Large States and Hardware-Aware Parameterizations
34:56 - Conclusion

Yang S,Wang B,Shen Y,Panda R,Kim Y Gated Linear Attention Transformers with Hardware-Efficient Training http://arxiv.org/abs/2312.06635
Arora S,Eyuboglu S,Zhang M,Timalsina A,Alberti S,Zinsley D,Zou J,Rudra A,Ré C Simple linear attention language models balance the recall-throughput tradeoff http://arxiv.org/abs/2402.18668
De S,Smith SL,Fernando A,Botev A,Cristian-Muraru G,Gu A,Haroun R,Berrada L,Chen Y,Srinivasan S,Desjardins G,Doucet A,Budden D,Teh YW,Pascanu R,De Freitas N,Gulcehre C Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models http://arxiv.org/abs/2402.19427
Sun Y,Dong L,Huang S,Ma S,Xia Y,Xue J,Wang J,Wei F Retentive Network: A Successor to Transformer for Large Language Models http://arxiv.org/abs/2307.08621

Do we need Attention? A Mamba Primer

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

MambaByte: Token-Free Language Modeling

MambaByte: Token-Free Language Modeling

Mamba: Linear-Time Sequence Modeling with Selective State Spaces (Paper Explained)

Mamba: Linear-Time Sequence Modeling with Selective State Spaces (Paper Explained)

Long-Context LLM Extension

Long-Context LLM Extension

Speculations on Test-Time Scaling (o1)

Speculations on Test-Time Scaling (o1)

State Tracking in Scalable Linear RNNs - Riccardo Grazzi & Julien Siems | ASAP Seminar #04

State Tracking in Scalable Linear RNNs - Riccardo Grazzi & Julien Siems | ASAP Seminar #04

«Мамба» — замена «Трансформерам»?

«Мамба» — замена «Трансформерам»?

Большие языковые модели в пяти формулах

Большие языковые модели в пяти формулах

Нужно ли нам внимание? — Линейные рекуррентные нейронные сети и модели пространства состояний (SS...

Нужно ли нам внимание? — Линейные рекуррентные нейронные сети и модели пространства состояний (SS...

How DeepSeek Rewrote the Transformer [MLA]

How DeepSeek Rewrote the Transformer [MLA]

Самый важный алгоритм в машинном обучении

Самый важный алгоритм в машинном обучении

Mamba and S4 Explained: Architecture, Parallel Scan, Kernel Fusion, Recurrent, Convolution, Math

Mamba and S4 Explained: Architecture, Parallel Scan, Kernel Fusion, Recurrent, Convolution, Math

Simple Diffusion Language Models

Simple Diffusion Language Models

Mamba 2 - Transformers are SSMs: Generalized Models and Efficient Algorithms Through SSS Duality

Mamba 2 - Transformers are SSMs: Generalized Models and Efficient Algorithms Through SSS Duality

MAMBA from Scratch: Neural Nets Better and Faster than Transformers

MAMBA from Scratch: Neural Nets Better and Faster than Transformers

Модели пространства состояний (SSM) и Mamba

Модели пространства состояний (SSM) и Mamba

Размышления в дикой природе — Вэньтин Чжао

Размышления в дикой природе — Вэньтин Чжао

Объяснение LoRA (и немного о точности и квантизации)

Объяснение LoRA (и немного о точности и квантизации)

Mamba, SSMs & S4s Explained in 16 Minutes

Mamba, SSMs & S4s Explained in 16 Minutes

Поворотные позиционные вложения: сочетание абсолютного и относительного

Поворотные позиционные вложения: сочетание абсолютного и относительного

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение