Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Do we need Attention? A Mamba Primer

Автор: Sasha Rush

Загружено: 2024-04-05

Просмотров: 12945

Описание:

A Technical Primer on Mamba and Friends. With Yair Schiff (https://yair-schiff.github.io/)

Slides: https://github.com/srush/mamba-primer...

Main focus:
Mamba: Linear-Time Sequence Modeling with Selective State Spaces http://arxiv.org/abs/2312.00752 from Albert Gu and Tri Dao.
Simplified State Space Layers for Sequence Modeling http://arxiv.org/abs/2208.04933 from Smith JT, Warrington A, Linderman SW

00:00 - Intro
04:03 - Section 1 - Linear Time Varying recurrences
12:07 - Section 2 - Associative Scan
16:27 - Section 3 - Continuous-Time SSMs
26:55 - Section 4 - Large States and Hardware-Aware Parameterizations
34:56 - Conclusion

Yang S,Wang B,Shen Y,Panda R,Kim Y Gated Linear Attention Transformers with Hardware-Efficient Training http://arxiv.org/abs/2312.06635
Arora S,Eyuboglu S,Zhang M,Timalsina A,Alberti S,Zinsley D,Zou J,Rudra A,Ré C Simple linear attention language models balance the recall-throughput tradeoff http://arxiv.org/abs/2402.18668
De S,Smith SL,Fernando A,Botev A,Cristian-Muraru G,Gu A,Haroun R,Berrada L,Chen Y,Srinivasan S,Desjardins G,Doucet A,Budden D,Teh YW,Pascanu R,De Freitas N,Gulcehre C Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models http://arxiv.org/abs/2402.19427
Sun Y,Dong L,Huang S,Ma S,Xia Y,Xue J,Wang J,Wei F Retentive Network: A Successor to Transformer for Large Language Models http://arxiv.org/abs/2307.08621

Do we need Attention? A Mamba Primer

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Нужно ли нам внимание? — Линейные рекуррентные нейронные сети и модели пространства состояний (SS...

Нужно ли нам внимание? — Линейные рекуррентные нейронные сети и модели пространства состояний (SS...

MambaByte: Token-Free Language Modeling

MambaByte: Token-Free Language Modeling

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Was

Was "Machine Learning 2.0" All Hype? The Kolmogorov-Arnold Network Explained

Архитектуры Mamba, Mamba-2 и посттрансформеров для генеративного ИИ с Альбертом Гу - 693

Архитектуры Mamba, Mamba-2 и посттрансформеров для генеративного ИИ с Альбертом Гу - 693

Сокращения в Айти. Пузырь лопнул

Сокращения в Айти. Пузырь лопнул

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

Mamba: Linear-Time Sequence Modeling with Selective State Spaces (COLM Oral 2024)

Mamba: Linear-Time Sequence Modeling with Selective State Spaces (COLM Oral 2024)

Граница вычислений

Граница вычислений

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Speculations on Test-Time Scaling (o1)

Speculations on Test-Time Scaling (o1)

Большие языковые модели в пяти формулах

Большие языковые модели в пяти формулах

Как происходит модернизация остаточных соединений [mHC]

Как происходит модернизация остаточных соединений [mHC]

Mamba architecture intuition | Shawn's ML Notes

Mamba architecture intuition | Shawn's ML Notes

Почему мы НЕ МОЖЕМ объяснить магниты Ответ Фейнмана ломает мышление

Почему мы НЕ МОЖЕМ объяснить магниты Ответ Фейнмана ломает мышление

Поворотные позиционные вложения: сочетание абсолютного и относительного

Поворотные позиционные вложения: сочетание абсолютного и относительного

Модели пространства состояний (SSM) и Mamba

Модели пространства состояний (SSM) и Mamba

Нейронные сети Transformer, созданные с нуля

Нейронные сети Transformer, созданные с нуля

How DeepSeek Changes the LLM Story

How DeepSeek Changes the LLM Story

Почему «Трансформеры» заменяют CNN?

Почему «Трансформеры» заменяют CNN?

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: infodtube@gmail.com