Нужно ли нам внимание? — Линейные рекуррентные нейронные сети и модели пространства состояний (SS...

Автор: Sasha Rush

Загружено: 2023-07-05

Просмотров: 33792

Описание:

(Более поздняя версия для Mamba: • Do we need Attention? A Mamba Primer )

Доклад для MLSys, посвящённый обзору современных методов, использующих линейные рекуррентные нейронные сети (RNN) и модели пространства состояний для замены внимания в моделях типа «трансформер».

Слайды: https://github.com/srush/do-we-need-a...

Этот доклад предшествовал работе над Mamba, но охватывает основные предварительные вопросы. Версия для Mamba появится скоро.

Нужно ли нам внимание? — Линейные рекуррентные нейронные сети и модели пространства состояний (SS...

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Differential Inference: A Criminally Underused Tool

Differential Inference: A Criminally Underused Tool

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Speculations on Test-Time Scaling (o1)

Speculations on Test-Time Scaling (o1)

Do we need Attention? A Mamba Primer

Do we need Attention? A Mamba Primer

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Intuition behind Mamba and State Space Models | Enhancing LLMs!

Intuition behind Mamba and State Space Models | Enhancing LLMs!

UMRec'25 Keynote: Reliable Confidence Intervals for I.R. Evaluation Using Generative A.I.

UMRec'25 Keynote: Reliable Confidence Intervals for I.R. Evaluation Using Generative A.I.

Понимание GD&T

MAMBA and State Space Models explained | SSM explained

MAMBA and State Space Models explained | SSM explained

Большие языковые модели в пяти формулах

Большие языковые модели в пяти формулах

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

State of GPT | BRK216HFS

State of GPT | BRK216HFS

Модели пространства состояний (SSM) и Mamba

Модели пространства состояний (SSM) и Mamba

Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

Mamba: Linear-Time Sequence Modeling with Selective State Spaces (Paper Explained)

Mamba: Linear-Time Sequence Modeling with Selective State Spaces (Paper Explained)

Как создаются степени магистра права?

Как создаются степени магистра права?

АМЕРИКАНЦЫ НА ЛУНЕ /

АМЕРИКАНЦЫ НА ЛУНЕ / "АНГАРА" /«ЛУНА-26» / ЯДЕРНЫЙ БУКСИР «ЗЕВС». Сурдин и Хохлов

[1hr Talk] Intro to Large Language Models

[1hr Talk] Intro to Large Language Models

Linear Attention and Beyond (Interactive Tutorial with Songlin Yang)

Linear Attention and Beyond (Interactive Tutorial with Songlin Yang)