Longformer: The Long-Document Transformer

Автор: Yannic Kilcher

Загружено: 2020-04-20

Просмотров: 25784

Описание:

The Longformer extends the Transformer by introducing sliding window attention and sparse global attention. This allows for the processing of much longer documents than classic models like BERT.

Paper: https://arxiv.org/abs/2004.05150
Code: https://github.com/allenai/longformer

Abstract:
Transformer-based models are unable to process long sequences due to their self-attention operation, which scales quadratically with the sequence length. To address this limitation, we introduce the Longformer with an attention mechanism that scales linearly with sequence length, making it easy to process documents of thousands of tokens or longer. Longformer's attention mechanism is a drop-in replacement for the standard self-attention and combines a local windowed attention with a task motivated global attention. Following prior work on long-sequence transformers, we evaluate Longformer on character-level language modeling and achieve state-of-the-art results on text8 and enwik8. In contrast to most prior work, we also pretrain Longformer and finetune it on a variety of downstream tasks. Our pretrained Longformer consistently outperforms RoBERTa on long document tasks and sets new state-of-the-art results on WikiHop and TriviaQA.

Authors: Iz Beltagy, Matthew E. Peters, Arman Cohan

Links:
YouTube: / yannickilcher
Twitter: / ykilcher
BitChute: https://www.bitchute.com/channel/yann...
Minds: https://www.minds.com/ykilcher

Longformer: The Long-Document Transformer

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Почему «Трансформеры» заменяют CNN?

Почему «Трансформеры» заменяют CNN?

Трансформаторы — это рекуррентные нейронные сети: быстрые авторегрессионные преобразователи с лин...

Трансформаторы — это рекуррентные нейронные сети: быстрые авторегрессионные преобразователи с лин...

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Scaling Transformer to 1M tokens and beyond with RMT (Paper Explained)

Scaling Transformer to 1M tokens and beyond with RMT (Paper Explained)

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

FlashAttention - Tri Dao | Stanford MLSys #67

FlashAttention - Tri Dao | Stanford MLSys #67

Момент, когда мы перестали понимать ИИ [AlexNet]

Момент, когда мы перестали понимать ИИ [AlexNet]

Reformer: The Efficient Transformer

Reformer: The Efficient Transformer

Куда исчезает пространство, если уменьшить его до Планковской длины?

Куда исчезает пространство, если уменьшить его до Планковской длины?

Изображение стоит 16x16 слов: Трансформеры для масштабного распознавания изображений (с пояснения...

Изображение стоит 16x16 слов: Трансформеры для масштабного распознавания изображений (с пояснения...

Synthesizer: Rethinking Self-Attention in Transformer Models (Paper Explained)

Synthesizer: Rethinking Self-Attention in Transformer Models (Paper Explained)

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Глубокое погружение — Улучшенные слои внимания для моделей Transformer

Глубокое погружение — Улучшенные слои внимания для моделей Transformer

Электромагнитная индукция

Электромагнитная индукция

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

∞-former: Infinite Memory Transformer (aka Infty-Former / Infinity-Former, Research Paper Explained)

∞-former: Infinite Memory Transformer (aka Infty-Former / Infinity-Former, Research Paper Explained)

Rethinking Attention with Performers (Paper Explained)

Rethinking Attention with Performers (Paper Explained)

Sparse LLMs at inference: 6x faster transformers! | DEJAVU paper explained

Sparse LLMs at inference: 6x faster transformers! | DEJAVU paper explained

Внимание — это всё, что вам нужно (Transformer) — объяснение модели (включая математику), вывод и...

Внимание — это всё, что вам нужно (Transformer) — объяснение модели (включая математику), вывод и...