Transformer Model (2/2): Build a Deep Neural Network (1.25x speed recommended)

Автор: Shusen Wang

Загружено: 2021-04-16

Просмотров: 14819

Описание:

Next Video: • BERT for pretraining Transformers

The Transformer models are state-of-the-art language models. They are based on attention and dense layer without RNN. In the previous lecture, we have built the attention layer and self-attention layer. In this lecture, we first build multi-head attention layers and then use them to build a deep neural network known as Transformer. Transformer is a Seq2Seq model that can be used for machine translation.

Slides: https://github.com/wangshusen/DeepLea...

Reference:
Vaswani et al. Attention Is All You Need. In NIPS, 2017.

Transformer Model (2/2): Build a Deep Neural Network (1.25x speed recommended)

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Transformer Model (1/2): Attention Layers

Transformer Model (1/2): Attention Layers

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Vision Transformer for Image Classification

Vision Transformer for Image Classification

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Объяснение тензорных процессоров (TPU)

Объяснение тензорных процессоров (TPU)

RWKV: Reinventing RNNs for the Transformer Era (Paper Explained)

RWKV: Reinventing RNNs for the Transformer Era (Paper Explained)

Цепи Маркова — математика предсказаний [Veritasium]

Цепи Маркова — математика предсказаний [Veritasium]

Attention for RNN Seq2Seq Models (1.25x speed recommended)

Attention for RNN Seq2Seq Models (1.25x speed recommended)

BERT для предварительной подготовки Трансформеров

BERT для предварительной подготовки Трансформеров

САМАЯ ПРОСТАЯ ML МОДЕЛЬ - РЕШАЮЩЕЕ ДЕРЕВО

САМАЯ ПРОСТАЯ ML МОДЕЛЬ - РЕШАЮЩЕЕ ДЕРЕВО

Transformer Neural Networks, ChatGPT's foundation, Clearly Explained!!!

Transformer Neural Networks, ChatGPT's foundation, Clearly Explained!!!

Нейронные сети Transformer, созданные с нуля

Нейронные сети Transformer, созданные с нуля

Как двойные роторы делают двигатели невероятно эффективными

Как двойные роторы делают двигатели невероятно эффективными

Внимание — это всё, что вам нужно (Transformer) — объяснение модели (включая математику), вывод и...

Внимание — это всё, что вам нужно (Transformer) — объяснение модели (включая математику), вывод и...

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

🧪🧪🧪🧪Как увидеть гиперпространство (4-е измерение)

🧪🧪🧪🧪Как увидеть гиперпространство (4-е измерение)

Transfer learning and Transformer models (ML Tech Talks)

Transfer learning and Transformer models (ML Tech Talks)

Момент, когда мы перестали понимать ИИ [AlexNet]

Момент, когда мы перестали понимать ИИ [AlexNet]

How Attention Mechanism Works in Transformer Architecture

How Attention Mechanism Works in Transformer Architecture