Building an Encoder-Decoder Transformer from Scratch!: PyTorch Deep Learning Tutorial

Автор: Luke Ditria

Загружено: 2024-06-18

Просмотров: 3792

Описание:

In this video, we dive deep into the Encoder-Decoder Transformer architecture, a key concept in natural language processing and sequence-to-sequence modeling. If you're new here, check out my GitHub repo for all the code used in this series. Previously, we explored the Encoder-only and Decoder-only architectures, but today we're combining them to tackle next-token prediction.

The Encoder-Decoder architecture was popularized by the "Attention is All You Need" paper and is essential for tasks like language translation and text generation. We’ll break down how to implement self-attention, causal masking, and cross-attention layers in PyTorch, using the Yahoo Answers dataset for demonstration.

This video contains practical insights for anyone looking to learn Transformers, multi-headed attention, and advanced deep learning techniques. Whether you're working on NLP, chatbots, or text classification, this tutorial is for you.

Donations, Help Support this work!
https://www.buymeacoffee.com/lukeditria

The corresponding code is available here! (Section 14)
https://github.com/LukeDitria/pytorch...

Discord Server:
/ discord

Building an Encoder-Decoder Transformer from Scratch!: PyTorch Deep Learning Tutorial

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Classify Images with a Vision Transformer (ViT): PyTorch Deep Learning Tutorial

Classify Images with a Vision Transformer (ViT): PyTorch Deep Learning Tutorial

Transformer, explained in detail | Igor Kotenkov | NLP Lecture (in Russian)

Transformer, explained in detail | Igor Kotenkov | NLP Lecture (in Russian)

What Are Common Revenue Forecasting Methods?

What Are Common Revenue Forecasting Methods?

Реализация механизма внимания с нуля: руководство по глубокому обучению PyTorch

Реализация механизма внимания с нуля: руководство по глубокому обучению PyTorch

Преобразователи кодер-декодер против преобразователей только декодер против преобразователей толь...

Преобразователи кодер-декодер против преобразователей только декодер против преобразователей толь...

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Autoencoder In PyTorch - Theory & Implementation

Autoencoder In PyTorch - Theory & Implementation

Какая архитектура трансформатора лучше? Модели только с энкодером, энкодером и декодером, модели ...

Какая архитектура трансформатора лучше? Модели только с энкодером, энкодером и декодером, модели ...

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Цепи Маркова — математика предсказаний [Veritasium]

Цепи Маркова — математика предсказаний [Veritasium]

Decoding hidden states of Phi-3 with LogitLens (Interpretability Series)

Decoding hidden states of Phi-3 with LogitLens (Interpretability Series)

Что такое стек ИИ? Магистратура LLM, RAG и аппаратное обеспечение ИИ

Что такое стек ИИ? Магистратура LLM, RAG и аппаратное обеспечение ИИ

Sequence-to-Sequence (seq2seq) Encoder-Decoder Neural Networks, Clearly Explained!!!

Sequence-to-Sequence (seq2seq) Encoder-Decoder Neural Networks, Clearly Explained!!!

Cross Attention | Method Explanation | Math Explained

Cross Attention | Method Explanation | Math Explained

Сложность пароля — это ложь. Вот что на самом деле защищает вас

Сложность пароля — это ложь. Вот что на самом деле защищает вас

Coding a Transformer from scratch on PyTorch, with full explanation, training and inference.

Coding a Transformer from scratch on PyTorch, with full explanation, training and inference.

Bi-Encoder vs Cross-Encoder in Simple Language

Bi-Encoder vs Cross-Encoder in Simple Language

КАК НЕЛЬЗЯ ХРАНИТЬ ПАРОЛИ (и как нужно) за 11 минут

КАК НЕЛЬЗЯ ХРАНИТЬ ПАРОЛИ (и как нужно) за 11 минут

Крах Jaguar: Как “повестка” в рекламе добила легенду британского автопрома

Крах Jaguar: Как “повестка” в рекламе добила легенду британского автопрома

Трансформер, работающий только с декодером, для прогнозирования следующего токена: руководство по...

Трансформер, работающий только с декодером, для прогнозирования следующего токена: руководство по...