Vision Transformer for Image Classification

Автор: Shusen Wang

Загружено: 2021-05-04

Просмотров: 140632

Описание:

Vision Transformer (ViT) is the new state-of-the-art for image classification. ViT was posted on arXiv in Oct 2020 and officially published in 2021. On all the public datasets, ViT beats the best ResNet by a small margin, provided that ViT has been pretrained on a sufficiently large dataset. The bigger the dataset, the greater the advantage of the ViT over ResNet.

Slides: https://github.com/wangshusen/DeepLea...

Reference:
Dosovitskiy et al. An image is worth 16×16 words: transformers for image recognition at scale. In ICLR, 2021.

Vision Transformer for Image Classification

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Изображение стоит 16x16 слов: Трансформеры для масштабного распознавания изображений (с пояснения...

Изображение стоит 16x16 слов: Трансформеры для масштабного распознавания изображений (с пояснения...

Введение в Vision Transformer. Лекция 11. Глубокое обучение

Введение в Vision Transformer. Лекция 11. Глубокое обучение

How AI Taught Itself to See [DINOv3]

How AI Taught Itself to See [DINOv3]

LSTM is dead. Long Live Transformers!

LSTM is dead. Long Live Transformers!

Swin Transformer — бумажное объяснение

Swin Transformer — бумажное объяснение

Transformer Model (1/2): Attention Layers

Transformer Model (1/2): Attention Layers

Vision Transformer Basics

Vision Transformer Basics

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Vision Transformer from Scratch Tutorial

Vision Transformer from Scratch Tutorial

Трансформерные нейронные сети — ОБЪЯСНЕНИЕ! (Внимание — это всё, что вам нужно)

Трансформерные нейронные сети — ОБЪЯСНЕНИЕ! (Внимание — это всё, что вам нужно)

Swin Transformer paper animated and explained

Swin Transformer paper animated and explained

Краткое руководство по Vision Transformer — теория и код за (почти) 15 минут

Краткое руководство по Vision Transformer — теория и код за (почти) 15 минут

Vision Transformer (ViT) - An image is worth 16x16 words | Paper Explained

Vision Transformer (ViT) - An image is worth 16x16 words | Paper Explained

Внимание — это все, что вам нужно

Внимание — это все, что вам нужно

I Visualised Attention in Transformers

I Visualised Attention in Transformers

Момент, когда мы перестали понимать ИИ [AlexNet]

Момент, когда мы перестали понимать ИИ [AlexNet]

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Attention for RNN Seq2Seq Models (1.25x speed recommended)

Attention for RNN Seq2Seq Models (1.25x speed recommended)

Introduction to Vision Transformer (ViT) | An image is worth 16x16 words | Computer Vision Series

Introduction to Vision Transformer (ViT) | An image is worth 16x16 words | Computer Vision Series