Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Masked Autoencoders Are Scalable Vision Learners – Paper explained and animated!

Автор: AI Coffee Break with Letitia

Загружено: 2021-11-24

Просмотров: 30666

Описание:

“Masked Autoencoders Are Scalable Vision Learners” paper explained by Ms. Coffee Bean. Say goodbye to contrastive learning and say hello (again) to autoencoders in #ComputerVision! Love the simple, yet elegant idea!

► Check out our sponsor: Weights & Biases 👉 https://wandb.me/ai-coffee-break

📺 Vision Transformer explained:    • Vision Transformers explained  

Thanks to our Patrons who support us in Tier 2, 3, 4: 🙏
donor, Dres. Trost GbR, Yannik Schneider
➡️ AI Coffee Break Merch! 🛍️ https://aicoffeebreak.creator-spring....

Paper 📜: He, Kaiming, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Doll'ar and Ross B. Girshick. “Masked Autoencoders Are Scalable Vision Learners.” (2021). https://arxiv.org/abs/2111.06377

References:
🔗 https://blog.keras.io/building-autoen...
🔗 https://www.deeplearningbook.org/
🔗   / 1462446494766837773  

📺 ViT video:    • An image is worth 16x16 words: ViT | Visio...  
📺 DeiT:    • Data-efficient Image Transformers EXPLAINE...  
📺 Swin Transformer:    • Swin Transformer paper animated and explained  

Outline:
00:00 Intro
00:41 Weights & Biases (Sponsor)
02:10 What are autoencoders?
05:03 Differences between vision and language masked autoencoding
07:02 How does masked autoencoding work for images?

▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀
🔥 Optionally, pay us a coffee to help with our Coffee Bean production! ☕
Patreon:   / aicoffeebreak  
Ko-fi: https://ko-fi.com/aicoffeebreak
▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀▀

----------------
🔗 Links:
AICoffeeBreakQuiz:    / aicoffeebreak  
Twitter:   / aicoffeebreak  
Reddit:   / aicoffeebreak  
YouTube:    / aicoffeebreak  

#AICoffeeBreak #MsCoffeeBean #MachineLearning #AI #research​

Masked Autoencoders Are Scalable Vision Learners – Paper explained and animated!

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

The efficiency misnomer | Size does not matter | What does the number of parameters mean in a model?

The efficiency misnomer | Size does not matter | What does the number of parameters mean in a model?

ConvNeXt: A ConvNet for the 2020s – Paper Explained (with animations)

ConvNeXt: A ConvNet for the 2020s – Paper Explained (with animations)

The Ridiculous Engineering Of The World's Most Important Machine

The Ridiculous Engineering Of The World's Most Important Machine

Masked Autoencoders (MAE) Paper Explained

Masked Autoencoders (MAE) Paper Explained

Flow-Matching vs Diffusion Models explained side by side

Flow-Matching vs Diffusion Models explained side by side

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

Harvard Medical AI: Mark Endo presents

Harvard Medical AI: Mark Endo presents "Masked Autoencoders Are Scalable Vision Learners"

But how do AI images and videos actually work? | Guest video by Welch Labs

But how do AI images and videos actually work? | Guest video by Welch Labs

Swin Transformer paper animated and explained

Swin Transformer paper animated and explained

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Greedy? Min-p? Beam Search? How LLMs Actually Pick Words – Decoding Strategies Explained

Greedy? Min-p? Beam Search? How LLMs Actually Pick Words – Decoding Strategies Explained

Как сжимаются изображения? [46 МБ ↘↘ 4,07 МБ] JPEG в деталях

Как сжимаются изображения? [46 МБ ↘↘ 4,07 МБ] JPEG в деталях

Vision Transformer (ViT) - An image is worth 16x16 words | Paper Explained

Vision Transformer (ViT) - An image is worth 16x16 words | Paper Explained

Визуализация скрытого пространства: PCA, t-SNE, UMAP | Глубокое обучение с анимацией

Визуализация скрытого пространства: PCA, t-SNE, UMAP | Глубокое обучение с анимацией

Вариационные автоэнкодеры

Вариационные автоэнкодеры

DINO: Emerging Properties in Self-Supervised Vision Transformers (Facebook AI Research Explained)

DINO: Emerging Properties in Self-Supervised Vision Transformers (Facebook AI Research Explained)

Positional embeddings in transformers EXPLAINED | Demystifying positional encodings.

Positional embeddings in transformers EXPLAINED | Demystifying positional encodings.

CV Study Group: Masked Autoencoders Paper Walkthrough

CV Study Group: Masked Autoencoders Paper Walkthrough

Обучение BERT №1 — Моделирование маскированного языка (MLM)

Обучение BERT №1 — Моделирование маскированного языка (MLM)

20 концепций искусственного интеллекта, объясненных за 40 минут

20 концепций искусственного интеллекта, объясненных за 40 минут

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]