Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

OpenAI Whisper: Robust Speech Recognition via Large-Scale Weak Supervision | Paper and Code

Автор: Aleksa Gordić - The AI Epiphany

Загружено: 2022-09-24

Просмотров: 44298

Описание:

❤️ Become The AI Epiphany Patreon ❤️
  / theaiepiphany  

👨‍👩‍👧‍👦 Join our Discord community 👨‍👩‍👧‍👦
  / discord  

In this video I cover Whisper, an ASR system from OpenAI's "Robust Speech Recognition via Large-Scale Weak Supervision" paper.

Trained on a huge multi-lingual, multi-task weakly supervised dataset it achieves a very high effective robustness and accuracy closing the gap with the human baseline using only an off-the-shelf transformer.

I walk you through both the paper as well as the actual code. Let me know whether the code part helped!

▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬
✅ Paper: https://cdn.openai.com/papers/whisper...
✅ Code: https://github.com/openai/whisper

✅ Nice explanation of mel spectrograms:    • Mel Spectrograms Explained Easily  
▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬

⌚️ Timetable:
00:00:00 Intro
00:02:05 Paper overview
00:07:30 Collecting a large scale weakly supervised dataset
00:13:55 Evaluation metric issues (WER)
00:16:05 Effective robustness
00:18:40 Scaling laws in progress
00:26:30 Decoding is hacky
00:28:30 Code walk-through
00:30:25 Model architecture (diagram vs code)
00:33:30 Transcription task
00:34:10 Loading the audio, mel spectrograms
00:37:50 Language detection
00:45:00 Transcription task continued
00:47:35 Suppressing token logits
00:52:00 Voice activity detection
00:53:35 Decoding and heuristics
01:01:56 Outro

▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬
💰 BECOME A PATREON OF THE AI EPIPHANY ❤️

If these videos, GitHub projects, and blogs help you,
consider helping me out by supporting me on Patreon!

The AI Epiphany -   / theaiepiphany  
One-time donation - https://www.paypal.com/paypalme/theai...

Huge thank you to these AI Epiphany patreons:
Eli Mahler
Petar Veličković

▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬

💼 LinkedIn -   / aleksagordic  
🐦 Twitter -   / gordic_aleksa  
👨‍👩‍👧‍👦 Discord -   / discord  

📺 YouTube -    / theaiepiphany  
📚 Medium -   / gordicaleksa  
💻 GitHub - https://github.com/gordicaleksa
📢 AI Newsletter - https://aiepiphany.substack.com/

▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬▬

#whisper #openai #asr

OpenAI Whisper: Robust Speech Recognition via Large-Scale Weak Supervision | Paper and Code

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Почему «Трансформеры» заменяют CNN?

Почему «Трансформеры» заменяют CNN?

Whisper Paper Explained: Robust Speech Recognition via Large-Scale Weak Supervision

Whisper Paper Explained: Robust Speech Recognition via Large-Scale Weak Supervision

High Fidelity Neural Audio Compression | Paper & Code Explained

High Fidelity Neural Audio Compression | Paper & Code Explained

NVIDIA beats Whisper with Parakeetv2

NVIDIA beats Whisper with Parakeetv2

ESP32: распознавание речи нейросетью (TensorFlow Lite)

ESP32: распознавание речи нейросетью (TensorFlow Lite)

Как SDD превращает AI в твоего личного Senior-архитектора

Как SDD превращает AI в твоего личного Senior-архитектора

Объяснение тензорных процессоров (TPU)

Объяснение тензорных процессоров (TPU)

Декораторы Python — наглядное объяснение

Декораторы Python — наглядное объяснение

Lucas Beyer (Google DeepMind) - Convergence of Vision & Language

Lucas Beyer (Google DeepMind) - Convergence of Vision & Language

OpenAI тонет. Google рвёт индустрию. ИИ улетает в космос / Итоги ноября в AI

OpenAI тонет. Google рвёт индустрию. ИИ улетает в космос / Итоги ноября в AI

How to Use OpenAI's Whisper for Perfect Transcriptions (Speech to Text)

How to Use OpenAI's Whisper for Perfect Transcriptions (Speech to Text)

Низкоранговая адаптация больших языковых моделей: объяснение ключевых концепций LoRA

Низкоранговая адаптация больших языковых моделей: объяснение ключевых концепций LoRA

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Perplexity Labs: 5 Бизнес-Кейсов.Честный обзор PRO-версии - 750₽/год

Perplexity Labs: 5 Бизнес-Кейсов.Честный обзор PRO-версии - 750₽/год

Claude Code: полный гайд по AI-кодингу (хаки, техники и секреты)

Claude Code: полный гайд по AI-кодингу (хаки, техники и секреты)

Как создаются степени магистра права?

Как создаются степени магистра права?

GPT-Fast - blazingly fast inference with PyTorch (w/ Horace He)

GPT-Fast - blazingly fast inference with PyTorch (w/ Horace He)

Объяснение модели Whisper от OpenAI

Объяснение модели Whisper от OpenAI

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]