Можно ли использовать Whisper для потоковой передачи ASR в реальном времени?

Автор: Efficient NLP

Загружено: 2024-03-30

Просмотров: 36329

Описание:

Попробуйте Voice Writer — выражайте свои мысли, а ИИ позаботится о грамматике: https://voicewriter.io

Whisper — это надёжная модель автоматического распознавания речи (ASR) от OpenAI, но способна ли она справиться с потоковой передачей ASR в режиме реального времени, где задержка составляет несколько секунд? На самом деле, это не так уж сложно, если использовать проект с открытым исходным кодом Whisper-streaming, который превращает Whisper в потоковую систему ASR. Работает он, подавая всё более длинные аудиобуферы в модель Whisper, используя алгоритм LocalAgreement для подтверждения вывода сразу после согласования в двух итерациях, а затем прокручивая буфер вперёд до начала следующего предложения.

0:00 — Введение
0:35 — Пакетная и потоковая передача ASR
1:55 — В чём сложность?
2:58 — Демонстрация потоковой передачи Whisper
3:38 — Обработка последовательных аудиобуферов
4:36 — Подтверждение токенов с помощью LocalAgreement
6:05 — Запрос предыдущего контекста
7:01 — Ограничения по сравнению с другими потоковыми моделями ASR

Ссылки:

https://github.com/ufal/whisper_strea...

Махачек, Доминик, Радж Дабре и Ондржей Бояр. «Превращение Whisper в систему транскрипции в реальном времени». IJCNLP-AACL 2023.

Чэнь, Се и др. «Разработка преобразователя потоковой передачи в реальном времени для распознавания речи на больших наборах данных». ICASSP 2021.

Можно ли использовать Whisper для потоковой передачи ASR в реальном времени?

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Fine-tuning Whisper to learn my Chinese dialect (Teochew)

Fine-tuning Whisper to learn my Chinese dialect (Teochew)

NVIDIA beats Whisper with Parakeetv2

NVIDIA beats Whisper with Parakeetv2

Inference Characteristics of Streaming Speech Recognition

Inference Characteristics of Streaming Speech Recognition

The Most Accurate Speech-to-text APIs in 2025

The Most Accurate Speech-to-text APIs in 2025

Pipeline from Whisper ASR to ELAN to Praat

Pipeline from Whisper ASR to ELAN to Praat

Самый быстроговорящий ИИ в мире: Deepgram + Groq

Самый быстроговорящий ИИ в мире: Deepgram + Groq

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

Большинство разработчиков не понимают, как работают контекстные окна.

Большинство разработчиков не понимают, как работают контекстные окна.

Вся IT-база в ОДНОМ видео: Память, Процессор, Код

Вся IT-база в ОДНОМ видео: Память, Процессор, Код

Fastest speech to text transcription, 100% offline - Whisper.cpp | Zero latency

Fastest speech to text transcription, 100% offline - Whisper.cpp | Zero latency

Моши Говорящий ИИ

Моши Говорящий ИИ

Training LLM to play chess using Deepseek GRPO reinforcement learning

Training LLM to play chess using Deepseek GRPO reinforcement learning

Магистратура по речевым технологиям: модели, которые слушают и отвечают

Магистратура по речевым технологиям: модели, которые слушают и отвечают

Zettelkasten + AI: Как я связал ChatGPT и Obsidian в единую систему знаний

Zettelkasten + AI: Как я связал ChatGPT и Obsidian в единую систему знаний

Может ли у ИИ появиться сознание? — Семихатов, Анохин

Может ли у ИИ появиться сознание? — Семихатов, Анохин

СУПЕРбыстрая транскрипция речи в текст в реальном времени с помощью ИИ — Faster Whisper / Python

СУПЕРбыстрая транскрипция речи в текст в реальном времени с помощью ИИ — Faster Whisper / Python

Как использовать транскрипцию в реальном времени в браузере с помощью WebGPU Whisper и Transforme...

Как использовать транскрипцию в реальном времени в браузере с помощью WebGPU Whisper и Transforme...

Распознавание речи в реальном времени за 15 минут с AssemblyAI

Распознавание речи в реальном времени за 15 минут с AssemblyAI

Негативный портал - как он объясняет карманное пространство?

Негативный портал - как он объясняет карманное пространство?

Объяснение модели Whisper от OpenAI

Объяснение модели Whisper от OpenAI