Можно ли использовать Whisper для потоковой передачи ASR в реальном времени?
Автор: Efficient NLP
Загружено: 2024-03-30
Просмотров: 34134
Попробуйте Voice Writer — выражайте свои мысли, а ИИ позаботится о грамматике: https://voicewriter.io
Whisper — это надёжная модель автоматического распознавания речи (ASR) от OpenAI, но способна ли она справиться с потоковой передачей ASR в режиме реального времени, где задержка составляет несколько секунд? На самом деле, это не так уж сложно, если использовать проект с открытым исходным кодом Whisper-streaming, который превращает Whisper в потоковую систему ASR. Работает он, подавая всё более длинные аудиобуферы в модель Whisper, используя алгоритм LocalAgreement для подтверждения вывода сразу после согласования в двух итерациях, а затем прокручивая буфер вперёд до начала следующего предложения.
0:00 — Введение
0:35 — Пакетная и потоковая передача ASR
1:55 — В чём сложность?
2:58 — Демонстрация потоковой передачи Whisper
3:38 — Обработка последовательных аудиобуферов
4:36 — Подтверждение токенов с помощью LocalAgreement
6:05 — Запрос предыдущего контекста
7:01 — Ограничения по сравнению с другими потоковыми моделями ASR
Ссылки:
https://github.com/ufal/whisper_strea...
Махачек, Доминик, Радж Дабре и Ондржей Бояр. «Превращение Whisper в систему транскрипции в реальном времени». IJCNLP-AACL 2023.
Чэнь, Се и др. «Разработка преобразователя потоковой передачи в реальном времени для распознавания речи на больших наборах данных». ICASSP 2021.
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: