Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Можно ли использовать Whisper для потоковой передачи ASR в реальном времени?

Автор: Efficient NLP

Загружено: 2024-03-30

Просмотров: 34134

Описание:

Попробуйте Voice Writer — выражайте свои мысли, а ИИ позаботится о грамматике: https://voicewriter.io

Whisper — это надёжная модель автоматического распознавания речи (ASR) от OpenAI, но способна ли она справиться с потоковой передачей ASR в режиме реального времени, где задержка составляет несколько секунд? На самом деле, это не так уж сложно, если использовать проект с открытым исходным кодом Whisper-streaming, который превращает Whisper в потоковую систему ASR. Работает он, подавая всё более длинные аудиобуферы в модель Whisper, используя алгоритм LocalAgreement для подтверждения вывода сразу после согласования в двух итерациях, а затем прокручивая буфер вперёд до начала следующего предложения.

0:00 — Введение
0:35 — Пакетная и потоковая передача ASR
1:55 — В чём сложность?
2:58 — Демонстрация потоковой передачи Whisper
3:38 — Обработка последовательных аудиобуферов
4:36 — Подтверждение токенов с помощью LocalAgreement
6:05 — Запрос предыдущего контекста
7:01 — Ограничения по сравнению с другими потоковыми моделями ASR

Ссылки:

https://github.com/ufal/whisper_strea...

Махачек, Доминик, Радж Дабре и Ондржей Бояр. «Превращение Whisper в систему транскрипции в реальном времени». IJCNLP-AACL 2023.

Чэнь, Се и др. «Разработка преобразователя потоковой передачи в реальном времени для распознавания речи на больших наборах данных». ICASSP 2021.

Можно ли использовать Whisper для потоковой передачи ASR в реальном времени?

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

The Most Accurate Speech-to-text APIs in 2025

The Most Accurate Speech-to-text APIs in 2025

NVIDIA beats Whisper with Parakeetv2

NVIDIA beats Whisper with Parakeetv2

Fine-tuning Whisper to learn my Chinese dialect (Teochew)

Fine-tuning Whisper to learn my Chinese dialect (Teochew)

Магистратура по речевым технологиям: модели, которые слушают и отвечают

Магистратура по речевым технологиям: модели, которые слушают и отвечают

Pipeline from Whisper ASR to ELAN to Praat

Pipeline from Whisper ASR to ELAN to Praat

Что защитит наш код от искусственного интеллекта?

Что защитит наш код от искусственного интеллекта?

Guide to Real-Time ASR or STT Transcription with Faster-Whisper & Gradio

Guide to Real-Time ASR or STT Transcription with Faster-Whisper & Gradio

Inference Characteristics of Streaming Speech Recognition

Inference Characteristics of Streaming Speech Recognition

Fine tuning Whisper for Speech Transcription

Fine tuning Whisper for Speech Transcription

Context Rot: How Increasing Input Tokens Impacts LLM Performance

Context Rot: How Increasing Input Tokens Impacts LLM Performance

Как Ubuntu Предала Linux - Вся Правда о Взлёте и Падении Canonical

Как Ubuntu Предала Linux - Вся Правда о Взлёте и Падении Canonical

Training LLM to play chess using Deepseek GRPO reinforcement learning

Training LLM to play chess using Deepseek GRPO reinforcement learning

ЧТО СКРЫВАЮТ РАДИОВОЛНЫ?

ЧТО СКРЫВАЮТ РАДИОВОЛНЫ?

Как использовать транскрипцию в реальном времени в браузере с помощью WebGPU Whisper и Transforme...

Как использовать транскрипцию в реальном времени в браузере с помощью WebGPU Whisper и Transforme...

Распознавание речи в реальном времени за 15 минут с AssemblyAI

Распознавание речи в реальном времени за 15 минут с AssemblyAI

ЭТИ АЛГОРИТМЫ СДЕЛАЮТ ИЗ ТЕБЯ ПРОГРАММИСТА

ЭТИ АЛГОРИТМЫ СДЕЛАЮТ ИЗ ТЕБЯ ПРОГРАММИСТА

Распознавание речи в Python | Тонкая настройка модели wav2vec2 для пользовательской модели ASR

Распознавание речи в Python | Тонкая настройка модели wav2vec2 для пользовательской модели ASR

Самый быстроговорящий ИИ в мире: Deepgram + Groq

Самый быстроговорящий ИИ в мире: Deepgram + Groq

Куда исчезает ёмкость MLCC? Эффект DC-Bias и старение керамики X7R

Куда исчезает ёмкость MLCC? Эффект DC-Bias и старение керамики X7R

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]