Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Review of HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis

Автор: Olewave

Загружено: 2023-04-21

Просмотров: 4130

Описание:

Abstract:
Several recent work on speech synthesis have employed generative adversarial networks (GANs) to produce raw waveforms. Although such methods improve the sampling efficiency and memory usage, their sample quality has not yet reached that of autoregressive and flow-based generative models. In this work, we propose HiFi-GAN, which achieves both efficient and high-fidelity speech synthesis. As speech audio consists of sinusoidal signals with various periods, we demonstrate that modeling periodic patterns of an audio is crucial for enhancing sample quality. A subjective human evaluation (mean opinion score, MOS) of a single speaker dataset indicates that our proposed method demonstrates similarity to human quality while generating 22.05 kHz high-fidelity audio 167.9 times faster than real-time on a single V100 GPU. We further show the generality of HiFi-GAN to the mel-spectrogram inversion of unseen speakers and end-to-end speech synthesis. Finally, a small footprint version of HiFi-GAN generates samples 13.4 times faster than real-time on CPU with comparable quality to an autoregressive counterpart.

Review of HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

A Review of Deepmind's WaveNet for TTS/Audio Synthesis (Does it look like GPT to you?)

A Review of Deepmind's WaveNet for TTS/Audio Synthesis (Does it look like GPT to you?)

Speech features intro 3: Mel-scale spectrogram

Speech features intro 3: Mel-scale spectrogram

 Prove language L is recursive if both L and its complement L̅ are recursively enumerable (r.e.).

Prove language L is recursive if both L and its complement L̅ are recursively enumerable (r.e.).

Review DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation ~ Seed-TTS

Review DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation ~ Seed-TTS

Speech and Language Technology Meetup Group Weekly Paper Reading

Speech and Language Technology Meetup Group Weekly Paper Reading

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

TTS

TTS

Нейронные сети Transformer, созданные с нуля

Нейронные сети Transformer, созданные с нуля

End-to-End Adversarial Text-to-Speech (Paper Explained)

End-to-End Adversarial Text-to-Speech (Paper Explained)

Андрей Фурсов. Почему в мире прекращаются новшества? Отказ от технических и научных проектов?

Андрей Фурсов. Почему в мире прекращаются новшества? Отказ от технических и научных проектов?

Уоррен Баффет: Если вы хотите разбогатеть, перестаньте покупать эти 5 вещей.

Уоррен Баффет: Если вы хотите разбогатеть, перестаньте покупать эти 5 вещей.

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

Тренды в ИИ 2026. К чему готовиться каждому.

Тренды в ИИ 2026. К чему готовиться каждому.

Generative Model-Based Text-to-Speech Synthesis

Generative Model-Based Text-to-Speech Synthesis

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

От Путина до Инстасамки: приближали день “maX” как могли

От Путина до Инстасамки: приближали день “maX” как могли

Как электростатические двигатели нарушают все правила

Как электростатические двигатели нарушают все правила

State of GPT | BRK216HFS

State of GPT | BRK216HFS

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: infodtube@gmail.com