Курс по преобразованию текста в речь и клонированию голоса: как машины обрабатывают текст
Автор: Valerio Velardo - The Sound of AI
Загружено: 2025-12-09
Просмотров: 155
Прежде чем ИИ сможет говорить, ему нужно научиться читать. В этой лекции объясняется, как системы синтеза речи преобразуют исходный текст в фонемы, работая со всем: от цифр и сокращений до решения сложной проблемы слов, которые выглядят одинаково, но звучат по-разному.
Это третье видео из курса «Преобразование текста в речь и клонирование голоса» серии лекций, призванных дать вам глубокое понимание современных концепций синтеза речи.
🎯 КЛЮЧЕВЫЕ ТЕМЫ:
Нормализация текста: стандартизация исходного текста
Преобразование графем в фонемы (G2P)
Подходы, основанные на правилах (словари + резервные правила)
Методы обучения (модели seq2seq)
Проблема омографов и разрешение неоднозначности
Инструменты: CMUDict, Phonemizer, DeepPhonemizer, g2p_en
Современный сквозной TTS с неявным обучением обработке текста
КОНСУЛЬТАЦИИ:
🚀 Консультации по музыке и аудио с использованием ИИ: https://valeriovelardoadvisor.com/
📩 Получите мой бесплатный контент по музыке с использованием ИИ на свой почтовый ящик: https://valeriovelardo.substack.com/
МАТЕРИАЛЫ КУРСА + ОБСУЖДЕНИЕ:
Репозиторий GitHub: https://github.com/musikalkemist/tts-...
Присоединяйтесь к сообществу Slack «Звук ИИ»: https://valeriovelardo.com/the-sound-... (канал #tts-course)
Контент
0:00 Введение
0:12 Конвейер TTS
2:20 Обработка текста
5:00 Нормализация
7:31 Инструменты нормализации
9:55 Графема-фонема
14:36 G2P на основе правил
19:20 Обучение G2P
24:07 Проблема неоднозначности
33:20 Современный сквозной TTS
35:38 Инструменты G2P
38:17 Выводы
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: