Курс по преобразованию текста в речь и клонированию голоса: как машины обрабатывают текст

Автор: Valerio Velardo - The Sound of AI

Загружено: 2025-12-09

Просмотров: 155

Описание:

Прежде чем ИИ сможет говорить, ему нужно научиться читать. В этой лекции объясняется, как системы синтеза речи преобразуют исходный текст в фонемы, работая со всем: от цифр и сокращений до решения сложной проблемы слов, которые выглядят одинаково, но звучат по-разному.

Это третье видео из курса «Преобразование текста в речь и клонирование голоса» серии лекций, призванных дать вам глубокое понимание современных концепций синтеза речи.

🎯 КЛЮЧЕВЫЕ ТЕМЫ:
Нормализация текста: стандартизация исходного текста
Преобразование графем в фонемы (G2P)
Подходы, основанные на правилах (словари + резервные правила)
Методы обучения (модели seq2seq)
Проблема омографов и разрешение неоднозначности
Инструменты: CMUDict, Phonemizer, DeepPhonemizer, g2p_en
Современный сквозной TTS с неявным обучением обработке текста

КОНСУЛЬТАЦИИ:
🚀 Консультации по музыке и аудио с использованием ИИ: https://valeriovelardoadvisor.com/
📩 Получите мой бесплатный контент по музыке с использованием ИИ на свой почтовый ящик: https://valeriovelardo.substack.com/

МАТЕРИАЛЫ КУРСА + ОБСУЖДЕНИЕ:
Репозиторий GitHub: https://github.com/musikalkemist/tts-...
Присоединяйтесь к сообществу Slack «Звук ИИ»: https://valeriovelardo.com/the-sound-... (канал #tts-course)

Контент
0:00 Введение
0:12 Конвейер TTS
2:20 Обработка текста
5:00 Нормализация
7:31 Инструменты нормализации
9:55 Графема-фонема
14:36 G2P на основе правил
19:20 Обучение G2P
24:07 Проблема неоднозначности
33:20 Современный сквозной TTS
35:38 Инструменты G2P
38:17 Выводы

Курс по преобразованию текста в речь и клонированию голоса: как машины обрабатывают текст

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Курс по преобразованию текста в речь и клонированию голоса: как говорят люди

Курс по преобразованию текста в речь и клонированию голоса: как говорят люди

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Создайте Telegram-бота бесплатно с помощью Google Gemini | Пошаговое руководство

Создайте Telegram-бота бесплатно с помощью Google Gemini | Пошаговое руководство

Text-to-Speech & Voice Cloning Course: Course Overview

Text-to-Speech & Voice Cloning Course: Course Overview

То, что они только что построили, — нереально

То, что они только что построили, — нереально

MIT PhD taught me to unlock my brain’s “Sage Mode” - Deep Work (Full Summary)

MIT PhD taught me to unlock my brain’s “Sage Mode” - Deep Work (Full Summary)

Google’s Titans Just Solved AI’s Biggest Weakness, But...

Google’s Titans Just Solved AI’s Biggest Weakness, But...

After a Year Away: Here's What Happened

After a Year Away: Here's What Happened

17. Transformers Explained Easily: Part 1 - Generative Music AI

17. Transformers Explained Easily: Part 1 - Generative Music AI

Как ИИ меняет производство

Как ИИ меняет производство

Момент, когда мы перестали понимать ИИ [AlexNet]

Момент, когда мы перестали понимать ИИ [AlexNet]

Прорыв в области полупроводников, который наконец-то сделал квантовые вычисления практичными

Прорыв в области полупроводников, который наконец-то сделал квантовые вычисления практичными

Стоит ли жизнь в США своих денег после 9 лет в эмиграции

Стоит ли жизнь в США своих денег после 9 лет в эмиграции

Вы ОТСТОЙ в подсказках ИИ (Вот в чем секрет)

Вы ОТСТОЙ в подсказках ИИ (Вот в чем секрет)

Бизнесу НЕ ВЫЖИТЬ в России! 5 причин почему вам не нужно открывать свой бизнес / Борис Зарьков

Бизнесу НЕ ВЫЖИТЬ в России! 5 причин почему вам не нужно открывать свой бизнес / Борис Зарьков

Capablanca Teaches Us The ONLY Chess Opening You'll Ever Need

Capablanca Teaches Us The ONLY Chess Opening You'll Ever Need

SHOCK FOOTAGE: China’s T800 Robot Performs Moves No Human Could Survive!

SHOCK FOOTAGE: China’s T800 Robot Performs Moves No Human Could Survive!

AlphaFold - The Most Useful Thing AI Has Ever Done

AlphaFold - The Most Useful Thing AI Has Ever Done

Отъём жилья. Не только Долина. Статус S09E15

Отъём жилья. Не только Долина. Статус S09E15

Самый богатый человек в Вавилоне — аудиокнига о деньгах, богатстве и финансовом мышлении

Самый богатый человек в Вавилоне — аудиокнига о деньгах, богатстве и финансовом мышлении