Языковые модели непрерывного аудио
Автор: AI Papers Podcast Daily
Загружено: 2026-01-16
Просмотров: 44
Исследователи разработали новую систему для искусственного интеллекта, позволяющую создавать высококачественную музыку и речь, получившую название *Continuous Audio Language Models (CALM)**. Более старые аудиомодели обычно преобразуют звук в небольшие упрощенные фрагменты, называемые «токенами», что часто приводит к потере качества звука или требует огромных вычислительных мощностей для корректной работы. **CALM* избегает этой проблемы, работая с непрерывной аудиоинформацией, а не разбивая ее на дискретные биты, что позволяет ИИ создавать гораздо более детализированные и реалистичные звуки, используя меньше ресурсов. Система использует *двухтрансформаторную конструкцию* для баланса между долгосрочной структурой и краткосрочными деталями, а также использует «модель согласованности» для генерации звука всего за один или два шага. Благодаря своей эффективности, CALM** значительно *быстрее предыдущих моделей* и может даже использоваться в таких инструментах, как **Pocket TTS**, программе, достаточно компактной для преобразования текста в речь в реальном времени на обычном ноутбуке.
https://arxiv.org/pdf/2509.06926
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: