Токенизатор FOA: изучение дискретных представлений пространственного звука с помощью многоканальн...
Автор: Microsoft Research
Загружено: 2025-10-17
Просмотров: 112
Ведущий: Ханнес Гампер, Microsoft Research
Докладчик: Партхасаарати Сударсанам, Университет Тампере
Пространственное аудио фиксирует направленность и характеристики среды звука, обеспечивая эффект погружения. Амбисоника первого порядка (FOA) обеспечивает компактное представление пространственного аудио, кодируя компоненты направленности звукового поля по четырем каналам, что позволяет охватить всю сцену независимо от геометрии микрофонной решетки. Ключевым преимуществом FOA является гибкость рендеринга. Его можно декодировать для любой конфигурации громкоговорителей, включая стерео, объемное звучание, бинауральные и пользовательские массивы, что делает его подходящим для самых разных условий воспроизведения. Таким образом, моделирование сигналов FOA имеет решающее значение для приложений иммерсивного аудио, но остается сложной задачей из-за их высокой размерности и пространственной сложности. Основываясь на фреймворке WavTokenizer, мы представляем FOA Tokenizer — многоканальную VQ-GAN, которая обучается дискретным скрытым представлениям звука FOA для поддержки как дискриминационных, так и генеративных задач обработки звука. Модель обеспечивает высокую степень сжатия, кодируя 4-канальный звук FOA с частотой 24 кГц, используя всего 75 токенов в секунду. Для сохранения пространственной точности мы предлагаем потерю пространственной согласованности, которая обеспечивает направленную когерентность в реконструированном звуке. Наш подход реконструирует пространственные сигналы с высокой точностью, достигая абсолютной угловой погрешности 14° для зашумленных реверберирующих данных и 4° для чистой речи без реверберации. Эта структура обеспечивает компактное и пространственно согласованное представление звука FOA, облегчая приложения для локализации источника звука, синтеза и понимания иммерсивных сцен.
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: