Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Токенизатор FOA: изучение дискретных представлений пространственного звука с помощью многоканальн...

Автор: Microsoft Research

Загружено: 2025-10-17

Просмотров: 112

Описание:

Ведущий: Ханнес Гампер, Microsoft Research
Докладчик: Партхасаарати Сударсанам, Университет Тампере

Пространственное аудио фиксирует направленность и характеристики среды звука, обеспечивая эффект погружения. Амбисоника первого порядка (FOA) обеспечивает компактное представление пространственного аудио, кодируя компоненты направленности звукового поля по четырем каналам, что позволяет охватить всю сцену независимо от геометрии микрофонной решетки. Ключевым преимуществом FOA является гибкость рендеринга. Его можно декодировать для любой конфигурации громкоговорителей, включая стерео, объемное звучание, бинауральные и пользовательские массивы, что делает его подходящим для самых разных условий воспроизведения. Таким образом, моделирование сигналов FOA имеет решающее значение для приложений иммерсивного аудио, но остается сложной задачей из-за их высокой размерности и пространственной сложности. Основываясь на фреймворке WavTokenizer, мы представляем FOA Tokenizer — многоканальную VQ-GAN, которая обучается дискретным скрытым представлениям звука FOA для поддержки как дискриминационных, так и генеративных задач обработки звука. Модель обеспечивает высокую степень сжатия, кодируя 4-канальный звук FOA с частотой 24 кГц, используя всего 75 токенов в секунду. Для сохранения пространственной точности мы предлагаем потерю пространственной согласованности, которая обеспечивает направленную когерентность в реконструированном звуке. Наш подход реконструирует пространственные сигналы с высокой точностью, достигая абсолютной угловой погрешности 14° для зашумленных реверберирующих данных и 4° для чистой речи без реверберации. Эта структура обеспечивает компактное и пространственно согласованное представление звука FOA, облегчая приложения для локализации источника звука, синтеза и понимания иммерсивных сцен.

Токенизатор FOA: изучение дискретных представлений пространственного звука с помощью многоканальн...

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

array(0) { }

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]