EVA-GAN: La Inteligencia Artificial que REVOLUCIONA la Creación de AUDIO
Автор: AudioArXiv
Загружено: 2026-01-24
Просмотров: 4
La generación de audio mediante inteligencia artificial ha avanzado mucho, pero los modelos actuales todavía tienen dificultades para crear sonido de alta fidelidad (HiFi) a 44.1kHz, el estándar de calidad de CD. A menudo, el audio generado sufre de problemas como falta de claridad en las altas frecuencias y no funciona bien con datos de audio que no ha 'oído' antes. Estas limitaciones han frenado su uso en aplicaciones exigentes como la creación de música o voces de canto realistas.
Para solucionar estos problemas, este estudio presenta EVA-GAN, un nuevo modelo que mejora enormemente la calidad y versatilidad del audio generado. Utilizando una arquitectura escalable de redes generativas antagónicas (GAN), el modelo fue entrenado con un gigantesco conjunto de datos de 36,000 horas de audio en alta fidelidad. Además, se aumentó su tamaño a casi 200 millones de parámetros, permitiéndole capturar patrones y matices sonoros con una precisión sin precedentes.
Los resultados demuestran que EVA-GAN supera significativamente a los modelos anteriores. Establece un nuevo estándar en la industria al generar audio con una reconstrucción espectral y de altas frecuencias muy superior, además de mostrar una gran robustez con datos fuera de su dominio de entrenamiento. Esto abre nuevas y emocionantes posibilidades para la síntesis de voz, la generación de música y un amplio abanico de aplicaciones en el dominio del audio.
Link al paper: https://arxiv.org/pdf/2402.00892
Autores del estudio: Shijia Liao, Shiyi Lan, Arun George Zachariah
Apoyanos en / audioarxiv
Unete en / discord
#Ciencias de la computación #InteligenciaArtificial #GeneracionDeAudio #EVAGAN #MachineLearning #Tecnologia
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: