Canvas-to-Image: композиционная генерация изображений с использованием многомодальных элементов у...
Автор: AI Papers Podcast Daily
Загружено: 2025-12-01
Просмотров: 60
В статье представлен Canvas-to-Image, унифицированный фреймворк, разработанный для преодоления ограничений современных моделей диффузии, которые испытывают трудности с высокоточным контролем композиции, когда пользователи одновременно указывают разнородные входные данные, такие как текстовые подсказки, конкретные ссылки на предметы, пространственное расположение и ограничения поз. Центральным нововведением является **Multi-Task Canvas**, который действует как единый гибкий визуальный интерфейс, объединяющий различные сигналы управления, такие как пространственно расположенные предметы, скелеты поз, ограничивающие рамки с текстовыми аннотациями, в одно составное RGB-изображение, которое модель диффузии может напрямую интерпретировать. Курируя комплексные многозадачные наборы данных и используя стратегию обучения Multi-Task Canvas, авторы позволяют модели совместно понимать и интегрировать эти разнородные элементы управления (такие как Spatial Canvas, Pose Canvas и Box Canvas) в рамках единой парадигмы обучения. Важно отметить, что совместное обучение позволяет модели эффективно обобщать данные, что позволяет ей успешно выполнять сложные сценарии с несколькими элементами управления в процессе вывода, даже если в ходе обучения не встречались специфические комбинации элементов управления. Многочисленные эксперименты показывают, что Canvas-to-Image значительно превосходит современные методы, достигая превосходной точности сохранения идентичности и соблюдения композиционных ограничений в сложных бенчмарках.
https://arxiv.org/pdf/2511.21691
https://snap-research.github.io/canva...
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: