Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

[NeurIPS 2025] Visual Diversity and Region-aware Prompt Learning for Zero-shot HOI Detection

Автор: MLV TV

Загружено: 2025-11-10

Просмотров: 126

Описание:

Visual Diversity and Region-aware Prompt Learning for Zero-shot HOI Detection
Chanhyeong Yang, Taehoon Song, Jihwan Park, Hyunwoo J. Kim

Paper:
https://arxiv.org/abs/2510.25094

Github:
https://github.com/mlvlab/VDRP

(Abstract)
Zero-shot Human-Object Interaction detection aims to localize humans and objects in an image and recognize their interaction, even when specific verb-object pairs are unseen during training. Recent works have shown promising results using prompt learning with pretrained vision-language models such as CLIP, which align natural language prompts with visual features in a shared embedding space. However, existing approaches still fail to handle the visual complexity of interaction—including (1) intra-class visual diversity, where instances of the same verb appear in diverse poses and contexts, and (2) inter-class visual entanglement, where distinct verbs yield visually similar patterns. To address these challenges, we propose VDRP, a framework for Visual Diversity and Region-aware Prompt learning. First, we introduce a visual diversity-aware prompt learning strategy that injects group-wise visual variance into the context embedding. We further apply Gaussian perturbation to encourage the prompts to capture diverse visual variations of a verb. Second, we retrieve region-specific concepts from the human, object, and union regions. These are used to augment the diversity-aware prompt embeddings, yielding region-aware prompts that enhance verb-level discrimination. Experiments on the HICO-DET benchmark demonstrate that our method achieves state-of-the-art performance under four zero-shot evaluation settings, effectively addressing both intra-class diversity and inter-class visual entanglement. Code is available at https://github.com/mlvlab/VDRP.

[NeurIPS 2025] Visual Diversity and Region-aware Prompt Learning for Zero-shot HOI Detection

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Как происходит модернизация остаточных соединений [mHC]

Как происходит модернизация остаточных соединений [mHC]

[CVPR 2025] EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

[CVPR 2025] EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

BeFreed: Best AI Microlearning App for Personalized Learning in 2026

BeFreed: Best AI Microlearning App for Personalized Learning in 2026

[NeurIPS 2025] Blockwise Flow Matching

[NeurIPS 2025] Blockwise Flow Matching

Конференция NeurIPS 2025 в Сан-Диего. Действительно ли модели искусственного интеллекта понимают ...

Конференция NeurIPS 2025 в Сан-Диего. Действительно ли модели искусственного интеллекта понимают ...

[한글설명] Representation Shift (ICCV 2025)

[한글설명] Representation Shift (ICCV 2025)

Доработайте свою степень магистра права за 13 минут. Вот как

Доработайте свою степень магистра права за 13 минут. Вот как

Автоэнкодеры | Глубокое обучение в анимации

Автоэнкодеры | Глубокое обучение в анимации

Как я автоматизировал NotebookLM с помощью Claude Code и Telegram

Как я автоматизировал NotebookLM с помощью Claude Code и Telegram

NeurIPS 2025 в Сан-Диего. Иллюзия рейтинговых таблиц: как манипулируют рейтингами LLM.

NeurIPS 2025 в Сан-Диего. Иллюзия рейтинговых таблиц: как манипулируют рейтингами LLM.

Новый курс обучения DeepSeek LLM - Гиперсоединения с ограничениями многообразия (mHC)

Новый курс обучения DeepSeek LLM - Гиперсоединения с ограничениями многообразия (mHC)

[MLVlog] MLV in NeurIPS 2025

[MLVlog] MLV in NeurIPS 2025

КАК ПРАВИЛЬНО ГЕНЕРИРОВАТЬ ВИДЕО В GROK 4.1 -  гайд, лайфхаки, это видео бомба

КАК ПРАВИЛЬНО ГЕНЕРИРОВАТЬ ВИДЕО В GROK 4.1 - гайд, лайфхаки, это видео бомба

Новые нейросети для офиса: с нуля до ПРО. Прощай MsOffice!

Новые нейросети для офиса: с нуля до ПРО. Прощай MsOffice!

Elon Musk Makes Shocking Future Predictions At The World Economic Forum In Davos

Elon Musk Makes Shocking Future Predictions At The World Economic Forum In Davos

Microsoft Foundry — фабрика приложений и агентов на основе искусственного интеллекта.

Microsoft Foundry — фабрика приложений и агентов на основе искусственного интеллекта.

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Я 1535 дней веду заметки в Obsidian — вот что реально работает!

Я 1535 дней веду заметки в Obsidian — вот что реально работает!

Почему «Трансформеры» заменяют CNN?

Почему «Трансформеры» заменяют CNN?

Тренды в ИИ 2026. К чему готовиться каждому.

Тренды в ИИ 2026. К чему готовиться каждому.

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: infodtube@gmail.com