Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Compositional Visual-Linguistic Models Via Visual Markers and Counterfactual Examples

Автор: UWMadison MLOPT Idea Seminar

Загружено: 2024-03-15

Просмотров: 457

Описание:

Speaker: Mu Cai (UW-Madison)
Time: May 15, 2024, 12:30 PM – 1:30 PM CT
Title: Compositional Visual-Linguistic Models Via Visual Markers and Counterfactual Examples
Abstract: Vision-Language models like CLIP, GPT-4, and LLaVA have made significant advancements in visual recognition and reasoning, yet they still struggle with understanding region-level visual information and complex linguistic concepts such as distinguishing between “black shirt and blue pants” and “blue shirts and black pants”. Our research indicates that compositionality can enhance these models’ capabilities. By using visually marked, overlaid images, our refined method can reach state-of-the-art performance levels in region-level understanding. Moreover, we found that using counterfactual reasoning to curate compositional images and captions can enhance the model’s understanding of complex object relationships. We also demonstrate that visual markers can be represented as Scalable Vector Graphics (SVG), allowing visual information to be textually represented, thereby eliminating the need for a visual encoder when building Vision-Language models.
Bio: Mu Cai is a fourth-year Ph.D. student in the Computer Sciences Department at the University of Wisconsin-Madison, advised by Prof. Yong Jae Lee. His research interest lies in the intersection of deep learning and computer vision. He is especially interested in multimodal generative models, video and 3D understanding.
Location: Engineering Research Building (1500 Engineering Drive) Room 106

Compositional Visual-Linguistic Models Via Visual Markers and Counterfactual Examples

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Looped Transformers are Better at Learning Learning Algorithms

Looped Transformers are Better at Learning Learning Algorithms

Matryoshka Representation Learning and Adaptive Semantic Search

Matryoshka Representation Learning and Adaptive Semantic Search

Mechanism of feature learning in neural networks

Mechanism of feature learning in neural networks

Consistent Diffusion Models and Learning from Corrupted Data with Ambient Diffusion

Consistent Diffusion Models and Learning from Corrupted Data with Ambient Diffusion

Что такое генеративный ИИ и как он работает? – Лекции Тьюринга с Миреллой Лапатой

Что такое генеративный ИИ и как он работает? – Лекции Тьюринга с Миреллой Лапатой

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Fred Foster - CEO & co-founder of Electronic Theater Controls

Fred Foster - CEO & co-founder of Electronic Theater Controls

The Man Behind Google's AI Machine | Demis Hassabis Interview

The Man Behind Google's AI Machine | Demis Hassabis Interview

Преломление и «замедление» света | По мотивам лекции Ричарда Фейнмана

Преломление и «замедление» света | По мотивам лекции Ричарда Фейнмана

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

Evolution of the Chicken | University Place

Evolution of the Chicken | University Place

Понимание GD&T

Понимание GD&T

Самый удивительный врач-невролог, которого вы когда либо видели - Антон Епифанов

Самый удивительный врач-невролог, которого вы когда либо видели - Антон Епифанов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Can MLLMs Perform Text-to-Image In-Context Learning? (Re-recorded version)

Can MLLMs Perform Text-to-Image In-Context Learning? (Re-recorded version)

Finding Ancient Minds in the Human Evolutionary Tree | University Place

Finding Ancient Minds in the Human Evolutionary Tree | University Place

Hardware-Aware Efficient Primitives for Machine Learning

Hardware-Aware Efficient Primitives for Machine Learning

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

The Wonders of Physics #29

The Wonders of Physics #29

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: infodtube@gmail.com