Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Steerable Visual Intelligence

Автор: UWMadison MLOPT Idea Seminar

Загружено: 2024-03-10

Просмотров: 102

Описание:

Speaker: Haotian Liu (UW-Madison)
Title: Steerable Visual Intelligence
Time: Mar 8, 2024, 12:30 PM – 1:30 PM CT
Abstract: Understanding and reasoning about the visual world based on human instructions has long been a challenging problem. The previous paradigm, which involved training supervised models on many sub-tasks and unifying them into a large system, was not streamlined and offered limited steerability. In this talk, I will introduce two of my recent works, REACT and the LLaVA-series, that approach this problem by enhancing customizability using retrieval, and bringing improved steerability with natural language instructions. We demonstrate that REACT and the LLaVA-series offer a promising path for building customizable, large multimodal models that follow human intent at an affordable cost. Finally, I will present several future directions I am eager to explore in building next-generation steerable visual intelligence systems.
Bio: Haotian Liu is a final-year PhD student at University of Wisconsin-Madison, advised by Prof. Yong Jae Lee. His research primarily focuses on computer vision and vision-language multimodal learning. His recent work has centered on building customizable and steerable large models that follow humans’ intent, including instruction-following multimodal models, controllable image generation, and customizable foundation models. He co-organized the 1st and 2nd Workshop on Computer Vision in the Wild in ECCV 2022 and CVPR 2023.
Location: Engineering Research Building (1500 Engineering Drive) Room 514

Steerable Visual Intelligence

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Consistent Diffusion Models and Learning from Corrupted Data with Ambient Diffusion

Consistent Diffusion Models and Learning from Corrupted Data with Ambient Diffusion

Matryoshka Representation Learning and Adaptive Semantic Search

Matryoshka Representation Learning and Adaptive Semantic Search

System Design Concepts Course and Interview Prep

System Design Concepts Course and Interview Prep

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Почему RAG терпит неудачу — как CLaRa устраняет свой главный недостаток

Почему RAG терпит неудачу — как CLaRa устраняет свой главный недостаток

Может ли у ИИ появиться сознание? — Семихатов, Анохин

Может ли у ИИ появиться сознание? — Семихатов, Анохин

Can MLLMs Perform Text-to-Image In-Context Learning? (Re-recorded version)

Can MLLMs Perform Text-to-Image In-Context Learning? (Re-recorded version)

То, что они только что построили, — нереально

То, что они только что построили, — нереально

Mechanism of feature learning in neural networks

Mechanism of feature learning in neural networks

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Anticipation and the Anticipatory Music Transformer

Anticipation and the Anticipatory Music Transformer

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Разработка с помощью Gemini 3, AI Studio, Antigravity и Nano Banana | Подкаст Agent Factory

Разработка с помощью Gemini 3, AI Studio, Antigravity и Nano Banana | Подкаст Agent Factory

In-context Language Learning and N-gram Heads

In-context Language Learning and N-gram Heads

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: infodtube@gmail.com