Shikun Liu | Vision-Language Reasoning with Multi-Modal Experts

Автор: London Machine Learning Meetup

Загружено: 2023-05-05

Просмотров: 418

Описание:

Sponsored by Evolution AI: https://www.evolution.ai
Abstract: Recent vision-language models have shown impressive multi-modal generation capabilities. However, typically they require training huge models on massive datasets. As a more scalable alternative, we introduce Prismer, a data- and parameter-efficient vision-language model that leverages an ensemble of domain experts. Prismer only requires training of a small number of components, with the majority of network weights inherited from readily-available, pre-trained domain experts, and kept frozen during training. By leveraging experts from a wide range of domains, we show that Prismer can efficiently pool this expert knowledge and adapt it to various vision-language reasoning tasks. In our experiments, we show that Prismer achieves fine-tuned and few-shot learning performance which is competitive with current state-of-the-art models, whilst requiring up to two orders of magnitude less training data.
Speaker bio: Shikun Liu is a fourth-year PhD student at Dyson Robotics Lab in Imperial College, co-advised by Prof. Andrew Davison and Prof. Edward Johns. Shikun's main research goal is to develop general-purpose multi-task and multi-modal learning systems. To that end, his work has broadly concerned with the study of multi-task relationships, multi-task and auxiliary learning method design, and self and semi-supervised learning frameworks.

Shikun Liu | Vision-Language Reasoning with Multi-Modal Experts

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Tim Dettmers | QLoRA: Efficient Finetuning of Quantized Large Language Models

Tim Dettmers | QLoRA: Efficient Finetuning of Quantized Large Language Models

Brett Larsen | The Importance of High-Quality Data in Building Your LLMs: Lessons from DBRX

Brett Larsen | The Importance of High-Quality Data in Building Your LLMs: Lessons from DBRX

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

Программируем с ИИ в VS Code - БЕСПЛАТНО! Сможет каждый!

Программируем с ИИ в VS Code - БЕСПЛАТНО! Сможет каждый!

OpenAI тонет. Google рвёт индустрию. ИИ улетает в космос / Итоги ноября в AI

OpenAI тонет. Google рвёт индустрию. ИИ улетает в космос / Итоги ноября в AI

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

MLFlow Tutorial | ML Ops Tutorial

MLFlow Tutorial | ML Ops Tutorial

Запомните! Все болезни из за ЗАСТОЕВ в лимфе! Как разогнать лимфу? 5 убийц вашей лимфы. Е. Козлов

Запомните! Все болезни из за ЗАСТОЕВ в лимфе! Как разогнать лимфу? 5 убийц вашей лимфы. Е. Козлов

Meta AI | Language Models Can Teach Themselves to Use Tools

Meta AI | Language Models Can Teach Themselves to Use Tools

Meta AI | Human-level Play in Diplomacy Through Language Models & Reasoning

Meta AI | Human-level Play in Diplomacy Through Language Models & Reasoning

Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение

Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение

Yuandong Tian | Efficient Inference of LLMs with Long Context Support

Yuandong Tian | Efficient Inference of LLMs with Long Context Support

БЕЛЫЕ СПИСКИ: какой VPN-протокол справится? Сравниваю все

БЕЛЫЕ СПИСКИ: какой VPN-протокол справится? Сравниваю все

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

Предел развития НЕЙРОСЕТЕЙ

Предел развития НЕЙРОСЕТЕЙ

✓ Новая формула площади прямоугольного треугольника | Ботай со мной #159 | Борис Трушин

✓ Новая формула площади прямоугольного треугольника | Ботай со мной #159 | Борис Трушин

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

Meet FLAVA, Hugging Face's Unified Vision and Language Model

Meet FLAVA, Hugging Face's Unified Vision and Language Model

Teaching Large Language Models to Reason with Reinforcement Learning with Alex Havrilla - 680

Teaching Large Language Models to Reason with Reinforcement Learning with Alex Havrilla - 680