Computer Vision Study Group Session on BLIP-2

Автор: HuggingFace

Загружено: 2023-05-19

Просмотров: 15971

Описание:

In this session of Computer Vision Study Group, Johannes walks us through the paper BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models.

Computer Vision Study Group Session on BLIP-2

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Computer Vision Study Group Session on SAM

Computer Vision Study Group Session on SAM

[EEML'24] Jovana Mitrović - Vision Language Models

[EEML'24] Jovana Mitrović - Vision Language Models

Zed Inferred: Diffusion Language Models

Zed Inferred: Diffusion Language Models

CV Study Group: Masked Autoencoders Paper Walkthrough

CV Study Group: Masked Autoencoders Paper Walkthrough

BLIP: Начальная загрузка предварительной подготовки языка и изображения для унифицированного пони...

BLIP: Начальная загрузка предварительной подготовки языка и изображения для унифицированного пони...

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

BLIP2: BLIP с кодировщиками замороженных изображений и LLM

BLIP2: BLIP с кодировщиками замороженных изображений и LLM

Кто пишет код лучше всех? Сравнил GPT‑5.2, Opus 4.5, Sonnet 4.5, Gemini 3, Qwen 3 Max, Kimi, GLM

Кто пишет код лучше всех? Сравнил GPT‑5.2, Opus 4.5, Sonnet 4.5, Gemini 3, Qwen 3 Max, Kimi, GLM

Build a Small Language Model (SLM) From Scratch

Build a Small Language Model (SLM) From Scratch

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Fine-tuning Multimodal Embeddings on Custom Text-Image Pairs

Fine-tuning Multimodal Embeddings on Custom Text-Image Pairs

ML4Audio- Data2vec paper discussion

ML4Audio- Data2vec paper discussion

Fine-tune Multi-modal LLaVA Vision and Language Models

Fine-tune Multi-modal LLaVA Vision and Language Models

Beyond CLIP: BLIP, BLIP-2 and CoCA

Beyond CLIP: BLIP, BLIP-2 and CoCA

NotebookLM: большой разбор инструмента (12 сценариев применения)

NotebookLM: большой разбор инструмента (12 сценариев применения)

Beyond Text - Giving Stable Diffusion New Abilities

Beyond Text - Giving Stable Diffusion New Abilities

Низкоранговая адаптация больших языковых моделей: объяснение ключевых концепций LoRA

Низкоранговая адаптация больших языковых моделей: объяснение ключевых концепций LoRA

Walkthrough on Computer Vision Ecosystem in Hugging Face - CV Study Group

Walkthrough on Computer Vision Ecosystem in Hugging Face - CV Study Group

Chat with your Image! BLIP-2 connects Q-Former w/ VISION-LANGUAGE models (ViT & T5 LLM)

Chat with your Image! BLIP-2 connects Q-Former w/ VISION-LANGUAGE models (ViT & T5 LLM)

Что такое обнимание лица и как его использовать

Что такое обнимание лица и как его использовать