LLM | Мультимодальные модели-I | Lec17.1
Автор: LCS2
Загружено: 2024-10-26
Просмотров: 2189
Вкратце: Эта лекция посвящена моделям языка визуального восприятия (Vision Language Models) с акцентом на интеграцию обработки изображений и текста в рамках единой платформы. Мы рассмотрим, как эти многомодальные модели предварительно обучаются и структурируются для повышения их способности понимать и интерпретировать сложное взаимодействие визуальных и текстовых данных.
🎓 Лектор: Маниш Гупта [https://www.microsoft.com/en-us/resea...]
🔗 Скачать слайды здесь: http://lcs2.in/llm2401
📚 Рекомендуемая литература: будет объявлено позже
Исследуйте динамичный мир моделей языка визуального восприятия (Vision Language Models) в этой комплексной лекции, где мы подробно рассмотрим архитектуру и стратегии предварительной подготовки многомодальных моделей, интегрирующих две ключевые модальности: изображения и текст. В ходе сессии будут рассмотрены основополагающие концепции этих моделей, такие как одновременная обработка и анализ визуальной и текстовой информации для выполнения таких задач, как создание подписей к изображениям, визуальные ответы на вопросы и многое другое. Узнайте, как конвергенция зрительного восприятия и обработки языка способствует развитию искусственного интеллекта, делая системы более интерактивными и восприимчивыми.
#llm #nlp #fullllmcourse #freecourse #ai #generativeai #microsoft
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: