Создавайте комплексные мультимодальные ИИ-агенты для анализа документов и видео с помощью NVIDIA ...
Автор: NVIDIA Developer
Загружено: 2025-10-28
Просмотров: 1355
В этом видео представлен унифицированный подход к мультимодальной и документной аналитике с использованием моделей NVIDIA Nemotron.
Реализуйте рабочие процессы, готовые к использованию агентами, объединив две специализированные модели Nemotron:
1️⃣ Nemotron Nano 2 VL для рассуждений: эта 12-байтовая модель предоставляет агентам мультимодальной аналитики необходимые для выполнения сложных межстраничных рассуждений на диаграммах и таблицах, обосновывая ответы непосредственно на данных. Она также использует новую функцию эффективной выборки видео (EVS), которая генерирует в 4 раза меньше токенов, сохраняя точность и позволяя обрабатывать более длинные/большие видео.
2️⃣ Nemotron Parse 1.1 для структурирования данных: эта VLM эффективно обрабатывает неструктурированный контент, преобразуя сложные PDF-файлы и отчеты в понятный, машиночитаемый вывод (JSON, Markdown). Она точно обрабатывает сложные таблицы и сохраняет порядок чтения документов, обеспечивая точные ограничивающие рамки для каждого элемента.
Используйте структурную точность Nemotron Parse и аналитические возможности Nemotron Nano 2 VL для создания надежных, готовых к развертыванию ИИ-агентов.
📝 Технический блог: https://nvda.ws/3L4SunT
🤗 Модель: https://nvda.ws/3L8uWyw
Получите доступ к дополнительным ресурсам для разработчиков NVIDIA Nemotron и присоединяйтесь к нашему сообществу:
⬇️ Ресурсы для разработчиков → https://nvda.ws/425fFUJ
📚 Изучите модели и наборы данных → https://nvda.ws/4n9Ad6N
👥 Присоединяйтесь к сообществу → https://nvda.ws/46Rxucr
💻 Посетите канал Nemotron в Discord → https://nvda.ws/421EzEC
▶️ Смотрите обучающие материалы и трансляции → https://nvda.ws/4n5WrXo
🗳️ Делитесь своими идеями и голосуйте Возможности Nemotron → https://nvda.ws/4qbxX0L
0:00 | Введение в ИИ-агенты нового поколения
0:15 | Знакомство с NVIDIA Nemotron Nano 2 VL (модель 12B)
0:45 | Основные характеристики архитектуры и производительности (Hybrid Transformer Mamba)
0:54 | Настройка API-клиента Nemotron Nano 2 VL
1:17 | Управление многомодальным вводом и рассуждениями (/think)
2:23 | Демонстрация: Рассуждения по нескольким изображениям в документе (квартальный отчет о доходах в формате PDF)
2:46 | Результат: Рассуждения по нескольким страницам для роста бизнеса
3:00 | Nemotron Nano 2 VL: Понимание видео и субтитры
3:20 | Демонстрация: Описание видеосцены Omniverse
3:41 | Эффективная выборка видео (EVS) для длинного контекста
4:18 | Проблема разбора неструктурированных документов
4:41 | Знакомство с NVIDIA Nemotron Parse V1.1 для анализа документов
5:10 | Nemotron Parse V1.1: Специализированные функции VLM для документов (контекст 9K)
5:30 | Вспомогательные функции для анализа PDF
6:27 | Демонстрация: Извлечение структурированных данных из NVIDIA PDF
6:47 | Вывод: JSONL-блоки с ограничивающими рамками
7:05 | Перестройка страниц для чистой Markdown/HTML
7:39 | Nemotron Parse против Nano 2 VL: ключевые отличия и синергия
7:54 | Заключение и призыв к действию
#AIagents #MultimodalAI #VLM #Nemotron
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: