Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Создавайте комплексные мультимодальные ИИ-агенты для анализа документов и видео с помощью NVIDIA ...

Автор: NVIDIA Developer

Загружено: 2025-10-28

Просмотров: 1355

Описание:

В этом видео представлен унифицированный подход к мультимодальной и документной аналитике с использованием моделей NVIDIA Nemotron.

Реализуйте рабочие процессы, готовые к использованию агентами, объединив две специализированные модели Nemotron:

1️⃣ Nemotron Nano 2 VL для рассуждений: эта 12-байтовая модель предоставляет агентам мультимодальной аналитики необходимые для выполнения сложных межстраничных рассуждений на диаграммах и таблицах, обосновывая ответы непосредственно на данных. Она также использует новую функцию эффективной выборки видео (EVS), которая генерирует в 4 раза меньше токенов, сохраняя точность и позволяя обрабатывать более длинные/большие видео.

2️⃣ Nemotron Parse 1.1 для структурирования данных: эта VLM эффективно обрабатывает неструктурированный контент, преобразуя сложные PDF-файлы и отчеты в понятный, машиночитаемый вывод (JSON, Markdown). Она точно обрабатывает сложные таблицы и сохраняет порядок чтения документов, обеспечивая точные ограничивающие рамки для каждого элемента.

Используйте структурную точность Nemotron Parse и аналитические возможности Nemotron Nano 2 VL для создания надежных, готовых к развертыванию ИИ-агентов.

📝 Технический блог: https://nvda.ws/3L4SunT
🤗 Модель: https://nvda.ws/3L8uWyw

Получите доступ к дополнительным ресурсам для разработчиков NVIDIA Nemotron и присоединяйтесь к нашему сообществу:

⬇️ Ресурсы для разработчиков → https://nvda.ws/425fFUJ
📚 Изучите модели и наборы данных → https://nvda.ws/4n9Ad6N
👥 Присоединяйтесь к сообществу → https://nvda.ws/46Rxucr
💻 Посетите канал Nemotron в Discord → https://nvda.ws/421EzEC
▶️ Смотрите обучающие материалы и трансляции → https://nvda.ws/4n5WrXo
🗳️ Делитесь своими идеями и голосуйте Возможности Nemotron → https://nvda.ws/4qbxX0L

0:00 | Введение в ИИ-агенты нового поколения
0:15 | Знакомство с NVIDIA Nemotron Nano 2 VL (модель 12B)
0:45 | Основные характеристики архитектуры и производительности (Hybrid Transformer Mamba)
0:54 | Настройка API-клиента Nemotron Nano 2 VL
1:17 | Управление многомодальным вводом и рассуждениями (/think)
2:23 | Демонстрация: Рассуждения по нескольким изображениям в документе (квартальный отчет о доходах в формате PDF)
2:46 | Результат: Рассуждения по нескольким страницам для роста бизнеса
3:00 | Nemotron Nano 2 VL: Понимание видео и субтитры
3:20 | Демонстрация: Описание видеосцены Omniverse
3:41 | Эффективная выборка видео (EVS) для длинного контекста
4:18 | Проблема разбора неструктурированных документов
4:41 | Знакомство с NVIDIA Nemotron Parse V1.1 для анализа документов
5:10 | Nemotron Parse V1.1: Специализированные функции VLM для документов (контекст 9K)
5:30 | Вспомогательные функции для анализа PDF
6:27 | Демонстрация: Извлечение структурированных данных из NVIDIA PDF
6:47 | Вывод: JSONL-блоки с ограничивающими рамками
7:05 | Перестройка страниц для чистой Markdown/HTML
7:39 | Nemotron Parse против Nano 2 VL: ключевые отличия и синергия
7:54 | Заключение и призыв к действию

#AIagents #MultimodalAI #VLM #Nemotron

Создавайте комплексные мультимодальные ИИ-агенты для анализа документов и видео с помощью NVIDIA ...

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

array(0) { }

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]