Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Агенты ИИ, работающие в команде, учатся преодолевать препятствия! (Multi Agent RL)

Автор: Neural Breakdown with AVB

Загружено: 2025-12-04

Просмотров: 1087

Описание:

В этом видео мы обучаем агентов многоагентного навигационного ИИ совместному прохождению сложных полос препятствий. Мы изучили основы создания настраиваемых сред обучения с подкреплением, как проектировать пространства наблюдения, пространства действий и пространства вознаграждения, а также основы локальных систем координат (LCS) в агентных системах. Затем мы поговорим о методах Actor Critic, таких как A2C и PPO, и о том, как обучать агентов с их помощью.

Мы обсудим два алгоритма многоагентного обучения с подкреплением: независимый PPO (I-PPO) и более продвинутый многоагентный PPO (MA-PPO). MA-PPO основан на MA-DDPG, методе обучения с централизованным обучением и децентрализованным выполнением (CTDE). Мы узнаем, почему методы CTDE эффективны при обучении многоагентных сред обучения с подкреплением и почему они могут способствовать развитию кооперативного и эмерджентного поведения у агентов с подкреплением.

Репозиторий GitHub: https://github.com/avbiswas/navigatio...
Более подробное видео с объяснением кода доступно для подписчиков Patreon:
  / multi-agent-rl-145270524  

Подпишитесь на меня в Twitter: https://x.com/neural_avb
Чтобы присоединиться к нам на Patreon, посетите:   / neuralbreakdownwithavb  

Подписчики получают доступ ко всему, что происходит за кулисами создания моих видео, включая код. Кроме того, это существенно поддерживает канал и помогает оплачивать мои счета.

#машинноеобучение #обучениесподкреплением #программирование #devlog

Соответствующие видео:
Введение в обучение с подкреплением -    • A crash course on Reinforcement Learning T...  
GRPO и рассуждения LLM -    • How I finetuned a Small LM to THINK and so...  
Плейлист RL -    • Reinforcement Learning  

Полезные статьи:
Введение в централизованное обучение для децентрализованного выполнения в кооперативном многоагентном обучении с подкреплением (https://arxiv.org/abs/2409.03052)
Статья PPO (https://arxiv.org/pdf/1707.06347)
MARL в Pytorch (https://docs.pytorch.org/rl/main/tuto...)
MA-DDPG (https://arxiv.org/abs/1706.02275)

Временные метки:
0:00 - Введение
2:17 - Создание сред обучения с подкреплением
6:23 - Локальные системы координат
8:30 - Награды
10:24 - Методы критики акторов
12:36 - Обучение одноагентного обучения с подкреплением
13:38 - Независимый PPO
15:40 - Нестационарные среды
16:40 - Централизованное обучение с децентрализованным выполнением (CTDE)
17:36 - Многоагентный PPO (MA-PPO)
19:25 - Результаты!

Агенты ИИ, работающие в команде, учатся преодолевать препятствия! (Multi Agent RL)

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

A crash course on Reinforcement Learning Theory - How to

A crash course on Reinforcement Learning Theory - How to "crack" it.

OpenAI упростил создание агентов RAG в n8n в 10 раз

OpenAI упростил создание агентов RAG в n8n в 10 раз

Я СОФА | Музыка со вкусом.1968 (live In Resonant Arts) ПРЕМЬЕРА

Я СОФА | Музыка со вкусом.1968 (live In Resonant Arts) ПРЕМЬЕРА

Руководство по созданию конвейеров дополненной генерации данных (RAG), которые действительно рабо...

Руководство по созданию конвейеров дополненной генерации данных (RAG), которые действительно рабо...

Visually explaining Byte Latent Transformers - LLMs just got a massive breakthrough!

Visually explaining Byte Latent Transformers - LLMs just got a massive breakthrough!

12 ИИ-приёмов, которые превращают Cursor в суперсилу

12 ИИ-приёмов, которые превращают Cursor в суперсилу

Программируем с Google Antigravity + Gemini 3 Pro. СМОЖЕТ КАЖДЫЙ!

Программируем с Google Antigravity + Gemini 3 Pro. СМОЖЕТ КАЖДЫЙ!

10 libraries for developing any AI app in Python (with code examples!)

10 libraries for developing any AI app in Python (with code examples!)

Илья Суцкевер: Мы переходим от эпохи масштабирования к эпохе исследований

Илья Суцкевер: Мы переходим от эпохи масштабирования к эпохе исследований

Предел развития НЕЙРОСЕТЕЙ

Предел развития НЕЙРОСЕТЕЙ

Let me explain PyTorch in 7 Concepts

Let me explain PyTorch in 7 Concepts

Домашние Роботы и ИИ-помощники

Домашние Роботы и ИИ-помощники

I Attempted The Impossible Hill Climb

I Attempted The Impossible Hill Climb

Цепи Маркова — математика предсказаний [Veritasium]

Цепи Маркова — математика предсказаний [Veritasium]

От внимания к генеративным языковым моделям — по одной строке кода за раз!

От внимания к генеративным языковым моделям — по одной строке кода за раз!

Новости мира Python за ноябрь 2025

Новости мира Python за ноябрь 2025

How I finetuned a Small LM to THINK and solve puzzles on its own (GRPO & RL!)

How I finetuned a Small LM to THINK and solve puzzles on its own (GRPO & RL!)

Как создать игру с нуля | Все подробности для начинающих

Как создать игру с нуля | Все подробности для начинающих

ChatGPT - не личность, робот и его 6 рук, новая угроза для ИИ

ChatGPT - не личность, робот и его 6 рук, новая угроза для ИИ

Перестаньте изучать n8n в 2025 году... Лучше изучите ЭТО

Перестаньте изучать n8n в 2025 году... Лучше изучите ЭТО

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]