Агенты ИИ, работающие в команде, учатся преодолевать препятствия! (Multi Agent RL)
Автор: Neural Breakdown with AVB
Загружено: 2025-12-04
Просмотров: 1087
В этом видео мы обучаем агентов многоагентного навигационного ИИ совместному прохождению сложных полос препятствий. Мы изучили основы создания настраиваемых сред обучения с подкреплением, как проектировать пространства наблюдения, пространства действий и пространства вознаграждения, а также основы локальных систем координат (LCS) в агентных системах. Затем мы поговорим о методах Actor Critic, таких как A2C и PPO, и о том, как обучать агентов с их помощью.
Мы обсудим два алгоритма многоагентного обучения с подкреплением: независимый PPO (I-PPO) и более продвинутый многоагентный PPO (MA-PPO). MA-PPO основан на MA-DDPG, методе обучения с централизованным обучением и децентрализованным выполнением (CTDE). Мы узнаем, почему методы CTDE эффективны при обучении многоагентных сред обучения с подкреплением и почему они могут способствовать развитию кооперативного и эмерджентного поведения у агентов с подкреплением.
Репозиторий GitHub: https://github.com/avbiswas/navigatio...
Более подробное видео с объяснением кода доступно для подписчиков Patreon:
/ multi-agent-rl-145270524
Подпишитесь на меня в Twitter: https://x.com/neural_avb
Чтобы присоединиться к нам на Patreon, посетите: / neuralbreakdownwithavb
Подписчики получают доступ ко всему, что происходит за кулисами создания моих видео, включая код. Кроме того, это существенно поддерживает канал и помогает оплачивать мои счета.
#машинноеобучение #обучениесподкреплением #программирование #devlog
Соответствующие видео:
Введение в обучение с подкреплением - • A crash course on Reinforcement Learning T...
GRPO и рассуждения LLM - • How I finetuned a Small LM to THINK and so...
Плейлист RL - • Reinforcement Learning
Полезные статьи:
Введение в централизованное обучение для децентрализованного выполнения в кооперативном многоагентном обучении с подкреплением (https://arxiv.org/abs/2409.03052)
Статья PPO (https://arxiv.org/pdf/1707.06347)
MARL в Pytorch (https://docs.pytorch.org/rl/main/tuto...)
MA-DDPG (https://arxiv.org/abs/1706.02275)
Временные метки:
0:00 - Введение
2:17 - Создание сред обучения с подкреплением
6:23 - Локальные системы координат
8:30 - Награды
10:24 - Методы критики акторов
12:36 - Обучение одноагентного обучения с подкреплением
13:38 - Независимый PPO
15:40 - Нестационарные среды
16:40 - Централизованное обучение с децентрализованным выполнением (CTDE)
17:36 - Многоагентный PPO (MA-PPO)
19:25 - Результаты!
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: