Агенты ИИ, работающие в команде, учатся преодолевать препятствия! (Multi Agent RL)

Автор: Neural Breakdown with AVB

Загружено: 2025-12-04

Просмотров: 1087

Описание:

В этом видео мы обучаем агентов многоагентного навигационного ИИ совместному прохождению сложных полос препятствий. Мы изучили основы создания настраиваемых сред обучения с подкреплением, как проектировать пространства наблюдения, пространства действий и пространства вознаграждения, а также основы локальных систем координат (LCS) в агентных системах. Затем мы поговорим о методах Actor Critic, таких как A2C и PPO, и о том, как обучать агентов с их помощью.

Мы обсудим два алгоритма многоагентного обучения с подкреплением: независимый PPO (I-PPO) и более продвинутый многоагентный PPO (MA-PPO). MA-PPO основан на MA-DDPG, методе обучения с централизованным обучением и децентрализованным выполнением (CTDE). Мы узнаем, почему методы CTDE эффективны при обучении многоагентных сред обучения с подкреплением и почему они могут способствовать развитию кооперативного и эмерджентного поведения у агентов с подкреплением.

Репозиторий GitHub: https://github.com/avbiswas/navigatio...
Более подробное видео с объяснением кода доступно для подписчиков Patreon:
  / multi-agent-rl-145270524

Подпишитесь на меня в Twitter: https://x.com/neural_avb
Чтобы присоединиться к нам на Patreon, посетите:   / neuralbreakdownwithavb

Подписчики получают доступ ко всему, что происходит за кулисами создания моих видео, включая код. Кроме того, это существенно поддерживает канал и помогает оплачивать мои счета.

#машинноеобучение #обучениесподкреплением #программирование #devlog

Соответствующие видео:
Введение в обучение с подкреплением -    • A crash course on Reinforcement Learning T...
GRPO и рассуждения LLM -    • How I finetuned a Small LM to THINK and so...
Плейлист RL -    • Reinforcement Learning

Полезные статьи:
Введение в централизованное обучение для децентрализованного выполнения в кооперативном многоагентном обучении с подкреплением (https://arxiv.org/abs/2409.03052)
Статья PPO (https://arxiv.org/pdf/1707.06347)
MARL в Pytorch (https://docs.pytorch.org/rl/main/tuto...)
MA-DDPG (https://arxiv.org/abs/1706.02275)

Временные метки:
0:00 - Введение
2:17 - Создание сред обучения с подкреплением
6:23 - Локальные системы координат
8:30 - Награды
10:24 - Методы критики акторов
12:36 - Обучение одноагентного обучения с подкреплением
13:38 - Независимый PPO
15:40 - Нестационарные среды
16:40 - Централизованное обучение с децентрализованным выполнением (CTDE)
17:36 - Многоагентный PPO (MA-PPO)
19:25 - Результаты!

Агенты ИИ, работающие в команде, учатся преодолевать препятствия! (Multi Agent RL)

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

A crash course on Reinforcement Learning Theory - How to

A crash course on Reinforcement Learning Theory - How to "crack" it.

OpenAI упростил создание агентов RAG в n8n в 10 раз

OpenAI упростил создание агентов RAG в n8n в 10 раз

Я СОФА | Музыка со вкусом.1968 (live In Resonant Arts) ПРЕМЬЕРА

Я СОФА | Музыка со вкусом.1968 (live In Resonant Arts) ПРЕМЬЕРА

Руководство по созданию конвейеров дополненной генерации данных (RAG), которые действительно рабо...

Руководство по созданию конвейеров дополненной генерации данных (RAG), которые действительно рабо...

Visually explaining Byte Latent Transformers - LLMs just got a massive breakthrough!

Visually explaining Byte Latent Transformers - LLMs just got a massive breakthrough!

12 ИИ-приёмов, которые превращают Cursor в суперсилу

12 ИИ-приёмов, которые превращают Cursor в суперсилу

Программируем с Google Antigravity + Gemini 3 Pro. СМОЖЕТ КАЖДЫЙ!

Программируем с Google Antigravity + Gemini 3 Pro. СМОЖЕТ КАЖДЫЙ!

10 libraries for developing any AI app in Python (with code examples!)

10 libraries for developing any AI app in Python (with code examples!)

Илья Суцкевер: Мы переходим от эпохи масштабирования к эпохе исследований

Илья Суцкевер: Мы переходим от эпохи масштабирования к эпохе исследований

Предел развития НЕЙРОСЕТЕЙ

Предел развития НЕЙРОСЕТЕЙ

Let me explain PyTorch in 7 Concepts

Let me explain PyTorch in 7 Concepts

Домашние Роботы и ИИ-помощники

Домашние Роботы и ИИ-помощники

I Attempted The Impossible Hill Climb

I Attempted The Impossible Hill Climb

Цепи Маркова — математика предсказаний [Veritasium]

Цепи Маркова — математика предсказаний [Veritasium]

От внимания к генеративным языковым моделям — по одной строке кода за раз!

От внимания к генеративным языковым моделям — по одной строке кода за раз!

Новости мира Python за ноябрь 2025

Новости мира Python за ноябрь 2025

How I finetuned a Small LM to THINK and solve puzzles on its own (GRPO & RL!)

How I finetuned a Small LM to THINK and solve puzzles on its own (GRPO & RL!)

Как создать игру с нуля | Все подробности для начинающих

Как создать игру с нуля | Все подробности для начинающих

ChatGPT - не личность, робот и его 6 рук, новая угроза для ИИ

ChatGPT - не личность, робот и его 6 рук, новая угроза для ИИ

Перестаньте изучать n8n в 2025 году... Лучше изучите ЭТО

Перестаньте изучать n8n в 2025 году... Лучше изучите ЭТО