Emergent Tool Use From Multi-Agent Autocurricula | Paper Explained

Автор: Bits Of Deep Learning

Загружено: 2020-09-27

Просмотров: 1779

Описание:

Engineering tasks and environments from which an agent can learn is itself a key problem in the development of intelligent systems.
How can we build a system from which an automatic curriculum emerges?
This video addresses this problem, explaining the paper "Emergent Tool Use From Multi-Agent Autocurricula" from OpenAI.

Paper:
Emergent Tool Use From Multi-Agent Autocurricula, https://arxiv.org/pdf/1909.07528.pdf

Abstract:
Through multi-agent competition, the simple objective of hide-and-seek, and standard reinforcement learning algorithms at scale, we find that agents create a selfsupervised autocurriculum inducing multiple distinct rounds of emergent strategy, many of which require sophisticated tool use and coordination. We find clear evidence of six emergent phases in agent strategy in our environment, each of which creates a new pressure for the opposing team to adapt; for instance, agents learn to build multi-object shelters using moveable boxes which in turn leads to agents discovering that they can overcome obstacles using ramps. We further provide evidence that multi-agent competition may scale better with increasing environment complexity and leads to behavior that centers around far more human-relevant skills than other self-supervised reinforcement learning methods such as intrinsic motivation. Finally, we propose transfer and fine-tuning as a way to quantitatively evaluate targeted capabilities, and we compare hide-and-seek agents to both intrinsic motivation and random initialization baselines in a suite of domain-specific intelligence tests.

#reinforcementlearning #multi-agent #autocurricula #openai

Emergent Tool Use From Multi-Agent Autocurricula | Paper Explained

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Decoupling Representation Learning From Reinforcement Learning | Paper Explained

Decoupling Representation Learning From Reinforcement Learning | Paper Explained

Multi-Agent Hide and Seek

Multi-Agent Hide and Seek

OpenAI Plays Hide and Seek…and Breaks The Game! 🤖

OpenAI Plays Hide and Seek…and Breaks The Game! 🤖

ХИТЫ 2026🔝Лучшая Музыка 2026 🌊 Зарубежные песни Хиты 🌊 Популярные Песни Слушать Бесплатно 2026 #100

ХИТЫ 2026🔝Лучшая Музыка 2026 🌊 Зарубежные песни Хиты 🌊 Популярные Песни Слушать Бесплатно 2026 #100

Отказ от территорий? / Войска оставили позиции

Отказ от территорий? / Войска оставили позиции

4 Hours Chopin for Studying, Concentration & Relaxation

4 Hours Chopin for Studying, Concentration & Relaxation

System Design Concepts Course and Interview Prep

System Design Concepts Course and Interview Prep

Все, что вам нужно знать о теории управления

Все, что вам нужно знать о теории управления

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

Квантовая механика: мир, который ты никогда не поймешь | Level One

Квантовая механика: мир, который ты никогда не поймешь | Level One

Визуализация скрытого пространства: PCA, t-SNE, UMAP | Глубокое обучение с анимацией

Визуализация скрытого пространства: PCA, t-SNE, UMAP | Глубокое обучение с анимацией

Вы (пока) не отстаёте: как освоить ИИ за 17 минут

Вы (пока) не отстаёте: как освоить ИИ за 17 минут

Моделирование Монте-Карло

Моделирование Монте-Карло

Is your model robust? | Deep Learning

Is your model robust? | Deep Learning

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

Объяснение ИИ-агентов: подробное руководство для начинающих

Объяснение ИИ-агентов: подробное руководство для начинающих

Написал нейросети для рисования | Как работает DeepDream?

Написал нейросети для рисования | Как работает DeepDream?

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Объяснение сверточных нейронных сетей (визуализация CNN)

Объяснение сверточных нейронных сетей (визуализация CNN)