Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study (Paper Explained)

Автор: Yannic Kilcher

Загружено: 2020-08-20

Просмотров: 9463

Описание:

#ai #research #machinelearning

Online Reinforcement Learning is a flourishing field with countless methods for practitioners to choose from. However, each of those methods comes with a plethora of hyperparameter choices. This paper builds a unified framework for five continuous control tasks and investigates in a large-scale study the effects of these choices. As a result, they come up with a set of recommendations for future research and applications.

OUTLINE:
0:00 - Intro & Overview
3:55 - Parameterized Agents
7:00 - Unified Online RL and Parameter Choices
14:10 - Policy Loss
16:40 - Network Architecture
20:25 - Initial Policy
24:20 - Normalization & Clipping
26:30 - Advantage Estimation
28:55 - Training Setup
33:05 - Timestep Handling
34:10 - Optimizers
35:05 - Regularization
36:10 - Conclusion & Comments

Paper: https://arxiv.org/abs/2006.05990

Abstract:
In recent years, on-policy reinforcement learning (RL) has been successfully applied to many different continuous control tasks. While RL algorithms are often conceptually simple, their state-of-the-art implementations take numerous low- and high-level design decisions that strongly affect the performance of the resulting agents. Those choices are usually not extensively discussed in the literature, leading to discrepancy between published descriptions of algorithms and their implementations. This makes it hard to attribute progress in RL and slows down overall progress (Engstrom'20). As a step towards filling that gap, we implement over 50 such "choices" in a unified on-policy RL framework, allowing us to investigate their impact in a large-scale empirical study. We train over 250'000 agents in five continuous control environments of different complexity and provide insights and practical recommendations for on-policy training of RL agents.

Authors: Marcin Andrychowicz, Anton Raichuk, Piotr Stańczyk, Manu Orsini, Sertan Girgin, Raphael Marinier, Léonard Hussenot, Matthieu Geist, Olivier Pietquin, Marcin Michalski, Sylvain Gelly, Olivier Bachem


Links:
YouTube:    / yannickilcher  
Twitter:   / ykilcher  
Discord:   / discord  
BitChute: https://www.bitchute.com/channel/yann...
Minds: https://www.minds.com/ykilcher
Parler: https://parler.com/profile/YannicKilcher
LinkedIn:   / yannic-kilcher-488534136  

If you want to support me, the best thing to do is to share out the content :)

If you want to support me financially (completely optional and voluntary, but a lot of people have asked for this):
SubscribeStar: https://www.subscribestar.com/yannick...
Patreon:   / yannickilcher  
Bitcoin (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq
Ethereum (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2
Litecoin (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m
Monero (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n

What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study (Paper Explained)

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Fast reinforcement learning with generalized policy updates (Paper Explained)

Fast reinforcement learning with generalized policy updates (Paper Explained)

Meta-Learning through Hebbian Plasticity in Random Networks (Paper Explained)

Meta-Learning through Hebbian Plasticity in Random Networks (Paper Explained)

[Анализ статьи] О теоретических ограничениях поиска на основе встраивания (Предупреждение: критика)

[Анализ статьи] О теоретических ограничениях поиска на основе встраивания (Предупреждение: критика)

PCGRL: Генерация процедурного контента с помощью обучения с подкреплением (с пояснениями к статье)

PCGRL: Генерация процедурного контента с помощью обучения с подкреплением (с пояснениями к статье)

Хиросима: День, когда упало небо | Многоязычный документальный фильм

Хиросима: День, когда упало небо | Многоязычный документальный фильм

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Как производятся микрочипы? 🖥️🛠️ Этапы производства процессоров

Training more effective learned optimizers, and using them to train themselves (Paper Explained)

Training more effective learned optimizers, and using them to train themselves (Paper Explained)

Математики открывают странную новую бесконечность

Математики открывают странную новую бесконечность

[Классика] Word2Vec: Распределенные представления слов и фраз и их композиционность

[Классика] Word2Vec: Распределенные представления слов и фраз и их композиционность

Основные теоремы в теории игр — Алексей Савватеев на ПостНауке

Основные теоремы в теории игр — Алексей Савватеев на ПостНауке

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Descending through a Crowded Valley -- Benchmarking Deep Learning Optimizers (Paper Explained)

Descending through a Crowded Valley -- Benchmarking Deep Learning Optimizers (Paper Explained)

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

Срочное заявление НАТО / Наступление на Россию началось?

Срочное заявление НАТО / Наступление на Россию началось?

Объяснение «Трансформеров»: открытие, которое навсегда изменило искусственный интеллект

Объяснение «Трансформеров»: открытие, которое навсегда изменило искусственный интеллект

Почему простые числа образуют эти спирали? | Теорема Дирихле и пи-аппроксимации

Почему простые числа образуют эти спирали? | Теорема Дирихле и пи-аппроксимации

Dreamer v2: Mastering Atari with Discrete World Models (Machine Learning Research Paper Explained)

Dreamer v2: Mastering Atari with Discrete World Models (Machine Learning Research Paper Explained)

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

Discovering Symbolic Models from Deep Learning with Inductive Biases (Paper Explained)

Discovering Symbolic Models from Deep Learning with Inductive Biases (Paper Explained)

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]