Proximal Policy Optimization Explained

Автор: Edan Meyer

Загружено: 2021-05-20

Просмотров: 75587

Описание:

Every "what is proximal policy optimization?", well this is the video for you. Proximal Policy Optimization (PPO) is a reinforcement learning training method. It falls into the category of policy gradient methods, which is where a predictor is trained on a gradient derived directly from a reward function. PPO is sample efficient and very stable which makes it great from RL control problems like robotics and also many other tasks.

RL theory series: • Reinforcement Learning Made Simple
^ Watch the series above if you were confused

PPO paper: https://arxiv.org/abs/1707.06347
TRPO paper: https://arxiv.org/abs/1502.05477

Proximal Policy Optimization Explained

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Proximal Policy Optimization (PPO) & Group Relative Policy Optimization (GRPO) | Paper Explained

Proximal Policy Optimization (PPO) & Group Relative Policy Optimization (GRPO) | Paper Explained

Policy Gradient Methods | Reinforcement Learning Part 6

Policy Gradient Methods | Reinforcement Learning Part 6

Самый важный алгоритм в машинном обучении

Самый важный алгоритм в машинном обучении

Policy Gradient Theorem Explained - Reinforcement Learning

Policy Gradient Theorem Explained - Reinforcement Learning

Оптимизация проксимальной политики (PPO) — как обучать большие языковые модели

Оптимизация проксимальной политики (PPO) — как обучать большие языковые модели

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

Electrons Don't Actually Orbit Like This

Electrons Don't Actually Orbit Like This

Simply Explaining Proximal Policy Optimization (PPO) | Deep Reinforcement Learning

Simply Explaining Proximal Policy Optimization (PPO) | Deep Reinforcement Learning

Почему «Трансформеры» заменяют CNN?

Почему «Трансформеры» заменяют CNN?

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Let's Code Proximal Policy Optimization

Let's Code Proximal Policy Optimization

Experimenting with Reinforcement Learning with Verifiable Rewards (RLVR)

Experimenting with Reinforcement Learning with Verifiable Rewards (RLVR)

L4 TRPO and PPO (Foundations of Deep RL Series)

L4 TRPO and PPO (Foundations of Deep RL Series)

Визуализация скрытого пространства: PCA, t-SNE, UMAP | Глубокое обучение с анимацией

Визуализация скрытого пространства: PCA, t-SNE, UMAP | Глубокое обучение с анимацией

Проблема масштабирования ИИ

Проблема масштабирования ИИ

Введение в методы градиента политики — глубокое обучение с подкреплением

Введение в методы градиента политики — глубокое обучение с подкреплением

Group Relative Policy Optimization (GRPO) - Formula and Code

Group Relative Policy Optimization (GRPO) - Formula and Code

DeepSeek's GRPO (Group Relative Policy Optimization) | Reinforcement Learning for LLMs

DeepSeek's GRPO (Group Relative Policy Optimization) | Reinforcement Learning for LLMs

Direct Preference Optimization (DPO) - How to fine-tune LLMs directly without reinforcement learning

Direct Preference Optimization (DPO) - How to fine-tune LLMs directly without reinforcement learning