Monte Carlo Methods for Model-Free Learning: Part 1

Автор: Priyam Mazumdar

Загружено: 2025-05-30

Просмотров: 360

Описание:

Code: https://github.com/priyammaz/PyTorch-...

We finally move onto a more practical RL problem: Model-Free Learning! There are a few ways you can solve RL environments without any MDP, but the two main ones are Monte Carlo and TD Learning. Today we explore a simple Monte Carlo implementation!

The idea behind Monte Carlo is very simple. If we don't have an MDP that gives us all the environment information, go ahead and just play the game a ton and then average your returns to estimate the values.

Prereqs are knowing Policy Iteration    • Policy Iteration   and Value Iteration    • Value Iteration  !

Timestamps:
00:00:00 - What is Model-Free Learning?
00:04:06 - What is Monte Carlo?
00:07:09 - Monte-Carlo Policy Evaluation
00:09:35 - Trajectories and Returns
00:17:00 - Sample a Trajectory
00:24:50 - Compute Returns
00:30:32 - Estimate Q-Values
00:37:02 - Update the Policy
00:35:50 - Train and Evaluate Model

Socials!
X   / data_adventurer
Instagram   / nixielights
Linkedin   / priyammaz
Discord   / discord
🚀 Github: https://github.com/priyammaz
🌐 Website: https://www.priyammazumdar.com/

Monte Carlo Methods for Model-Free Learning: Part 1

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Online Monte Carlo Methods for Model-Free Learning: Part 2

Online Monte Carlo Methods for Model-Free Learning: Part 2

A Quest to Conquer Reinforcement Learning: Introduction

A Quest to Conquer Reinforcement Learning: Introduction

Deep Q-Learning (DQN): Who Wants Tables Anyway?

Deep Q-Learning (DQN): Who Wants Tables Anyway?

The Autogradless Transformer: Training a GPT2 Model With Nothing but Numpy!

The Autogradless Transformer: Training a GPT2 Model With Nothing but Numpy!

Rectified Flow From Scratch in PyTorch: Training Loop (Part 1)

Rectified Flow From Scratch in PyTorch: Training Loop (Part 1)

Diffusion From Scratch in PyTorch: Unconditional Image Generation

Diffusion From Scratch in PyTorch: Unconditional Image Generation

«Крупнейшая утечка данных в истории»

«Крупнейшая утечка данных в истории»

Мессенджер Max - это аналог китайского WeChat. Но на самом деле это не так

Мессенджер Max - это аналог китайского WeChat. Но на самом деле это не так

5 способов полностью исчезнуть, не выходя из дома (от бывшего сотрудника ЦРУ)

5 способов полностью исчезнуть, не выходя из дома (от бывшего сотрудника ЦРУ)

Framework + Linux + RISC-V = самый открытый ноутбук из когда-либо существовавших?

Framework + Linux + RISC-V = самый открытый ноутбук из когда-либо существовавших?

TD-Lambda: Blending N-Step Return Estimates

TD-Lambda: Blending N-Step Return Estimates

ChatGPT против Gemini: создайте Geometry Dash с нуля

ChatGPT против Gemini: создайте Geometry Dash с нуля

Fun Problem From Math Competition

Fun Problem From Math Competition

How World Models are Changing the Future of AI Beyond Transformers

How World Models are Changing the Future of AI Beyond Transformers

Lets Build our own PyTorch Part 1: Running GPU Ops in Numpy!

Lets Build our own PyTorch Part 1: Running GPU Ops in Numpy!

ChatGPT против Gemini: создайте Mario Kart с нуля (с Nano Banana Pro)

ChatGPT против Gemini: создайте Mario Kart с нуля (с Nano Banana Pro)

The Hacking Tool Everyone's Talking About (NyanBox)

The Hacking Tool Everyone's Talking About (NyanBox)

N-шаговое TD-обучение: поиск компромисса между смещением и дисперсией

N-шаговое TD-обучение: поиск компромисса между смещением и дисперсией

Language Diffusion Models From Scratch: Maybe Diffusion is All We Need?

Language Diffusion Models From Scratch: Maybe Diffusion is All We Need?

Scammers Are Using Invisible Text Now

Scammers Are Using Invisible Text Now