TD-Lambda: Blending N-Step Return Estimates

Автор: Priyam Mazumdar

Загружено: 2025-09-03

Просмотров: 166

Описание:

Code: https://github.com/priyammaz/PyTorch-...

Today we continue onto TD Lambda, which improves on TD(N). Instead of having a single N-step estimate, why not do a weighted average of all N-Step estimates on your trajectory? Of course, this leads to new issues, because we are back to the same setup as Monte-Carlo, we need the full trajectory. Luckily, there is an Online method that utilized Eligibility Traces to enable computation at every step!

We will first prove the equivalence between standard TD Lambda and Eligibility Traces. You can find the writeup of the proof here: http://incompleteideas.net/book/ebook.... Then we will implement it to see how it all comes together!

I hope you are already comfortable with the following:
Monte Carlo:    • Online Monte Carlo Methods for Model-Free ...
TD Learning:    • Q-Learning: Off-Policy Model-Free Learning
TD-N:    • N-Step TD Learning: Navigating the Bias/Va...

Timestamps:
00:00:00 - Recap MC/TD(0)/TD(N)
00:03:32 - What is TD Lambda?
00:10:54 - Prove Forward/Backward Method Equivalence
00:17:10 - Get Explicit Form for Eligibility Trace
00:23:30 - What do we want to show?
00:26:17 - Expand the Backward Method (w/ Trace)
00:36:01 - Expand the Forward Method (w/o Trace)
00:58:00 - Implement TD Lambda
01:10:40 - Effect of Lambda

Socials!
X   / data_adventurer
Instagram   / nixielights
Linkedin   / priyammaz
Discord   / discord
🚀 Github: https://github.com/priyammaz
🌐 Website: https://www.priyammazumdar.com/

TD-Lambda: Blending N-Step Return Estimates

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Deep Q-Learning (DQN): Who Wants Tables Anyway?

Deep Q-Learning (DQN): Who Wants Tables Anyway?

Gumbel Softmax Quantization: Differentiable Discrete Sampling

Gumbel Softmax Quantization: Differentiable Discrete Sampling

Программирование с использованием математики | Лямбда-исчисление

Программирование с использованием математики | Лямбда-исчисление

Diffusion From Scratch in PyTorch: Unconditional Image Generation

Diffusion From Scratch in PyTorch: Unconditional Image Generation

Моделирование Монте-Карло

Моделирование Монте-Карло

Обучение на основе временных различий (включая Q-обучение) | Обучение с подкреплением, часть 4

Обучение на основе временных различий (включая Q-обучение) | Обучение с подкреплением, часть 4

Вейвлеты: математический микроскоп

Вейвлеты: математический микроскоп

A Quest to Conquer Reinforcement Learning: Introduction

A Quest to Conquer Reinforcement Learning: Introduction

Основные теоремы в теории игр — Алексей Савватеев на ПостНауке

Основные теоремы в теории игр — Алексей Савватеев на ПостНауке

17 Ходов ПЕШКАМИ Подряд!В Психбольнице ему ЗАПРЕТИЛИ Шахматы. Бессмертная Партия Пешек

17 Ходов ПЕШКАМИ Подряд!В Психбольнице ему ЗАПРЕТИЛИ Шахматы. Бессмертная Партия Пешек

Language Diffusion Models From Scratch: Maybe Diffusion is All We Need?

Language Diffusion Models From Scratch: Maybe Diffusion is All We Need?

Андрей Коняев — Бифуркации в быту и в математике

Андрей Коняев — Бифуркации в быту и в математике

✓ Как извлекать корни «в столбик» | Ботай со мной #158 | Борис Трушин

✓ Как извлекать корни «в столбик» | Ботай со мной #158 | Борис Трушин

Все, что вам нужно знать о теории управления

Все, что вам нужно знать о теории управления

Stable Diffusion From Scratch: Perceptual Loss Functions (LPIPS + PatchGAN)

Stable Diffusion From Scratch: Perceptual Loss Functions (LPIPS + PatchGAN)

SARSA: On-Policy Model-Free Learning

SARSA: On-Policy Model-Free Learning

Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности

Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Момент, когда мы перестали понимать ИИ [AlexNet]

Момент, когда мы перестали понимать ИИ [AlexNet]

N-шаговое TD-обучение: поиск компромисса между смещением и дисперсией

N-шаговое TD-обучение: поиск компромисса между смещением и дисперсией