Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Function Approximation | Reinforcement Learning Part 5

Автор: Mutual Information

Загружено: 2023-01-16

Просмотров: 36897

Описание:

The machine learning consultancy: https://truetheta.io
Join my email list to get educational and useful articles (and nothing else!): https://mailchi.mp/truetheta/true-the...
Want to work together? See here: https://truetheta.io/about/#want-to-w...

Here, we learn about Function Approximation. This is a broad class of methods for learning within state spaces that are far too large for our previous methods to work. This is part five of a six part series on Reinforcement Learning.

SOCIAL MEDIA

LinkedIn :   / dj-rich-90b91753  
Twitter :   / duanejrich  
Github: https://github.com/Duane321

Enjoy learning this way? Want me to make more videos? Consider supporting me on Patreon:   / mutualinformation  

SOURCES

[1] R. Sutton and A. Barto. Reinforcement learning: An Introduction (2nd Ed). MIT Press, 2018.

[2] H. Hasselt, et al. RL Lecture Series, Deepmind and UCL, 2021,    • DeepMind x UCL | Deep Learning Lecture Ser...  

SOURCE NOTES

This video covers topics from chapters 9, 10 and 11 from [1], with only a light covering of chapter 11. [2] includes a lecture on Function Approximation, which was a helpful secondary source.

TIMESTAMP
0:00 Intro
0:25 Large State Spaces and Generalization
1:55 On Policy Evaluation
4:31 How do we select w?
6:46 How do we choose our target U?
9:27 A Linear Value Function
10:34 1000-State Random Walk
12:51 On Policy Control with FA
14:26 The Mountain Car Task
19:30 Off-Policy Methods with FA

LINKS
1000-State Random Walk Problem: https://github.com/Duane321/mutual_in...
Mountain Car Task: https://github.com/Duane321/mutual_in...

NOTES

[1] In the Mountain Car Task, I left out a hyperparameter to tune: Lambda. This controls how far away the evenly spaced proto-points are from any given evaluation point. If lambda is very high, the prototypical points are considered very close together, and they won't do a good job discriminating different values over the state space. But if lambda is too low, then the prototypical points won't share any information beyond a tiny region surrounding each point.

Function Approximation | Reinforcement Learning Part 5

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Policy Gradient Methods | Reinforcement Learning Part 6

Policy Gradient Methods | Reinforcement Learning Part 6

Обучение на основе временных различий (включая Q-обучение) | Обучение с подкреплением, часть 4

Обучение на основе временных различий (включая Q-обучение) | Обучение с подкреплением, часть 4

Break Down of

Break Down of "Decomposing and Interpreting Image Representations via Text in ViTs Beyond CLIP"

Обучение с подкреплением, по книге

Обучение с подкреплением, по книге

Reinforcement Learning By the Book

Reinforcement Learning By the Book

Reinforcement Learning:  Bellman Optimality Equation and the Q-function

Reinforcement Learning: Bellman Optimality Equation and the Q-function

The F=ma of Artificial Intelligence [Backpropagation, How Models Learn Part 2]

The F=ma of Artificial Intelligence [Backpropagation, How Models Learn Part 2]

Монте-Карло и внеполитические методы | Обучение с подкреплением, часть 3

Монте-Карло и внеполитические методы | Обучение с подкреплением, часть 3

Что происходит на границе вычислений?

Что происходит на границе вычислений?

Граница вычислений

Граница вычислений

The Kolmogorov-Arnold Theorem

The Kolmogorov-Arnold Theorem

Proximal Policy Optimization Explained

Proximal Policy Optimization Explained

A shallow grip on neural networks (What is the

A shallow grip on neural networks (What is the "universal approximation theorem"?)

Уравнения Беллмана, динамическое программирование, итерация обобщённой политики | Обучение с подк...

Уравнения Беллмана, динамическое программирование, итерация обобщённой политики | Обучение с подк...

Почему прикладное обучение с подкреплением является сложным?

Почему прикладное обучение с подкреплением является сложным?

Гауссовские процессы

Гауссовские процессы

DeepMind x UCL | Introduction to Reinforcement Learning 2015

DeepMind x UCL | Introduction to Reinforcement Learning 2015

Оптимизация проксимальной политики (PPO) — как обучать большие языковые модели

Оптимизация проксимальной политики (PPO) — как обучать большие языковые модели

The Exponential Family (Part 1)

The Exponential Family (Part 1)

Обучение с подкреплением с нуля

Обучение с подкреплением с нуля

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: infodtube@gmail.com