Монте-Карло и внеполитические методы | Обучение с подкреплением, часть 3
Автор: Mutual Information
Загружено: 2022-10-26
Просмотров: 87380
Консалтинговая компания по машинному обучению: https://truetheta.io
Подпишитесь на мою рассылку, чтобы получать образовательные и полезные статьи (и ничего больше!): https://mailchi.mp/truetheta/true-the...
Хотите поработать вместе? Смотрите здесь: https://truetheta.io/about/#want-to-w...
Третья часть из шести статей по обучению с подкреплением. В ней рассматривается метод Монте-Карло, марковский процесс принятия решений, с использованием простых выборок. В конце мы рассмотрим методы, не связанные с политикой, которые позволяют проводить обучение с подкреплением, когда данные были получены другим агентом.
СОЦИАЛЬНЫЕ СЕТИ
LinkedIn: / dj-rich-90b91753
Twitter: / duanejrich
Github: https://github.com/Duane321
Нравится учиться таким образом? Хотите, чтобы я снимал больше видео? Поддержите меня на Patreon: / mutualinformation
ИСТОЧНИКИ
[1] Р. Саттон и А. Барто. Обучение с подкреплением: Введение (2-е изд.). MIT Press, 2018.
[2] Х. Хасселт и др. Цикл лекций RL, Deepmind и UCL, 2021, • DeepMind x UCL | Deep Learning Lecture Ser...
ЗАМЕТКИ ОБ ИСТОЧНИКАХ
Видео охватывает темы из глав 5 и 7 книги [1]. Вся серия основана на [1]. [2] стал полезным дополнительным источником информации.
TIMESTAMP
0:00 Что мы изучим
0:33 Обзор предыдущих тем
2:50 Методы Монте-Карло
3:35 Методы без моделей и на основе моделей
4:59 Оценка Монте-Карло
9:30 Пример оценки MC
11:48 Управление MC
13:01 Компромисс между разведкой и эксплуатацией
15:01 Правила блэкджека и его MDP
16:55 Применение MC с постоянной альфой к блэкджеку
21:55 Методы вне политики
24:32 Блэкджек вне политики
26:43 Смотрите следующее видео!
ЗАМЕЧАНИЯ
Ссылка на метод MC с константой-альфа, применяемый к блэкджеку: https://github.com/Duane321/mutual_in...
Метод Off-Policy, который вы видите в 25:00, отличается от правила, которое вы увидите в учебнике в уравнении 7.9 (где будет MC, если n стремится к inf). Это связано с тем, что они показывают перевзвешенные IS, а я показываю простые IS (с высокой дисперсией).
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: