Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Монте-Карло и внеполитические методы | Обучение с подкреплением, часть 3

Автор: Mutual Information

Загружено: 2022-10-26

Просмотров: 87380

Описание:

Консалтинговая компания по машинному обучению: https://truetheta.io
Подпишитесь на мою рассылку, чтобы получать образовательные и полезные статьи (и ничего больше!): https://mailchi.mp/truetheta/true-the...
Хотите поработать вместе? Смотрите здесь: https://truetheta.io/about/#want-to-w...

Третья часть из шести статей по обучению с подкреплением. В ней рассматривается метод Монте-Карло, марковский процесс принятия решений, с использованием простых выборок. В конце мы рассмотрим методы, не связанные с политикой, которые позволяют проводить обучение с подкреплением, когда данные были получены другим агентом.

СОЦИАЛЬНЫЕ СЕТИ

LinkedIn:   / dj-rich-90b91753  
Twitter:   / duanejrich  
Github: https://github.com/Duane321

Нравится учиться таким образом? Хотите, чтобы я снимал больше видео? Поддержите меня на Patreon:   / mutualinformation  

ИСТОЧНИКИ

[1] Р. Саттон и А. Барто. Обучение с подкреплением: Введение (2-е изд.). MIT Press, 2018.

[2] Х. Хасселт и др. Цикл лекций RL, Deepmind и UCL, 2021,    • DeepMind x UCL | Deep Learning Lecture Ser...  

ЗАМЕТКИ ОБ ИСТОЧНИКАХ

Видео охватывает темы из глав 5 и 7 книги [1]. Вся серия основана на [1]. [2] стал полезным дополнительным источником информации.

TIMESTAMP
0:00 Что мы изучим
0:33 Обзор предыдущих тем
2:50 Методы Монте-Карло
3:35 Методы без моделей и на основе моделей
4:59 Оценка Монте-Карло
9:30 Пример оценки MC
11:48 Управление MC
13:01 Компромисс между разведкой и эксплуатацией
15:01 Правила блэкджека и его MDP
16:55 Применение MC с постоянной альфой к блэкджеку
21:55 Методы вне политики
24:32 Блэкджек вне политики
26:43 Смотрите следующее видео!

ЗАМЕЧАНИЯ

Ссылка на метод MC с константой-альфа, применяемый к блэкджеку: https://github.com/Duane321/mutual_in...

Метод Off-Policy, который вы видите в 25:00, отличается от правила, которое вы увидите в учебнике в уравнении 7.9 (где будет MC, если n стремится к inf). Это связано с тем, что они показывают перевзвешенные IS, а я показываю простые IS (с высокой дисперсией).

Монте-Карло и внеполитические методы | Обучение с подкреплением, часть 3

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Обучение на основе временных различий (включая Q-обучение) | Обучение с подкреплением, часть 4

Обучение на основе временных различий (включая Q-обучение) | Обучение с подкреплением, часть 4

Model Based Reinforcement Learning: Policy Iteration, Value Iteration, and Dynamic Programming

Model Based Reinforcement Learning: Policy Iteration, Value Iteration, and Dynamic Programming

Markov Chain Monte Carlo Explained in 10 Minutes

Markov Chain Monte Carlo Explained in 10 Minutes

Цепи Маркова — математика предсказаний [Veritasium]

Цепи Маркова — математика предсказаний [Veritasium]

Function Approximation | Reinforcement Learning Part 5

Function Approximation | Reinforcement Learning Part 5

Уравнения Беллмана, динамическое программирование, итерация обобщённой политики | Обучение с подк...

Уравнения Беллмана, динамическое программирование, итерация обобщённой политики | Обучение с подк...

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

Policy Gradient Theorem Explained - Reinforcement Learning

Policy Gradient Theorem Explained - Reinforcement Learning

Моделирование Монте-Карло

Моделирование Монте-Карло

L1 MDPs, Exact Solution Methods, Max-ent RL (Foundations of Deep RL Series)

L1 MDPs, Exact Solution Methods, Max-ent RL (Foundations of Deep RL Series)

Обучение с подкреплением, по книге

Обучение с подкреплением, по книге

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Importance Sampling

Importance Sampling

Policy Gradient Methods | Reinforcement Learning Part 6

Policy Gradient Methods | Reinforcement Learning Part 6

Обучение с подкреплением с нуля

Обучение с подкреплением с нуля

Оптимизация проксимальной политики (PPO) — как обучать большие языковые модели

Оптимизация проксимальной политики (PPO) — как обучать большие языковые модели

RL Course by David Silver - Lecture 6: Value Function Approximation

RL Course by David Silver - Lecture 6: Value Function Approximation

Что происходит на границе вычислений?

Что происходит на границе вычислений?

The Key Equation Behind Probability

The Key Equation Behind Probability

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: infodtube@gmail.com