Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Уравнения Беллмана, динамическое программирование, итерация обобщённой политики | Обучение с подк...

Автор: Mutual Information

Загружено: 2022-10-25

Просмотров: 127387

Описание:

Консалтинговая компания по машинному обучению: https://truetheta.io
Подпишитесь на мою рассылку, чтобы получать обучающие и полезные статьи (и ничего больше!): https://mailchi.mp/truetheta/true-the...
Хотите поработать вместе? Смотрите здесь: https://truetheta.io/about/#want-to-w...

Вторая часть из шести статей по обучению с подкреплением. Мы обсуждаем уравнения Беллмана, динамическое программирование и обобщенную итерацию политики.

СОЦИАЛЬНЫЕ СЕТИ

LinkedIn:   / dj-rich-90b91753  
Twitter:   / duanejrich  
Github: https://github.com/Duane321

Нравится учиться таким образом? Хотите, чтобы я снял больше видео? Поддержите меня на Patreon:   / mutualinformation  

ИСТОЧНИКИ

[1] Р. Саттон и А. Барто. Обучение с подкреплением: Введение (2-е изд.). MIT Press, 2018.

[2] Х. Хасселт и др. Цикл лекций RL, Deepmind и UCL, 2021,    • DeepMind x UCL | Deep Learning Lecture Ser...  

ЗАМЕТКИ ОБ ИСТОЧНИКАХ

Видео охватывает темы глав 3 и 4 из [1]. Вся серия основана на [1]. [2] был полезным дополнительным источником информации.

TIMESTAMP
0:00 Что мы изучим
1:09 Обзор предыдущих тем
2:46 Определение динамического программирования
3:05 Открытие уравнения Беллмана
7:13 Оптимальность по Беллману
8:41 Сетчатое представление уравнений Беллмана
11:24 Оценка политики
13:58 Улучшение политики
15:55 Обобщённая итерация политики
17:55 Прекрасный вид GPI
18:14 Задача игрока
20:42 Смотрите следующее видео!

Уравнения Беллмана, динамическое программирование, итерация обобщённой политики | Обучение с подк...

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Монте-Карло и внеполитические методы | Обучение с подкреплением, часть 3

Монте-Карло и внеполитические методы | Обучение с подкреплением, часть 3

Обучение на основе временных различий (включая Q-обучение) | Обучение с подкреплением, часть 4

Обучение на основе временных различий (включая Q-обучение) | Обучение с подкреплением, часть 4

Обучение с подкреплением, по книге

Обучение с подкреплением, по книге

Reinforcement Learning By the Book

Reinforcement Learning By the Book

Reinforcement Learning:  Bellman Optimality Equation and the Q-function

Reinforcement Learning: Bellman Optimality Equation and the Q-function

Reinforcement Learning 101

Reinforcement Learning 101

Новый скандал в оппозиции: всё сложнее, чем кажется. Разбираемся в причинах конфликта

Новый скандал в оппозиции: всё сложнее, чем кажется. Разбираемся в причинах конфликта

Lecture 20: Dynamic Programming II: Text Justification, Blackjack

Lecture 20: Dynamic Programming II: Text Justification, Blackjack

Policy and Value Iteration

Policy and Value Iteration

Function Approximation | Reinforcement Learning Part 5

Function Approximation | Reinforcement Learning Part 5

Model Based Reinforcement Learning: Policy Iteration, Value Iteration, and Dynamic Programming

Model Based Reinforcement Learning: Policy Iteration, Value Iteration, and Dynamic Programming

Цепи Маркова — математика предсказаний [Veritasium]

Цепи Маркова — математика предсказаний [Veritasium]

Transforming an infinite horizon problem into a Dynamic Programming one

Transforming an infinite horizon problem into a Dynamic Programming one

The Key Equation Behind Probability

The Key Equation Behind Probability

Почему прикладное обучение с подкреплением является сложным?

Почему прикладное обучение с подкреплением является сложным?

Nonlinear Control: Hamilton Jacobi Bellman (HJB) and Dynamic Programming

Nonlinear Control: Hamilton Jacobi Bellman (HJB) and Dynamic Programming

Принц Персии: разбираем код гениальной игры, вытирая слезы счастья

Принц Персии: разбираем код гениальной игры, вытирая слезы счастья

Уравнение Беллмана — объяснение!

Уравнение Беллмана — объяснение!

За Сколько Путин купил Трампа? Расследование WSJ | Быть Или

За Сколько Путин купил Трампа? Расследование WSJ | Быть Или

Lecture 17 - MDPs & Value/Policy Iteration | Stanford CS229: Machine Learning Andrew Ng (Autumn2018)

Lecture 17 - MDPs & Value/Policy Iteration | Stanford CS229: Machine Learning Andrew Ng (Autumn2018)

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]