Lecture 19 - Optimization and Learning for Robot Control - Dynamic Programming and Monte Carlo

Автор: Andrea Del Prete

Загружено: 2025-11-07

Просмотров: 58

Описание:

This lecture starts with a recap on Markov Decision Processes. Then we move on to Dynamic Programming in the infinite horizon setting, discussing Iterative Policy Evaluation, Policy Iteration, Modified Policy Iteration, and finally Value Iteration.

In the last part of the lecture we discuss how Monte Carlo can be used for estimating the Value function of a fixed policy.

Lecture 19 - Optimization and Learning for Robot Control - Dynamic Programming and Monte Carlo

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Lecture 20 - Optimization and Learning for Robot Control - LAB Dynamic Programming

Lecture 20 - Optimization and Learning for Robot Control - LAB Dynamic Programming

OpenAI готовит новую модель «Чеснок»

OpenAI готовит новую модель «Чеснок»

Как выглядит график функции x^a, если a не является целым числом? Необычный взгляд на знакомые фу...

Как выглядит график функции x^a, если a не является целым числом? Необычный взгляд на знакомые фу...

Proximal Policy Optimization & Group Relative Policy Optimization | Paper Explained

Proximal Policy Optimization & Group Relative Policy Optimization | Paper Explained

Лекция 21 — Оптимизация и обучение для управления роботом — Обучение на основе временных различий

Лекция 21 — Оптимизация и обучение для управления роботом — Обучение на основе временных различий

Model Based Reinforcement Learning: Policy Iteration, Value Iteration, and Dynamic Programming

Model Based Reinforcement Learning: Policy Iteration, Value Iteration, and Dynamic Programming

ESP32: распознавание речи нейросетью (TensorFlow Lite)

ESP32: распознавание речи нейросетью (TensorFlow Lite)

Lecture 18 - Optimization and Learning for Robot Control - Markov Decision Processes

Lecture 18 - Optimization and Learning for Robot Control - Markov Decision Processes

Как взломать любое программное обеспечение

Как взломать любое программное обеспечение

Lecture 17 - Optimization and Learning for Robot Control - MPC on real manipulators

Lecture 17 - Optimization and Learning for Robot Control - MPC on real manipulators

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

КАК ХИКАРУ обыграл СИЛЬНЕЙШУЮ ПРОГРАММУ? ЧЕЛОВЕК ПРОТИВ ИИ

КАК ХИКАРУ обыграл СИЛЬНЕЙШУЮ ПРОГРАММУ? ЧЕЛОВЕК ПРОТИВ ИИ

Lecture 19: Dynamic Programming I: Fibonacci, Shortest Paths

Lecture 19: Dynamic Programming I: Fibonacci, Shortest Paths

Монте-Карло и внеполитические методы | Обучение с подкреплением, часть 3

Монте-Карло и внеполитические методы | Обучение с подкреплением, часть 3

НЕВЕРОЯТНАЯ ЗАДАЧКА ОТ СЕРГЕЯ ТРАВКИНА ПРО БЕЛЫЕ И ЧЁРНЫЕ ШАРЫ!!!!! ВЗРЫВ МОЗГА!!!!

НЕВЕРОЯТНАЯ ЗАДАЧКА ОТ СЕРГЕЯ ТРАВКИНА ПРО БЕЛЫЕ И ЧЁРНЫЕ ШАРЫ!!!!! ВЗРЫВ МОЗГА!!!!

Вы думали, что допинг — это плохо? Подождите, пока не услышите об электромагнитных велосипедах.

Вы думали, что допинг — это плохо? Подождите, пока не услышите об электромагнитных велосипедах.

Уравнения Беллмана, динамическое программирование, итерация обобщённой политики | Обучение с подк...

Уравнения Беллмана, динамическое программирование, итерация обобщённой политики | Обучение с подк...

Что такое "Reverse Engineering". Показываю как ломают софт.

Solve Markov Decision Processes with the Value Iteration Algorithm - Computerphile

Solve Markov Decision Processes with the Value Iteration Algorithm - Computerphile

Lecture 1 - Optimization and Learning for Robot Control - Introduction, overview and motivations

Lecture 1 - Optimization and Learning for Robot Control - Introduction, overview and motivations