Лекция 21 — Оптимизация и обучение для управления роботом — Обучение на основе временных различий
Автор: Andrea Del Prete
Загружено: 2025-11-14
Просмотров: 46
В этой лекции мы завершаем обсуждение прогнозирования без использования моделей. Мы рассмотрим, как обучение по временным разностям (ВР) может быть использовано в качестве альтернативы Монте-Карло (МКР) для оценки функции ценности заданной политики. Мы проанализируем преимущества и недостатки ВР по сравнению с ТР, иллюстрируя некоторые из них на примерах.
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: