DRL Course | Introduction to Reinforcement Learning. Cross-Entropy Method

Автор: ODS AI Ru

Загружено: 2022-11-01

Просмотров: 3502

Описание:

Курс Deep Reinforcement Learning: https://ods.ai/tracks/drlcourse22
Сезон курсов: https://ods.ai/events/course_season_a...

В первой лекции:

Раскрывается содержательная идея принципа обучения с подкреплением.
Описывается математически строгая постановка задачи обучения с подкреплением в терминах марковских процессов принятия решений.
Рассматриваются примеры задач, которые могут быть формализованы в рамках этой постановки.
Обсуждается понятие политики агента.
При дополнительных ограничениях, исследуется взгляд на задачу обучения с подкреплением как на задачу конечномерно математической оптимизации. Опираясь на это, приводится эволюционный алгоритм Кросс-энтропии, должным образом модифицированный в соответствии с особенностями задачи обучения с подкреплением.
Обсуждаются недостатки этого алгоритма и способы их преодоления.

Наши соц.сети:
Telegram: https://t.me/datafest
Вконтакте: https://vk.com/datafest

DRL Course | Introduction to Reinforcement Learning. Cross-Entropy Method

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

DRL Course | Практическое занятие 1. Cross-Entropy Method

DRL Course | Практическое занятие 1. Cross-Entropy Method

Deep Learning на пальцах 13 - Reinforcement Learning

Deep Learning на пальцах 13 - Reinforcement Learning

DRL Course | Model-Free Reinforcement Learning: Monte-Carlo, SARSA, Q-Learning

DRL Course | Model-Free Reinforcement Learning: Monte-Carlo, SARSA, Q-Learning

💥7 МИНУТ НАЗАД! Серия убийств ТОП ГЕНЕРАЛОВ РФ! Спецслужбы БЕССИЛЬНЫ, у Z-ников ИСТЕРИКА - НАКИ

💥7 МИНУТ НАЗАД! Серия убийств ТОП ГЕНЕРАЛОВ РФ! Спецслужбы БЕССИЛЬНЫ, у Z-ников ИСТЕРИКА - НАКИ

Одна вещь, которую делают все долгожители с острым умом

Одна вещь, которую делают все долгожители с острым умом

Капитанский мостик №25: Альтман разочаровался в ИИ | Microsoft доит программистов | Пьяный робот

Капитанский мостик №25: Альтман разочаровался в ИИ | Microsoft доит программистов | Пьяный робот

Как Сделать Настольный ЭЛЕКТРОЭРОЗИОННЫЙ Станок?

Как Сделать Настольный ЭЛЕКТРОЭРОЗИОННЫЙ Станок?

Музыка лечит сердце и сосуды🌸 Успокаивающая музыка восстанавливает нервную систему,расслабляющая

Музыка лечит сердце и сосуды🌸 Успокаивающая музыка восстанавливает нервную систему,расслабляющая

Глубинное обучение 1, лекция 2 – кросс-энтропийная функция потерь, Dropout, Batch Normalization

Глубинное обучение 1, лекция 2 – кросс-энтропийная функция потерь, Dropout, Batch Normalization

Первый контакт УЖЕ произошел, но мы этого НЕ ЗАМЕТИЛИ! | Михаил Никитин, Борис Штерн

Первый контакт УЖЕ произошел, но мы этого НЕ ЗАМЕТИЛИ! | Михаил Никитин, Борис Штерн

DRL Course | Практическое занятие 6. Deep Deterministic Policy Gradient (DDPG)

DRL Course | Практическое занятие 6. Deep Deterministic Policy Gradient (DDPG)

РЫНКУ НЕ ВЫЖИТЬ? Недвижимость в 2026 году

РЫНКУ НЕ ВЫЖИТЬ? Недвижимость в 2026 году

Замуж в 12, рыцари-скуфы и пояса верности. Настоящее Средневековье | ФАЙБ

Замуж в 12, рыцари-скуфы и пояса верности. Настоящее Средневековье | ФАЙБ

Лекция. Reinforcement Learning. DQN.

Лекция. Reinforcement Learning. DQN.

Эпштейн, друзья и дети: кто был связан с монстром? | Трамп, Клинтон, Майкл Джексон, Билл Гейтс

Эпштейн, друзья и дети: кто был связан с монстром? | Трамп, Клинтон, Майкл Джексон, Билл Гейтс

Stanford CS234 Reinforcement Learning I Introduction to Reinforcement Learning I 2024 I Lecture 1

Stanford CS234 Reinforcement Learning I Introduction to Reinforcement Learning I 2024 I Lecture 1

Капитанский мостик №24: Optimus упал | Китайцы захватили NeurIPS | Электромобиль от Яндекса

Капитанский мостик №24: Optimus упал | Китайцы захватили NeurIPS | Электромобиль от Яндекса

ВОССТАНОВЛЕНИЕ НЕРВНОЙ СИСТЕМЫ 🌸 Нежная музыка, успокаивает нервную систему и радует душу

ВОССТАНОВЛЕНИЕ НЕРВНОЙ СИСТЕМЫ 🌸 Нежная музыка, успокаивает нервную систему и радует душу

DRL Course | Разбор домашних заданий 4-6. Подведение итогов курса

DRL Course | Разбор домашних заданий 4-6. Подведение итогов курса

ПОЧЕМУ ВАС НЕ ДОЛЖНО СУЩЕСТВОВАТЬ

ПОЧЕМУ ВАС НЕ ДОЛЖНО СУЩЕСТВОВАТЬ