Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Uri Sherman - Convergence of Policy Mirror Descent Beyond Compatible Function Approximation (Heb)

Автор: HUJI Machine Learning Club

Загружено: 2025-04-08

Просмотров: 103

Описание:

Time and Place
Thursday, April 3rd, 2025, 10:30 AM, room B220

Speaker
Uri Sherman (TAU)

Title
Convergence of Policy Mirror Descent Beyond Compatible Function Approximation

Abstract:
Policy optimization methods are one of the most widely used classes of Reinforcement Learning algorithms. Modern instantiations of policy optimization roughly follow the Policy Mirror Descent (PMD) algorithmic template, for which there are by now numerous theoretical convergence results. However, most of these either target tabular environments, or can be applied effectively only when the class of policies being optimized over satisfies strong closure conditions, which is typically not the case when working with parametric policy classes in large-scale environments.
In this talk, I will present our recent results that establish convergence of PMD (with rates that are independent of the cardinality of the state space) for general policy classes subject to a variational gradient dominance condition that is strictly weaker than the closure conditions studied by prior works. Along the way, I will discuss the key feature of our analysis technique, that casts PMD as a proximal point algorithm operating in non-Euclidean space where the proximal operator adapts to local smoothness of the objective.
Based on joint work with Tomer Koren and Yishay Mansour.

Bio:
Uri is a fifth-year PhD student at Tel-Aviv University, advised by Yishay Mansour and Tomer Koren. Prior to his PhD, Uri spent a few years in various engineering and management positions in the private sector, and before that obtained his B.Sc. from Tel Aviv University and M.Sc. from the Weizmann Institute of Science, where he worked under the supervision of Prof. Uriel Feige. Uri's research interests are in reinforcement learning and optimization.

Uri Sherman - Convergence of Policy Mirror Descent Beyond Compatible Function Approximation (Heb)

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Function Approximation | Reinforcement Learning Part 5

Function Approximation | Reinforcement Learning Part 5

Reinforcement Learning 5: Function Approximation and Deep Reinforcement Learning

Reinforcement Learning 5: Function Approximation and Deep Reinforcement Learning

Оптимизация проксимальной политики (PPO) — как обучать большие языковые модели

Оптимизация проксимальной политики (PPO) — как обучать большие языковые модели

Что происходит в Чечне и что это говорит о будущем России (English subtitles)

Что происходит в Чечне и что это говорит о будущем России (English subtitles)

ЛЕКЦИЯ ПРО НАДЁЖНЫЕ ШИФРЫ НА КОНФЕРЕНЦИИ БАЗОВЫХ ШКОЛ РАН В ТРОИЦКЕ

ЛЕКЦИЯ ПРО НАДЁЖНЫЕ ШИФРЫ НА КОНФЕРЕНЦИИ БАЗОВЫХ ШКОЛ РАН В ТРОИЦКЕ

Тёмная история Samsung: как они создали ИМПЕРИЮ?

Тёмная история Samsung: как они создали ИМПЕРИЮ?

Proximal Policy Optimization Explained

Proximal Policy Optimization Explained

КВН троллит Собянина. Охлобыстин зигует. Цензура у Соловьева. Неудобные вопросы Зарубина

КВН троллит Собянина. Охлобыстин зигует. Цензура у Соловьева. Неудобные вопросы Зарубина

Для Чего РЕАЛЬНО Нужен был ГОРБ Boeing 747?

Для Чего РЕАЛЬНО Нужен был ГОРБ Boeing 747?

ФСБ против Кадыровых. Заблокированы миллионы карт. Авария на ЖД, десятки жертв | Жуковский | ВОЗДУХ

ФСБ против Кадыровых. Заблокированы миллионы карт. Авария на ЖД, десятки жертв | Жуковский | ВОЗДУХ

Gil Einziger - Risk Management in AI models (Heb)

Gil Einziger - Risk Management in AI models (Heb)

RL theory seminar 2024: Uri Sherman (May 14)

RL theory seminar 2024: Uri Sherman (May 14)

Minimax Approximation and the Exchange Algorithm

Minimax Approximation and the Exchange Algorithm

Пантеон: инженерная ошибка, которая пережила 2000 лет

Пантеон: инженерная ошибка, которая пережила 2000 лет

Yuval Milo - Provable Benefits of Complex Parameterizations for Structured State Space Models (Heb)

Yuval Milo - Provable Benefits of Complex Parameterizations for Structured State Space Models (Heb)

Deep RL Bootcamp  Lecture 5: Natural Policy Gradients, TRPO, PPO

Deep RL Bootcamp Lecture 5: Natural Policy Gradients, TRPO, PPO

Dr. Mohammad Ghavamzadeh (Google Research): Mirror Descent Policy Optimization

Dr. Mohammad Ghavamzadeh (Google Research): Mirror Descent Policy Optimization

Guy Kornowski - The Elusive Role of High Dimensions in Modern Optimization and Generalization (En)

Guy Kornowski - The Elusive Role of High Dimensions in Modern Optimization and Generalization (En)

ЗАЧЕМ ТРАМПУ ГРЕНЛАНДИЯ? / Уроки истории @MINAEVLIVE

ЗАЧЕМ ТРАМПУ ГРЕНЛАНДИЯ? / Уроки истории @MINAEVLIVE

Policy Gradient Methods | Reinforcement Learning Part 6

Policy Gradient Methods | Reinforcement Learning Part 6

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: infodtube@gmail.com