Наборы данных для обучения с подкреплением на основе данных
Автор: Yannic Kilcher
Загружено: 2020-04-16
Просмотров: 5252
В последнее время офлайн-обучение с подкреплением (RL) становится всё более популярным в областях, где классические алгоритмы RL, основанные на политике, не могут быть обучены, например, для задач, критически важных для безопасности, или обучения на основе демонстраций экспертов. В данной статье представлен обширный сравнительный анализ для оценки офлайн-алгоритмов RL в различных условиях.
Документ: https://arxiv.org/abs/2004.07219
Код: https://github.com/rail-berkeley/offl...
Аннотация:
Проблема офлайн-обучения с подкреплением (RL), также называемая пакетным RL, относится к ситуации, когда политика обучения должна быть изучена на основе набора ранее собранных данных без дополнительного сбора данных онлайн. В контролируемом обучении большие наборы данных и сложные глубокие нейронные сети обеспечили впечатляющий прогресс, в то время как традиционные алгоритмы RL должны собирать большие объёмы данных, основанных на политике, и не добились успеха в использовании ранее собранных наборов данных. В результате существующие тесты обучения с подкреплением плохо подходят для офлайн-обучения, что затрудняет оценку прогресса в этой области. Чтобы разработать тест, адаптированный для офлайн-обучения с подкреплением, мы начинаем с описания ключевых свойств наборов данных, важных для приложений офлайн-обучения с подкреплением. Основываясь на этих свойствах, мы разрабатываем набор тестовых задач и наборов данных, которые оценивают алгоритмы офлайн-обучения с подкреплением в этих условиях. Примерами таких свойств являются: наборы данных, сгенерированные с помощью вручную разработанных контроллеров и демонстраторов-людей, многоцелевые наборы данных, где агент может выполнять различные задачи в одной и той же среде, и наборы данных, состоящие из гетерогенного сочетания траекторий высокого и низкого качества. Разрабатывая тестовые задачи и наборы данных, отражающие свойства реальных задач офлайн-обучения с подкреплением, наш тест сосредоточит исследовательские усилия на методах, которые обеспечивают существенные улучшения не только в смоделированных тестах, но и, в конечном итоге, в тех типах реальных задач, где офлайн-обучение с подкреплением окажет наибольшее влияние.
Авторы: Джастин Фу, Авирал Кумар, Офир Нахум, Джордж Такер, Сергей Левин
Ссылки:
YouTube: / yannickilcher
Twitter: / ykilcher
BitChute: https://www.bitchute.com/channel/yann...
Minds: https://www.minds.com/ykilcher
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: