Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Наборы данных для обучения с подкреплением на основе данных

Автор: Yannic Kilcher

Загружено: 2020-04-16

Просмотров: 5252

Описание:

В последнее время офлайн-обучение с подкреплением (RL) становится всё более популярным в областях, где классические алгоритмы RL, основанные на политике, не могут быть обучены, например, для задач, критически важных для безопасности, или обучения на основе демонстраций экспертов. В данной статье представлен обширный сравнительный анализ для оценки офлайн-алгоритмов RL в различных условиях.

Документ: https://arxiv.org/abs/2004.07219
Код: https://github.com/rail-berkeley/offl...

Аннотация:
Проблема офлайн-обучения с подкреплением (RL), также называемая пакетным RL, относится к ситуации, когда политика обучения должна быть изучена на основе набора ранее собранных данных без дополнительного сбора данных онлайн. В контролируемом обучении большие наборы данных и сложные глубокие нейронные сети обеспечили впечатляющий прогресс, в то время как традиционные алгоритмы RL должны собирать большие объёмы данных, основанных на политике, и не добились успеха в использовании ранее собранных наборов данных. В результате существующие тесты обучения с подкреплением плохо подходят для офлайн-обучения, что затрудняет оценку прогресса в этой области. Чтобы разработать тест, адаптированный для офлайн-обучения с подкреплением, мы начинаем с описания ключевых свойств наборов данных, важных для приложений офлайн-обучения с подкреплением. Основываясь на этих свойствах, мы разрабатываем набор тестовых задач и наборов данных, которые оценивают алгоритмы офлайн-обучения с подкреплением в этих условиях. Примерами таких свойств являются: наборы данных, сгенерированные с помощью вручную разработанных контроллеров и демонстраторов-людей, многоцелевые наборы данных, где агент может выполнять различные задачи в одной и той же среде, и наборы данных, состоящие из гетерогенного сочетания траекторий высокого и низкого качества. Разрабатывая тестовые задачи и наборы данных, отражающие свойства реальных задач офлайн-обучения с подкреплением, наш тест сосредоточит исследовательские усилия на методах, которые обеспечивают существенные улучшения не только в смоделированных тестах, но и, в конечном итоге, в тех типах реальных задач, где офлайн-обучение с подкреплением окажет наибольшее влияние.

Авторы: Джастин Фу, Авирал Кумар, Офир Нахум, Джордж Такер, Сергей Левин

Ссылки:
YouTube:    / yannickilcher  
Twitter:   / ykilcher  
BitChute: https://www.bitchute.com/channel/yann...
Minds: https://www.minds.com/ykilcher

Наборы данных для обучения с подкреплением на основе данных

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Reinforcement Learning with Augmented Data (Paper Explained)

Reinforcement Learning with Augmented Data (Paper Explained)

Decision Transformer: Reinforcement Learning via Sequence Modeling (Research Paper Explained)

Decision Transformer: Reinforcement Learning via Sequence Modeling (Research Paper Explained)

Оффлайн обучение с подкреплением

Оффлайн обучение с подкреплением

4 Hours Chopin for Studying, Concentration & Relaxation

4 Hours Chopin for Studying, Concentration & Relaxation

How I finetuned a Small LM to THINK and solve puzzles on its own (GRPO & RL!)

How I finetuned a Small LM to THINK and solve puzzles on its own (GRPO & RL!)

Градиентная хирургия для многозадачного обучения

Градиентная хирургия для многозадачного обучения

Q-Learning: Model Free Reinforcement Learning and Temporal Difference Learning

Q-Learning: Model Free Reinforcement Learning and Temporal Difference Learning

Reinforcement Learning with Large Datasets: Robotics, Image Generation, and LLMs

Reinforcement Learning with Large Datasets: Robotics, Image Generation, and LLMs

Reinforcement Learning with sparse rewards

Reinforcement Learning with sparse rewards

Reinforcement Learning for LLMs in 2025

Reinforcement Learning for LLMs in 2025

iMAML: Meta-Learning with Implicit Gradients (Paper Explained)

iMAML: Meta-Learning with Implicit Gradients (Paper Explained)

[Анализ статьи] О теоретических ограничениях поиска на основе встраивания (Предупреждение: критика)

[Анализ статьи] О теоретических ограничениях поиска на основе встраивания (Предупреждение: критика)

Reinforcement Learning with Large Datasets: a Path to Resourceful Autonomous Agents - Sergey Levine

Reinforcement Learning with Large Datasets: a Path to Resourceful Autonomous Agents - Sergey Levine

SINDy-RL: Interpretable and Efficient Model-Based Reinforcement Learning

SINDy-RL: Interpretable and Efficient Model-Based Reinforcement Learning

Chip Placement with Deep Reinforcement Learning (Paper Explained)

Chip Placement with Deep Reinforcement Learning (Paper Explained)

Python + PyTorch + Pygame Reinforcement Learning – Train an AI to Play Snake

Python + PyTorch + Pygame Reinforcement Learning – Train an AI to Play Snake

How Large of A Replay Buffer Do You Need? A Deeper Look at Experience Replay | Paper Analysis & Code

How Large of A Replay Buffer Do You Need? A Deeper Look at Experience Replay | Paper Analysis & Code

Dreamer v2: Mastering Atari with Discrete World Models (Machine Learning Research Paper Explained)

Dreamer v2: Mastering Atari with Discrete World Models (Machine Learning Research Paper Explained)

Fast reinforcement learning with generalized policy updates (Paper Explained)

Fast reinforcement learning with generalized policy updates (Paper Explained)

AES: как разработать безопасное шифрование

AES: как разработать безопасное шифрование

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]