verl: Крупномасштабная среда обучения на уровне магистратуры и практики (LLM) с открытым исходным...
Автор: PyTorch
Загружено: 2025-07-14
Просмотров: 1886
verl: Крупномасштабный фреймворк обучения с подкреплением (LLM) с открытым исходным кодом для решения агентских задач — Юйсюань Тун, Bytedance
Последние достижения в области обучения с подкреплением значительно расширяют возможности рассуждений LLM. Такие модели, как OpenAI o3, DeepSeek r1 и т. д., демонстрируют великолепную производительность в задачах STEM и программирования. Однако обучение таких моделей требует сложной инфраструктуры.
В этом докладе мы представляем verl (https://github.com/volcengine/verl), комплексный фреймворк, использующий абстракцию программирования HybridFlow для достижения гибкости при реализации различных алгоритмов и высокой производительности. Verl был принят различными университетами и компаниями для обучения обучению с подкреплением (RL), и в него внесли свой вклад более 100 участников сообщества.
В ходе этого доклада слушатели получат i) базовое представление о различных алгоритмах обучения с подкреплением, включая GRPO; ii) о передовых практиках реализации вызова инструментов и многошагового развертывания для решения агентских задач, а также рассуждений на языке машинного зрения; iii) новейшие методы крупномасштабной оптимизации производительности для RL с моделями MOE, такими как DeepSeek v3.
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: