verl: Крупномасштабная среда обучения на уровне магистратуры и практики (LLM) с открытым исходным...

Автор: PyTorch

Загружено: 2025-07-14

Просмотров: 1886

Описание:

verl: Крупномасштабный фреймворк обучения с подкреплением (LLM) с открытым исходным кодом для решения агентских задач — Юйсюань Тун, Bytedance

Последние достижения в области обучения с подкреплением значительно расширяют возможности рассуждений LLM. Такие модели, как OpenAI o3, DeepSeek r1 и т. д., демонстрируют великолепную производительность в задачах STEM и программирования. Однако обучение таких моделей требует сложной инфраструктуры.
В этом докладе мы представляем verl (https://github.com/volcengine/verl), комплексный фреймворк, использующий абстракцию программирования HybridFlow для достижения гибкости при реализации различных алгоритмов и высокой производительности. Verl был принят различными университетами и компаниями для обучения обучению с подкреплением (RL), и в него внесли свой вклад более 100 участников сообщества.
В ходе этого доклада слушатели получат i) базовое представление о различных алгоритмах обучения с подкреплением, включая GRPO; ii) о передовых практиках реализации вызова инструментов и многошагового развертывания для решения агентских задач, а также рассуждений на языке машинного зрения; iii) новейшие методы крупномасштабной оптимизации производительности для RL с моделями MOE, такими как DeepSeek v3.

verl: Крупномасштабная среда обучения на уровне магистратуры и практики (LLM) с открытым исходным...

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

verl: Flexible and Scalable Reinforcement Learning Library for LLM Reasoning and Tool-Calling

verl: Flexible and Scalable Reinforcement Learning Library for LLM Reasoning and Tool-Calling

Keynote: Building an Open Agentic Future - Samuel Colvin, Founder, Pydantic

Keynote: Building an Open Agentic Future - Samuel Colvin, Founder, Pydantic

Ваше образование в области электроники было отсталым. Вот решение. Экспресс-курс по электронике 001

Ваше образование в области электроники было отсталым. Вот решение. Экспресс-курс по электронике 001

Training LLM to play chess using Deepseek GRPO reinforcement learning

Training LLM to play chess using Deepseek GRPO reinforcement learning

RAG | ВСЁ, что тебе нужно знать (+ 11 Продвинутых стратегий)

RAG | ВСЁ, что тебе нужно знать (+ 11 Продвинутых стратегий)

Оптимизация вывода LLM №2: тензорный, экспертный и экспертный параллелизм (TP, DP, EP, MoE)

Оптимизация вывода LLM №2: тензорный, экспертный и экспертный параллелизм (TP, DP, EP, MoE)

Как обучить своего агента: создание надежных агентов с помощью обучения с подкреплением — Кайл Ко...

Как обучить своего агента: создание надежных агентов с помощью обучения с подкреплением — Кайл Ко...

torch.accelerator: унифицированный, независимый от устройства API среды выполнения для потоковых ...

torch.accelerator: унифицированный, независимый от устройства API среды выполнения для потоковых ...

How to Train LLMs to

How to Train LLMs to "Think" (o1 & DeepSeek-R1)

Training Agentic Reasoners — Will Brown, Prime Intellect

Training Agentic Reasoners — Will Brown, Prime Intellect

ByteDance's Platform for Reinforcement Learning from Human Feedback | Ray Summit 2024

ByteDance's Platform for Reinforcement Learning from Human Feedback | Ray Summit 2024

Как SDD превращает AI в твоего личного Senior-архитектора

Как SDD превращает AI в твоего личного Senior-архитектора

Бесплатный щенок: как ответственно использовать открытый исходный код ИИ

Бесплатный щенок: как ответственно использовать открытый исходный код ИИ

🤖 AI, Какие языки лучше генерируются? Чем на самом деле занимается Брагилевский в JetBrains

🤖 AI, Какие языки лучше генерируются? Чем на самом деле занимается Брагилевский в JetBrains

Reinforcement Learning with Verifiable Rewards - Teaching LLMs to Solve Problems

Reinforcement Learning with Verifiable Rewards - Teaching LLMs to Solve Problems

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

Использование LlamaIndex для создания альтернативы NotebookLM с открытым исходным кодом — Туана Ч...

Использование LlamaIndex для создания альтернативы NotebookLM с открытым исходным кодом — Туана Ч...

Новый NotebookLM: НИКОГДА НЕ ВРЕТ! Большой бесплатный курс по нейросети от Google

Новый NotebookLM: НИКОГДА НЕ ВРЕТ! Большой бесплатный курс по нейросети от Google

Fast, Flexible, and Scalable Data Loading for ML Training with Ray Data

Fast, Flexible, and Scalable Data Loading for ML Training with Ray Data

Разработка с помощью Gemini 3, AI Studio, Antigravity и Nano Banana | Подкаст Agent Factory

Разработка с помощью Gemini 3, AI Studio, Antigravity и Nano Banana | Подкаст Agent Factory