Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Training Agents with Reinforcement Learning: Kyle Corbitt

Автор: Open Data Science and AI Conference

Загружено: 2025-12-17

Просмотров: 80

Описание:

In this episode, we speak with Kyle Corbitt, co-founder and CEO of OpenPip, recently acquired by CoreWeave, to explore the evolving role of reinforcement learning in building smarter, more reliable AI agents. Kyle shares the journey of OpenPipe from supervised fine-tuning to developing ART (Agent Reinforcement Trainer), their open-source RL toolkit designed to train AI agents that can think, adapt, and perform with greater autonomy. The discussion spans technical insights, practical applications, startup lessons from YC’s Startup School, and the future of agent-based AI systems.

Key Topics Covered:

Why reinforcement learning is gaining attention in modern Agent development
The transition from supervised fine-tuning (SFT) to reinforcement learning (RL)
Practical differences between RL and SFT, including weight movement and model reliability
OpenPipe’s approach with ART: supporting multi-turn agent training and tool use
How ART differs from OpenAI’s RFT implementation
The importance of consistent agent behavior in production and how RL helps
Avoiding reward hacking and the role of Ruler, OpenPipe’s LLM-based judging system
Cost-efficiency strategies in RL training using serverless infrastructure
OpenPipe’s long-term vision for self-improving agents
Advice for AI startup founders on building in a rapidly evolving ecosystem


Visit our website and choose the nearest ODSC event to attend and experience all our training and workshops: https://odsc.ai

To watch more videos like this, visit https://aiplus.training

Sign up for the newsletter to stay up to date with the latest trends in data science: https://opendatascience.com/newsletter/

Follow us online!
• Facebook:   / opendatasci  
• Instagram:   / odsc  
• Blog: https://opendatascience.com/
• LinkedIn:   / open-data-science  
• X (twitter): https://x.com/_odsc

Training Agents with Reinforcement Learning: Kyle Corbitt

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

ODSC West Minisodes: Trust, Agents, and the Next Wave of Applied AI

ODSC West Minisodes: Trust, Agents, and the Next Wave of Applied AI

[Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han

[Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han

Building Reliable Agents with RL – Kyle Corbitt, CEO of OpenPipe

Building Reliable Agents with RL – Kyle Corbitt, CEO of OpenPipe

Как обучить своего агента: создание надежных агентов с помощью обучения с подкреплением — Кайл Ко...

Как обучить своего агента: создание надежных агентов с помощью обучения с подкреплением — Кайл Ко...

OpenPipe Co-Founder on Reinforcement Learning | David Corbitt

OpenPipe Co-Founder on Reinforcement Learning | David Corbitt

Complete NCP-GENL Study Guide | NVIDIA Certified Professional - Generative AI LLMs 2026

Complete NCP-GENL Study Guide | NVIDIA Certified Professional - Generative AI LLMs 2026

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Reinforcement Learning Tutorial - RLVR with NVIDIA & Unsloth

Reinforcement Learning Tutorial - RLVR with NVIDIA & Unsloth

Как обучить своего агента: создание надежных агентов с помощью обучения с подкреплением | Кайл Ко...

Как обучить своего агента: создание надежных агентов с помощью обучения с подкреплением | Кайл Ко...

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

Why RL Won — Kyle Corbitt, OpenPipe (acq. CoreWeave)

Why RL Won — Kyle Corbitt, OpenPipe (acq. CoreWeave)

AI’s Models of the World, and Ours | Theoretically Speaking

AI’s Models of the World, and Ours | Theoretically Speaking

Искусственный интеллект для CAM-систем: обзор рынка, проблем и перспектив

Искусственный интеллект для CAM-систем: обзор рынка, проблем и перспектив

Training Agents with RL

Training Agents with RL

Обучение с подкреплением для агентов — Уилл Браун, исследователь машинного обучения в Morgan Stanley

Обучение с подкреплением для агентов — Уилл Браун, исследователь машинного обучения в Morgan Stanley

Введение в ИИ в робототехнике от Шеймуса Макговерна

Введение в ИИ в робототехнике от Шеймуса Макговерна

Контекст, графы и принятие ошибок в ИИ с Дениз Госнелл

Контекст, графы и принятие ошибок в ИИ с Дениз Госнелл

Multi-Agent Reinforcement Learning: Theory, Algorithms, and Future Dir..(Lecture 1) by Eric Mazumdar

Multi-Agent Reinforcement Learning: Theory, Algorithms, and Future Dir..(Lecture 1) by Eric Mazumdar

RAG простыми словами: как научить LLM работать с файлами

RAG простыми словами: как научить LLM работать с файлами

Как я учусь в 10 раз быстрее: Система с AI, Perplexity и NotebookLM

Как я учусь в 10 раз быстрее: Система с AI, Perplexity и NotebookLM

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]