Building Reliable Agents with RL – Kyle Corbitt, CEO of OpenPipe

Автор: OpenPipe

Загружено: 2025-06-19

Просмотров: 3172

Описание:

Why do AI agents still mess up the basics—and what can we do about it? In this talk, Kyle Corbitt breaks down how reinforcement learning (RL) can actually help us build agents that are way more reliable than just stacking prompts on prompts.

He shares real-world examples of where agents go wrong, how to train them to behave better over time, and what it takes to define rewards that actually guide the right behavior. From debugging brittle agents to fine-tuning open-source models in the wild, Kyle walks through the nitty-gritty of making AI agents that don't fall apart when things get a little weird.

Enterprise AI Agents Summit 2025 in Seattle. Hosted by OpenPipe + AWS on June 13, 2025.

Building Reliable Agents with RL – Kyle Corbitt, CEO of OpenPipe

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Как обучить своего агента: создание надежных агентов с помощью обучения с подкреплением — Кайл Ко...

Как обучить своего агента: создание надежных агентов с помощью обучения с подкреплением — Кайл Ко...

Will Brown: Abstractions for Agentic RL

Will Brown: Abstractions for Agentic RL

Training Agents with RL

Training Agents with RL

Why RL Won — Kyle Corbitt, OpenPipe (acq. CoreWeave)

Why RL Won — Kyle Corbitt, OpenPipe (acq. CoreWeave)

Build Better AI Agents with RL & Fine-Tuning (Kyle from OpenPipe)

Build Better AI Agents with RL & Fine-Tuning (Kyle from OpenPipe)

Обучение с подкреплением для агентов — Уилл Браун, исследователь машинного обучения в Morgan Stanley

Обучение с подкреплением для агентов — Уилл Браун, исследователь машинного обучения в Morgan Stanley

Серебро по $71 — это ГЛУБОКИЙ НАРКОЗ, который уничтожит ваш КАПИТАЛ | Уоррен Баффет

Серебро по $71 — это ГЛУБОКИЙ НАРКОЗ, который уничтожит ваш КАПИТАЛ | Уоррен Баффет

Panel: Lessons Learned from Building Enterprise AI Agents

Panel: Lessons Learned from Building Enterprise AI Agents

Fine-tuning Best Practices Interview with Kyle Corbitt (Chapter 2: Models)

Fine-tuning Best Practices Interview with Kyle Corbitt (Chapter 2: Models)

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

20+ Нейросетей GOOGLE Которые Не Должны Быть Бесплатными

20+ Нейросетей GOOGLE Которые Не Должны Быть Бесплатными

⚡️Multi-Turn RL for Multi-Hour Agents — with Will Brown, Prime Intellect

⚡️Multi-Turn RL for Multi-Hour Agents — with Will Brown, Prime Intellect

Reinforcement Learning from Human Feedback (RLHF) Explained

Reinforcement Learning from Human Feedback (RLHF) Explained

Агенты RAG в производстве: 10 уроков, которые мы усвоили — Дауве Киела, создатель RAG

Агенты RAG в производстве: 10 уроков, которые мы усвоили — Дауве Киела, создатель RAG

Будущее ИИ, о чём молчит Кремниевая долина — интервью с Демисом Хассабисом, CEO DeepMind

Будущее ИИ, о чём молчит Кремниевая долина — интервью с Демисом Хассабисом, CEO DeepMind

Разведчик о том, как использовать людей

Разведчик о том, как использовать людей

Три ингредиента для создания надежных корпоративных агентов — Харрисон Чейз, LangChain/LangGraph

Три ингредиента для создания надежных корпоративных агентов — Харрисон Чейз, LangChain/LangGraph

.NET AI Community Standup - Introducing RLMatrix: Pure C# Deep Reinforcement Learning for .NET

.NET AI Community Standup - Introducing RLMatrix: Pure C# Deep Reinforcement Learning for .NET

«Open AI — это пузырь»! Откровения из Кремниевой долины | Братья Либерманы

«Open AI — это пузырь»! Откровения из Кремниевой долины | Братья Либерманы

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман