Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Как обучить своего агента: создание надежных агентов с помощью обучения с подкреплением — Кайл Ко...

Автор: AI Engineer

Загружено: 2025-07-19

Просмотров: 50438

Описание:

Вы когда-нибудь запускали потрясающую демонстрацию агента, а потом обнаруживали, что никакие подсказки не сделают её достаточно надёжной для внедрения в эксплуатацию? Надёжность агента — невероятно сложная задача!

В этом докладе мы узнаем, как использовать GRPO, чтобы помочь вашему агенту учиться на своих успехах и неудачах и со временем совершенствоваться. Мы наблюдали впечатляющие результаты применения этой технологии, например, когда показатель успешности агента-помощника по электронной почте вырос с 74% до 94% после замены o4-mini на модель с открытым исходным кодом, оптимизированную с помощью GRPO.

Мы поделимся примерами из практики и практическими уроками, касающимися типов задач, для которых это эффективно, и неожиданных ловушек, которых следует избегать.

О Кайле Корбитте
Кайл Корбитт — соучредитель и генеральный директор OpenPipe, компании, предоставляющей услуги по последующему обучению рефералов. OpenPipe обучил тысячи моделей клиентов как для крупных предприятий, так и для передовых технологических стартапов.

До основания OpenPipe Кайл руководил командой Startup School в Y Combinator, которая отвечала за продукты и контент, создаваемые YC для компаний на ранних стадиях развития. До этого он работал инженером в Google и изучал машинное обучение в школе.

Запись сделана на Всемирной выставке AI Engineer в Сан-Франциско. Будьте в курсе наших предстоящих мероприятий и материалов, подписавшись на нашу рассылку здесь: https://www.ai.engineer/newsletter

Временные метки:

[00:00] — Введение в создание надежных агентов с помощью обучения с подкреплением.

[00:49] — Пример использования: ART-E, помощник по электронной почте с искусственным интеллектом.

[02:19] — Важность использования моделей с подсказками перед переходом на обучение с подсказками.

[03:17] — Повышение производительности обучения с подсказками по сравнению с моделями с подсказками.

[05:18] — Преимущества подхода с подсказками с точки зрения затрат и задержек.

[08:02] — Две самые сложные проблемы в современном RL: реалистичные среды и функции вознаграждения.

[13:13] — Оптимизация поведения агента с помощью «дополнительных вознаграждений».

[15:25] — Проблема «взлома вознаграждения» и способы её решения.

[18:37] — Решение проблемы «взлома вознаграждения»:

Как обучить своего агента: создание надежных агентов с помощью обучения с подкреплением — Кайл Ко...

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Три ингредиента для создания надежных корпоративных агентов — Харрисон Чейз, LangChain/LangGraph

Три ингредиента для создания надежных корпоративных агентов — Харрисон Чейз, LangChain/LangGraph

Why RL Won — Kyle Corbitt, OpenPipe (acq. CoreWeave)

Why RL Won — Kyle Corbitt, OpenPipe (acq. CoreWeave)

Get Hired in the Age of AI

Get Hired in the Age of AI

Обучение с подкреплением для агентов — Уилл Браун, исследователь машинного обучения в Morgan Stanley

Обучение с подкреплением для агентов — Уилл Браун, исследователь машинного обучения в Morgan Stanley

Как стать круче 99% людей с помощью ИИ

Как стать круче 99% людей с помощью ИИ

Reinforcement Learning for LLMs

Reinforcement Learning for LLMs

AI Fundamentals

AI Fundamentals

Линус Торвальдс рассказывает о шумихе вокруг искусственного интеллекта, мощности графических проц...

Линус Торвальдс рассказывает о шумихе вокруг искусственного интеллекта, мощности графических проц...

Агенты RAG в производстве: 10 уроков, которые мы усвоили — Дауве Киела, создатель RAG

Агенты RAG в производстве: 10 уроков, которые мы усвоили — Дауве Киела, создатель RAG

Training Agentic Reasoners — Will Brown, Prime Intellect

Training Agentic Reasoners — Will Brown, Prime Intellect

Как мы создаем эффективных агентов: Барри Чжан, Anthropic

Как мы создаем эффективных агентов: Барри Чжан, Anthropic

12-факторные агенты: модели надежных приложений LLM — Декс Хорти, HumanLayer

12-факторные агенты: модели надежных приложений LLM — Декс Хорти, HumanLayer

Training Agents with RL

Training Agents with RL

Строим будущее агентов вместе с Клодом

Строим будущее агентов вместе с Клодом

Новый код — Шон Гроув, OpenAI

Новый код — Шон Гроув, OpenAI

Современные подсказки для агентов ИИ

Современные подсказки для агентов ИИ

Architecting Multi-Agent Systems With Andrew Ng

Architecting Multi-Agent Systems With Andrew Ng

Andrew Ng: Building Faster with AI

Andrew Ng: Building Faster with AI

Чем занимаются владельцы дорогих авто?

Чем занимаются владельцы дорогих авто?

[Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han

[Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]