Как обучить своего агента: создание надежных агентов с помощью обучения с подкреплением — Кайл Ко...
Автор: AI Engineer
Загружено: 2025-07-19
Просмотров: 50438
Вы когда-нибудь запускали потрясающую демонстрацию агента, а потом обнаруживали, что никакие подсказки не сделают её достаточно надёжной для внедрения в эксплуатацию? Надёжность агента — невероятно сложная задача!
В этом докладе мы узнаем, как использовать GRPO, чтобы помочь вашему агенту учиться на своих успехах и неудачах и со временем совершенствоваться. Мы наблюдали впечатляющие результаты применения этой технологии, например, когда показатель успешности агента-помощника по электронной почте вырос с 74% до 94% после замены o4-mini на модель с открытым исходным кодом, оптимизированную с помощью GRPO.
Мы поделимся примерами из практики и практическими уроками, касающимися типов задач, для которых это эффективно, и неожиданных ловушек, которых следует избегать.
О Кайле Корбитте
Кайл Корбитт — соучредитель и генеральный директор OpenPipe, компании, предоставляющей услуги по последующему обучению рефералов. OpenPipe обучил тысячи моделей клиентов как для крупных предприятий, так и для передовых технологических стартапов.
До основания OpenPipe Кайл руководил командой Startup School в Y Combinator, которая отвечала за продукты и контент, создаваемые YC для компаний на ранних стадиях развития. До этого он работал инженером в Google и изучал машинное обучение в школе.
Запись сделана на Всемирной выставке AI Engineer в Сан-Франциско. Будьте в курсе наших предстоящих мероприятий и материалов, подписавшись на нашу рассылку здесь: https://www.ai.engineer/newsletter
Временные метки:
[00:00] — Введение в создание надежных агентов с помощью обучения с подкреплением.
[00:49] — Пример использования: ART-E, помощник по электронной почте с искусственным интеллектом.
[02:19] — Важность использования моделей с подсказками перед переходом на обучение с подсказками.
[03:17] — Повышение производительности обучения с подсказками по сравнению с моделями с подсказками.
[05:18] — Преимущества подхода с подсказками с точки зрения затрат и задержек.
[08:02] — Две самые сложные проблемы в современном RL: реалистичные среды и функции вознаграждения.
[13:13] — Оптимизация поведения агента с помощью «дополнительных вознаграждений».
[15:25] — Проблема «взлома вознаграждения» и способы её решения.
[18:37] — Решение проблемы «взлома вознаграждения»:
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: