Самообучающийся ИИ: ускорение с помощью новых методов обучения с подкреплением.

Автор: Discover AI

Загружено: 2025-12-20

Просмотров: 3958

Описание:

Граница исследований LLM решительно сместилась в сторону постобучения и рассуждений на уровне системы 2. Всем известен рецепт воспроизведения результатов уровня O1: выйти за рамки контролируемой тонкой настройки и перейти к обучению с подкреплением и проверяемыми вознаграждениями (RLVR). Конечная цель каждой исследовательской лаборатории сегодня — самообучение с подкреплением: позволить модели генерировать собственные вопросы, проверять собственные цепочки рассуждений и бесконечно улучшаться без необходимости дорогостоящих, не масштабируемых человеческих аннотаций.

Однако этот новый препринт выявляет критическую нестабильность, которая преследует современные методы самообучения: коллапс политики. По мере того, как модель обучается на собственных псевдометках, она неизбежно начинает «манипулировать» сигналом вознаграждения. Авторы представляют неопровержимые доказательства того, что стандартное отраслевое решение (простое увеличение количества образцов для тестирования (G)) — это математический мираж. Увеличение количества образцов откладывает коллапс, но не может его предотвратить. В конце концов, модель становится чрезмерно самоуверенной, энтропия достигает минимума, и производительность рассуждений резко падает.

Итак, как же вырваться из этого цикла деградации? Как предотвратить ситуацию, когда модель «пьет свой собственный напиток» и сходится к неоптимальным решениям с низкой энтропией? В следующие 20 минут я расскажу вам о новой структуре, которая, наконец, стабилизирует этот цикл обратной связи.

Мы увидим, как новый архитектурный подход, который коренным образом меняет взаимодействие модели с собственной историей обучения, позволяет нам полностью обойти сбой и достичь передовых результатов там, где предыдущие базовые модели потерпели неудачу.

Все права принадлежат авторам:
M-GRPO: Стабилизация самообучения с подкреплением для больших языковых моделей с помощью
оптимизации политики с привязкой к моменту
Бичжэ Бай1,2, Хунмин У 2, Пэн Е3,4, Тао Чен1,2,
из
1 Шанхайского инновационного института,
2 Колледжа информационных технологий будущего, Фудань.

3 Шанхайской лаборатории ИИ
4 Китайского университета Гонконга

#airesearch
#selflearning
#aireasoning
#physics

Самообучающийся ИИ: ускорение с помощью новых методов обучения с подкреплением.

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

The most complex model we actually understand

The most complex model we actually understand

Почему прикладное обучение с подкреплением является сложным?

Почему прикладное обучение с подкреплением является сложным?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

MiniMax M2.1 vs GLM 4.7 - TEST AI

MiniMax M2.1 vs GLM 4.7 - TEST AI

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

The "Final Boss" of Deep Learning

Серебро по $71 — это ГЛУБОКИЙ НАРКОЗ, который уничтожит ваш КАПИТАЛ | Уоррен Баффет

Серебро по $71 — это ГЛУБОКИЙ НАРКОЗ, который уничтожит ваш КАПИТАЛ | Уоррен Баффет

GPT — это не будущее ИИ: НОВАЯ топология ИИ

GPT — это не будущее ИИ: НОВАЯ топология ИИ

Цепи Маркова — математика предсказаний [Veritasium]

Цепи Маркова — математика предсказаний [Veritasium]

Уволить всех агентов ИИ! Новые законы масштабирования (Google, MIT)

Уволить всех агентов ИИ! Новые законы масштабирования (Google, MIT)

Как стать круче 99% людей с помощью ИИ

Как стать круче 99% людей с помощью ИИ

Через 24 Часа ПОЛНАЯ Перезагрузка Рынка! Экстремальная Волатильность Биткоина! Криптовалюта 2026

Через 24 Часа ПОЛНАЯ Перезагрузка Рынка! Экстремальная Волатильность Биткоина! Криптовалюта 2026

ВСЕ НЕЙРОСЕТИ В Одном Месте / Наш Главный ИИ в Продакшене

ВСЕ НЕЙРОСЕТИ В Одном Месте / Наш Главный ИИ в Продакшене

Будущее ИИ, о чём молчит Кремниевая долина — интервью с Демисом Хассабисом, CEO DeepMind

Будущее ИИ, о чём молчит Кремниевая долина — интервью с Демисом Хассабисом, CEO DeepMind

Tokenizing Gravity Waves: AI in Astrophysics (LIGO)

Tokenizing Gravity Waves: AI in Astrophysics (LIGO)

Непрерывное системное обучение с подсказками для агентов кода – Апарна Дхинакаран, Ариз

Непрерывное системное обучение с подсказками для агентов кода – Апарна Дхинакаран, Ариз

AI is Just a Correction Term (to Physics)

AI is Just a Correction Term (to Physics)

20 концепций искусственного интеллекта, объясненных за 40 минут

20 концепций искусственного интеллекта, объясненных за 40 минут

Андрей Девятов. Меньше знаешь - крепче спишь!

Андрей Девятов. Меньше знаешь - крепче спишь!

Всегда врет. Правила хорошего тона для искусственного интеллекта

Всегда врет. Правила хорошего тона для искусственного интеллекта