Модели самоанализа
Автор: AIDAS Lab
Загружено: 2025-10-12
Просмотров: 61
Поскольку постобучение выходит за рамки человеческих данных, в докладе рассматриваются два пути самообучения: обратная трансляция инструкций для SFT и самоанализ RL, где одна модель предлагает и решает задачи с вознаграждением за большинство или модульное тестирование. Мы демонстрируем конвейеры, сравнительные преимущества по сравнению с дистилляцией и граничными базовыми значениями, а также основные виды отказов, возникающие из-за разрывов между генератором и верификатором.
Доклад arXiv: https://arxiv.org/abs/2508.03682
Докладчик: Йеджун Ли
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: