Проверка цепочки рассуждений с помощью ее вычислительного графа
Автор: AI Papers Podcast Daily
Загружено: 2025-11-01
Просмотров: 55
В этом исследовании представлен новый метод «белого ящика», называемый *Проверка рассуждений на основе цепочек (CRV)**, предназначенный для анализа и диагностики причин сбоев больших языковых моделей (LLM) при использовании рассуждений на основе цепочки мыслей (Chain-of-Thought, CoT). В отличие от предыдущих методов, которые рассматривали только конечные результаты (черный ящик) или исходные внутренние состояния (серый ящик), CRV работает, тщательно исследуя внутренний вычислительный процесс модели. Основная идея заключается в том, что правильные и неправильные шаги рассуждения оставляют уникальные «структурные отпечатки» на вычислительном графе модели, который служит трассировкой выполнения её базовых цепочек. Для проведения такого анализа исследователи сначала создают интерпретируемую суррогатную модель, заменяя её внутренние модули «транскодерами», а затем строят графы атрибуции, фиксирующие причинно-следственные связи информации для каждого шага рассуждения. Обучая диагностический классификатор на структурных свойствах этих графов, исследование показывает, что CRV стабильно превосходит традиционные базовые модели «черного ящика» и «серого ящика» в выявлении ошибок рассуждений. Более того, CRV позволил получить новые знания: сигнатуры ошибок обладают высокой предсказательной силой, но при этом **специфичны для предметной области**, что означает, что различные задачи рассуждения приводят к сбоям структурно разными способами, и анализ позволяет направлять целенаправленные вмешательства на отдельные признаки для **причинно-следственной коррекции* ошибочных рассуждений, смещая фокус с простого обнаружения ошибок на более глубокое, механистическое понимание сбоев в LLM.
https://arxiv.org/pdf/2510.09312
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: