Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

Test-Time Training Adapt: Novel Policy-Reward w/ MCTS

Автор: Discover AI

Загружено: 2024-11-20

Просмотров: 2777

Описание:

This brilliant video introduces a reward-guided tree search framework designed to enhance the reasoning capabilities of large language models (LLMs), particularly for complex mathematical tasks. The method integrates three primary components: a policy model, a reward model, and a tree search algorithm. The policy model generates step-by-step reasoning in a structured format, optimized through instruction tuning and preference optimization using feedback from the reward model. The reward model evaluates solution paths, providing scalar rewards for correctness and logical consistency, and is trained using outcome-based, generative objectives.

The tree search algorithm employs Monte Carlo Tree Search (MCTS) and its variant, MCTSG, to dynamically construct and explore a reasoning tree, balancing exploration of new paths and exploitation of promising solutions. Enhancements like pre-expansion, self-consistency scoring, and external tool integration (e.g., for verifying calculations) improve the efficiency and robustness of the search process.

This framework is tested on challenging mathematical benchmarks, including MATH-OAI and OlympiadBench, achieving significant performance improvements over baseline methods like chain-of-thought (CoT) reasoning and beam search. The iterative co-optimization of the policy and reward models ensures mutual refinement, leveraging a feedback loop to improve reasoning accuracy across multiple steps.

By combining dynamic search algorithms, probabilistic evaluation, and structured reasoning, this framework addresses key limitations in LLM reasoning and lays the groundwork for scalable, adaptive, and domain-agnostic AI systems capable of handling high-complexity tasks.


All rights w/ authors:
Technical Report: Enhancing LLM Reasoning with
Reward-guided Tree Search
https://arxiv.org/pdf/2411.11694

00:00 NEW AI Reasoning Method
01:18 Technical report on Reward-Guided MCTS
03:02 Policy model. Reward Model and MCTS
04:47 The CODE Space
06:18 The Space of new Ideas
07:57 Code generation is automated (Windsurf)
10:05 Test Time Training TTT
13:11 PART 2 - ALL DETAILS
16:32 DPO Alignment
19:27 MCTS
21:43 Benchmark Data
22:25 Another VIEW
24:21 Reasoning as a Quantum System

#ai
#scienceexperiment
#education

Test-Time Training Adapt: Novel Policy-Reward w/ MCTS

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

Test-Time Training with Self-Supervision for Generalization under Distribution Shifts

Test-Time Training with Self-Supervision for Generalization under Distribution Shifts

AI in Oncology: A Clinical Polymath | Future of Cancer Care (Stanford)

AI in Oncology: A Clinical Polymath | Future of Cancer Care (Stanford)

MiniMax M2.1 vs GLM 4.7 - TEST AI

MiniMax M2.1 vs GLM 4.7 - TEST AI

Tokenizing Gravity Waves: AI in Astrophysics (LIGO)

Tokenizing Gravity Waves: AI in Astrophysics (LIGO)

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

LLM Attention That Expands At Inference? Test Time Training Explained

LLM Attention That Expands At Inference? Test Time Training Explained

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Grand Unified Theory of AI (Explained w/ Google ADK)

Grand Unified Theory of AI (Explained w/ Google ADK)

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

Цепи Маркова — математика предсказаний [Veritasium]

Цепи Маркова — математика предсказаний [Veritasium]

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

There Is Something Faster Than Light

There Is Something Faster Than Light

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

GraphRAG: союз графов знаний и RAG: Эмиль Эйфрем

Самообучающийся ИИ: ускорение с помощью новых методов обучения с подкреплением.

Самообучающийся ИИ: ускорение с помощью новых методов обучения с подкреплением.

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

2025 — Обзор прошедшего года ИИ. Что будет в 2026?

2025 — Обзор прошедшего года ИИ. Что будет в 2026?

The Future of Veritasium

The Future of Veritasium

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]