Модели самоанализа

Автор: AIDAS Lab

Загружено: 2025-10-12

Просмотров: 61

Описание:

Поскольку постобучение выходит за рамки человеческих данных, в докладе рассматриваются два пути самообучения: обратная трансляция инструкций для SFT и самоанализ RL, где одна модель предлагает и решает задачи с вознаграждением за большинство или модульное тестирование. Мы демонстрируем конвейеры, сравнительные преимущества по сравнению с дистилляцией и граничными базовыми значениями, а также основные виды отказов, возникающие из-за разрывов между генератором и верификатором.

Доклад arXiv: https://arxiv.org/abs/2508.03682
Докладчик: Йеджун Ли

Модели самоанализа

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Persona Vectors: Monitoring and Controlling Character Traits in Language Models

Persona Vectors: Monitoring and Controlling Character Traits in Language Models

Experimenting with Reinforcement Learning with Verifiable Rewards (RLVR)

Experimenting with Reinforcement Learning with Verifiable Rewards (RLVR)

Diffusion Language Models: The Next Big Shift in GenAI

Diffusion Language Models: The Next Big Shift in GenAI

Смесь экспертов по поиску (ICML 2025 Spotlight)

Смесь экспертов по поиску (ICML 2025 Spotlight)

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

KV-efficient language models: MLA and sliding window attention

KV-efficient language models: MLA and sliding window attention

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

How language model post-training is done today

How language model post-training is done today

RAG vs Fine-Tuning vs Prompt Engineering: Optimizing AI Models

RAG vs Fine-Tuning vs Prompt Engineering: Optimizing AI Models

Акунин ошарашил прогнозом! Финал войны уже решён — Кремль скрывает правду

Акунин ошарашил прогнозом! Финал войны уже решён — Кремль скрывает правду

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Fine-Tune Visual Language Models (VLMs) - HuggingFace, PyTorch, LoRA, Quantization, TRL

Fine-Tune Visual Language Models (VLMs) - HuggingFace, PyTorch, LoRA, Quantization, TRL

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

Планирование латентной диффузии для имитационного обучения (ICML 2025)

Планирование латентной диффузии для имитационного обучения (ICML 2025)

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

Reinforcement Learning with Human Feedback (RLHF), Clearly Explained!!!

Reinforcement Learning with Human Feedback (RLHF), Clearly Explained!!!

КЛАССИЧЕСКАЯ МУЗЫКА ДЛЯ ВОССТАНОВЛЕНИЯ НЕРВНОЙ СИСТЕМЫ🌿 Нежная музыка успокаивает нервную систему 22

КЛАССИЧЕСКАЯ МУЗЫКА ДЛЯ ВОССТАНОВЛЕНИЯ НЕРВНОЙ СИСТЕМЫ🌿 Нежная музыка успокаивает нервную систему 22

LLMs Meet Robotics: What Are Vision-Language-Action Models? (VLA Series Ep.1)

LLMs Meet Robotics: What Are Vision-Language-Action Models? (VLA Series Ep.1)

Краткий обзор новой версии n8n 2.0 🚀

Краткий обзор новой версии n8n 2.0 🚀

Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности

Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности