QwenLong-L1.5: Посттренировочный алгоритм для рассуждений в длительном контексте и управления пам...

Автор: LuxaK

Загружено: 2025-12-28

Просмотров: 16

Описание:

Модель QwenLong-L1.5 представляет собой новую модель, расширяющую возможности рассуждений в длинном контексте за счет систематических инноваций после обучения. Она использует сложный конвейер синтеза данных в длинном контексте для генерации сложных многошаговых задач рассуждений путем деконструкции документов и программного составления вопросов. Для обеспечения стабильного обучения на последовательностях все большей длины модель использует стабилизированное обучение с подкреплением, включающее сбалансированную выборку задач, оценку преимуществ для каждой задачи и алгоритм адаптивной оптимизации политики с управлением энтропией (AEPO). Для сверхдлинных контекстов, превышающих типичные ограничения окна (например, 4 миллиона токенов), QwenLong-L1.5 интегрирует архитектуру с расширенной памятью, использующую многоэтапное слияние RL, сочетающее однопроходные рассуждения с итеративной обработкой на основе памяти. Созданный на основе Qwen3-30B-A3B-Thinking, QwenLong-L1.5 демонстрирует производительность, сопоставимую с такими моделями, как GPT-5 и Gemini-2.5-Pro, в тестах на логическое мышление с длинным контекстом. Он заметно превосходит свой базовый показатель в среднем на 9,90 баллов и демонстрирует прирост в 9,48 баллов в сверхдлительных задачах благодаря своей системе агентов памяти. Эти улучшения также приводят к повышению производительности в таких общих областях, как научное мышление, использование инструментов памяти и расширенный диалог.

#QwenLongL1_5 #LongContextReasoning #LLMs #PostTraining #MemoryManagement #ReinforcementLearning #AI #NaturalLanguageProcessing

статья - https://modelscope.cn/papers/2512.12967
подписаться - https://t.me/arxivpaper
пожертвования:
USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr
ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e
создано с помощью NotebookLM

QwenLong-L1.5: Посттренировочный алгоритм для рассуждений в длительном контексте и управления пам...

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

AgREE: Агентное рассуждение для завершения графа знаний о возникающих сущностях

AgREE: Агентное рассуждение для завершения графа знаний о возникающих сущностях

Что произойдет, если все данные для обучения будут сгенерированы ИИ?

Что произойдет, если все данные для обучения будут сгенерированы ИИ?

Как я разбираю задачи на LeetCode, чтобы действительно улучшить свои навыки.

Как я разбираю задачи на LeetCode, чтобы действительно улучшить свои навыки.

Проблема масштабирования ИИ

Проблема масштабирования ИИ

я ВПУСТУЮ потратил 4 года на изучение английского

я ВПУСТУЮ потратил 4 года на изучение английского

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

How to Give Your AI Agent Long-Term Memory

How to Give Your AI Agent Long-Term Memory

Появляется новый тип искусственного интеллекта, и он лучше, чем LLMS?

Появляется новый тип искусственного интеллекта, и он лучше, чем LLMS?

Нейронка, которая УНИЧТОЖИЛА ChatGPT 5! / Обзор бесплатной нейросети и ее возможности

Нейронка, которая УНИЧТОЖИЛА ChatGPT 5! / Обзор бесплатной нейросети и ее возможности

[Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han

[Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han

Вложенное обучение: расшифровка глубокой архитектуры и памяти.

Вложенное обучение: расшифровка глубокой архитектуры и памяти.

Как мы разрабатываем Production-Ready AI агентов: архитектура, RAG и инструменты

Как мы разрабатываем Production-Ready AI агентов: архитектура, RAG и инструменты

Большинство разработчиков не понимают, как работают контекстные окна.

Большинство разработчиков не понимают, как работают контекстные окна.

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

Как я учусь в 10 раз быстрее: Система с AI, Perplexity и NotebookLM

Как я учусь в 10 раз быстрее: Система с AI, Perplexity и NotebookLM

Мертвые лососи в интерпретации искусственного интеллекта

Мертвые лососи в интерпретации искусственного интеллекта

Как Сделать Настольный ЭЛЕКТРОЭРОЗИОННЫЙ Станок?

Как Сделать Настольный ЭЛЕКТРОЭРОЗИОННЫЙ Станок?

Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 9 - Recap & Current Trends

Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 9 - Recap & Current Trends

Почему простого объяснения нет? Эйнштейновские сжатия, которые невозможно понять

Почему простого объяснения нет? Эйнштейновские сжатия, которые невозможно понять

Топ-17 технологий, которые перевернут 2026 год

Топ-17 технологий, которые перевернут 2026 год