Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

QwenLong-L1.5: Посттренировочный алгоритм для рассуждений в длительном контексте и управления пам...

Автор: LuxaK

Загружено: 2025-12-28

Просмотров: 16

Описание:

Модель QwenLong-L1.5 представляет собой новую модель, расширяющую возможности рассуждений в длинном контексте за счет систематических инноваций после обучения. Она использует сложный конвейер синтеза данных в длинном контексте для генерации сложных многошаговых задач рассуждений путем деконструкции документов и программного составления вопросов. Для обеспечения стабильного обучения на последовательностях все большей длины модель использует стабилизированное обучение с подкреплением, включающее сбалансированную выборку задач, оценку преимуществ для каждой задачи и алгоритм адаптивной оптимизации политики с управлением энтропией (AEPO). Для сверхдлинных контекстов, превышающих типичные ограничения окна (например, 4 миллиона токенов), QwenLong-L1.5 интегрирует архитектуру с расширенной памятью, использующую многоэтапное слияние RL, сочетающее однопроходные рассуждения с итеративной обработкой на основе памяти. Созданный на основе Qwen3-30B-A3B-Thinking, QwenLong-L1.5 демонстрирует производительность, сопоставимую с такими моделями, как GPT-5 и Gemini-2.5-Pro, в тестах на логическое мышление с длинным контекстом. Он заметно превосходит свой базовый показатель в среднем на 9,90 баллов и демонстрирует прирост в 9,48 баллов в сверхдлительных задачах благодаря своей системе агентов памяти. Эти улучшения также приводят к повышению производительности в таких общих областях, как научное мышление, использование инструментов памяти и расширенный диалог.

#QwenLongL1_5 #LongContextReasoning #LLMs #PostTraining #MemoryManagement #ReinforcementLearning #AI #NaturalLanguageProcessing

статья - https://modelscope.cn/papers/2512.12967
подписаться - https://t.me/arxivpaper
пожертвования:
USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr
ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e
создано с помощью NotebookLM

QwenLong-L1.5: Посттренировочный алгоритм для рассуждений в длительном контексте и управления пам...

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

AgREE: Агентное рассуждение для завершения графа знаний о возникающих сущностях

AgREE: Агентное рассуждение для завершения графа знаний о возникающих сущностях

Что произойдет, если все данные для обучения будут сгенерированы ИИ?

Что произойдет, если все данные для обучения будут сгенерированы ИИ?

Как я разбираю задачи на LeetCode, чтобы действительно улучшить свои навыки.

Как я разбираю задачи на LeetCode, чтобы действительно улучшить свои навыки.

Проблема масштабирования ИИ

Проблема масштабирования ИИ

я ВПУСТУЮ потратил 4 года на изучение английского

я ВПУСТУЮ потратил 4 года на изучение английского

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

How to Give Your AI Agent Long-Term Memory

How to Give Your AI Agent Long-Term Memory

Появляется новый тип искусственного интеллекта, и он лучше, чем LLMS?

Появляется новый тип искусственного интеллекта, и он лучше, чем LLMS?

Нейронка, которая УНИЧТОЖИЛА ChatGPT 5! / Обзор бесплатной нейросети и ее возможности

Нейронка, которая УНИЧТОЖИЛА ChatGPT 5! / Обзор бесплатной нейросети и ее возможности

[Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han

[Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han

Вложенное обучение: расшифровка глубокой архитектуры и памяти.

Вложенное обучение: расшифровка глубокой архитектуры и памяти.

Как мы разрабатываем Production-Ready AI агентов: архитектура, RAG и инструменты

Как мы разрабатываем Production-Ready AI агентов: архитектура, RAG и инструменты

Большинство разработчиков не понимают, как работают контекстные окна.

Большинство разработчиков не понимают, как работают контекстные окна.

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

Как я учусь в 10 раз быстрее: Система с AI, Perplexity и NotebookLM

Как я учусь в 10 раз быстрее: Система с AI, Perplexity и NotebookLM

Мертвые лососи в интерпретации искусственного интеллекта

Мертвые лососи в интерпретации искусственного интеллекта

Как Сделать Настольный ЭЛЕКТРОЭРОЗИОННЫЙ Станок?

Как Сделать Настольный ЭЛЕКТРОЭРОЗИОННЫЙ Станок?

Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 9 - Recap & Current Trends

Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 9 - Recap & Current Trends

Почему простого объяснения нет? Эйнштейновские сжатия, которые невозможно понять

Почему простого объяснения нет? Эйнштейновские сжатия, которые невозможно понять

Топ-17 технологий, которые перевернут 2026 год

Топ-17 технологий, которые перевернут 2026 год

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]