音声_Deepseek-r1 強化学習でAIが獲得した思考とひらめき

Автор: 論文紹介チャネル

Загружено: 2025-12-08

Просмотров: 2

Описание:

Guo, Daya, et al. "Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning." arXiv:2501.12948 (2025).

DeepSeek-R1：強化学習による大規模言語モデルの推論能力向上

本ブリーフィングは、DeepSeek-AIが開発した新世代の推論モデル、DeepSeek-R1-ZeroおよびDeepSeek-R1に関する核心的な知見を要約したものである。最大の発見は、教師ありファインチューニング（SFT）を介さずに、純粋な強化学習（RL）のみで大規模言語モデル（LLM）の高度な推論能力を誘発できることを実証した点にある。このアプローチにより開発されたDeepSeek-R1-Zeroは、自己検証やリフレクションといった複雑な推論行動を自律的に獲得した。
DeepSeek-R1-Zeroの成功を基に、より実用的で高性能なDeepSeek-R1が開発された。このモデルは、少量の高品質データを用いた「コールドスタート」から始まり、複数段階のRLとSFTを組み合わせたパイプラインを経て訓練される。その結果、DeepSeek-R1は、数学やコーディングなどの主要な推論ベンチマークにおいて、OpenAIのo1-1217に匹敵する性能を達成した。
さらに、DeepSeek-R1で発見された推論パターンをより小規模なモデルに移植する「蒸留」の有効性も示された。この手法により、QwenやLlamaベースの複数の小規模モデルが、既存の最先端オープンソースモデルを大幅に上回る性能を獲得した。本研究は、大規模な強化学習がLLMの推論能力を飛躍的に向上させる新たな道筋を提示し、その知見をコミュニティに還元するものである。

音声_Deepseek-r1 強化学習でAIが獲得した思考とひらめき

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Как внимание стало настолько эффективным [GQA/MLA/DSA]

РОЛАН БЫКОВ знал ТАЙНЫ советского кино! Высоцкий, Пугачёва, Тарковский - правда ШОКИРУЕТ!

РОЛАН БЫКОВ знал ТАЙНЫ советского кино! Высоцкий, Пугачёва, Тарковский - правда ШОКИРУЕТ!

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Понимание Active Directory и групповой политики

Понимание Active Directory и групповой политики

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

20 концепций искусственного интеллекта, объясненных за 40 минут

20 концепций искусственного интеллекта, объясненных за 40 минут

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

DeepSeek OCR: как сжать контекст в 10 раз (и зачем). РАЗБОР АРХИТЕКТУРЫ

DeepSeek OCR: как сжать контекст в 10 раз (и зачем). РАЗБОР АРХИТЕКТУРЫ

Ускоренный курс LLM по тонкой настройке | Учебное пособие LLM по тонкой настройке

Ускоренный курс LLM по тонкой настройке | Учебное пособие LLM по тонкой настройке

Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение

Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение

Объяснение Transformers: понимание модели, лежащей в основе GPT, BERT и T5

Объяснение Transformers: понимание модели, лежащей в основе GPT, BERT и T5

Как работала машина

Как работала машина "Энигма"?

Роналдо против моего непобедимого вратаря-робота

Роналдо против моего непобедимого вратаря-робота

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

Каково это — изобретать математику?

Каково это — изобретать математику?

Foundry IQ для баз знаний ИИ из нескольких источников

Foundry IQ для баз знаний ИИ из нескольких источников

Что такое генеративный ИИ и как он работает? – Лекции Тьюринга с Миреллой Лапатой

Что такое генеративный ИИ и как он работает? – Лекции Тьюринга с Миреллой Лапатой

Понимание GD&T

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей