[Podcast] The Recipe for Smarter AI

Автор: Vinh Nguyen

Загружено: 2025-12-10

Просмотров: 5

Описание:

Disclaimer: This video is generated with Google's NotebookLM.

https://papers-pdfs.assets.alphaxiv.o...

The text presents a research paper that investigates the causal contributions of pre-training, mid-training, and reinforcement learning (RL) on the reasoning capabilities of language models. Using a fully controlled experimental framework with synthetic reasoning tasks, the authors analyze extrapolative (depth) generalization and contextual (breadth) generalization. The findings indicate that RL produces true capability gains only when pre-training provides sufficient foundational knowledge and when RL targets the model's "edge of competence." Furthermore, the study highlights that mid-training significantly enhances performance and that process-aware rewards effectively mitigate reward hacking.

#ai #research #pretraining #llm #largelanguagemodels #rl #reinforcementlearning

[Podcast] The Recipe for Smarter AI

Доступные форматы для скачивания:

Скачать видео mp4

Информация по загрузке:

Скачать аудио mp3

Похожие видео

[Podcast] GPT-5.2: The AI That Thinks

[Podcast] GPT-5.2: The AI That Thinks

Introduction to large language models

Introduction to large language models

«Экономическая ситуация меняется так, как не предвидели» — Олег Вьюгин

«Экономическая ситуация меняется так, как не предвидели» — Олег Вьюгин

МОЖНО БОЛЬШЕ НЕ БОЯТЬСЯ БУДУЩЕГО Разум молодежи другой ТАТЬЯНА ЧЕРНИГОВСКАЯ

МОЖНО БОЛЬШЕ НЕ БОЯТЬСЯ БУДУЩЕГО Разум молодежи другой ТАТЬЯНА ЧЕРНИГОВСКАЯ

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

[Podcast] When AI Teamwork Fails

[Podcast] When AI Teamwork Fails

Как учиться БЫСТРЕЕ с помощью ИИ — Google NotebookLM

Как учиться БЫСТРЕЕ с помощью ИИ — Google NotebookLM

4 часа Шопена для обучения, концентрации и релаксации

4 часа Шопена для обучения, концентрации и релаксации

Почему теория струн — это не настоящая физика | Роджер Пенроуз, Брайан Грин и Эрик Вайнштейн

Почему теория струн — это не настоящая физика | Роджер Пенроуз, Брайан Грин и Эрик Вайнштейн

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

[Podcast] The Universal Blueprint: Universal Weight Subspace Hypothesis

[Podcast] The Universal Blueprint: Universal Weight Subspace Hypothesis

Принц Персии: разбираем код гениальной игры, вытирая слезы счастья

Принц Персии: разбираем код гениальной игры, вытирая слезы счастья

Why Large Language Models Hallucinate

Why Large Language Models Hallucinate

Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

Разведчик о том, как использовать людей

Разведчик о том, как использовать людей

Если Вам Задают Эти 5 Вопросов — Вами Пытаются Манипулировать - Карл Юнг

Если Вам Задают Эти 5 Вопросов — Вами Пытаются Манипулировать - Карл Юнг

Создаю AI-бизнес на инструментах Google: 6 сервисов, которые работают как фабрика!

Создаю AI-бизнес на инструментах Google: 6 сервисов, которые работают как фабрика!

[Podcast] Scaling AI Agents and Robot Worlds

[Podcast] Scaling AI Agents and Robot Worlds

[Podcast] In the Beginning was the Command Line

[Podcast] In the Beginning was the Command Line

Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности

Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности