Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
dTub
Скачать

The Irony of RL in LLMs (And its insane new Meta)

Автор: bycloud

Загружено: 2026-01-21

Просмотров: 10060

Описание:

Start learning cyber security with TryHackMe: https://tryhackme.com/bycloud Use my code "BYCLOUD25" to get 25% off on annual subscription!

This video breaks down what's wrong with scaling RL for LLMs, especially in the direction of reaching AGI, but why RL still matters. As RL is noisy and can hurt generalization, yet it enables exploration and self-correction that pretraining can’t, we are stuck between a rock and a hard place with this direction. We’ll also look at why LoRA is becoming the practical way to do RL cheaply, swappable adapters that can match full fine-tuning on reasoning and make personalized agents easier to deploy, which might look like a promising future direction to apply RL on a massive scale.


my latest project: Intuitive AI Academy
https://intuitiveai.academy/
code "NYNM" for 50% off forever (limited to 50)


Dwarkesh Podcast w/ AK
[YouTube]    • Andrej Karpathy — “We’re summoning ghosts,...  

Dwarkesh Podcast w/ Ilya
[YouTube]    • Ilya Sutskever – We're moving from the age...  

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning
[Paper] https://arxiv.org/abs/2506.01939

The Path Not Taken: RLVR Provably Learns Off the Principals
[Paper] https://arxiv.org/abs/2511.08567

LoRA Without Regret
[Blog] https://thinkingmachines.ai/blog/lora/

Tina: Tiny Reasoning Models via LoRA
[Paper] https://arxiv.org/abs/2504.15777

Tinker
[Website] https://thinkingmachines.ai/tinker/


My Newsletter
https://mail.bycloud.ai/

My Patreon
  / bycloud  


Try out my new fav place to learn how to code https://scrimba.com/?via=bycloudAI

This video is supported by the kind Patrons & YouTube Members:
🙏Spam Maj, Alex, Chris LeDoux, DX Research Group, Poof N' Inu, Deagan, Robert Zawiasa, Ryszard Warzocha, Tobe2d, Louis Muk, Akkusativ, Kevin Tai, Mark Buckler, NO U, Tony Jimenez, Ângelo Fonseca, jiye, Anushka, Asad Dhamani, Binnie Yiu, Calvin Yan, Clayton Ford, Diego Silva, Etrotta, Gonzalo Fidalgo, Handenon, Hector, Jake Disco very, Michael Brenner, Nilly K, OlegWock, Daddy Wen, Shuhong Chen, Sid_Cipher, Stefan Lorenz, Sup, tantan assawade, Thipok Tham, Thomas Di Martino, Thomas Lin, Richárd Nagyfi, Paperboy, mika, Leo, Berhane-Meskel, Kadhai Pesalam, mayssam, Bill Mangrum, nyaa, Toru Mon, Lame Plane, Matej Macak


[Discord]   / discord  
[Twitter]   / bycloudai  
[Patreon]   / bycloud  
[Business Inquiries] bycloud@smoothmedia.co
[Profile & Banner Art]   / pygm7  
[Video Editor] Abhay and ‪@Booga04‬
[Ko-fi] https://ko-fi.com/bycloudai

The Irony of RL in LLMs (And its insane new Meta)

Поделиться в:

Доступные форматы для скачивания:

Скачать видео mp4

  • Информация по загрузке:

Скачать аудио mp3

Похожие видео

it only took 2 characters

it only took 2 characters

Palantir убивает людей? Но кто на самом деле нажимает на кнопки?

Palantir убивает людей? Но кто на самом деле нажимает на кнопки?

I paid $40,000.00 for licensed code in hopes of open-sourcing it.

I paid $40,000.00 for licensed code in hopes of open-sourcing it.

What If You Keep Slowing Down?

What If You Keep Slowing Down?

Перетест Ai MAX+ 395 в жирном мини-ПК и тест AMD 8060s vs Intel B390

Перетест Ai MAX+ 395 в жирном мини-ПК и тест AMD 8060s vs Intel B390

Could Europe Dump US Treasuries?

Could Europe Dump US Treasuries?

Apple's Foldable is Not What You Think

Apple's Foldable is Not What You Think

Microsoft Reacts to “One-Click” Copilot Hack

Microsoft Reacts to “One-Click” Copilot Hack

Как 27M Model вообще смогла обойти ChatGPT?

Как 27M Model вообще смогла обойти ChatGPT?

The language behind billion dollar startups

The language behind billion dollar startups

A Random Developer Just Solved Adobe On Linux

A Random Developer Just Solved Adobe On Linux

The REAL Reason AI Can’t Be Stopped Now

The REAL Reason AI Can’t Be Stopped Now

Я ОТКАЗАЛСЯ от N8N после 3 лет! И вот почему.

Я ОТКАЗАЛСЯ от N8N после 3 лет! И вот почему.

Программирование на ассемблере без операционной системы

Программирование на ассемблере без операционной системы

ОБЫЧНЫЙ VPN УМЕР: Чем обходить блокировки в 2026

ОБЫЧНЫЙ VPN УМЕР: Чем обходить блокировки в 2026

Новая триада открытого исходного кода для ИИ

Новая триада открытого исходного кода для ИИ

Как электростатические двигатели нарушают все правила

Как электростатические двигатели нарушают все правила

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

Как обойти Антиплагиат в 2026 с НЕЙРОСЕТЯМИ

Как обойти Антиплагиат в 2026 с НЕЙРОСЕТЯМИ

© 2025 dtub. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: infodtube@gmail.com