FlashRL:探讨现代 RL 框架中推理与训练的错位问题及解决方案|青稞Talk 75期
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке:
NeMo RL:让大规模 MoE 模型权重 Refit 加速 10 倍|青稞Talk 76期
从 π_0 到 π_RL:面向流匹配 VLA 的强化学习后训练框架 | 青稞Talk95期
UserRL & UserBench “知人者智”:以用户为中心的智能体交互与训练|青稞Talk 79期
RLinf:面向具身智能的“渲训推一体化”开源强化训练框架|青稞Talk 92期
RLinf-VLA 实践:从零上手 VLA(OpenVLA )强化学习|青稞Talk 94期
从 DeepSeek-OCR 到 Glyph:深入理解图像-文本压缩技术|青稞Talk 86期
Отъём жилья. Не только Долина. Статус S09E15
Разведчик о том, как использовать людей
Америка на краю / Нужна Новая Холодная война / №1061 / Юрий Швец
Поправки в Налоговый Кодекс приняли. Разбираем изменения
Бизнесу НЕ ВЫЖИТЬ в России! 5 причин почему вам не нужно открывать свой бизнес / Борис Зарьков
4 Hours Chopin for Studying, Concentration & Relaxation
Объяснение тензорных процессоров (TPU)
Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности
统一 SFT & RL:迈向大型语言模型后训练的统一视角|青稞Talk 83期
НДС 22%: НАЛОГ на банковские карты?
【人工智能】推理的本质 | Denny Zhou斯坦福讲座 | 什么是推理 | 思考的必要性 | 思维链提示 | 贪婪解码 | 置信度 | step-by-step | SFT | 验证器
从 LLM-RL 到 Agentic RL:如何让语言模型成为自主智能体|青稞Talk 78期
ShotBench: 面向增强MLLM摄影语言理解能力的训练与评估体系|青稞Talk 90期
RL for LRMs:探讨面向推理模型的 RL 最新研究|青稞Talk 80期