青稞AI
青年AI研究员idea加油站,AI开发者新能源充电桩!
从 π_0 到 π_RL:面向流匹配 VLA 的强化学习后训练框架 | 青稞Talk95期
RLinf-VLA 实践:从零上手 VLA(OpenVLA )强化学习|青稞Talk 94期
通过量化与稀疏性实现高效注意力机制|青稞Talk 93期
KTransformers,在大模型微调与推理中的系统化实践|青稞Talk 91期
ShotBench: 面向增强MLLM摄影语言理解能力的训练与评估体系|青稞Talk 90期
Generative RLHF-V: 面向多模态 RLHF 的人类意图对齐框架|青稞Talk 89期
UniLat3D:几何–外观统一VAE的单阶段 3D 生成框架|青稞Talk 88期
RL 训练框架:QeRL,量化技术增强强化学习 Reasoning 探索|青稞Talk 87期
从 DeepSeek-OCR 到 Glyph:深入理解图像-文本压缩技术|青稞Talk 86期
OpenMoE 2: Sparse Diffusion Language Models|青稞Talk 85期
SimpleVLA-RL:简单可拓展的VLA强化学习训练 |青稞talk84期
统一 SFT & RL:迈向大型语言模型后训练的统一视角|青稞Talk 83期
OpenCUA:用于构建 Computer-Use Agent 的开源框架|青稞Talk 82期
RL for LRMs:探讨面向推理模型的 RL 最新研究|青稞Talk 80期
UserRL & UserBench “知人者智”:以用户为中心的智能体交互与训练|青稞Talk 79期
MemGen:生成式隐式记忆,Agent Memory 的第三种可能|青稞Talk 81期
从 LLM-RL 到 Agentic RL:如何让语言模型成为自主智能体|青稞Talk 78期
Theory of Agent: From Definition, to Behavior and Objective |青稞Talk77
NeMo RL:让大规模 MoE 模型权重 Refit 加速 10 倍|青稞Talk 76期
RLite: 用20行代码从头写RL
RL 算法视角下,OpenRLHF 的设计哲学
圆桌Panel
verl: An Open-Source Large-Scale LLM RL Framework for Agentic Tasks
AReaL:可扩展和可定制的面向智能体的强化学习
大模型强化学习的熵机制
ECHO:异构集群上大规模强化学习框架
ROLL: 高效且用户友好的大模型RL训练框架
FlashRL:探讨现代 RL 框架中推理与训练的错位问题及解决方案|青稞Talk 75期
ROLL:面向 Agentic 场景的生产级大规模强化学习训练框架|青稞Talk 74期