青稞AI

青年AI研究员idea加油站，AI开发者新能源充电桩！

从 π_0 到 π_RL：面向流匹配 VLA 的强化学习后训练框架｜青稞Talk95期

从 π_0 到 π_RL：面向流匹配 VLA 的强化学习后训练框架｜青稞Talk95期

RLinf-VLA 实践：从零上手 VLA（OpenVLA ）强化学习｜青稞Talk 94期

RLinf-VLA 实践：从零上手 VLA（OpenVLA ）强化学习｜青稞Talk 94期

通过量化与稀疏性实现高效注意力机制｜青稞Talk 93期

通过量化与稀疏性实现高效注意力机制｜青稞Talk 93期

KTransformers，在大模型微调与推理中的系统化实践｜青稞Talk 91期

KTransformers，在大模型微调与推理中的系统化实践｜青稞Talk 91期

ShotBench: 面向增强MLLM摄影语言理解能力的训练与评估体系｜青稞Talk 90期

ShotBench: 面向增强MLLM摄影语言理解能力的训练与评估体系｜青稞Talk 90期

Generative RLHF-V：面向多模态 RLHF 的人类意图对齐框架｜青稞Talk 89期

Generative RLHF-V：面向多模态 RLHF 的人类意图对齐框架｜青稞Talk 89期

UniLat3D：几何–外观统一VAE的单阶段 3D 生成框架｜青稞Talk 88期

UniLat3D：几何–外观统一VAE的单阶段 3D 生成框架｜青稞Talk 88期

RL 训练框架：QeRL，量化技术增强强化学习 Reasoning 探索｜青稞Talk 87期

RL 训练框架：QeRL，量化技术增强强化学习 Reasoning 探索｜青稞Talk 87期

从 DeepSeek-OCR 到 Glyph：深入理解图像-文本压缩技术｜青稞Talk 86期

从 DeepSeek-OCR 到 Glyph：深入理解图像-文本压缩技术｜青稞Talk 86期

OpenMoE 2: Sparse Diffusion Language Models｜青稞Talk 85期

OpenMoE 2: Sparse Diffusion Language Models｜青稞Talk 85期

SimpleVLA-RL：简单可拓展的VLA强化学习训练｜青稞talk84期

SimpleVLA-RL：简单可拓展的VLA强化学习训练｜青稞talk84期

统一 SFT & RL：迈向大型语言模型后训练的统一视角｜青稞Talk 83期

统一 SFT & RL：迈向大型语言模型后训练的统一视角｜青稞Talk 83期

OpenCUA：用于构建 Computer-Use Agent 的开源框架｜青稞Talk 82期

OpenCUA：用于构建 Computer-Use Agent 的开源框架｜青稞Talk 82期

RL for LRMs：探讨面向推理模型的 RL 最新研究｜青稞Talk 80期

RL for LRMs：探讨面向推理模型的 RL 最新研究｜青稞Talk 80期

UserRL & UserBench “知人者智”：以用户为中心的智能体交互与训练｜青稞Talk 79期

UserRL & UserBench “知人者智”：以用户为中心的智能体交互与训练｜青稞Talk 79期

MemGen：生成式隐式记忆，Agent Memory 的第三种可能｜青稞Talk 81期

MemGen：生成式隐式记忆，Agent Memory 的第三种可能｜青稞Talk 81期

从 LLM-RL 到 Agentic RL：如何让语言模型成为自主智能体｜青稞Talk 78期

从 LLM-RL 到 Agentic RL：如何让语言模型成为自主智能体｜青稞Talk 78期

Theory of Agent: From Definition, to Behavior and Objective ｜青稞Talk77

Theory of Agent: From Definition, to Behavior and Objective ｜青稞Talk77

NeMo RL：让大规模 MoE 模型权重 Refit 加速 10 倍｜青稞Talk 76期

NeMo RL：让大规模 MoE 模型权重 Refit 加速 10 倍｜青稞Talk 76期

RLite: 用20行代码从头写RL

RLite: 用20行代码从头写RL

RL 算法视角下，OpenRLHF 的设计哲学

RL 算法视角下，OpenRLHF 的设计哲学

圆桌Panel

verl: An Open-Source Large-Scale LLM RL Framework for Agentic Tasks

verl: An Open-Source Large-Scale LLM RL Framework for Agentic Tasks

AReaL：可扩展和可定制的面向智能体的强化学习

AReaL：可扩展和可定制的面向智能体的强化学习

大模型强化学习的熵机制

ECHO：异构集群上大规模强化学习框架

ECHO：异构集群上大规模强化学习框架

ROLL: 高效且用户友好的大模型RL训练框架

ROLL: 高效且用户友好的大模型RL训练框架

FlashRL：探讨现代 RL 框架中推理与训练的错位问题及解决方案｜青稞Talk 75期

FlashRL：探讨现代 RL 框架中推理与训练的错位问题及解决方案｜青稞Talk 75期

ROLL：面向 Agentic 场景的生产级大规模强化学习训练框架｜青稞Talk 74期

ROLL：面向 Agentic 场景的生产级大规模强化学习训练框架｜青稞Talk 74期