2025年12月12日,中国信息通信研究院(以下简称 “中国信通院”)深度观察报告会在北京举行。会上,由中国信通院与清华大学电子工程系联合攻关编撰、共同拥有完整知识产权的《具身智能发展报告(2025年)》正式发布,工业和信息化部科技司科技发展处处长王正、中国信通院人工智能研究所所长魏凯、清华电子系长聘教授、系主任汪玉共同发布了这份凝聚双方合力的重要成果。
中国信通院凭借深厚的行业积累,搭建报告整体框架,统筹开展产业调研、场景梳理及标准衔接相关工作,为报告奠定了扎实的产业实践基础;清华电子系发挥学术研究优势,牵头完成核心章节撰写,聚焦具身智能机器人无本体数据采集、强化学习支撑模型训练等关键技术方向,提供 RLinf 强化学习框架等相关技术成果与学术见解,为报告的专业性和实操性提供有力支持。

《具身智能发展报告(2025年)》发布现场
随后,汪玉受邀发表《迈向具身决策智能:强化学习算法与基础设施协同演进》主旨演讲,并参与圆桌论坛。

清华电子系长聘教授、系主任汪玉受邀发表《迈向具身决策智能 强化学习算法与基础设施协同演进》主旨演讲
主旨演讲
锚定物理世界智能:强化学习成核心驱动力
汪玉指出,人工智能正从数字世界向物理世界发展,与清华电子系 “十五五规划” 聚焦 “物理世界的智能” 高度契合。具身智能系统能力提升需硬件支撑,核心是 “脑的训练”。强化学习(Reinforcement Learning,RL)作为决策智能关键路径,其在物理空间潜力全面激活,有望成为具身大模型(Vision-language-action model,VLA)未来训练范式,Physical Intelligence、字节跳动等机构的探索颇具代表性。
技术突破实证:从算法优化到框架创新
汪玉分享了清华电子系团队的 VLA+RL 算法研究,通过系统性分析证实,强化学习相比数据驱动的 SFT 技术,能显著增强具身大模型的语义泛化与执行泛化能力。他强调算力基础设施是算法创新的关键支撑,针对 VLA+RL 领域缺乏成熟框架的痛点,团队推出首个面向具身智能的大规模强化学习框架 RLinf。该框架创新采用 “宏到微流变换” 编程范式,解耦上层逻辑与底层优化,兼具过程式编程的灵活性、易调试性和声明式编程的编译优化能力,其专为具身智能设计的混合细粒度流水模式,较现有框架提速2.27倍。RLinf v0.1 具备 “仿训推一体化” 特性,已支持5种具身大模型、6种仿真器及4种强化学习算法,开源的首个流式 VLA 模型方案 引发广泛关注,自2025年9月1日发布以来,三个月内斩获 1.7K GitHub Star,成为领域内颇具影响力的开源工具。
协同演进与生态构建:迈向真机训练新时代
汪玉强调,具身智能需 “算法与基础设施协同演进”,契合清华电子系 “算法与硬件协同” 特色。团队正致力于研发大规模真机强化学习训练框架,计划2025年12月发布RLinf v0.2版本,2026年2、3月份完成生态构建,目标让每台机器 “像 GPU 一样灵活易用”。该框架由团队年轻教师主导研发,诚邀行业伙伴共建开源生态。
圆桌论坛
主旨演讲结束后,“具身智能破晓时刻的‘破’与‘立’” 圆桌论坛如期举行,由中国信通院人工智能研究所所长魏凯主持,汪玉与自变量机器人CEO王潜、国家地方共建人形机器人创新中心副总经理刘宇飞、百度智能云副总经理张龙君同台对话。汪玉指出,具身智能发展需整合所有能力的大模型,2025年机器人运动控制显著提升,真机强化学习将迎阶段性成果,行业仍处初级阶段,核心短板为数据与模型能力,未来1-3年半封闭场景可人类接管的具身智能将批量落地, 呼吁央企国企加强和高校合作,加大校企合作的投入。嘉宾们多维度探讨,为具身智能从 “技术热” 走向 “产业热” 提供宝贵洞见。

圆桌论坛现场
供稿|电子系机关办公室
编辑|陶旋姿
审核|汪 玉 沈 渊 李冬梅