4月17日下午, “机器人行业奋斗中的清华人”系列讲座第二讲在清华大学电子工程馆举办。本次活动邀请了清华大学校友、具身智能初创公司自变量机器人的创始人、CEO王潜,带来“基于具身大模型构建可精细操作的通用机器人”主题讲座。

王潜做主题演讲
王潜指出,当前具身机器人主要聚焦于三个关键方向:运动控制(locomotion)、导航(navigation)和操作(manipulation)。其中,“操作”被认为是最具挑战性、也是制约机器人走向实用化的核心难题。相较于自动驾驶或行走机器人,操作任务的复杂性主要体现在物理接触过程中,涉及推理判断、状态估计以及操作精度等多个方面,技术门槛极高。面对这一系列挑战,自变量团队选择采用端到端的模型架构作为解决方案。然而,端到端模型本身也带来了一些新的困难。第一个难点在于,仿真环境与真实世界之间存在较大的“仿真到现实”(sim-to-real)差距,同时强化学习中庞大的状态空间也加剧了训练难度。对此,自变量采用了基础模型与真实数据相结合的端到端训练范式,使统一的基础模型能够学习跨任务的共性知识,从而显著减少学习新任务所需的数据量。第二个难点则在于,当前的具身智能与真正的通用人工智能之间仍存在差距,尤其是在推理能力方面。为此,自变量通过混合任务训练进一步提升模型的泛化能力,其端到端模型不仅具备出色的任务迁移能力,还展现出良好的语言指令理解和执行能力。

同学们认真聆听王潜讲解端到端具身模型最新工作
在讲座后的问答环节中,王潜热情回答了参会同学提出的问题,包括机器人实体的设计考虑、端到端模型与分层模型的优劣、大模型训练与微调需要的数据量等。
在4月19日上午,机器人行业奋斗中的清华人系列讲座第三讲,邀请到清华大学深圳国际研究生院副教授、发展规划办主任、国家青年特聘专家、国家重点研发计划青年项目首席科学家丁文伯博士,带来“视觉与触觉的交融——面向复杂目标的感知与抓取技术”主题讲座。

丁文伯做主题演讲
在讲座的开头,丁文伯强调了宽口径打基础和跨学科交叉融合的重要性。他以自身经历为引,讲述了自己从本科和博士时期在电子系做信号处理、无线通信,到博后期间前往佐治亚理工学院开展材料相关的研究,再到现在带领实验室做机器人和具身触觉,能够在多个领域灵活转变并从触觉角度进入具身机器人行业,一定程度上得益于电子系宽口径的教育模式。
随后,丁文伯切入正题,带来了以“视觉与触觉的交融——面向复杂目标的感知与抓取技术”为题的精彩分享。首先,他介绍了智能机器人系统中重要部件——触觉传感器,分析了电学传感和光学传感方式,接着探讨了柔性电子皮肤面临的成本高、耐用性差等“卡脖子”难题。丁文伯的解决思路是从光的角度感知触觉,设计视触觉传感器,即创新性地通过摄像头加薄膜,利用光场变化反推受力的方法。他接着分享了视触融合抓取、咽拭子采样、多光谱视触觉传感器等一系列研究成果,以及如何进一步将光(视触)和电(E-Skin)融合,同时探讨了多模态触觉感知与大语言模型结合模拟人类触觉感知能力的可能。最后,丁文伯介绍了科学研究的范式跃迁,分享了自己对具身触觉未来发展方向的思考。

同学们认真聆听丁文伯讲解视触融合抓取最新工作
在提问环节,同学们围绕触觉数据集、技术应用场景等问题踊跃提问,丁文伯一一为大家答疑解惑。此次课程不仅是知识的传递,更为同学们打开了学术探索的新视野。

丁文伯详细解答同学们的问题
🎯 报名通道限时开放!加入我们,探索机器人前沿!

目前系列讲座仍开放少量学员名额,欢迎对具身智能、机器人技术感兴趣的同学扫码报名!
温馨提示:
期待与你一起
见证清华人
在机器人行业的创新与突破
排版|陶旋姿
审核|汪 玉 沈 渊 李冬梅