SOP 本身是一套通用的框架,可以即插即用的使用任意后训练算法,让 VLA 从在线经验数据中获益。我们选取 HG-DAgger(交互式模仿学习)与 RECAP(离线强化学习)作为代表性算法,将其接入 SOP 框架以进化为分布式在线训练。
IT之家 1 月 6 日消息,智元具身研究中心提出 SOP(Scalable Online Post-training)—— 一套面向真实世界部署的在线后训练系统。官方称,这是业界首次在物理世界的 VLA 后训练中,系统性地融合在线学习、分布式架构与多任务通才性,使机器人集群能够在真实环境中持续进化,让个体经验在群体中高效复用,从而将“规模”转化为“智能”。
一直以来,人形机器人行业对选用何种类型数据进行训练存在争议。有厂商使用模拟仿真工具进行训练,也有厂商选用真机进行训练。后者的训练方式一度被业内诟病,认为缺乏真实场景的训练,即训练出来的人形机器人无法部署于真实场景。