具身智能开源模型加速发展,中美同步探索下通用机器人未来可期

   时间:2025-09-12 15:36 来源:ITBEAR作者:陆辰风

作为人工智能与机器人交叉领域的核心方向,具身智能正引领全球科技变革。其中,机器人大模型作为“智能中枢”,正在推动机器人突破单一任务限制,向复杂环境下的自主学习与进化迈进。近期,中美两国具身智能企业几乎同步开源模型,标志着这一领域的技术生态进入爆发期。

9月8日,中国自变量机器人公司开源了具身模型WALL-OSS;次日,美国Physical Intelligence(PI)公司也发布了π₀.₅模型。这一“巧合”引发行业热议,被视为具身智能迈向成熟的关键信号。回顾语言大模型发展路径,从2018年开源社区初步探索,到2020年ChatGPT-3引发全球关注,技术迭代用了三年。如今,机器人大模型是否也站在了“GPT-3时刻”的门槛上?

在近期的一场技术对话中,自变量机器人CTO王昊与PI研究员柯丽一鸣(π₀、π₀.₅论文作者)深入探讨了这一话题。他们认为,2025年机器人模型领域最显著的突破是“泛化能力”与“长程任务”的突破。柯丽一鸣以叠衣服任务为例:“过去二十年,机器人叠衣服始终面临挑战,因为衣物褶皱、折叠顺序的多样性远超想象。但到2025年,模型已能将π₀.₅部署到陌生家庭环境中,完成抓取、移动等基础操作,尽管表现不完美,却展现出类似人类的适应性。”

王昊进一步指出,通用机器人基础模型的发展,使机器人从“单任务专家”转向“多任务学习者”。例如,2023年前,机器人需针对每个任务单独优化;如今,统一模型可同时学习数百种任务,优化目标从“单一任务极致”转向“全局任务平均成功率”。这种指数效应让机器人能处理包含连续步骤、需多步推理的复杂任务(如整理餐桌、布置餐具),成为行业最令人兴奋的现象。

然而,泛化能力的提升仍面临三大挑战。首先是物理世界的“长尾效应”:光照变化、桌布褶皱、透明物体反光等微小扰动,可能导致任务失败。人类能凭直觉适应,但依赖数据驱动的AI模型仍需突破。其次是长程任务中的误差累积:微小扰动可能像滚雪球一样放大,最终导致任务失败。王昊强调,需构建理解物理常识的模型基础,让机器人具备空间推理与因果推理能力。最后是数据质量与数量的平衡:高质量数据需精心设计,但追求数量时难以兼顾细节;低质量数据则可能影响模型性能。

数据采集的“真机维护”问题也被频繁提及。柯丽一鸣笑称:“做机器人研究,每天都在拧螺丝。”她回忆,早期研究时,硬件故障频发,新人常因维修压力而放弃。如今,尽管硬件稳定性提升,但真机维护仍是门槛。王昊补充道,机器人数据采集受限于硬件场地、操作员效率,成本高昂。为此,行业探索了多种解决方案:低成本本体、穿戴式传感器、人类视频数据等。其中,人类视频数据规模大、成本低,但仅能提供高级语义理解与任务规划,难以直接生成动作级数据。

在模型架构上,中美企业呈现出不同路径。自变量机器人主张“端到端”训练,将语言、视觉、动作模态统一表征,避免分层导致的信息损失。王昊解释:“训练时,模型可同时学习理解推理与动作生成;部署时,将动作部分压缩蒸馏,语言推理部分放在云端,通过梯度回传更新参数。”而PI则保持开放态度,柯丽一鸣认为:“当前机器人大模型尚未达到GPT-2水平,数据驱动是核心,但具体架构(如双系统分离或端到端)并非首要问题。”

商业化方面,中美企业展现出差异化策略。美国企业倾向于“自上而下”,优先构建超大规模通用模型,再探索应用场景。这得益于其算力优势——顶级芯片与大规模算力集群集中在美国。而中国企业则采取“上下结合”的双轨路径:一方面迭代通用基础模型,另一方面在养老、公共服务等泛化场景中落地,形成数据飞轮。王昊强调:“必须先有大而通用的基础,才能实现小而精的垂直部署。”柯丽一鸣则观察到,中国制造业的硬件需求与场景优势,为机器人商业化提供了独特土壤。

对于家用机器人的落地时间,两位专家给出不同预测。王昊认为,5年内机器人可进入家庭,完成厨房简单任务(如洗碗、切菜),但需人类协作;柯丽一鸣则保守估计5-10年,她以扫地机器人为例:“早期产品不完美,但用户明确其能力边界,这种模式值得借鉴。”他们一致认为,机器人需跨越数据、算法、供应链、商业模式等多重门槛,才能真正实现规模化应用。

 
 
更多>同类内容
全站最新
热门内容