小米公司近日宣布,正式推出并开源其首款机器人视觉语言动作(VLA)大模型Xiaomi-Robotics-0,标志着具身智能领域迎来重要技术突破。该模型以47亿参数规模实现视觉语言理解与实时动作执行的深度融合,突破了传统VLA模型因推理延迟导致的物理世界交互瓶颈,在消费级硬件上即可完成高效推理,多项性能指标刷新行业纪录。
传统VLA模型虽具备强大的泛化能力,但高延迟问题严重制约了机器人在动态环境中的响应速度。小米研发团队通过架构创新破解这一难题,采用"大脑+小脑"双核心设计:以多模态视觉语言模型(VLM)构建认知中枢,可解析人类模糊指令并识别复杂空间关系;通过多层扩散变换器(DiT)搭建动作执行模块,利用"动作块"生成技术与流匹配算法,确保机器人动作的精准性与高频性。这种混合架构使模型在保持认知能力的同时,将物理交互延迟降低至行业领先水平。
在训练体系方面,小米独创跨模态两阶段训练法。预训练阶段通过动作提议机制实现视觉特征与动作空间的深度对齐,在冻结VLM参数的前提下专项优化DiT模块,使模型同时掌握物体识别、逻辑推理与操作技能。后训练阶段引入异步推理框架,结合清洁动作前缀与Λ型注意力掩码技术,有效解决真实机器人执行中的动作断层问题,既保证运动轨迹的连续性,又强化了对实时视觉反馈的响应能力。
为推动技术生态建设,小米已全面开源Xiaomi-Robotics-0的技术文档、训练代码及模型权重,提供完整的开发工具链支持。与此同时,小米机器人团队正式启动全球人才招募计划,面向计算机视觉、强化学习、机器人控制等领域专家,共同探索物理智能的前沿边界。此次开源不仅为学术界提供重要研究基准,更为工业界落地具身智能应用开辟了新路径。












