蚂蚁灵波开源LingBot系列模型,具身智能研发迎来新范式与新助力

   时间:2026-02-10 02:51 来源:快讯作者:柳晴雪

随着具身智能技术的快速发展,传统视觉-语言-动作(VLA)模型正面临数据瓶颈与复杂场景适应性挑战。物理世界动态数据的稀缺性,成为制约机器人智能化水平提升的关键因素。在此背景下,蚂蚁灵波宣布开源LingBot系列模型,通过构建覆盖感知、理解、模拟、行动的完整技术栈,为行业提供了一套可复用的具身智能基础设施。

作为系列模型的核心突破,LingBot-VA首创"自回归视频-动作范式",通过融合视频生成与运动控制技术,使机器人具备"先思后行"的决策能力。该模型采用Mixture-of-Transformers架构,将视觉推演(视频流)与运动控制(动作流)解耦设计,既共享注意力机制又保持独立计算。在执行任务前,系统会先模拟未来3-5秒的世界状态变化,结合实时传感器反馈形成闭环修正,最终输出最优动作序列。这种设计使机器人在制作早餐、双臂协作等长时序任务中的成功率提升20%,在RoboTwin 2.0基准测试中突破90%成功率。

支撑LingBot-VA的是三大技术创新机制:闭环推演系统通过持续校准模拟与现实的偏差,防止"幻觉漂移";异步推理管线实现动作预测与电机执行的并行处理,将响应延迟降低40%;自回归训练框架使模型能够从有限的真实数据中学习复杂场景的时空关联。这些特性使该模型在LIBERO终身学习基准上达到98.5%的平均成功率,显著优于传统VLA模型。

同步开源的LingBot-Depth空间感知模型,通过多光谱融合技术解决了透明/反光物体的识别难题。该模型采用神经辐射场(NeRF)与几何约束相结合的方法,使透明物体抓取成功率从0提升至50%,在医疗试管插拔等精细操作中表现出色。其输出的高精度深度信息可与LingBot-VLA无缝对接,形成"视觉-认知-执行"的增强回路。

作为机器人的"数字演练场",LingBot-World通过多阶段训练架构实现了近10分钟的连续视频生成能力。该模型采用时空注意力机制与动态物体建模技术,有效解决了长时生成中的物体变形、场景崩溃等问题。在模拟环境中,机器人可进行数万次低成本试错学习,将真实世界训练效率提升3倍以上。这种"数字孪生"训练方式,为具身智能的规模化部署提供了关键支撑。

LingBot-VLA作为认知中枢,基于2万小时真实机器人操作数据训练,支持9种主流双臂机器人构型的零样本迁移。该模型采用分层决策架构,将复杂任务分解为可执行的子动作序列,在GM-100基准测试中超越基线模型Pi0.5。其独特的跨构型适应能力,使同一"大脑"可无缝切换至不同硬件平台,显著降低机器人系统的开发成本。

行业专家指出,蚂蚁灵波的全栈开源策略打破了传统具身智能研发的"烟囱式"局限。开发者既可单独使用某个模块解决特定问题,也能组合构建完整系统。这种开放生态有望加速技术迭代,推动具身智能从实验室走向工业制造、医疗护理、家庭服务等真实场景。据测试数据显示,采用LingBot系列模型的研发周期可缩短60%,工程化成本降低45%,为机器人大规模部署扫清了关键障碍。

 
 
更多>同类内容
全站最新
热门内容