在具身智能数据采集领域,一项突破性技术方案引发关注。蚂蚁数科天玑实验室团队研发的AoE(Always-On Egocentric)持续性第一人称视频采集框架,以“手机+颈挂式支架”的轻量化组合,成功替代了传统价值数万美元的专业设备,将具身数据采集成本压缩至20美元以内。这一创新不仅解决了规模化采集的硬件门槛问题,更通过端云协同技术实现了数据处理的自动化闭环,相关研究成果已发表于预印本平台Arxiv。
技术核心在于将人体转化为“移动数据工厂”。研发团队设计的颈挂式支架采用人体工学设计,通过磁吸与机械夹具双重固定方式,确保手机在胸前稳定采集第一人称视角画面。这种持续记录模式完整保留了人与环境的自然交互过程,配合端侧轻量级视觉模型,可实时识别手部动作与物体接触状态,在保持毫米级轨迹精度的同时,实现90%以上的手部关键点识别准确率。实测数据显示,在Unitree G1机器人关电脑任务中,引入200条AoE采集数据后,模型成功率从45%飙升至95%,验证了低成本数据对模型训练的显著提升作用。
数据转化环节的突破同样关键。研究团队构建了“长视频-训练数据”的转化管道:首先通过端侧模型自动识别交互行为触发录制,再利用多模态大模型将连续视频切割为带语义标签的原子动作片段,最终经云端自动标注系统完成数据清洗。这套流程使手机录制的原始视频可直接转化为标准化训练数据,解决了非结构化视频难以直接用于模型训练的行业痛点。更值得关注的是,该方案支持数千台设备并发采集,配合云端调度系统,单日可处理数万小时视频数据,吞吐量较传统人工标注提升百倍。
这项技术突破的背后,是蚂蚁数科在AI toB领域的持续深耕。其天玑实验室以“AI+产业”为战略方向,在数据、安全、金融及具身智能四大领域布局技术转化。2026年以来,该机构先后成立大模型技术创新部,并宣布推出企业级大模型产品。此次发布的AoE框架,正是其“让AI技术扎根真实场景”理念的典型实践——通过降低数据采集门槛,为具身智能在工业维修、家庭服务、医疗护理等场景的落地提供关键基础设施支持。












