在人与人的交流中,我们的目光常常聚焦于对方的眼睛,这不仅是情感传递的窗口,更是理解彼此意图的重要途径。然而,当环境变得嘈杂,视线便不自觉地转向嘴唇,试图通过唇形变化捕捉言语中的微妙信息。这种自然的交流方式,却成为当前人形机器人研发中的一大挑战——如何让机器人的面部表情,尤其是唇部动作,更加自然流畅,成为跨越“恐怖谷效应”的关键。
哥伦比亚大学博士胡宇航创立的首形科技,正致力于破解这一难题。这家初创公司不走寻常路,将研发重心放在赋予机器人面部情绪表达能力上,而非追求运动或操作能力的极致。这一策略成效显著,不仅赢得了多轮融资,更在社交媒体和市场上引发广泛关注。近日,胡宇航团队的研究成果登上《科学·机器人学》封面,展示了其研发的Emo面部机器人如何实现与语音、歌曲同步的唇部运动,标志着人脸机器人领域的一大突破。
胡宇航指出,嘴唇是面部动作最丰富的部位,其运动复杂性远超想象。不同于眉毛等单一方向运动的面部特征,嘴唇由多个肌肉群驱动,运动过程中频繁接触与分离,对时间精度极为敏感,同时承载语言、情感与社交信号。这使得嘴唇运动的建模成为一项高维、非线性、强闭环的生成式形变问题,挑战重重。
面对如此复杂的任务,如何客观衡量机器人嘴唇运动的“真实性”成为关键。胡宇航团队提出创新方法,利用合成参考视频作为理想同步基准,在VAE编码器的潜空间中计算机器人嘴唇运动与参考视频之间的距离,从而刻画整体嘴型动态与时序结构的偏差。这一方法避免了依赖易受噪声干扰的二维关键点,为连续语音与多语言场景下的音频-视觉同步误差评估提供了客观度量标准。
传统机器人嘴唇同步方法主要依赖手工预定义的运动规则和固定的音素-视位映射表,存在明显局限。同一音素的发声速度因说话人、场景或情绪而异,多语言、歌唱或方言等场景下基于音素设计规则需投入巨大手工工作量,且机器人硬件升级时所有动作几乎需重新编排。这种方法隐含音素与嘴型稳定一对一映射的假设,与真实人类发音机制不符,导致生成嘴型序列“正确但僵硬”。
相比之下,数据驱动方法能够从真实人类与机器人发音数据中学习复杂统计规律与隐含约束,突破规则方法在泛化性、可扩展性和自然性上的瓶颈。胡宇航团队设计的两阶段“自监督学习系统”正是这一思路的体现:第一阶段机器人“照镜子”建立自我模型,明确自身硬件与软体结构下可实现的运动;第二阶段观看人类视频学习嘴唇运动规律,并通过自我模型将这些规律投射到自身可执行的动作空间中。
实验结果显示,该系统能在11种语言中实现自然的嘴唇同步,包括英语、法语、日语、韩语等。这一“跨语言”能力源于系统学习的是人类发音过程中更底层的肌肉运动模式,而非具体语言或音素。在两阶段自监督框架下,模型捕捉声音节奏与嘴唇动作之间跨越语言边界的共性规律,如张合节律、闭合-释放结构等,从而适应多种语言、语速和说话风格。
尽管成果显著,系统仍面临技术挑战,尤其是硬辅音(如/b/、/p/、/m/、/w/)的处理。这些音素发音速度快,涉及多重约束条件,如/b/、/p/、/m/需在极短时间内完成“闭合—保持—释放”动作,/w/则要求双唇闭拢、前突形成圆形,同时配合口腔形状连续变化。模型需在毫秒级时间精度下协调多个高度耦合的自由度,应对软体接触、非线性阻尼等物理因素,难度极高。
当前方法在极端语音场景下表现欠佳,如语速极快、多人同时说话、歌唱颤音等。胡宇航认为,这反映了方法的本质边界,即模型主要学习典型对话语境下声学时序与嘴唇运动之间的关系。然而,这些失效案例也为未来研究指明了方向,随着训练数据丰富和模型能力提升,边界场景处理能力有望逐步改善。
当被问及技术是否会从唇部动作扩展到整个面部表情系统时,胡宇航给出肯定回答。他表示,团队最终目标是实现完整的类人交互,协调唇部动作与眼神、眉毛等其他面部要素,形成统一而细腻的情感表达。这不仅是技术上的自然延伸,更是对人机交互本质的深度探索。当机器人能够用整张脸来表达和理解情绪时,它与人类的关系将发生更深刻的转变。











