在博鳌论坛的演讲台上,vivo总裁胡柏山分享了一个令人动容的故事:失明九年的宝哥举起手机,耳机里传来AI的描述:“面前是你的朋友章喜德,他双臂交叉,面带微笑,穿着一件深色长袖。”这一刻,技术跨越了视觉的障碍,让宝哥“看见”了九年来第一个新朋友的面容。这个场景背后,折射出AI发展至今仍面临的深层挑战——如何让智能设备真正感知物理世界?
胡柏山在演讲中指出,当前AI的“盲区”不在于算力,而在于感知能力的缺失。尽管大模型能够处理海量数字数据,生成文字、图像甚至视频,但它无法实时感知用户身边的物理环境。这种感知不是通过云端上传照片后的被动识别,而是像人类视觉系统一样,实现端侧的实时、主动、持续感知。他比喻道:“没有感知能力的AI,就像困在黑屋子里的天才,算力再强也看不见咫尺之外的世界。”
基于这一判断,vivo在内部正式成立了“感知赛道”,将视觉、听觉、触觉等多模态感知通过传感器与感知大模型结合,转化为设备可理解的物理世界信号。胡柏山认为,未来大模型之间的差异可能逐渐缩小,但感知数据具有真实差异化——家庭机器人积累室内环境数据,手机影像积累用户真实生活场景的视觉信号,这些场景数据的丰富程度将直接决定智能体验的优劣。
影像技术被胡柏山视为AI的“眼睛”。vivo通过近十年的影像大模型算法研发,结合定制化硬件模组,实现了软硬协同的独特优势。他透露,即将发布的vivo X300 Ultra和X300s将搭载第一代“影像Agent”,能够根据拍摄对象、光线和距离自动优化成像效果,让普通用户也能轻松拍出专业级照片。这种能力不仅限于影像领域,vivo还计划将Agent技术扩展至办公、出行、游戏等场景,例如折叠旗舰X Fold系列可自动记录会议内容、规划行程,iQOO系列则能优化游戏性能并捕捉高光时刻。
在技术路径选择上,vivo坚持端侧优先的策略。端侧感知无需依赖网络往返,能够实时响应环境变化,同时保护用户隐私。为突破端侧算力限制,vivo两年前开始与合作伙伴定制专用算力芯片,计划在后续旗舰产品中部署。胡柏山强调,vivo的Agent设计遵循“懂用户、知人心,但不越边界”的原则,所有关键用户数据存储在本地,换机时可整体迁移,形成独特的“数字DNA”。
vivo的野心不止于手机领域。去年成立的机器人Lab,正探索将手机积累的感知能力延伸至机器人形态。胡柏山坦言,机器人不是手机的迭代,而是从零开始的全新挑战。2026年,vivo机器人Lab的首要任务是明确目标用户和核心场景,例如从宠物喂养、收纳整理等容错率高的场景切入,逐步积累场景数据和技术能力。他设想,手机与机器人可形成协同:机器人初期能力不足时,由手机远程补位;随着场景数据积累,机器人将逐步实现自主决策。
在混合现实(MR)领域,vivo已迈出探索步伐。2025年8月发布的vivo Vision探索版头显在国内28家体验店及东南亚市场同步亮相,累计体验人数超五万。胡柏山透露,下一代产品将瞄准商业化目标,计划在2027年下半年至2028年初推出。他强调,感知赛道的投入需要长期主义:“我们控制投入节奏,螺旋式上升,避免组织因过度扩张而受伤。”
回到宝哥的故事,胡柏山总结道:“科技的高度,终须回归人的尺度。”当算力逐渐同质化,模型参数不再成为竞争焦点,智能设备对物理世界的感知深度,以及关于用户个体的场景数据积累,将成为决定体验差异的关键因素。这场关于感知的竞赛,或许才刚刚开始。









