小米近日正式推出MiMo-V2.5全链路语音大模型系列,涵盖三款TTS语音合成模型与一款ASR语音识别模型,标志着其在智能语音交互领域完成从“精准识别”到“自然表达”的技术闭环。目前,TTS系列模型已在MiMo Studio平台开放限时免费体验,ASR模型代码与权重则面向全球开发者开源。
作为核心突破的TTS系列聚焦“导演级”语音控制能力,用户可通过自然语言指令灵活调节语速、情绪与语气。其中,VoiceDesign功能支持“一句话生成定制音色”,而VoiceClone技术仅需30秒音频样本即可实现人声高保真复刻。配套的MiMo-V2.5-ASR模型则展现多维度技术优势:不仅支持吴语、粤语等中文方言及中英混合识别,还能在80分贝以上噪音环境中保持97%的准确率,并直接输出带标点符号的文本结果。
该技术组合对AI应用生态产生显著推动作用。TTS模型的开放策略与ASR的开源模式形成互补,开发者可基于小米提供的全栈工具链,以极低成本构建具备拟人化交互能力的智能体。据测试,使用该系列模型开发的智能客服、有声读物生成等场景,用户满意度较传统方案提升40%以上。
技术文档显示,MiMo-V2.5系列采用分层架构设计,TTS模型通过动态声学建模实现毫秒级响应,ASR模型则运用多模态预训练框架提升复杂场景适应性。小米AI实验室负责人表示,此次开源的ASR模型已通过ISO/IEC 30145安全认证,开发者可直接部署于医疗、金融等对数据隐私要求严苛的领域。











