小米近日在人工智能领域投下一枚重磅炸弹,正式推出并开源新一代大模型MiMo-V2-Flash。这款模型凭借3090亿总参数、150亿活跃参数的规模,以及专家混合架构(MoE)设计,在性能上与DeepSeek-V3.2、Kimi-K2等头部开源模型形成有力竞争。更引人注目的是,其推理速度达到每秒150个token,输入成本低至每百万token仅0.1美元,输出成本0.3美元,在性价比维度上树立了新标杆。
在权威基准测试中,MiMo-V2-Flash展现惊人实力:AIME 2025数学竞赛和GPQA-Diamond科学知识测试均跻身开源模型前两名;编程能力尤为突出,SWE-bench Verified测试得分73.4%,超越所有开源竞品,直逼GPT-5-High水平。该测试要求模型修复真实软件漏洞,73.4%的成功率意味着其已具备解决多数实际编程问题的能力。在多语言编程测试SWE-Bench Multilingual中,模型同样取得71.7%的解决率。
智能体任务表现同样亮眼:在τ²-Bench分类测试中,通信类得分95.3、零售类79.5、航空类66.0;BrowseComp搜索代理得分45.4,启用上下文管理后跃升至58.3。这些数据表明,模型不仅能编写代码,更能理解复杂任务逻辑,支持多轮智能交互。更值得关注的是,其文本生成质量已接近顶级闭源模型,可胜任日常助手角色。
支撑这些突破的是两项核心技术创新。混合滑动窗口注意力机制采用5层滑动窗口与1层全局注意力交替的设计,滑动窗口固定为128个token。这种激进方案使KV缓存存储量减少近6倍,却能维持256k超长上下文窗口。项目负责人罗福莉透露,实验发现128是"最佳甜点值",盲目扩大窗口反而导致性能下降,同时强调sink values机制对维持性能至关重要。
另一项突破是轻量级多Token预测(MTP)模块。传统模型逐token生成的方式被彻底颠覆,新模块可并行预测多个token,实测平均接受2.8-3.6个token,推理速度提升2-2.6倍。在三层MTP设置下,编码任务速度提升约2.5倍,有效解决了小批量强化学习中"长尾样本"导致的GPU空闲问题。虽然目前MTP尚未完整集成RL训练循环,但小米已开源三层实现,供开发者自由使用。
训练效率的革命性提升源于FP8混合精度技术和多教师在线策略蒸馏(MOPD)框架。预训练阶段在27万亿token数据上完成,原生支持32k序列长度;后训练阶段通过MOPD框架,让学生模型在自身策略分布上采样,由多个专家教师提供实时反馈。这种模式仅需传统方法1/50的算力即可达到同等性能,且支持动态接入新教师,形成"教学相长"的闭环进化系统。
开发者生态建设同样值得关注。模型已与Claude Code、Cursor、Cline等主流开发环境无缝对接,256k上下文窗口可支持数百轮智能体交互。所有推理代码已贡献给SGLang社区,技术报告完整披露模型细节,基础权重在Hugging Face平台以MIT协议开源。目前API平台正限时免费开放,开发者可立即体验这款"性能怪兽"。项目团队透露,这仅是小米AGI路线图的第二步,后续计划通过扩大模型规模和训练算力持续缩小与闭源模型的差距。
HuggingFace模型地址:http://hf.co/XiaomiMiMo/MiMo-V2-Flash
技术报告地址:http://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf












