在人工智能领域,阿里巴巴再次以创新实力引领行业风向。近日,阿里巴巴旗下千问大模型系列迎来重大突破,正式发布旗舰版本Qwen3.7-Max。这款专为智能体场景深度优化的大模型,凭借多项核心能力的突破性提升,在权威测评中展现强劲实力,综合表现直追国际顶尖水平,成为国产大模型发展的又一里程碑。
在编程能力领域,Qwen3.7-Max展现出显著优势。该模型在SWE-Pro、SWE-Multilingual等智能体编程测评中持续领跑,其中Terminal Bench 2.0-Terminus测试得分高达69.7,不仅超越DeepSeek-v4-pro-Max等国产模型,更力压Claude-Opus4.6等国际主流产品。这一突破标志着国产大模型在复杂编程任务处理能力上实现质的飞跃。
通用智能体能力方面,Qwen3.7-Max在贴近真实场景的测试中表现卓越。在MCP-Atlas、MCP-Mark、Skillbench等权威测评中,该模型以显著优势超越GLM5.1、Kimi-K2.6等国内同类产品,刷新国产模型在该领域的最佳成绩。特别是在多任务协同处理和复杂场景适应能力上,展现出强大的工程化应用潜力。
推理与通用能力测评中,Qwen3.7-Max持续突破技术边界。在GPQA Diamond、HLE、HMMT 2026 Feb等高难度推理测试中,该模型不仅超越所有国产模型,更在部分指标上领先Claude-Opus4.6。指令遵循测试IFBench斩获79.1分,多语言能力测评WMT24++、MAXIFE等项目均保持行业领先地位,充分验证其跨语言、跨领域的通用智能水平。
最具颠覆性的是,Qwen3.7-Max成功完成35小时全自主硬件优化任务。在无任何技术文档、参考代码和性能数据的条件下,该模型在平头哥真武M890芯片平台上从零开始,独立完成内核编写、编译、性能分析与迭代优化全流程。期间执行432次内核评估、1158次工具调用,最终实现较官方参考实现10倍性能提升,并自主发起关键架构重构,展现出接近人类工程师的长期自主工作能力。
技术特性方面,Qwen3.7-Max具备卓越的跨框架泛化能力,支持多智能体协同工作模式。在办公自动化场景SpreadSheetBench-v1测试中,该模型以87分的优异成绩证明其在复杂业务场景中的实用价值。据阿里云透露,Qwen3.7-Max API即将登陆百炼平台,后续还将推出Qwen3.7-Plus等版本,构建覆盖编程、视觉、办公等全场景的智能体解决方案生态。










