蚂蚁集团旗下百灵大模型近日正式发布Instruct模型Ling-2.6-flash,该模型总参数量达104B,激活参数为7.4B。这款新模型在技术路径选择上突破传统框架,通过优化推理效率、Token使用效率及Agent场景适配性,构建起差异化的技术优势。其核心架构创新与场景化设计,使其在同类模型中展现出显著竞争力。
技术团队在架构设计上采用混合线性计算模式,通过底层计算单元的重组优化,使模型在4卡H20硬件环境下实现340 tokens/s的推理速度,Prefill吞吐量达到Nemotron-3-Super的2.2倍。这种设计突破了单纯依赖模型规模提升性能的路径,在保持智能水平的同时,将硬件资源利用率提升至新高度。在Token效率方面,研发团队通过动态输出校准机制,使模型在Artificial Analysis评测中仅消耗15M tokens即达成目标,用量仅为同类模型的十分之一。
针对企业级应用需求,模型特别强化了Agent场景能力。通过优化工具调用接口、多步骤任务拆解算法及执行链路容错机制,Ling-2.6-flash在BFCL-V4、TAU2-bench等权威评测中,与参数规模更大的模型展开正面竞争,仍取得领先或持平的优异成绩。特别是在复杂任务执行环节,其表现已达到同尺寸模型的行业标杆水平。
为降低开发者使用门槛,百灵大模型同步推出双重接入方案。即日起在OpenRouter平台及官方渠道提供为期一周的免费API调用服务,后续采用阶梯计价模式:国际版输入0.1美元/百万tokens,输出0.3美元/百万tokens;国内版输入0.6元/百万tokens,输出1.8元/百万tokens,并保留每日50万tokens的永久免费额度。缓存命中场景下,国际版按20%比例收取0.02美元/百万tokens的费用。
开源计划方面,技术团队透露BF16、FP8、INT4等量化版本将于近期陆续开放下载。这些版本在保持核心性能的同时,将硬件适配门槛降低60%以上,特别适合边缘计算设备部署。此次开源策略覆盖从研发到落地的全链条需求,为不同规模的企业提供灵活的技术选择空间。












