DeepSeek-V3.2-Exp模型发布:引入稀疏注意力,API降价超五成并开源

   时间:2025-09-29 22:47 来源:快讯作者:陆辰风

DeepSeek今日宣布推出实验性版本DeepSeek-V3.2-Exp模型,该版本作为新一代架构研发的过渡性成果,在长文本处理领域实现了关键技术突破。此次更新不仅引入了自主研发的DeepSeek Sparse Attention(DSA)稀疏注意力机制,更通过严格的对比测试验证了其技术有效性。

研发团队在V3.1-Terminus版本基础上,通过引入DSA机制实现了细粒度注意力控制。这项创新技术能够在保持模型输出质量的前提下,显著提升长文本场景下的训练与推理效率。据技术文档披露,DSA机制通过动态调整注意力权重分配,使计算资源更集中于关键信息区域,从而减少无效计算。

为确保技术评估的严谨性,开发团队将V3.2-Exp的训练参数配置与前代版本完全对齐。在涵盖自然语言处理、逻辑推理等领域的20余个公开评测集中,新版本各项指标均与V3.1-Terminus持平,部分长文本任务处理速度提升达40%。这种在效率与效果间的平衡,验证了稀疏注意力机制的实际应用价值。

伴随模型升级,DeepSeek同步推出API服务降价方案,开发者调用成本降幅超过50%。这一调整旨在降低技术创新的应用门槛,促进稀疏注意力技术的生态发展。目前用户可通过官方App、网页端及小程序体验新版本,各平台已完成同步更新。

考虑到实验性版本的技术特性,研发团队为V3.1-Terminus保留了专用API接口,方便用户进行AB测试对比。这种双版本并行的策略,既保障了现有服务的稳定性,也为新技术验证提供了真实场景支持。据开源社区消息,V3.2-Exp模型代码已在Huggingface与魔搭平台开放下载。

 
 
更多>同类内容
全站最新
热门内容