​DeepSeek-V3.2-Exp实验版发布:引入稀疏注意力机制,API成本直降超五成​

   时间:2025-09-30 15:23 来源:快讯作者:陆辰风

DeepSeek 今日正式推出实验性版本 DeepSeek-V3.2-Exp 模型,该版本作为新一代架构研发的过渡性成果,在长文本处理效率方面实现了突破性进展。此次更新引入了自主研发的 DeepSeek Sparse Attention(DSA)稀疏注意力机制,通过细粒度注意力分配策略,在保持模型性能稳定的前提下,显著提升了长文本场景下的训练与推理效率。

据技术文档披露,DSA 机制首次实现了动态稀疏注意力分配,通过智能识别文本关键信息区域,将计算资源集中于核心语义单元。实验数据显示,该机制在处理超长文本时,可将计算资源占用降低 40% 以上,同时保证模型输出质量与基准版本 V3.1-Terminus 持平。为确保评估结果的客观性,研发团队严格对齐两个版本的训练参数与数据配置,在涵盖金融、法律、科技等领域的 20 余个公开评测集中,V3.2-Exp 的综合表现与前代版本误差率控制在 0.3% 以内。

伴随模型升级,DeepSeek 同步调整了商业化策略。即日起,开发者通过 API 调用新模型的费用将下降超 50%,此举旨在降低长文本应用的技术门槛。平台负责人表示,价格调整基于 DSA 机制带来的算力优化成果,希望借此推动智能文本处理技术在更多行业的普及应用。

目前,DeepSeek 官方应用、网页端及小程序已完成版本更新。考虑到实验性版本仍需大规模真实场景验证,平台将并行维护 V3.1-Terminus 的 API 接口,为开发者提供对比测试环境。技术团队特别提醒,虽然 V3.2-Exp 已通过多项基准测试,但在处理特定领域专业文本时,仍建议结合实际业务需求进行适配性验证。

此次更新引发开发者社区广泛关注,多位技术专家指出,稀疏注意力机制的应用标志着大模型架构优化进入新阶段。有从业者测算,按当前降价幅度计算,日均处理百万级字符的应用每月可节省数万元成本。值得注意的是,平台同步更新的还有微信三端功能升级等系列技术动态。

 
 
更多>同类内容
全站最新
热门内容