深度求索公司近日推出了一款名为DeepSeek-V3.2-Exp的实验性模型,该模型在长文本处理效率方面实现了显著提升。据官方介绍,这款新模型是在V3.1-Terminus版本的基础上进行升级,采用了创新的稀疏注意力架构,旨在优化长文本场景下的训练与推理性能。
技术团队在V3.2-Exp中引入了DeepSeek Sparse Attention架构,通过动态分配计算资源,有效减少了长文本处理过程中的冗余计算。实验数据显示,该架构在保持模型精度的同时,显著降低了内存占用和计算成本,特别适用于需要处理超长文本的应用场景。
目前,V3.2-Exp已在标准评测集上完成初步验证,但官方强调仍需通过大规模实际应用测试来进一步优化。为支持这一过程,深度求索公司决定临时保留V3.1-Terminus版本的API接口,允许研究人员和开发者同时调用新旧两个模型进行对比测试,从而更直观地评估性能差异。
这种双版本并行的测试策略,不仅为模型优化提供了宝贵的真实场景数据,也方便了开发者根据实际需求选择更适合的版本。公司表示,后续将根据用户反馈持续调整模型参数,以提升在复杂任务中的表现。