腾讯云TACO-LLM加速模块,荣耀AI底座性能飞跃新高度

   时间:2025-06-09 18:33 来源:ITBEAR作者:沈瑾瑜

在生成式AI技术飞速发展的浪潮中,手机行业正经历着前所未有的变革。各大手机制造商纷纷将AI技术融入其最新产品中,并以惊人的速度进行迭代升级。荣耀作为行业内的佼佼者,更是在AI大模型的部署上迈出了重要一步。

为了提升大模型部署的效能,荣耀选择了腾讯云TencentOS Server AI中的TACO-LLM加速模块,并成功将其应用于DeepSeek-R1等开源大模型的部署中。这一举措不仅限于技术层面的尝试,更在实际应用中取得了显著成效。荣耀在企业内部等多个场景中,通过TACO-LLM加速模块的加持,实现了稳定性、可靠性和推理性能的全面提升。

在推理平台场景中,荣耀尤为注重框架效能、稳定性、运行状态监控及应急预案等关键特性。在DeepSeek-R1满血版场景下,使用TACO-LLM进行推理任务后,相较于荣耀原始线上业务性能,首Token延迟(TTFT)P95的响应时间降低了最高达6.25倍,吞吐量则提升了2倍,端到端延迟更是降低了100%。而在社区最新版本sglang场景下,TTFT P95的响应时间更是实现了最高12.5倍的降低。

TACO-LLM之所以能够为荣耀的业务性能带来如此显著的提升,主要得益于其独特的投机采样技术核心能力。传统的大语言模型自回归解码属性在GPU算力利用上存在不足,计算效率低下,解码成本高昂。而TACO-LLM通过投机采样的方式,从根本上解决了这一问题,实现了大模型的“并行”解码,从而显著提高了解码效率。

荣耀大数据平台部的相关负责人对此表示:“通过采用腾讯云的TACO-LLM技术,荣耀成功打造了高性能的AI底座。这一底座不仅部署稳定可靠,更在性能加速方面为我们带来了前所未有的体验。”这一评价无疑是对TACO-LLM加速模块在荣耀实际应用中成效的最好证明。

TencentOS Server AI加速版中的TACO-LLM加速模块,针对企业级AI模型私有化部署的挑战,进行了专门的内核运行优化。这一优化旨在提高大语言模型的推理效能,提供兼顾高吞吐和低延时的优化方案。更重要的是,TACO-LLM加速模块能够“无缝”整合到现有的大模型部署方案中,为荣耀等企业的AI应用提供了更加便捷和高效的解决方案。

 
 
更多>同类内容
全站最新
热门内容