【智能日报】11月16日消息,
微软在正在进行的Iginte全球技术大会上发布了一系列新的AI相关优化模型和开发工具资源,旨在帮助开发者更充分地利用硬件性能,拓展AI应用场景。
特别值得关注的是针对NVIDIA的举措,微软推出了多项新功能。无论是面向OpenAI Chat API的TensorRT-LLM封装接口,还是RTX驱动的性能改进DirectML for Llama 2,以及其他热门大语言模型(LLM),都能在NVIDIA硬件上获得更优加速和应用。
在这些功能中,TensorRT-LLM尤为引人注目,它是一款用于加速LLM推理的库,可以显著提升AI推理性能。此库还在持续更新,支持越来越多的语言模型,并且是开源的。
据智能日报了解,NVIDIA在10月份也推出了针对Windows平台的TensorRT-LLM。只需在配备8GB以上显存的RTX 30/40系列GPU的台式机或笔记本上使用,就能更轻松地完成严苛的AI工作负载。
现在,TensorRT-LLM for Windows通过全新的封装接口与OpenAI广受欢迎的聊天API兼容。这使得各种相关应用可以在本地直接运行,无需连接云端,有助于在PC上保护私人和专有数据,预防隐私泄露。
针对TensorRT-LLM优化过的大语言模型都可与这一封装接口相配合,包括Llama 2、Mistral、NV LLM等等。对开发者来说,只需修改一两行代码,而不需繁琐的代码重写和移植,即可快速让AI应用在本地执行。
本月底将推出TensorRT-LLM v0.6.0版本更新,据悉,该版本将在RTX GPU上带来多达5倍的推理性能提升,并支持更多热门的LLM模型,如全新的70亿参数Mistral和80亿参数的Nemotron-3。这将使得台式机和笔记本也能随时、快速、准确地在本地运行LLM。
据实测数据显示,RTX 4060显卡搭配TensorRT-LLM,推理性能可达每秒319 tokens,比其他后端提速高达4.2倍;而RTX 4090甚至将推理性能从每秒tokens提升到每秒829 tokens,提升幅度高达2.8倍。
基于强大的硬件性能、完善的开发生态和广泛的应用场景,NVIDIA RTX正成为本地AI不可或缺的重要助手。优化、模型和资源的不断丰富也在加速AI功能在上亿台RTX PC上的普及。
目前,已有超过400个合作伙伴发布了支持RTX GPU加速的AI应用和游戏。随着模型易用性的提高,预计在Windows PC平台上会出现更多的AIGC功能。
(以上报道内容经过重新梳理表达,以确保与原文有显著差异。)