初创公司Mindbeam AI近日推出一款名为Litespark-Inference的开源人工智能推理框架,通过算法优化使大型语言模型能够在消费级CPU上高效运行,显著减少对GPU的依赖。这一创新旨在解决当前AI推理过程中硬件成本高昂、资源分配不均的问题,为行业提供更具性价比的解决方案。
该框架的核心技术是对“三元模型”的支持。这类神经网络将权重参数限制为-1、0和+1三个值,从而大幅减少推理过程中的乘法运算需求。尽管这种设计会略微降低模型精度,但换来了性能的显著提升和内存占用的大幅下降。官方测试数据显示,在特定硬件配置下,Litespark-Inference的吞吐量较标准PyTorch实现提升17至96倍,内存需求降低超过80%。
Mindbeam创始人Nii Osae指出,现有AI推理流程中,CPU通常仅作为数据中转站,负责将用户输入传递给GPU处理。随着模型规模扩大和硬件成本上升,这种模式在边缘计算等内存受限场景中显得尤为低效。公司认为,广泛存在于各类设备中的CPU是尚未被充分开发的计算资源,通过优化算法可以释放其潜力。
Litespark-Inference提供两种部署模式:开发者可在无GPU的本地硬件上运行语言模型;云服务提供商则能通过非聚合架构实现CPU与GPU的协同工作。这种设计既保持了GPU处理复杂任务的优势,又让CPU承担部分推理负载,从而提升整体系统效率。例如,在处理大量Token时,GPU可专注于核心计算,而CPU负责预处理等辅助任务。
实际测试中,该框架展现了强大的硬件适配能力。在Apple M5处理器上,每秒可处理近40个Token,而PyTorch仅能处理约2.3个;在支持英特尔AVX-512指令的系统上,吞吐量提升96倍,内存消耗从4.6GB降至不足800MB。这些数据表明,Litespark-Inference能有效利用现代处理器的SIMD指令集,包括Arm的NEON SDOT和英特尔/AMD的矢量神经网络指令。
Mindbeam开发的自定义内核可自动检测处理器特性并优化执行路径,目前支持Apple Silicon、Intel和AMD处理器。公司计划未来针对AWS Inferentia等专用云硬件进行进一步优化。源代码已在GitHub公开,社区可进行独立测试和改进。Mindbeam透露将在年内推出云端商业化版本,并将技术扩展至机器人和边缘计算等低功耗领域。
这一框架的推出标志着AI推理领域的一次重要尝试,通过重新分配计算资源,为降低行业成本提供了新思路。其开源特性也鼓励更多开发者参与优化,推动技术生态的完善。随着硬件技术的不断进步,类似方案有望在更多场景中发挥作用,改变传统AI部署模式。












