Transformer作者新探索:8B小模型Rnj-1剑指Scaling Law,开启AI轻量化新篇

   时间:2025-12-20 05:00 来源:快讯作者:钟景轩

在人工智能领域,一场关于模型发展方向的变革正在悄然兴起。长期以来,大模型凭借庞大的参数规模和强大的计算能力占据主导地位,然而,近期由Essential AI Labs推出的Rnj-1开源模型,却以80亿参数的“小身板”,为轻量化、开放式AI探索开辟了新路径。

Rnj-1的诞生,背后有着深厚的学术底蕴。其研发团队核心成员Ashish Vaswani和Niki Parmar,正是2017年那篇具有里程碑意义的论文《注意力就是你所需要的一切》的作者。这篇论文奠定了Transformer架构的基础,如今几乎所有知名大模型,如ChatGPT、Gemini、Claude、Llama等,都采用了这一框架。可以说,他们是大模型时代的开创者之一。

然而,随着行业的发展,大模型领域逐渐陷入了“军备竞赛”的怪圈。以Google DeepMind CEO哈萨比斯为代表的观点认为,要实现通用人工智能(AGI),就必须将“扩规模”做到极致,更多数据、更多算力、更大模型成为主流追求。但Ashish Vaswani和Niki Parmar却对此提出了质疑,他们认为模型并非越大越聪明,从算力效率角度看,大模型时代或许已经接近尾声,小模型时代正悄然来临。

Rnj-1正是这种理念的实践成果。这款从零开始训练的80亿参数模型,虽然参数规模远不及那些动辄万亿的大模型,但它在多个方面展现出了强大的实力。在代码生成领域,Rnj-1 Base与Instruct在Humaneval+、MBPP+等算法类代码任务,以及BigCodeBench等更广泛的编程任务中,表现与最强同规模开源模型相当,甚至在某些情况下超越了更大的GPT OSS 20B。

在智能体能力方面,Rnj-1 Instruct表现尤为突出。在SWE-bench上,它的表现比同尺寸模型强出近一个数量级,接近大规模模型水平。它能够主动使用性能分析器检查瓶颈,提出优化方案并进行多轮迭代。在Enamel任务中,Rnj-1 Instruct超越了强力基线;在伯克利函数调用排行榜(BFCL)中,其工具使用能力也领先同类模型。

数学与科学推理能力也是Rnj-1的一大亮点。在AIME'25(高难度高中数学)中,Rnj-1 Instruct的数学能力与最强开源模型匹敌;Rnj-1 Base在Minerva-MATH上与同规模模型保持一致;在GPQA-Diamond(包含生物、物理、化学的高难度题目)上,表现也接近同尺寸模型中的领先水平。

除了性能出色,Rnj-1对量化也非常稳健。这意味着它能在更便宜、更省电的显卡上快速运行,且模型质量几乎不受影响。从BF16到FP8再到NVFP4,在显著提升提示密集型工作负载的token吞吐量的同时,模型质量依然稳定。Token吞吐量数据基于NVIDIA B200 GPU测得,其中KV Cache的数据类型设为FP8,批大小为128。

Rnj-1之所以能取得如此优异的成绩,离不开其独特的技术架构。它采用全局自注意力机制(global self-attention)和YaRN技术。全局自注意力机制就像为模型配备了一双“全景眼睛”,无论输入多长,都能一次全部看清;YaRN技术则如同“长距离阅读辅助器”,让模型在32k上下文中仍能保持清晰思考。

Essential AI Labs在研发Rnj-1的过程中,秉持着独特的理念。他们专注于基础能力的提升,认为强大的预训练本身就会产生推理能力,而不是依靠后期堆砌强化学习(RL)来补课。在早期预训练阶段,他们就观察到模型出现反思与探索式推理的迹象,这印证了“强预训练是下游成功基础”的判断。他们还通过数据分类研究,得到了一种新的“带重复惩罚的数据分布聚类与混合方法”,提升了模型在STEM(科学、技术、工程、数学)方面的能力。在优化器方面,他们证明了Muon优化器相较AdamW更高效,并开发了适配大模型的分片策略。

Rnj-1的推出,不仅为AI领域带来了新的技术思路,也在开源生态中引发了关注。当前,轻量化开源生态领域正由中国企业主导,而Essential AI的开源平台以及Rnj-1的推出,旨在推动美国AI开源领域的发展,抢夺在这一领域的话语权。这一举措有望打破“越大越好”的行业竞争格局,加速AI人人可用时代的到来,让更多人能够享受到人工智能带来的便利。

 
 
更多>同类内容
全站最新
热门内容