近日,AI领域迎来了一则引人注目的消息。据AI云服务商Hyperbolic的联合创始人兼首席技术官Yuchen Jin在社交平台上的爆料,研究员Keller Jordan仅凭一篇博客文章就成功加入了OpenAI,并有可能正在利用文章中提及的神经网络隐藏层优化器Muon来训练GPT-5。
Yuchen Jin指出,许多研究人员,包括过去的自己,都曾误以为在顶级学术会议上发表论文才是最终目标。然而,Keller Jordan用实际行动证明了,发表论文并不等同于产生影响力。他的博客文章《Muon:神经网络隐藏层的优化器》虽然只是以博客形式发布,却让他成功加入了OpenAI。
Keller Jordan的这篇博客发布于2024年12月,详细介绍了Muon优化器的设计、实证结果及其与先前研究的联系。Muon是一个针对神经网络隐藏层二维参数的优化器,它在NanoGPT和CIFAR-10的快速运行中刷新了训练速度的记录。具体来说,Muon使用Newton-Schulz矩阵迭代作为后处理步骤,来优化SGD-momentum生成的更新,从而提高了训练效率。
根据Keller Jordan的博客内容,Muon在多个任务上均取得了显著的实证成果。例如,在CIFAR-10数据集上,它将训练速度记录提高到了94%的准确率,并将训练时间从3.3秒缩短到了2.6秒。Muon还在NanoGPT快速运行的竞赛任务FineWeb上刷新了训练速度记录,提高了1.35倍。更重要的是,Muon在扩展到更大规模模型时,继续显示出了训练速度的提升。
Keller Jordan在博客中还深入探讨了Muon的设计原理,解释了为什么正交化更新是可行的。他指出,SGD-momentum和Adam等传统优化器对基于Transformer的神经网络中的二维参数产生的更新通常具有非常高的条件数,即这些更新几乎是低秩矩阵。通过正交化这些更新,Muon能够有效地增加其他“稀有方向”的规模,从而提高学习性能。
除了设计原理外,Keller Jordan还在博客中提供了Muon与AdamW等标准优化器的对比实验。实验结果显示,在多个任务和数据集上,Muon均表现出了优于AdamW的训练效率。特别是在训练大型语言模型时,Muon的FLOP开销低于1%,却能够显著提高训练速度。
Keller Jordan的这篇博客不仅引起了学术界的关注,更让他成功加入了OpenAI。据职场社交平台领英显示,Keller Jordan正是在2024年12月加入OpenAI的。由此可以推测,他正是凭借这篇博客中介绍的Muon优化器,成功进入了这家如日中天的头部大模型企业。
目前,尚不清楚Muon是否已经成为GPT-5训练中的关键技术。但无论如何,Keller Jordan的这篇博客和Muon优化器都已经引起了业界的广泛关注。随着OpenAI对GPT-5研究的深入,我们有理由期待Muon能够在未来的人工智能领域发挥更加重要的作用。