GPT-5训练背后隐藏大佬,靠一篇Muon博客入职OpenAI

研究员Keller Jordan仅凭一篇关于Muon优化器的博客文章成功加入OpenAI,可能正用于GPT-5训练;Muon是针对神经网络隐藏层的优化器,采用牛顿-舒尔茨迭代法实现更新矩阵正交化,训练速度比AdamW快;Keller批评优化器研究文献充斥未能被采用的方法,提倡在竞争性训练任务中验证新方法有效性。

搜索