<ul id="mwmk6"><sup id="mwmk6"></sup></ul>
<ul id="mwmk6"></ul>
    <abbr id="mwmk6"></abbr>
  • <ul id="mwmk6"></ul>
  • <ul id="mwmk6"><sup id="mwmk6"></sup></ul>
    資訊在沃

    靠博客文章入職OpenAI,Keller Jordan的Muon優化器或助力GPT-5訓練

       發布時間:2025-06-17 05:15 作者:蘇婉清

    近日,AI界傳出了一則令人矚目的消息。據AI云服務商Hyperbolic的聯合創始人兼CTO Yuchen Jin在社交平臺上的爆料,研究員Keller Jordan僅憑一篇博客文章就成功加入了OpenAI,并且可能正在利用文章中提及的神經網絡隱藏層優化器Muon來訓練GPT-5。

    Jin在爆料中感慨道,許多研究人員,包括曾經的自己,都曾誤以為在頂級學術會議上發表論文才是最終目標。然而,發表論文并不等同于產生實際影響力。Keller Jordan發布的Muon優化器僅以博客形式問世,卻幫助他叩開了OpenAI的大門,并有可能在GPT-5的訓練中大放異彩。

    Jordan的這篇博客發表于2024年12月,題為《Muon:神經網絡隱藏層的優化器》。文章詳細介紹了Muon的設計理念及其在多個實驗中的優異表現。從職場社交平臺領英的信息可以確認,Jordan正是在博客發布后不久加入了OpenAI,這無疑進一步證實了他的研究成果得到了業界的認可。

    Muon作為一種針對神經網絡隱藏層二維參數的優化器,在設計和應用上都有其獨到之處。它通過采用SGD-momentum生成的更新,并在應用于參數之前對每個更新應用Newton-Schulz迭代作為后處理步驟,從而實現了更新矩陣的近似正交化。這一創新設計使得Muon在多個實驗中都取得了顯著優于傳統優化器AdamW的表現。

    具體而言,Muon在CIFAR-10數據集上的訓練速度記錄從3.3秒提高到了2.6秒,準確率達到了94%;在FineWeb競賽任務上的訓練速度記錄也提高了1.35倍。在擴展到更大規模的模型時,Muon仍然能夠持續顯示訓練速度的提升。這些實證成果無疑為Muon在OpenAI中的應用提供了堅實的基礎。

    除了在設計上的創新,Jordan在博客中還對神經網絡優化研究中的證據標準提出了犀利批評。他指出,當前的研究文獻中充斥著大量聲稱能夠擊敗AdamW的優化器,但這些優化器往往因為基線欠調而未能得到廣泛采用。為了糾正這種情況,Jordan建議研究界應該要求新方法在競爭性訓練任務中取得成功,以確保其有效性和可靠性。

    隨著Jordan加入OpenAI并可能參與GPT-5的訓練工作,Muon這一全新優化器有望成為GPT-5中的重要技術。然而,關于Muon的未來發展仍有許多未知因素,包括其是否能夠在更大規模的訓練中擴展應用,以及在大型GPU集群中的正確分布等。或許在GPT-5的研究中,這些問題都將得到解答。

     
     
    更多>同類內容
    全站最新
    熱門內容
    本欄最新
     
    99热这里只有精品免费播放| 国产亚洲精品美女久久久| 日韩精品一区二区三区老鸦窝| 5555国产在线观看精品| 久久精品人人做人人爽| 中文字幕日韩精品在线| 国产精品爽爽ⅴa在线观看| 亚洲AV无码AV日韩AV网站| 国产午夜久久精品| 国产精品成人无码久久久| 国产午夜精品一区二区三区极品| 正在播放国产精品| 国产92成人精品视频免费| 91在线精品亚洲一区二区| 99精品国产高清自在线看超| 亚洲国产精品一区第二页| 国产成人精品一区二区秒拍 | 久久久久久国产精品美女| 人妖系列精品视频在线观看| 亚洲av日韩aⅴ无码色老头| 精品日韩亚洲AV无码| 中文字幕日韩理论在线| 国产99视频精品草莓免视看| 国产精品剧情原创麻豆国产| 日本精品啪啪一区二区三区| 国产精品高清在线观看93| 精品无码久久久久久久久| 青青青国产精品国产精品美女 | 国产综合成人色产三级高清在线精品发布| 国产A∨国片精品一区二区| 亚洲第一永久AV网站久久精品男人的天堂AV | 国产成人精品午夜福利| 久久国产乱子精品免费女| 亚洲精品白浆高清久久久久久| 2022国产精品自在线拍国产| 国产亚洲精品美女久久久| 久久精品午夜福利| 99精品一区二区三区| 亚洲自偷精品视频自拍| 国产精品福利在线播放| 亚洲日韩精品无码AV海量|