<ul id="mwmk6"><sup id="mwmk6"></sup></ul>
<ul id="mwmk6"></ul>
    <abbr id="mwmk6"></abbr>
  • <ul id="mwmk6"></ul>
  • <ul id="mwmk6"><sup id="mwmk6"></sup></ul>
    資訊在沃

    字節跳動VAPO框架刷新AIME24記錄,大型語言模型推理能力大幅提升

       發布時間:2025-04-12 15:05 作者:蘇婉清

    近日,字節跳動旗下的Seed研究團隊宣布了一項重大技術突破,推出了名為VAPO的強化學習訓練框架。這一框架的主要目標是增強大型語言模型在處理復雜且冗長任務時的推理能力。

    在大型語言模型的強化學習訓練中,價值導向方法一直備受關注,因為它們能夠精確地追蹤每個動作對后續回報的影響。然而,當這種方法應用于長鏈式推理任務時,卻面臨著一系列挑戰。價值模型在初始化階段可能會引入偏差,傳統方法難以適應復雜任務中不同長度的序列,而且在驗證任務中,獎勵信號往往非常稀疏,導致優化過程需要在探索和利用之間做出艱難權衡。

    為了應對這些挑戰,字節跳動推出了VAPO框架,全稱為增強價值的近端政策優化。該框架基于PPO框架,并融入了三項創新技術。首先,VAPO構建了一個精細的價值訓練框架,以提高模型對復雜任務的理解能力。其次,它引入了長度自適應廣義優勢估計機制,能夠根據響應長度的不同動態調整參數,從而優化長短序列的訓練效果。最后,VAPO整合了多項先前的研究成果,形成了一個協同增效的系統。

    據字節跳動透露,在沒有依賴特定監督微調數據的情況下,通過VAPO優化的Qwen2.5-32B模型在AIME24基準測試中取得了顯著進步。其得分從5分大幅提升至60.4分,不僅超過了DeepSeek R1的47分,還領先此前業界領先的DAPO方法10分,并且只用了60%的更新步驟就達到了這一成績。

    與傳統的Proximal Policy Optimization算法相比,VAPO在數學推理能力上有了顯著提升,訓練曲線更加平滑,優化過程也更加穩定。測試結果顯示,VAPO在長序列任務中表現出色,得分增長迅速。盡管在后期訓練中,由于熵值降低可能會限制探索能力,但VAPO通過其平衡設計確保了穩定性和可重復性。

    VAPO的成功離不開其綜合優化設計。消融研究表明,VAPO中的七項技術均發揮了重要作用。價值預訓練有效防止了訓練過程中的崩潰現象,解耦GAE支持了長回答的優化,自適應GAE平衡了短回答和長回答的訓練效果,剪裁策略鼓勵了探索,詞級損失增加了長回答的權重,正例語言模型損失提升了6分,分組采樣則貢獻了5分。

     
     
    更多>同類內容
    全站最新
    熱門內容
    本欄最新
     
    久久se精品一区二区国产 | 日产精品一卡2卡三卡4乱码| 久久久无码精品亚洲日韩按摩 | 国产福利微拍精品一区二区| 日韩精品无码AV成人观看| 国产伦精品免编号公布| 久久精品一区二区影院| 亚洲精品视频在线观看你懂的| 精品日韩99亚洲的在线发布| 免费观看国产精品| 国产精品久久久久国产精品三级| 国产精品你懂的在线播放| 亚洲精品久久无码av片俺去也| 色花堂国产精品第一页| 国产精品99久久精品| 精品9E精品视频在线观看 | 精品免费AV一区二区三区| 日韩一本之道一区中文字幕| 亚洲人午夜射精精品日韩| 国产成人综合久久精品| 国产精品91在线播放| 国产精品免费视频一区| 国产精品嫩草影院在线看| 国产精品成人四虎免费视频| 精品一区二区久久久久久久网精| 99久久精品国产第一页| 国产成人无码精品久久久小说| 国产精品一在线观看| 尤物国午夜精品福利网站| 国产精品jizz在线观看直播| 乱精品一区字幕二区| 久久精品亚洲综合一品| 婷婷精品国产亚洲AV麻豆不片| 久久精品国产福利电影网| 无码国产69精品久久久久网站 | 国产精品成人无码免费| 日韩电影久久久被窝网| 日韩精品一区二区三区老鸭窝| 日韩在线一区二区三区视频| HEYZO无码综合国产精品| 久热精品视频第一页|