<ul id="mwmk6"><sup id="mwmk6"></sup></ul>
<ul id="mwmk6"></ul>
    <abbr id="mwmk6"></abbr>
  • <ul id="mwmk6"></ul>
  • <ul id="mwmk6"><sup id="mwmk6"></sup></ul>
    資訊在沃

    上海AI實驗室攜手高校,創(chuàng)新技術(shù)破解AI強化學(xué)習(xí)熵崩潰挑戰(zhàn)

       發(fā)布時間:2025-06-04 08:25 作者:陸辰風(fēng)

    近期,上海人工智能實驗室攜手清華大學(xué)及美國伊利諾伊大學(xué)香檳分校的研究團隊,共同研發(fā)出了一種創(chuàng)新方法,用以解決大型語言模型在強化學(xué)習(xí)過程中的策略熵崩潰問題。這一突破性的進展,得益于Clip-Cov和KL-Cov兩項技術(shù)的引入。

    隨著大型語言模型(LLMs)在邏輯推理能力上的顯著提升,強化學(xué)習(xí)(RL)的應(yīng)用場景得以大幅擴展,從原先的單一任務(wù)擴展到更為復(fù)雜多變的環(huán)境。這一轉(zhuǎn)變,無疑為模型賦予了更強的泛化能力和邏輯推理能力。然而,強化學(xué)習(xí)的高計算資源需求以及策略熵下降的問題,成為了制約其進一步發(fā)展的關(guān)鍵因素。

    策略熵,作為衡量模型在利用已知策略和探索新策略之間平衡狀態(tài)的指標(biāo),其過低會導(dǎo)致模型陷入對已有策略的過度依賴,從而失去對新策略的探索能力。這種探索與利用之間的權(quán)衡,正是強化學(xué)習(xí)的基礎(chǔ)所在。因此,如何有效控制策略熵,成為了強化學(xué)習(xí)訓(xùn)練過程中的一大難題。

    為解決這一問題,研究團隊提出了一個全新的經(jīng)驗公式:R = ?a exp H + b,其中R代表下游任務(wù)的表現(xiàn),H為策略熵,a和b為擬合系數(shù)。該公式揭示了策略性能與熵值之間的微妙關(guān)系,并指出熵耗盡是導(dǎo)致性能瓶頸的主要原因。在此基礎(chǔ)上,團隊進一步分析了熵的動態(tài)變化,發(fā)現(xiàn)其受到動作概率與logits變化協(xié)方差的影響。

    針對這一發(fā)現(xiàn),團隊創(chuàng)新性地提出了Clip-Cov和KL-Cov兩項技術(shù)。前者通過裁剪高協(xié)方差token來維持熵水平,后者則通過施加KL懲罰來達到同樣的效果。實驗結(jié)果顯示,這兩項技術(shù)在Qwen2.5模型和DAPOMATH數(shù)據(jù)集上均取得了顯著成效,特別是在AIME24和AIME25等高難度基準(zhǔn)測試中,32B模型的性能提升高達15.0%。

    為進一步驗證這兩項技術(shù)的有效性,研究團隊還在包括Qwen2.5、Mistral、LLaMA和DeepSeek在內(nèi)的11個開源模型上進行了測試,這些模型的參數(shù)規(guī)模從0.5B到32B不等,涵蓋了數(shù)學(xué)和編程任務(wù)的8個公開基準(zhǔn)測試。實驗結(jié)果表明,Clip-Cov和KL-Cov技術(shù)均能在不同模型上維持更高的熵水平,從而顯著提升模型的性能。

    在訓(xùn)練過程中,研究團隊采用了veRL框架和零樣本設(shè)置,并結(jié)合了GRPO、REINFORCE++等算法來優(yōu)化策略性能。實驗結(jié)果顯示,KL-Cov方法在基線熵值趨于平穩(wěn)時,仍能保持10倍以上的熵值,充分證明了其有效性。

    此次研究不僅成功解決了策略熵崩潰問題,還為強化學(xué)習(xí)在語言模型中的擴展提供了堅實的理論支持。研究團隊強調(diào),熵動態(tài)是制約性能提升的關(guān)鍵瓶頸,未來需要繼續(xù)探索更為有效的熵管理策略,以推動語言模型的智能化發(fā)展。

     
     
    更多>同類內(nèi)容
    全站最新
    熱門內(nèi)容
    本欄最新
     
    午夜精品久久久久久久久| 乱人伦精品视频在线观看| 精品国内在视频线2019| 久久精品视频免费| 久久91这里精品国产2020| 日韩国产有码在线观看视频| 国产亚洲精品精品精品| 在线视频这里只有精品| 国产精品视频一区麻豆| 精品久久久中文字幕人妻| 精品性影院一区二区三区内射| 亚洲动漫精品无码av天堂| 中日韩产精品1卡二卡三卡| 国产精品激情综合久久| 午夜精品久久久久久久无码| 日韩精品成人无码专区免费| 日韩乱码人妻无码中文视频| 国产精品美女视视频专区| 狠狠精品干练久久久无码中文字幕| 99精品热这里只有精品| 国产精品九九九久久九九| 91亚洲国产成人久久精品| 久久无码国产专区精品| 中文字幕精品视频| 91亚洲国产成人久久精品网站 | 久久久精品一区二区三区| 91精品国产91久久综合| 国产亚洲精品不卡在线| 三上悠亚日韩精品| 日韩精品无码一区二区视频| 99久久国产综合精品麻豆| 热99RE久久精品这里都是精品免费 | 国产精品va在线观看无码| 亚洲AV无码乱码精品国产| 国产成人精品综合在线观看| 国产精品无码专区在线观看| 精品国产91久久久久久久a| 香蕉在线精品视频在线观看2| 国产在线精品一区二区不卡麻豆| 99久久免费国产精品热| 亚洲精品成人片在线播放 |