<ul id="mwmk6"><sup id="mwmk6"></sup></ul>
<ul id="mwmk6"></ul>
    <abbr id="mwmk6"></abbr>
  • <ul id="mwmk6"></ul>
  • <ul id="mwmk6"><sup id="mwmk6"></sup></ul>
    資訊在沃

    Meta攜手伯克利推出SWEET-RL框架,AI多輪協(xié)作能力大幅提升

       發(fā)布時間:2025-03-24 11:18 作者:朱天宇

    近日,科技界迎來了一項新的突破,meta AI與加州大學(xué)伯克利分校攜手推出了一個名為SWEET-RL的強化學(xué)習(xí)框架,并配套發(fā)布了CollaborativeAgentBench(簡稱ColBench)基準測試。這一合作旨在提升大語言模型(LLMs)在多輪人機協(xié)作任務(wù)中的性能,特別是在后端編程和前端設(shè)計兩大領(lǐng)域。

    隨著大語言模型的發(fā)展,它們逐漸展現(xiàn)出執(zhí)行復(fù)雜任務(wù)的潛力,但在多輪決策任務(wù)中仍面臨諸多挑戰(zhàn)。傳統(tǒng)的訓(xùn)練方法主要依賴于單輪反饋或模仿高概率行為,這種方法在處理長期依賴和累積目標時顯得力不從心,導(dǎo)致模型在協(xié)作場景中表現(xiàn)平平,特別是在理解人類意圖和多步驟推理方面。

    SWEET-RL框架的推出,正是為了解決這一難題。它采用了非對稱的“演員-評論家”結(jié)構(gòu),其中評論家在訓(xùn)練過程中能夠訪問額外信息(如正確答案),從而更準確地評估演員的決策。這一創(chuàng)新不僅簡化了信用分配過程,還與LLMs的預(yù)訓(xùn)練架構(gòu)實現(xiàn)了更好的對齊。

    實驗結(jié)果顯示,SWEET-RL在后端編程任務(wù)中的通過率顯著提升至48.0%,在前端設(shè)計任務(wù)中的余弦相似度也達到了76.9%,這一成績顯著優(yōu)于其他多輪強化學(xué)習(xí)方法。這一突破性的進展,無疑為LLMs在多輪人機協(xié)作任務(wù)中的應(yīng)用開辟了新的道路。

    為了更全面地評估SWEET-RL的性能,meta AI和加州大學(xué)伯克利分校還推出了ColBench基準測試。ColBench包含了超過10000個訓(xùn)練任務(wù)和1000個測試案例,這些任務(wù)設(shè)計均模擬了真實的人機協(xié)作場景,涵蓋了后端編程(如Python函數(shù)編寫)和前端設(shè)計(如HTML代碼生成)兩大領(lǐng)域。該基準測試還限制了每輪交互的次數(shù),最多不超過10次。

    ColBench基準測試通過單元測試通過率和余弦相似度兩個指標來評估模型的性能,為多輪任務(wù)提供了可靠的評估標準。這一測試平臺的推出,不僅有助于研究人員更準確地評估SWEET-RL的性能,也為未來LLMs在多輪人機協(xié)作任務(wù)中的發(fā)展提供了有力的支持。

     
     
    更多>同類內(nèi)容
    全站最新
    熱門內(nèi)容
    本欄最新
     
    国产精品99re| 九九九精品成人免费视频| 国产揄拍国产精品| 亚洲欧洲精品成人久久奇米网| 久久精品女人毛片国产| 久久精品国产WWW456C0M| 日韩视频中文字幕| 国产乱码精品一区三上| 精品毛片乱码1区2区3区| 亚洲国产精品免费观看| 麻豆国产精品免费视频| 91天堂素人精品系列网站| 人妻精品久久久久中文字幕一冢本| chinese精品男同志浪小辉| 久久亚洲日韩精品一区二区三区| 2021国产成人午夜精品| 99re这里有免费视频精品| 久久99国产这里有精品视| 国产成人无码久久久精品一| 国内精品久久久人妻中文字幕| 精品女同一区二区三区免费播放| 久久久精品人妻久久影视 | 久久国产精品久久久久久久久久| 亚洲AV日韩综合一区尤物| 国产精品免费看久久久无码| 精品无码久久久久久久久| 国产精品99久久久久久人四虎| 91精品国产麻豆国产自产在线| 国产69精品久久久久9999APGF| 日韩毛片基地一区二区三区| 久久精品无码一区二区三区日韩| 亚洲国产美女精品久久久| 国产精品视频白浆合集| 亚洲精品成a人在线观看☆| 国产午夜亚洲精品| 无码精品一区二区三区| 99亚洲精品卡2卡三卡4卡2卡| 久久精品卫校国产小美女| 蜜桃麻豆WWW久久囤产精品| 1717国产精品久久| 精品人妻系列无码一区二区三区 |