天堂中文在线观看,欧洲成人一区,国产福利91精品一区二区

Meta攜手伯克利推出SWEET-RL框架，AI多輪協(xié)作能力大幅提升

發(fā)布時間：2025-03-24 11:18 來源：ITBEAR 作者：朱天宇

近日，科技界迎來了一項新的突破，meta AI與加州大學(xué)伯克利分校攜手推出了一個名為SWEET-RL的強化學(xué)習(xí)框架，并配套發(fā)布了CollaborativeAgentBench（簡稱ColBench）基準測試。這一合作旨在提升大語言模型（LLMs）在多輪人機協(xié)作任務(wù)中的性能，特別是在后端編程和前端設(shè)計兩大領(lǐng)域。

隨著大語言模型的發(fā)展，它們逐漸展現(xiàn)出執(zhí)行復(fù)雜任務(wù)的潛力，但在多輪決策任務(wù)中仍面臨諸多挑戰(zhàn)。傳統(tǒng)的訓(xùn)練方法主要依賴于單輪反饋或模仿高概率行為，這種方法在處理長期依賴和累積目標時顯得力不從心，導(dǎo)致模型在協(xié)作場景中表現(xiàn)平平，特別是在理解人類意圖和多步驟推理方面。

SWEET-RL框架的推出，正是為了解決這一難題。它采用了非對稱的“演員-評論家”結(jié)構(gòu)，其中評論家在訓(xùn)練過程中能夠訪問額外信息（如正確答案），從而更準確地評估演員的決策。這一創(chuàng)新不僅簡化了信用分配過程，還與LLMs的預(yù)訓(xùn)練架構(gòu)實現(xiàn)了更好的對齊。

實驗結(jié)果顯示，SWEET-RL在后端編程任務(wù)中的通過率顯著提升至48.0%，在前端設(shè)計任務(wù)中的余弦相似度也達到了76.9%，這一成績顯著優(yōu)于其他多輪強化學(xué)習(xí)方法。這一突破性的進展，無疑為LLMs在多輪人機協(xié)作任務(wù)中的應(yīng)用開辟了新的道路。

為了更全面地評估SWEET-RL的性能，meta AI和加州大學(xué)伯克利分校還推出了ColBench基準測試。ColBench包含了超過10000個訓(xùn)練任務(wù)和1000個測試案例，這些任務(wù)設(shè)計均模擬了真實的人機協(xié)作場景，涵蓋了后端編程（如Python函數(shù)編寫）和前端設(shè)計（如HTML代碼生成）兩大領(lǐng)域。該基準測試還限制了每輪交互的次數(shù)，最多不超過10次。

ColBench基準測試通過單元測試通過率和余弦相似度兩個指標來評估模型的性能，為多輪任務(wù)提供了可靠的評估標準。這一測試平臺的推出，不僅有助于研究人員更準確地評估SWEET-RL的性能，也為未來LLMs在多輪人機協(xié)作任務(wù)中的發(fā)展提供了有力的支持。

更多>同類內(nèi)容