<ul id="mwmk6"><sup id="mwmk6"></sup></ul>
<ul id="mwmk6"></ul>
    <abbr id="mwmk6"></abbr>
  • <ul id="mwmk6"></ul>
  • <ul id="mwmk6"><sup id="mwmk6"></sup></ul>
    資訊在沃

    豆包大模型開源Multi-SWE-bench,多語言“自動修Bug”能力能否更上一層樓?

       發(fā)布時間:2025-04-10 18:34 作者:馮璃月

    字節(jié)跳動旗下的豆包大模型團隊近日傳來重要消息,他們正式推出了首個多語言軟件錯誤修正(SWE)數(shù)據(jù)集——Multi-SWE-bench。這一創(chuàng)新工具旨在評估和提升大型語言模型在自動修復代碼錯誤方面的能力。

    Multi-SWE-bench是在原有SWE-bench的基礎(chǔ)上拓展而來,其最大亮點在于覆蓋了除Python外的七種主流編程語言,包括Java、Go、Rust、C、C++、Type以及再次提及的Java(此處原文可能有誤,或為其他語言,如Typescript,但為保持原文信息完整性,按原文轉(zhuǎn)述)。這一數(shù)據(jù)集真正實現(xiàn)了面向“全棧工程”的評測基準,為開發(fā)者提供了更為全面的評估工具。

    據(jù)悉,Multi-SWE-bench共包含1632個實例,這些實例均源自GitHub上的issue,且經(jīng)過嚴格的測試標準和專業(yè)開發(fā)者的精心篩選。每個樣本都確保了問題描述的清晰性、修復補丁的正確性以及可復現(xiàn)的運行測試環(huán)境,從而保證了數(shù)據(jù)集的高質(zhì)量。

    豆包大模型團隊表示,他們希望Multi-SWE-bench能夠成為大型語言模型在多種主流編程語言與真實代碼環(huán)境中的系統(tǒng)性評測基準。這一工具將推動自動編程能力向更加實用、更加工程化的方向發(fā)展,為開發(fā)者帶來實質(zhì)性的幫助。

    與以往主要聚焦于Python單語言任務(wù)的數(shù)據(jù)集相比,Multi-SWE-bench更加貼近現(xiàn)實中的多語言開發(fā)場景。它不僅能夠更準確地反映當前模型在“自動化軟件工程”方向上的實際能力邊界,還為開發(fā)者提供了更為全面、更為實用的評測工具。

     
     
    更多>同類內(nèi)容
    全站最新
    熱門內(nèi)容
    本欄最新
     
    www.午夜精品| 国产日产精品_国产精品毛片| 久久精品人人爽人人爽快| 国产精品爱搞视频网站 | 亚洲毛片av日韩av无码 | 国产综合精品女在线观看| 国产精品无码素人福利| 日韩在线观看一区二区三区| 日韩在线精品一二三区| 国产青草亚洲香蕉精品久久| 无码人妻精品丰满熟妇区| 十八禁无遮挡99精品国产| 色综合久久夜色精品国产| 亚洲国产精品久久久久秋霞影院| 久久成人国产精品| 日韩精品无码免费一区二区三区| 国产精品免费观看调教网| 久久91精品国产91久久户| 日本精品VIDEOSSE×少妇| 精品人妻无码专区中文字幕| 国产精品亚洲不卡一区二区三区| 国产高清在线精品一区小说| 亚洲精品456播放| 国产精品 羞羞答答在线| 国产精品免费视频观看拍拍| 国产精品免费αv视频| 精品乱子伦一区二区三区高清免费播放 | 日韩精品成人亚洲专区| 精品一区二区三区3d动漫| 国产九九久久99精品影院| 国产福利vr专区精品| 四虎一影院区永久精品| 日韩福利视频导航| 手机看片福利永久国产日韩| 日韩国产成人精品视频| 精品91一区二区三区| 久99精品视频在线观看婷亚洲片国产一区一级在线 | 国产成人亚洲精品91专区高清| 国产女精品视频在ktv| 中文字幕日韩三级| 精品天海翼一区二区|