字節(jié)跳動旗下的豆包大模型團隊近日傳來重要消息,他們正式推出了首個多語言軟件錯誤修正(SWE)數(shù)據(jù)集——Multi-SWE-bench。這一創(chuàng)新工具旨在評估和提升大型語言模型在自動修復代碼錯誤方面的能力。
Multi-SWE-bench是在原有SWE-bench的基礎(chǔ)上拓展而來,其最大亮點在于覆蓋了除Python外的七種主流編程語言,包括Java、Go、Rust、C、C++、Type以及再次提及的Java(此處原文可能有誤,或為其他語言,如Typescript,但為保持原文信息完整性,按原文轉(zhuǎn)述)。這一數(shù)據(jù)集真正實現(xiàn)了面向“全棧工程”的評測基準,為開發(fā)者提供了更為全面的評估工具。
據(jù)悉,Multi-SWE-bench共包含1632個實例,這些實例均源自GitHub上的issue,且經(jīng)過嚴格的測試標準和專業(yè)開發(fā)者的精心篩選。每個樣本都確保了問題描述的清晰性、修復補丁的正確性以及可復現(xiàn)的運行測試環(huán)境,從而保證了數(shù)據(jù)集的高質(zhì)量。
豆包大模型團隊表示,他們希望Multi-SWE-bench能夠成為大型語言模型在多種主流編程語言與真實代碼環(huán)境中的系統(tǒng)性評測基準。這一工具將推動自動編程能力向更加實用、更加工程化的方向發(fā)展,為開發(fā)者帶來實質(zhì)性的幫助。
與以往主要聚焦于Python單語言任務(wù)的數(shù)據(jù)集相比,Multi-SWE-bench更加貼近現(xiàn)實中的多語言開發(fā)場景。它不僅能夠更準確地反映當前模型在“自動化軟件工程”方向上的實際能力邊界,還為開發(fā)者提供了更為全面、更為實用的評測工具。