豆包大模型開源Multi-SWE-bench，多語言“自動修Bug”能力能否更上一層樓？-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

網站：52011
待審：79
小程序：12
文章：1184964
會員：801

豆包大模型開源Multi-SWE-bench，多語言“自動修Bug”能力能否更上一層樓？

發布時間：2025-04-10 18:34:09 作者：網友整理

字節跳動旗下的豆包大模型團隊近日傳來重要消息，他們正式推出了首個多語言軟件錯誤修正（SWE）數據集——Multi-SWE-bench。這一創新工具旨在評估和提升大型語言模型在自動修復代碼錯誤方面的能力。

Multi-SWE-bench是在原有SWE-bench的基礎上拓展而來，其最大亮點在于覆蓋了除Python外的七種主流編程語言，包括Java、Go、Rust、C、C++、Type以及再次提及的Java（此處原文可能有誤，或為其他語言，如Typescript，但為保持原文信息完整性，按原文轉述）。這一數據集真正實現了面向“全棧工程”的評測基準，為開發者提供了更為全面的評估工具。

據悉，Multi-SWE-bench共包含1632個實例，這些實例均源自GitHub上的issue，且經過嚴格的測試標準和專業開發者的精心篩選。每個樣本都確保了問題描述的清晰性、修復補丁的正確性以及可復現的運行測試環境，從而保證了數據集的高質量。

豆包大模型團隊表示，他們希望Multi-SWE-bench能夠成為大型語言模型在多種主流編程語言與真實代碼環境中的系統性評測基準。這一工具將推動自動編程能力向更加實用、更加工程化的方向發展，為開發者帶來實質性的幫助。

與以往主要聚焦于Python單語言任務的數據集相比，Multi-SWE-bench更加貼近現實中的多語言開發場景。它不僅能夠更準確地反映當前模型在“自動化軟件工程”方向上的實際能力邊界，還為開發者提供了更為全面、更為實用的評測工具。