字節開源FullStack Bench，全棧編程大模型基準新升級！-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

網站：52010
待審：74
小程序：12
文章：1158077
會員：789

字節開源FullStack Bench，全棧編程大模型基準新升級！

發布時間：2024-12-05 15:28:51 作者：網友整理

在AI編程領域，一場關于模型能力評估的變革正在悄然進行。近日，字節跳動旗下的豆包大模型團隊攜手M-A-P開源社區，共同推出了一個名為FullStack Bench的全新代碼評估基準，旨在更全面地衡量大模型在真實世界中的代碼開發能力。

FullStack Bench的出現，是對當前代碼評估基準的一次重要升級。以往，諸如Humaneval和MBPP等主流評測集，大多聚焦于基礎編程和高級編程問題，而DS-1000則更側重于數據分析和機器學習任務，且僅針對Python語言。xCodeeval雖然覆蓋的任務類型較多，但也基本局限于高級編程和數學領域。這些評測集在應用類型和編程語言上的局限性，使得它們難以充分反映真實世界代碼開發場景的多樣性和復雜性。

為了打造一個更貼近真實全棧開發環境的評估基準，豆包大模型團隊與M-A-P開源社區從全球最大的程序員技術問答社區Stack Overflow中抽取了海量問題進行分析。經過嚴格的篩選和調整，他們最終確定了超過11種應用場景，并構建了包含3374個問題的FullStack Bench數據集。這些問題不僅涵蓋了編程全棧技術中的多個真實場景，還涉及16種編程語言，從而能夠更有效地評估大模型在現實世界中的代碼開發能力。

在FullStack Bench數據集中，每個問題都包含了題目描述、參考解決方案及單元測試用例，總計15168個單元測試。為確保評估的準確性，這些問題均由相關領域的編程專家精心設計，并經過AI和人工的雙重驗證。豆包大模型團隊還根據主流代碼大模型的測試結果，對數據集進行了進一步的交叉評估和完善，以確保其質量和實用性。

除了FullStack Bench數據集外，豆包大模型團隊還開源了一款名為SandboxFusion的代碼沙盒執行工具。這款工具能夠高效地評估來自不同語言的不同編程任務，并兼容超過10種廣泛使用的代碼評估數據集，支持23種編程語言。開發者只需在單服務器上即可輕松部署SandboxFusion，也可直接在GitHub上進行體驗，從而大大簡化了對大模型代碼能力的系統性測試過程。

在發布FullStack Bench數據集和SandboxFusion工具的同時，字節代碼大模型也首次亮相。豆包大模型團隊對全球20余款代碼大模型及語言大模型的編程表現進行了評測，其中包括他們自研的豆包代碼大模型Doubao-Coder。這一評測結果不僅展示了豆包大模型在編程能力上的優勢，也彰顯了字節跳動在代碼大模型領域的深厚積累和快速進步。

事實上，近半年來，字節跳動在代碼大模型領域取得了顯著進展。今年6月，他們發布了由自研代碼基座模型支撐的AI編程助手豆包MarsCode。這款助手能夠為用戶提供高質量的代碼生成服務，目前每月已為用戶貢獻百萬量級的代碼量。FullStack Bench數據集和SandboxFusion工具的推出，無疑將進一步推動字節跳動在代碼大模型領域的創新和發展。