日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:52011
  • 待審:79
  • 小程序:12
  • 文章:1184964
  • 會員:801

近期,OpenAI的首席執(zhí)行官薩姆·奧爾特曼發(fā)表了一項大膽預測,他聲稱到今年年底,人工智能模型將超越“入門級”軟件工程師的能力。然而,OpenAI內(nèi)部研究人員的最新研究成果卻給出了不同的答案。

在這項研究中,研究人員揭示了一個令人意外的發(fā)現(xiàn):即便是目前最前沿的人工智能模型,也無法與人類程序員相提并論。為了驗證這一點,他們開發(fā)了一個名為SWE-Lancer的新基準測試工具,該工具基于自由職業(yè)者網(wǎng)站Upwork上的真實軟件工程任務(wù)。

研究人員選取了三款大型語言模型(LLMs)進行測試,包括OpenAI自家的o1推理模型、旗艦產(chǎn)品GPT-4o,以及Anthropic公司的Claude 3.5 Sonnet。這些模型在測試中需要處理兩類任務(wù):一類是個體任務(wù),如修復漏洞;另一類是管理任務(wù),需要做出更高層次的決策。

測試結(jié)果顯示,盡管這些模型在某些細節(jié)任務(wù)上能夠迅速給出答案,但它們在處理大型項目中的漏洞及其根源時卻顯得力不從心。這些“半成品”解決方案往往缺乏全面性和準確性,與AI常見的“自信滿滿但漏洞百出”的信息輸出如出一轍。

值得注意的是,在測試過程中,這些模型被禁止訪問互聯(lián)網(wǎng),以確保它們無法抄襲網(wǎng)上已有的答案。即便如此,它們的表現(xiàn)仍然令人失望。盡管三款LLMs在完成任務(wù)的速度上遠超人類,但它們在理解漏洞的廣泛性和背景方面存在明顯不足,導致解決方案往往錯誤或不夠全面。

其中,Claude 3.5 Sonnet的表現(xiàn)略勝一籌,甚至在測試中“賺取”的金額超過了o1和GPT-4o。然而,這并不意味著它的答案就是正確的。事實上,大多數(shù)答案仍然存在錯誤。研究人員指出,要想將AI模型真正應(yīng)用于實際編程任務(wù),還需要提高其可靠性。

這項研究似乎表明,盡管前沿的人工智能模型在處理一些細節(jié)任務(wù)時表現(xiàn)出色,但它們在軟件工程領(lǐng)域的整體技能水平仍然遠遠不及人類工程師。這些模型在處理復雜任務(wù)時的局限性,再次凸顯了人類智慧在編程領(lǐng)域的不可替代性。

然而,令人擔憂的是,一些首席執(zhí)行官似乎并未受到這項研究的影響。他們?nèi)匀贿x擇解雇人類程序員,轉(zhuǎn)而使用這些尚未成熟的AI模型。這種做法不僅可能帶來潛在的風險和損失,也忽視了人類工程師在軟件開發(fā)中的獨特價值。

分享到:
標簽:程序員 不準 模型 難敵 人類
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 52011

    網(wǎng)站

  • 12

    小程序

  • 1184964

    文章

  • 801

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數(shù)有氧達人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定