日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:52010
  • 待審:67
  • 小程序:12
  • 文章:1106242
  • 會員:784

【ITBEAR】9月25日消息,近日,亞利桑那州立大學的科研團隊利用PlanBench基準對OpenAI的o1模型進行了規劃能力的測試。測試結果顯示,盡管o1模型在某些方面取得了顯著的進步,但其仍然存在較大的局限性。

PlanBench基準于2022年開發,主要用于評估人工智能系統在規劃方面的能力。該基準包含了600個來自Blocksworld領域的任務,要求積木必須按照特定的順序進行堆疊。

據ITBEAR了解,在Blocksworld任務中,OpenAI的o1模型展現出了驚人的表現,其準確率高達97.8%,遠遠超過了之前的最佳語言模型LLaMA 3.1 405B的62.6%。在更具挑戰性的“Mystery Blocksworld”加密版本中,傳統模型幾乎全部失敗,而o1模型的準確率仍能達到52.8%。

為了驗證o1模型的性能是否源于其訓練集中的基準數據,研究人員還測試了一種新的隨機變體。在這次測試中,o1模型的準確率降至37.3%,但仍遠超其他得分接近零的模型。

然而,隨著任務的復雜性增加,o1模型的表現也急劇下降。在需要20到40個規劃步驟的問題上,o1模型在較簡單測試中的準確率從97.8%驟降至23.63%。此外,該模型在識別無法解決的任務方面也顯得力不從心,只有27%的時間能夠正確識別,而在54%的情況下,它錯誤地生成了完整但不可能完成的計劃。

盡管o1模型在基準性能上實現了顯著的改進,但它并不能保證解決方案的正確性。與經典的規劃算法相比,如快速向下算法,這些算法可以在更短的計算時間內實現完美的準確性。

研究還指出,o1模型的高資源消耗是一個不容忽視的問題。運行這些測試需要花費近1900美元,而經典算法在標準計算機上運行則幾乎不需要任何成本。

研究人員強調,對人工智能系統進行公平比較時,必須綜合考慮準確性、效率、成本和可靠性。他們的研究結果表明,盡管像o1這樣的人工智能模型在復雜推理任務方面取得了進步,但這些能力仍然有待提升。

關鍵詞:#OpenAI o1模型# #規劃能力測試# #PlanBench基準# #局限性# #資源消耗#

分享到:
標簽:實測 率高達 模型 準確 能力
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 52010

    網站

  • 12

    小程序

  • 1106242

    文章

  • 784

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定