日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:52011
  • 待審:79
  • 小程序:12
  • 文章:1184964
  • 會員:801

加利福尼亞大學圣地亞哥分校的Hao人工智能實驗室最近進行了一項別開生面的研究,他們將AI技術引入了經典游戲《超級馬力歐兄弟》中,以此作為測試AI性能的獨特平臺。研究結果顯示,在這次測試中,Anthropic公司的Claude 3.7版本AI展現出了卓越的能力,緊隨其后的是Claude 3.5版本。相比之下,谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o則未能達到預期表現。

值得注意的是,這次實驗所用的并非1985年原版《超級馬力歐兄弟》,而是在一個模擬器中運行的游戲版本。Hao人工智能實驗室研發的GamingAgent框架作為橋梁,連接了AI與游戲,使AI能夠操控馬力歐。GamingAgent不僅向AI發出如“避開附近障礙物或敵人”等基本指令,還提供了游戲內實時截圖。AI則通過生成Python代碼來指揮馬力歐的行動。

據實驗室介紹,這種游戲環境對AI模型提出了高要求,迫使它們學習如何規劃復雜的操作并制定有效的游戲策略。一個有趣的發現是,像OpenAI的o1這樣的推理模型,雖然在多數基準測試中表現出色,但在此次實驗中卻不如“非推理”模型。研究人員指出,推理模型在實時游戲中往往因決策時間過長而表現不佳。在《超級馬力歐兄弟》這樣的游戲中,時機至關重要,一秒鐘的延誤可能導致完全不同的結果。

游戲作為衡量AI性能的工具已有數十年歷史,但一些專家對此提出了質疑。他們認為,與現實世界相比,游戲環境相對抽象且簡單,為AI訓練提供了理論上無限的數據。這種局限性可能使得游戲基準測試結果無法全面反映AI技術的真實水平。

近期,一些引人注目的游戲基準測試結果引發了廣泛的討論,甚至引發了OpenAI研究科學家安德烈?卡帕西的“評估危機”言論。他在一篇帖子中表示,面對眾多AI指標,他感到困惑,不知道應該關注哪些。他總結道,目前難以準確評估這些AI模型的真實能力。

盡管存在這些爭議和挑戰,但觀看AI玩《超級馬力歐兄弟》仍然是一種有趣的體驗。這一研究不僅展示了AI技術的潛力,也引發了人們對AI性能評估和未來發展的深入思考。

分享到:
標簽:落敗 推理 模型 領先 挑戰
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 52011

    網站

  • 12

    小程序

  • 1184964

    文章

  • 801

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定