日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:52011
  • 待審:79
  • 小程序:12
  • 文章:1184964
  • 會員:801

近期,蘋果公司公布了一項關于人工智能(AI)的重要研究,揭示了大型推理模型(LRM)在面對復雜問題時的局限性,這一發現引發了業界的廣泛關注。

在這項研究中,蘋果科研人員測試了多款前沿的LRM,包括OpenAI的o1與o3、DeepSeek R1、Claude 3.7 Sonnet Thinking以及Google的Gemini Flash Thinking。他們通過一系列經典邏輯謎題來評估這些模型的推理能力,例如河內塔、跳棋問題、過河難題和方塊堆疊問題等。

研究結果顯示,盡管這些LRM在中等難度的謎題上表現優于傳統的大型語言模型(LLM),但在面對簡單問題時,它們的表現卻不盡如人意。更令人驚訝的是,當問題難度提升時,這些模型不僅無法有效應對,還會出現“完全崩潰”的現象,甚至在解題過程中提前“放棄”。

蘋果研究人員指出,盡管LRM在數學和編程任務中展現出了強大的能力,但在面對更加復雜的挑戰時,它們只是呈現出了一種“思考的假象”。這一發現無疑給那些期待通用人工智能(AGI)早日實現的人們潑了一盆冷水,同時也讓AI懷疑論者看到了希望的曙光。

在具體測試過程中,研究人員發現,隨著問題難度的增加,這些LRM模型的準確率逐漸下降,最終在各自的臨界點完全崩潰,準確率為零。例如,在河內塔問題中,當圓盤數量增加到第五個時,Claude 3.7 Sonnet + Thinking和DeepSeek R1就開始頻繁失敗。即使增加算力,也無法解決高復雜度的問題。

研究人員還發現,隨著問題難度的提升,這些模型在解題初期會投入更多的“思考token”(即推理努力),但接近臨界點時,反而會減少“思考”,即token使用量下降。這意味著,面對更難的問題,這些模型反而更快地放棄了努力。

盡管這一研究結果令人失望,但AI專家Gary Marcus在博客中指出,這并不意味著這些模型完全沒有推理能力。他指出,人類在類似的任務中也存在局限性,例如許多人在解決包含8個圓盤的河內塔問題時也會出錯。同時,他也強調,研究并未將這些AI模型的表現與人類進行直接對比。

總的來說,蘋果的研究揭示了大型語言模型在推理能力方面的局限性。盡管它們在編程、寫作等任務中表現出色,但在面對更加復雜的挑戰時,仍然需要傳統算法的支持。因此,我們應該將這項研究視為一項重要的參考數據,結合其他LLM研究來全面理解AI的發展現狀。

在AI研究領域,每次新的發現都會引發社會輿論的極端反應。有些人會徹底看衰AI,而有些人則會過度興奮地慶祝所謂的“突破”。然而,現實往往介于這兩個極端之間。AI的發展既非驚天動地,也非一無是處,而是在不斷進步和完善中。

分享到:
標簽:假象 遇難 推理 崩潰 模型
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 52011

    網站

  • 12

    小程序

  • 1184964

    文章

  • 801

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定