Grok3“翻車”背后：大模型邊際效應顯現，AI訓練新出路何在？-魔扣目錄

北京時間2月18日，科技界迎來了一場萬眾矚目的盛事——馬斯克攜手xAI團隊，在直播中隆重揭曉了Grok系列的最新力作：Grok3。在這場發布會之前，憑借馬斯克無休止的預熱與各式信息的釋放，全球觀眾對Grok3的期待值已被推向頂峰。

馬斯克在直播中，滿懷信心地展示了Grok3在數學、科學與編程領域的卓越表現，甚至預言它將助力SpaceX的火星探索任務，未來三年內有望帶來諾貝爾獎級別的科學突破。然而，這些豪言壯語能否站得住腳，還需時間的檢驗。

在發布會后不久，不少測試者便迫不及待地體驗了Grok3的Beta版本，并提出了一些經典難題來考驗這位“AI天才”。例如，當被問及“9.11與9.9哪個大”這一看似簡單的問題時，Grok3卻未能給出正確答案，令人大跌眼鏡。這一測試迅速在網絡上發酵，引發了廣泛討論。

不僅如此，海外網友也紛紛發起類似測試，發現Grok3在回答基礎物理、數學問題時同樣捉襟見肘，如“比薩斜塔上兩個球哪個先落下”這樣的問題也難住了它。一時間，“天才不愿回答簡單問題”的調侃之聲四起。

更為尷尬的是，在xAI發布會直播現場，馬斯克演示Grok3分析他聲稱常玩的游戲《流放之路2》的職業與升華效果時，Grok3給出的答案竟大部分是錯誤的，而馬斯克卻未察覺這一明顯失誤。這一插曲不僅成為網友嘲諷馬斯克游戲水平的“實錘”，也讓人們對Grok3的可靠性產生了嚴重質疑。

事實上，早在發布會前的預熱階段，馬斯克就曾自信滿滿地表示，xAI即將推出超越DeepSeek R1的AI模型。然而，經過眾多測試者的親身體驗，Grok3的表現并未明顯優于DeepSeek R1或o1-Pro等其他主流模型。甚至有測試者指出，Grok3在某些方面的表現甚至不如前輩。

盡管在官方PPT中，Grok3在大模型競技場Chatbot Arena中實現了“遙遙領先”的戰績，但這背后卻隱藏著一些作圖技巧。榜單的縱軸僅列出了1400-1300分段的排名，使得原本微小的差距在PPT中顯得異常顯著。而實際的模型跑分結果顯示，Grok3與DeepSeek R1及GPT4.0的差距僅為1%-2%。

值得注意的是，為了訓練出Grok3這位“AI天才”，馬斯克不惜耗費了巨額資源。據他透露，Grok3的訓練使用了超過20萬張H100 GPU，總訓練小時數達到兩億小時。這一數字令人咋舌，也引發了業界對于模型訓練未來走向的熱烈討論。然而，有網友對比發現，使用2000張H800訓練兩個月的DeepSeek V3，在算力消耗上僅為Grok3的263分之一，而兩者在榜單上的差距卻不到100分。

這一系列事實表明，隨著模型體積的不斷增大，性能提升的邊際效應已愈發明顯。即便是擁有海量高質量數據的xAI，也遭遇了優質訓練數據不足的瓶頸。面對這一困境，馬斯克在社交媒體上不斷強調當前版本僅為測試版，完整版將在未來幾個月推出，并親自化身產品經理，鼓勵用戶反饋問題。

然而，Grok3的表現無疑給那些試圖通過“大力出奇跡”訓練出更強大模型的后來者敲響了警鐘。隨著模型參數體積的飛漲，訓練成本也在飆升。如何在有限的資源下實現模型性能的最大化，已成為業界亟待解決的問題。或許，正如OpenAI前首席科學家Ilya Sutskever所言，“預訓練模型的時代即將結束”，未來的AI系統需要具備真正的自主性和類人腦的推理能力。

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

Grok3“翻車”背后：大模型邊際效應顯現，AI訓練新出路何在？

數獨大挑戰2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運動步數有氧達人2018-06-03

每日養生app2018-06-03

體育訓練成績評定2018-06-03