北京時間2月18日,科技界迎來了一場萬眾矚目的盛事——馬斯克攜手xAI團隊,在直播中隆重揭曉了Grok系列的最新力作:Grok3。在這場發布會之前,憑借馬斯克無休止的預熱與各式信息的釋放,全球觀眾對Grok3的期待值已被推向頂峰。
馬斯克在直播中,滿懷信心地展示了Grok3在數學、科學與編程領域的卓越表現,甚至預言它將助力SpaceX的火星探索任務,未來三年內有望帶來諾貝爾獎級別的科學突破。然而,這些豪言壯語能否站得住腳,還需時間的檢驗。
在發布會后不久,不少測試者便迫不及待地體驗了Grok3的Beta版本,并提出了一些經典難題來考驗這位“AI天才”。例如,當被問及“9.11與9.9哪個大”這一看似簡單的問題時,Grok3卻未能給出正確答案,令人大跌眼鏡。這一測試迅速在網絡上發酵,引發了廣泛討論。
不僅如此,海外網友也紛紛發起類似測試,發現Grok3在回答基礎物理、數學問題時同樣捉襟見肘,如“比薩斜塔上兩個球哪個先落下”這樣的問題也難住了它。一時間,“天才不愿回答簡單問題”的調侃之聲四起。
更為尷尬的是,在xAI發布會直播現場,馬斯克演示Grok3分析他聲稱常玩的游戲《流放之路2》的職業與升華效果時,Grok3給出的答案竟大部分是錯誤的,而馬斯克卻未察覺這一明顯失誤。這一插曲不僅成為網友嘲諷馬斯克游戲水平的“實錘”,也讓人們對Grok3的可靠性產生了嚴重質疑。
事實上,早在發布會前的預熱階段,馬斯克就曾自信滿滿地表示,xAI即將推出超越DeepSeek R1的AI模型。然而,經過眾多測試者的親身體驗,Grok3的表現并未明顯優于DeepSeek R1或o1-Pro等其他主流模型。甚至有測試者指出,Grok3在某些方面的表現甚至不如前輩。
盡管在官方PPT中,Grok3在大模型競技場Chatbot Arena中實現了“遙遙領先”的戰績,但這背后卻隱藏著一些作圖技巧。榜單的縱軸僅列出了1400-1300分段的排名,使得原本微小的差距在PPT中顯得異常顯著。而實際的模型跑分結果顯示,Grok3與DeepSeek R1及GPT4.0的差距僅為1%-2%。
值得注意的是,為了訓練出Grok3這位“AI天才”,馬斯克不惜耗費了巨額資源。據他透露,Grok3的訓練使用了超過20萬張H100 GPU,總訓練小時數達到兩億小時。這一數字令人咋舌,也引發了業界對于模型訓練未來走向的熱烈討論。然而,有網友對比發現,使用2000張H800訓練兩個月的DeepSeek V3,在算力消耗上僅為Grok3的263分之一,而兩者在榜單上的差距卻不到100分。
這一系列事實表明,隨著模型體積的不斷增大,性能提升的邊際效應已愈發明顯。即便是擁有海量高質量數據的xAI,也遭遇了優質訓練數據不足的瓶頸。面對這一困境,馬斯克在社交媒體上不斷強調當前版本僅為測試版,完整版將在未來幾個月推出,并親自化身產品經理,鼓勵用戶反饋問題。
然而,Grok3的表現無疑給那些試圖通過“大力出奇跡”訓練出更強大模型的后來者敲響了警鐘。隨著模型參數體積的飛漲,訓練成本也在飆升。如何在有限的資源下實現模型性能的最大化,已成為業界亟待解決的問題。或許,正如OpenAI前首席科學家Ilya Sutskever所言,“預訓練模型的時代即將結束”,未來的AI系統需要具備真正的自主性和類人腦的推理能力。