北京時間2月18日,科技界迎來了一場萬眾矚目的直播發布——馬斯克攜手xAI團隊正式揭曉了Grok系列的最新力作,Grok3。在這場發布會之前,馬斯克通過多渠道預熱,將全球對Grok3的期待推向了高潮。他甚至在直播中提及Grok3將應用于SpaceX的火星任務,并預言其將在三年內帶來諾貝爾獎級別的突破。
然而,發布會后的實際測試卻給這份狂熱潑了一盆冷水。眾多測試者發現,盡管Grok3在數學、科學與編程基準測試中表現不俗,但在面對一些基礎常識問題時卻頻頻“翻車”。例如,當被問及“9.11與9.9哪個大”這一簡單數學問題時,Grok3竟未能給出正確答案。這一尷尬局面迅速在網絡上發酵,引發了廣泛討論。
不僅如此,在發布會直播現場,馬斯克演示Grok3分析游戲《流放之路2》職業與升華效果時,也暴露出了大量錯誤答案。這一失誤不僅成為了網友調侃馬斯克游戲水平的笑料,也讓人們對Grok3的實際應用能力產生了嚴重質疑。
據透露,為了訓練Grok3,馬斯克不惜投入巨額資源,使用了超過20萬張H100 GPU,總訓練時長達到兩億小時。這一數字雖然彰顯了xAI團隊的雄心壯志,但也引發了業界對于“算力堆砌”是否真的是大模型訓練未來的深刻反思。有網友對比指出,Grok3的訓練算力消耗是DeepSeek V3的263倍,但兩者在模型競技場榜單上的得分差距卻微不足道。
事實上,早在Grok2時代,xAI團隊就因在榜單上“刷分”而備受爭議。此次Grok3雖然成功登頂,但“高分低能”的質疑聲依然不絕于耳。許多測試者表示,在實際應用中,Grok3的表現并不比DeepSeek R1或GPT4.0等競品更為出色。
面對種種質疑,馬斯克在社交媒體上積極回應,表示當前版本的Grok3仍處于測試階段,完整版將在未來幾個月內推出。他甚至親自化身產品經理,鼓勵用戶反饋使用過程中遇到的問題。然而,Grok3的“翻車”事件已經給整個行業敲響了警鐘——在追求模型規模和算力的同時,如何確保模型的實用性和智能性成為了亟待解決的問題。
值得注意的是,OpenAI前首席科學家Ilya Sutskever曾預言“預訓練時代即將結束”。他指出,隨著互聯網中人類生成內容的有限性日益凸顯,模型難以再通過簡單獲取數據來提升性能。未來的AI系統將需要具備真正的自主性和類似人腦的推理能力。這一觀點為行業指明了方向,也提醒人們在“力大飛磚”之外尋找大模型訓練的新出路。