近期,科技界迎來了一場備受矚目的發布會,由埃隆·馬斯克及其xAI團隊帶來的Grok 3正式亮相。此前,馬斯克通過一系列預熱活動,已經將公眾對Grok 3的期待值推向了新的高峰。然而,盡管馬斯克對Grok 3寄予厚望,并賦予了其極高的評價,但其實際表現卻并未如預期般驚艷。
在發布會上,馬斯克自信滿滿地宣布,Grok 3在數學、科學與編程等領域的基準測試中,已經超越了所有主流模型。他甚至表示,計劃將Grok 3應用于SpaceX的火星任務計算,并預測在未來三年內,Grok 3有望實現諾貝爾獎級別的突破。這樣的豪言壯語,無疑讓人們對Grok 3充滿了期待。
然而,現實卻給馬斯克和Grok 3潑了一盆冷水。在發布會后,一些媒體對Grok 3進行了測試,結果卻令人大跌眼鏡。當被問及“9.11與9.9哪個大”這一簡單問題時,號稱目前最聰明的Grok 3竟然無法給出正確答案,這一表現引發了網友們的廣泛調侃和嘲笑。
不僅如此,在xAI發布會直播中,當Grok 3被用來分析游戲《流放之路 2》的職業與升華效果時,也給出了大量錯誤答案。更為尷尬的是,馬斯克在直播中并未發現這些明顯的錯誤。這一系列問題,讓人們對Grok 3的實際能力產生了嚴重質疑。
盡管在官方PPT中,Grok 3在大模型競技場Chatbot Arena中看似表現優異,但實際上,其與DeepSeek R1和GPT4.0的差距僅為1%到2%。這一數據表明,隨著模型規模的不斷擴大,性能提升的邊際效應已經越來越明顯。
在發布會上,馬斯克透露,Grok 3使用了超過20萬張H100芯片,總訓練小時數達到兩億小時。然而,與之相比,DeepSeek V3僅使用了2000張H800芯片訓練兩個月,就取得了與Grok 3相差無幾的性能。這一對比,進一步凸顯了Grok 3在性能提升上的困境。
面對外界的質疑和批評,馬斯克在社交媒體上表示,當前的Grok 3僅是測試版,完整版將在未來幾個月內推出。他邀請用戶反饋使用問題,并表示將針對這些問題進行改進和優化。然而,對于已經對Grok 3失去信心的用戶來說,這一表態是否能夠挽回他們的信任,仍然是一個未知數。