馬斯克Grok 3模型基準測試遭質疑，xAI回應并無不當-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

網站：52011
待審：79
小程序：12
文章：1184964
會員：801

馬斯克Grok 3模型基準測試遭質疑，xAI回應并無不當

發布時間：2025-02-24 13:33:34 作者：網友整理

近期，人工智能領域內發生了一場關于基準測試結果的爭議。據悉，xAI公司，一個專注于可解釋人工智能（XAI）的企業，發布了一份關于其最新模型Grok 3的基準測試報告，引發了OpenAI一名員工的質疑。

xAI在官方博客上公布了一張圖表，詳細展示了Grok 3的兩個版本——Grok 3 Reasoning Beta和Grok 3 mini Reasoning，在一項名為AIME 2025的高難度數學考試中的表現。這份圖表顯示，Grok 3的兩個版本均超越了OpenAI當前最先進的模型o3-mini-high。

然而，OpenAI的員工對此提出了異議，指出xAI的圖表并未全面反映事實。具體來說，該圖表遺漏了o3-mini-high在“cons@64”條件下的得分。“cons@64”是一種測試方法，允許模型對每個問題嘗試64次，并將出現頻率最高的答案作為最終答案。在“@1”條件下，即模型首次嘗試的得分上，Grok 3的兩個版本均低于o3-mini-high。

盡管存在這一差異，xAI仍在其宣傳材料中強調Grok 3是“最聰明的AI”。這一行為引發了OpenAI員工的進一步批評，認為xAI的基準測試結果具有誤導性。

面對這些指責，xAI的聯合創始人伊戈爾·巴布什金進行了回應。他表示，xAI在發布基準測試結果時并無不當之處，并指出OpenAI過去也曾發布過類似的誤導性圖表。巴布什金的這一回應，無疑為這場爭議增添了更多的火藥味。

目前，這場關于基準測試結果的爭議仍在持續發酵。對于人工智能領域來說，如何確保基準測試的公正性和準確性，以及如何避免誤導性的宣傳，成為了亟待解決的問題。

分享到：

標簽：基準不當質疑模型回應