近期,人工智能領域內發生了一場關于基準測試結果的爭議。據悉,xAI公司,一個專注于可解釋人工智能(XAI)的企業,發布了一份關于其最新模型Grok 3的基準測試報告,引發了OpenAI一名員工的質疑。
xAI在官方博客上公布了一張圖表,詳細展示了Grok 3的兩個版本——Grok 3 Reasoning Beta和Grok 3 mini Reasoning,在一項名為AIME 2025的高難度數學考試中的表現。這份圖表顯示,Grok 3的兩個版本均超越了OpenAI當前最先進的模型o3-mini-high。
然而,OpenAI的員工對此提出了異議,指出xAI的圖表并未全面反映事實。具體來說,該圖表遺漏了o3-mini-high在“cons@64”條件下的得分。“cons@64”是一種測試方法,允許模型對每個問題嘗試64次,并將出現頻率最高的答案作為最終答案。在“@1”條件下,即模型首次嘗試的得分上,Grok 3的兩個版本均低于o3-mini-high。
盡管存在這一差異,xAI仍在其宣傳材料中強調Grok 3是“最聰明的AI”。這一行為引發了OpenAI員工的進一步批評,認為xAI的基準測試結果具有誤導性。
面對這些指責,xAI的聯合創始人伊戈爾·巴布什金進行了回應。他表示,xAI在發布基準測試結果時并無不當之處,并指出OpenAI過去也曾發布過類似的誤導性圖表。巴布什金的這一回應,無疑為這場爭議增添了更多的火藥味。
目前,這場關于基準測試結果的爭議仍在持續發酵。對于人工智能領域來說,如何確保基準測試的公正性和準確性,以及如何避免誤導性的宣傳,成為了亟待解決的問題。