北京時(shí)間2月18日,科技界迎來(lái)了一場(chǎng)備受矚目的發(fā)布會(huì),主角是埃隆·馬斯克和他的xAI公司。在這場(chǎng)發(fā)布會(huì)上,xAI推出了其最新的旗艦?zāi)P虶rok-3系列以及配套的聊天機(jī)器人Grok。盡管xAI在這場(chǎng)AI競(jìng)賽中屬于后來(lái)者,但憑借馬斯克的光環(huán)效應(yīng),其一舉一動(dòng)都吸引了大量關(guān)注。
發(fā)布會(huì)現(xiàn)場(chǎng)氣氛熱烈,百萬(wàn)觀眾在線圍觀。xAI團(tuán)隊(duì)展示了Grok-3的卓越能力,從強(qiáng)大的數(shù)據(jù)集群到直接的評(píng)測(cè)數(shù)據(jù)對(duì)比,無(wú)一不彰顯著其“地表最強(qiáng)AI”的稱號(hào)。馬斯克此前對(duì)Grok-3的高度評(píng)價(jià),在這一刻得到了直觀的印證。
在模型能力方面,Grok-3在推理、數(shù)學(xué)、代碼等多個(gè)領(lǐng)域都取得了顯著突破。在AIME和GPQA等基準(zhǔn)測(cè)試中,Grok-3的表現(xiàn)超越了多個(gè)競(jìng)品,包括o3 mini和DeepSeek-R1等。在大模型競(jìng)技場(chǎng)LMSYS上,Grok-3的早期版本也位列第一,特別是在編碼類別中,它超越了o1和Gemini-thinking等頂級(jí)推理模型。
xAI團(tuán)隊(duì)在發(fā)布會(huì)上現(xiàn)場(chǎng)演示了Grok-3的推理和創(chuàng)意編程能力。例如,它能夠生成一段從地球發(fā)射、著陸火星再到返回地球的3D動(dòng)畫代碼,還能處理涉及推理能力的升級(jí)版俄羅斯方塊小游戲。這些演示充分展示了Grok-3的強(qiáng)大實(shí)力。
除了模型能力的升級(jí),馬斯克還透露了Grok應(yīng)用的新變化。Grok以Agent形式集成了DeepSearch、Think和Big Brain三種模式,針對(duì)用戶搜索場(chǎng)景提供編程、數(shù)學(xué)等高階能力。馬斯克還表示后續(xù)將上線語(yǔ)音交互、多模態(tài)交互等新功能,并成立AI游戲社區(qū)。
然而,Grok-3并不會(huì)立即向所有用戶開(kāi)放。首批獲得解鎖權(quán)限的是X的Premium+訂閱用戶,而在Grok獨(dú)立的APP端也將推出會(huì)員服務(wù)“SuperGrok”,價(jià)格為每月30美元或每年300美元。
作為后發(fā)者,xAI能夠在不到一年的時(shí)間內(nèi)推出Grok-3,充分展示了馬斯克“大力出奇跡”的優(yōu)勢(shì)。然而,評(píng)估模型的實(shí)際能力和落地效果仍需看后續(xù)的產(chǎn)品功能情況。xAI能否在全球大模型競(jìng)逐中脫穎而出,還有待時(shí)間的檢驗(yàn)。
在發(fā)布Grok-3之前,xAI已經(jīng)對(duì)Grok系列進(jìn)行了多次迭代,并在推理、閱讀理解、數(shù)學(xué)、科學(xué)、寫代碼等方面展現(xiàn)出不錯(cuò)的能力。同時(shí),xAI也在不斷豐富其模型家族,發(fā)布多模態(tài)模型等。在商業(yè)模式上,xAI通過(guò)免費(fèi)和開(kāi)放API降低模型使用門檻,吸引更多用戶和企業(yè)。
盡管Grok-3表現(xiàn)出色,但xAI仍面臨諸多挑戰(zhàn)。在服務(wù)企業(yè)方面,Grok目前還沒(méi)有完備的能力;在C端市場(chǎng),與X的集成度也有待提升。在外部競(jìng)爭(zhēng)方面,隨著DeepSeek等中國(guó)模型公司的崛起以及OpenAI和Anthropic等競(jìng)爭(zhēng)對(duì)手的快速發(fā)展,xAI需要不斷努力才能保持領(lǐng)先地位。