近期,OpenAI推出的o1-pro模型引發(fā)了廣泛關(guān)注,但根據(jù)性能對(duì)比圖顯示,盡管o1-pro在o1基礎(chǔ)上有所提升,但對(duì)普通用戶而言,o1模型已足夠滿足日常需求,無需額外支付200美元訂閱o1-pro套餐。這一套餐雖包含o1-pro模型的使用權(quán)限,同時(shí)還提供無限制使用o1模型和高級(jí)語音功能,但高昂的價(jià)格仍讓不少用戶望而卻步。
為了深入探究o1模型的性能,雷科技進(jìn)行了一系列測試,并邀請(qǐng)了兩款國產(chǎn)AI產(chǎn)品kimi和文心一言參與對(duì)比。測試首先從o1模型的強(qiáng)項(xiàng)——數(shù)學(xué)推理入手。面對(duì)一道涉及生產(chǎn)成本和市場售價(jià)的數(shù)學(xué)計(jì)算題,要求求出總利潤函數(shù)及最大利潤,三款A(yù)I均給出了相同的答案188.14萬元,與標(biāo)準(zhǔn)答案一致。然而,在展示推理過程方面,o1模型展現(xiàn)出了明顯優(yōu)勢,提供了詳盡的推算步驟,便于用戶驗(yàn)證其正確性。
接下來,測試轉(zhuǎn)向更抽象的數(shù)學(xué)問題,如一道小學(xué)四年級(jí)的奧林匹克競賽題。kimi和文心一言分別給出了A和B的選項(xiàng),而o1模型同樣選擇了B。然而,正確答案實(shí)為A,這表明在圖形處理方面,o1模型雖嘗試通過圖形規(guī)律計(jì)算答案,但未能準(zhǔn)確判斷圖形集合數(shù)量,導(dǎo)致推理錯(cuò)誤。相比之下,kimi采用高等數(shù)學(xué)方式解析圖形等式,雖然耗費(fèi)更多算力,但保證了答案的準(zhǔn)確度。
在編程能力測試中,三款A(yù)I均表現(xiàn)不俗。面對(duì)制作一個(gè)軟件以每小時(shí)檢查網(wǎng)絡(luò)連接狀態(tài)并據(jù)此重啟電腦的任務(wù),kimi和文心一言迅速給出了代碼,并在虛擬機(jī)上成功運(yùn)行。kimi的代碼包含注釋,而文心一言則通過額外注意事項(xiàng)和編程建議進(jìn)行補(bǔ)充。o1模型則采用了分步驟回答的方式,先給出實(shí)現(xiàn)思路,再提供示范代碼及注釋,最后分析代碼編寫過程并提供測試思路和備選方案,對(duì)于初學(xué)者來說更具指導(dǎo)意義。
最后,在日常領(lǐng)域測試中,三款A(yù)I被要求根據(jù)一張草莓餡餅的照片提供制作方法。三款A(yù)I均輕松識(shí)別出甜點(diǎn)類型并給出了相似配方,但o1模型的回答更為詳細(xì),包括每一步驟的操作方式和注意事項(xiàng),對(duì)于新手來說更具實(shí)用性。然而,從答案準(zhǔn)確度來看,kimi在本次測試中表現(xiàn)最佳,是唯一答對(duì)全部題目的AI。
綜合來看,o1模型在回答細(xì)致度和特定領(lǐng)域表現(xiàn)方面確實(shí)具有優(yōu)勢,但在答案準(zhǔn)確度方面與國產(chǎn)AI相比并無明顯優(yōu)勢。對(duì)于科研人員及金融分析師等職業(yè)而言,o1模型的多步驟推理流程更具吸引力。然而,對(duì)于普通用戶來說,性價(jià)比更高的kimi和文心一言同樣值得考慮。隨著AI技術(shù)的不斷發(fā)展,各大企業(yè)正在探索不同的路徑以提升AI模型的性能和實(shí)用性,而o1模型無疑為這一領(lǐng)域帶來了新的思考。