奧特曼公司在科技界的又一次重大動(dòng)作引發(fā)了廣泛關(guān)注。近日,該公司宣布推出兩款全新的o系列模型——滿血版o3和o4-mini,這兩款模型不僅性能強(qiáng)勁,而且能夠無(wú)縫集成ChatGPT中的多種工具,涵蓋圖像生成、圖像分析、文件解釋、網(wǎng)絡(luò)搜索以及Python編程等多個(gè)領(lǐng)域。
據(jù)奧特曼公司介紹,這兩款新模型相較于前代產(chǎn)品,在性能上有了顯著提升,同時(shí)價(jià)格更加親民。消息一經(jīng)發(fā)布,立即引發(fā)了科技愛好者的熱烈討論和測(cè)試。
網(wǎng)友們紛紛曬出了對(duì)新模型的測(cè)試結(jié)果,其中“小球測(cè)試”的結(jié)果尤為引人注目。一位網(wǎng)友表示:“這是我迄今為止看到的最好的測(cè)試結(jié)果,o3和o4-mini的表現(xiàn)確實(shí)令人驚嘆。”在HLM基準(zhǔn)測(cè)試中,這兩款新模型也迅速攀升至榜單前三,其強(qiáng)大的性能讓業(yè)內(nèi)人士和網(wǎng)友們大呼震驚。
從官方數(shù)據(jù)來(lái)看,o3在多個(gè)基準(zhǔn)測(cè)試中刷新了紀(jì)錄,包括Codeforces、SWE-bench和MMMU等。在應(yīng)對(duì)復(fù)雜現(xiàn)實(shí)任務(wù)時(shí),o3相比OpenAI o1減少了20%的重大錯(cuò)誤,尤其在編程、商業(yè)咨詢和創(chuàng)意構(gòu)思方面表現(xiàn)出色。而o4-mini雖然體積小巧,但專為快速、高效的推理任務(wù)而設(shè)計(jì),支持更高的使用頻率。在數(shù)學(xué)、編程和視覺任務(wù)上,o4-mini同樣表現(xiàn)出色,在2025年AIME數(shù)學(xué)競(jìng)賽中,借助Python解釋器的幫助,取得了接近滿分的優(yōu)異成績(jī)。
o3和o4-mini首次實(shí)現(xiàn)了將圖像直接融入思維鏈的能力。它們不僅能夠“看見”圖像,更能“通過(guò)圖像思考”,這一創(chuàng)新帶來(lái)了視覺與文本推理的全新融合方式,顯著提升了模型在多模態(tài)任務(wù)中的表現(xiàn)。OpenAI圖像推理研究員Jiahui Yu表示:“自o系列推出以來(lái),‘圖像思考’始終是我們感知領(lǐng)域的核心戰(zhàn)略之一。如今,隨著o3和o4-mini的發(fā)布,這一戰(zhàn)略終于以更為成熟和完整的形式落地。”
這兩款新模型能夠自由調(diào)用ChatGPT中的各種工具,這一能力讓模型從“聰明大腦”進(jìn)化為“靈巧雙手”。網(wǎng)友們紛紛嘗試?yán)眠@一新功能,發(fā)現(xiàn)模型能夠輕松完成跨工具的任務(wù),帶來(lái)了前所未有的便捷體驗(yàn)。OpenAI首席研究官M(fèi)ark Chen表示:“一旦推理模型學(xué)會(huì)了端到端地使用工具,它們就會(huì)變得更加強(qiáng)大。最新的o系列模型正是我們向未來(lái)邁出的重要一步。”
除了新模型的發(fā)布,奧特曼公司還開源了一款本地代碼智能體——Codex CLI。這款輕量級(jí)的編碼助手能夠直接在用戶的終端命令行中運(yùn)行,充分發(fā)揮o3、o4-mini等模型的推理能力,緊密連接本地開發(fā)環(huán)境。未來(lái),Codex CLI還將支持GPT 4.1等其他模型,為開發(fā)者提供更加便捷、高效的編碼體驗(yàn)。Codex CLI甚至支持通過(guò)截圖或手繪草圖進(jìn)行多模態(tài)編程,這一創(chuàng)新功能刷新了代碼交互與內(nèi)容理解的邊界。