OpenAI近期推出了一項重大更新,其首席執(zhí)行官奧特曼親自帶領(lǐng)團隊,在一場25分鐘的直播活動中揭曉了名為“ChatGPT Agent”的創(chuàng)新技術(shù)。這一統(tǒng)一智能體的問世,標(biāo)志著ChatGPT在處理現(xiàn)實世界復(fù)雜任務(wù)能力上的飛躍。
ChatGPT Agent能夠響應(yīng)諸如“檢查我的日歷并概述即將到來的客戶會議重點”,“規(guī)劃并購買為四人準(zhǔn)備的日式早餐所需食材”,以及“分析三個競爭對手并制作演示文稿”等指令。它能夠智能地瀏覽網(wǎng)頁、篩選信息、在必要時提示安全登錄、執(zhí)行代碼分析,甚至直接生成可編輯的PPT和Excel文件來總結(jié)分析結(jié)果。
奧特曼表示,ChatGPT Agent利用計算機執(zhí)行復(fù)雜任務(wù)的能力,讓他個人感受到了通向通用人工智能(AGI)的重要一步。
目前,ChatGPT的專業(yè)版(Pro)、增強版(Plus)和團隊版(Team)用戶均可以訪問這一新功能。使用方式依舊簡便,只需在ChatGPT的原頁面中,通過“工具”下拉菜單選擇“Agent mode”即可開啟。
ChatGPT Agent融合了此前三大技術(shù)創(chuàng)新的精髓:Operator與網(wǎng)頁交互的能力、Deep Research整合信息的技巧,以及ChatGPT本身的對話智能。在“Agent mode”下,ChatGPT能夠直接調(diào)用用戶的計算機資源,包括智能瀏覽網(wǎng)頁、篩選結(jié)果、運行代碼、生成報告等。
為了直觀展示ChatGPT Agent的實力,OpenAI團隊模擬了一個真實場景:用戶上傳一張團隊吉祥物的圖片,ChatGPT隨即將其轉(zhuǎn)化為漫畫風(fēng)格的貼紙,并訂購了500張送至指定地址。整個過程從搜索、創(chuàng)作到執(zhí)行,一氣呵成。
團隊還展示了ChatGPT Agent制作PPT的能力。它能夠從Google云中提取數(shù)據(jù),自動生成包含圖表的PPT。經(jīng)過模型的自我審視和優(yōu)化,最終生成的PPT圖表既專業(yè)又精美。
在多個評估測試中,ChatGPT Agent均刷新了業(yè)界基準(zhǔn)。在網(wǎng)頁瀏覽和現(xiàn)實任務(wù)完成能力測試中,它展現(xiàn)了卓越的性能。在人類最后考試(HLE)中,ChatGPT Agent得分高達(dá)41.6%,采用并行策略后更是提升至44.4%。在最難的數(shù)學(xué)基準(zhǔn)測試FrontierMath中,通過使用工具,它的準(zhǔn)確率達(dá)到了27.4%,遠(yuǎn)超之前的模型。在評估知識工作任務(wù)性能的基準(zhǔn)測試中,ChatGPT Agent的表現(xiàn)與人類相當(dāng)或更優(yōu),同時明顯優(yōu)于其他模型。在Excel編輯能力的測試中,它的得分也遠(yuǎn)高于Excel中的Copilot。
隨著OpenAI ChatGPT Agent的推出,AI Agent領(lǐng)域的競爭格局變得更加多元化。2025年被視為全球AI Agent技術(shù)爆發(fā)的元年,行業(yè)正從基礎(chǔ)大模型的競爭轉(zhuǎn)向智能體的實際應(yīng)用。在通用領(lǐng)域,中國團隊開發(fā)的“Manus”已引起廣泛關(guān)注。在垂直領(lǐng)域,亞馬遜云科技也發(fā)布了企業(yè)級Agent部署平臺Amazon Bedrock AgentCore,為開發(fā)者提供了從概念驗證到生產(chǎn)部署的全方位支持。
如今,AI Agent市場已形成了“通用與垂直”、“端到端與多模型”、“C端工具與B端平臺”的三維競爭格局。OpenAI ChatGPT Agent的強勢加入,無疑將推動這一領(lǐng)域的進一步發(fā)展和創(chuàng)新。