OpenAI在人工智能領域再次邁出重要一步,于近日凌晨震撼發布了兩個全新的視覺推理模型——OpenAI o3與o4-mini。這兩款模型隸屬于OpenAI的o系列,最引人注目的特點是它們能夠首次將圖像融入思維鏈推理過程中,標志著OpenAI在多模態推理技術上的重大突破。
o3與o4-mini在功能上各有側重。o3被定位為目前最強大的推理模型,而o4-mini則是一個經過優化、體積更小、專為快速且具備成本效益的推理任務而設計的模型。它們不僅能解讀和分析圖像,還能自主調用工具,在極短時間內生成精準的答案。
為了最大化這些模型的推理能力,OpenAI還開源了一款輕量級的編程智能體Agent Codex CLI,允許用戶在終端直接運行。這款智能體的發布迅速獲得了市場的熱烈響應,發布后不到七個小時,其Star數已突破5500。
OpenAI的這次發布不僅限于技術層面的革新,在商業領域同樣掀起了波瀾。據外媒報道,OpenAI正洽談以高達30億美元的價格收購AI輔助編程工具Windsurf(前身為Codeium)。若交易成功,這將成為OpenAI有史以來規模最大的一筆收購,進一步鞏固其在AI編程領域的地位。
隨著新模型的發布,OpenAI也調整了用戶訪問權限。從即日起,ChatGPT Plus、Pro和Team用戶可以率先體驗o3、o4-mini和o4-mini-high,這些模型將逐步取代原有的o1、o3-mini和o3-mini-high。企業和教育用戶將在一周后獲得訪問權限,而免費用戶則可以在提交查詢前選擇“思考”功能來試用o4-mini。
新模型的核心優勢在于其強大的圖像處理能力。無論是白板照片、教科書圖表還是手繪草圖,o3和o4-mini都能輕松解讀,并在必要時借助工具對圖像進行旋轉、縮放或變換等操作。這使得它們能夠處理各種復雜的視覺推理任務,如分析圖表數據、識別圖像中的物體等。
在實際應用中,o3和o4-mini展現出了卓越的性能。例如,在面對一道數學難題時,o3可以在不使用搜索引擎的情況下給出正確答案,而之前的模型則無法做到。在處理收集和分析區域旅行數據、經濟統計數據和酒店入住率等復雜任務時,o3同樣表現出了更高的準確性和詳盡性。
在成本和性能方面,OpenAI預計o3和o4-mini將比前代模型更加智能且經濟高效。在一系列人類考試和機器學習基準測試中,新模型在所有測試的多模態任務上都顯著優于前代。特別是在視覺推理方面,新模型在多個基準測試上取得了顯著提升,準確率高達97.5%。
盡管新模型在多個方面表現出色,但它們仍存在一些局限性。例如,在推理鏈過程中可能會執行冗余或不必要的步驟,導致思維鏈過長;在某些情況下,模型可能會犯基本的感知錯誤,導致最終答案不準確;模型的可靠性也有待提高,因為在多次嘗試解決問題時可能會采用不同的視覺推理過程,其中一些可能導致錯誤結果。
為了應對這些挑戰,OpenAI正在不斷優化模型,并開發新的系統級緩解措施以提高模型的可靠性和安全性。同時,OpenAI還啟動了100萬美元的倡議,以支持使用Codex CLI和OpenAI模型的工程項目,推動人工智能技術的進一步發展。