DeepSeek近日宣布了DeepSeek-V3.1版本的正式發布與開源,這一更新為用戶帶來了多項關鍵改進。
新版本引入了混合推理架構,用戶可以在思考模式與非思考模式間靈活切換,這一特性顯著增強了模型的適應性和實用性。同時,DeepSeek-V3.1的文本處理能力得到了大幅提升,現在能夠處理長達128k的上下文,滿足了更多復雜場景的需求。
在思考效率方面,與DeepSeek-R1-0528相比,V3.1的思考模式能夠在更短的時間內提供答案,大大提升了用戶體驗。通過Post-Training優化,新模型在工具使用和智能體任務中的表現也取得了顯著進步,展現了更強的agent能力。
為了確保用戶能夠即時享受到這些改進,DeepSeek的官方網頁、APP、小程序以及API開放平臺上的模型均已更新至最新版本。用戶只需點擊對話框中的“深度思考”按鈕,即可輕松在兩種模式間切換。
對于開發者而言,API接口的調用方式保持不變,且新增了對Anthropic API格式的支持,這意味著開發者可以更加便捷地接入Claude Code框架,進一步拓寬了DeepSeek的應用場景。
在性能測試中,DeepSeek-V3.1也展現出了卓越的表現。在代碼修復測評SWE和命令行終端環境下的復雜任務測試中,V3.1相比之前的DeepSeek系列模型有了明顯提升。特別是在需要多步推理的復雜搜索測試和多學科專家級難題測試中,V3.1的性能已經大幅領先于R1-0528。
經過思維鏈壓縮訓練后,V3.1-Think在輸出token數減少20%-50%的情況下,各項任務的平均表現仍然與R1-0528持平,這證明了其高效的推理能力。同時,在非思考模式下,V3.1的輸出長度也得到了有效控制,與DeepSeek-V3-0324相比,能夠在輸出長度明顯減少的情況下保持相同的模型性能。
據了解,DeepSeek-V3.1的Base模型在V3的基礎上進行了外擴訓練,新增了840B tokens的訓練數據。目前,Base模型與后訓練模型均已在Huggingface與魔搭平臺開源,供用戶自由使用。
另外,DeepSeek還宣布了API接口調用價格的調整,該調整將于北京時間2025年9月6日凌晨起生效。