在科技界的持續關注下,科大訊飛近期宣布了其深度推理大模型星火X1的再次升級,這一舉動引發了業界的廣泛討論。此次升級后,星火X1在模型參數量遠低于業界平均水平的情況下,其數學能力卻與DeepSeek R1和OpenAI的模型不相上下,尤其在中文數學任務中表現尤為突出。科大訊飛還攜手華為,對星火一體機進行了重磅升級,整合了訊飛星火與DeepSeek的雙引擎能力。
作為國內目前備受矚目的兩款深度推理大模型,星火X1與DeepSeek R1的數學實力究竟孰強孰弱?為了解答這一問題,我們設計了一場簡單的數學能力比拼。測試包含五道題目,涵蓋了初中、高中的應用題、推理題以及奧數難題,每題20分,總分100分,以得分高者為勝。
值得注意的是,本次測試并未將深度推理大模型引以為傲的類人思考過程納入評分項,因為思考過程的正確性將直接反映在答題結果中,無需額外評測。
第一題是一道經典的容器問題:有一個池塘,里面有無窮多的水,現有兩個空水壺,容積分別為5升和6升,如何只用這兩個水壺從池塘里取得3升的水?星火X1與DeepSeek均給出了正確答案,但星火X1的解題步驟更為簡潔明了,易于理解。因此,在這一題中,兩者均獲得滿分。
第二題是一道涉及數學運算和邏輯推理的應用題,關于服裝店老板購進襯衫并出售盈利的情況。星火X1與DeepSeek再次雙雙答對,各得20分。
第三題是一道包含圖形和函數的復雜問題,需要模型通過識圖來解答。令人欣喜的是,星火X1與DeepSeek均支持識圖解題,并且識別準確度高,這對于用戶來說無疑是一個巨大的福音。兩大模型再次不負眾望,給出了正確答案,并且星火X1的解題過程邏輯更為清晰。
在最后一題中,面對一道典型的奧數問題——100根火柴的博弈游戲,星火X1與DeepSeek均準確找出了破題點,并給出了正確答案。兩大模型在這一題中再次打成平手。
通過這場簡單的數學能力比拼,我們可以看出,訊飛星火深度推理大模型X1升級版與DeepSeek R1的數學實力確實難分伯仲,均以滿分交卷。但從解題過程的簡潔性和清晰度來看,星火X1略勝一籌。
與過去的大語言模型相比,深度推理模型在邏輯推理、因果推斷以及結構化知識應用方面展現出了更強的能力,尤其在數學問題、代碼生成以及科學推理等方面更具優勢。星火X1不僅能夠進行類人思考,在生成回答時更注重邏輯和推理,并能給出縝密清晰的思考路徑,自動糾錯,極大地減少了過去大模型“答非所問”的現象。
正是基于深度推理大模型的這一特點,科大訊飛在發布星火X1升級版的同時,還推出了星火醫療大模型X1,以及醫療、高教、政務、警務、法律五大全新應用場景的一體機??拼笥嶏w還正式發布了“星火X1+DeepSeek”雙引擎AI學習機,進一步賦能醫療、教育、智慧城市等領域,展現了深度推理大模型在多個領域的廣泛應用前景。