昆侖萬維近日宣布了一項重大開源舉措,正式推出了業界首款多模態思維鏈推理模型Skywork R1V,并向全球開發者開放模型權重和技術報告。
據悉,Skywork R1V模型旨在引領多模態推理的新時代,其開源地址已公布在Hugging Face和GitHub平臺上。開發者可以通過以下鏈接獲取模型權重和技術文檔:
Hugging Face鏈接 | GitHub鏈接 | 詳細技術報告
昆侖萬維此舉標志著中國企業在多模態推理模型領域的重大突破,成為全球首個開源此類模型的企業。隨著OpenAI的GPT-4和DeepSeek-R1等模型掀起長思考模型的熱潮,Skywork R1V的推出進一步推動了AI技術的新范式。
視覺推理模型是一類能夠解決復雜視覺任務的模型,它們通過多步邏輯推理與分析,逐步推導出最終結果。Skywork R1V不僅擅長圖像內容的識別與理解,更強調通過層層遞進的推理路徑,實現視覺邏輯推理、視覺數學問題、科學現象分析等復雜任務的精準求解。這種能力使得Skywork R1V在醫學影像診斷、數據分析、學術問題解答等多個領域具有廣泛應用潛力。
在實際測試中,Skywork R1V展現出了強大的推理能力。在MATH500和AIME基準測試中,Skywork R1V分別取得了94.0和72.0的高分,領先行業內眾多主流模型。同時,在視覺推理基準MMMU和MathVista中,Skywork R1V也取得了優異成績,充分證明了其在跨模態任務中的領先地位。
Skywork R1V的成功離不開三大核心技術創新。首先,昆侖萬維團隊首次提出了利用Skywork-VL的視覺投影器,實現了文本推理能力的高效遷移到視覺任務,同時保留了原本強大的文本推理能力。其次,團隊采用了多模態混合式訓練(Iterative SFT+GRPO),通過結合迭代監督微調和強化學習,實現了視覺與文本表征的高效融合。最后,團隊提出了自適應長度思維鏈蒸餾技術,動態優化模型推理過程,避免過度思考,提升推理效率。
Skywork R1V的訓練過程采用了三階段方法,包括視覺語言表征的初始對齊、推理能力遷移和視覺與文本模態精準對齊。通過這一訓練流程,Skywork R1V成功地將文本端的強大推理能力遷移到了視覺任務上,實現了突破性進展。
昆侖萬維還在不斷探索多模態理解模型的進化之路。基于Skywork R1V模型,團隊設計了一種靈活擴展語音理解模態的方式,旨在實現一個具備圖像、視頻、語音全模態理解能力的思考大模型。這一全模態模型已在語音和視覺理解評測中取得了多項領先成績,昆侖萬維表示將陸續公布測評成績并開源全模態思考大模型。
昆侖萬維作為中國AI領域的領軍企業,一直致力于推動技術開源和生態共建。自2023年10月以來,公司已陸續開源了多款優秀模型和工具包,包括百億級大語言模型「天工」Skywork-13B系列、數字智能體全流程研發工具包AgentStudio等。此次開源Skywork R1V多模態推理模型,再次彰顯了昆侖萬維在AI技術領域的創新實力和開放態度。