昆侖萬維在人工智能領(lǐng)域再次邁出重要一步,正式推出了Skywork-R1V 2.0,這一全新升級的多模態(tài)推理模型,標(biāo)志著多模態(tài)思考新時代的進(jìn)一步深化。自去年3月18日首次開源Skywork-R1V以來,昆侖萬維不斷深耕技術(shù),如今,R1V 2.0的問世,無疑為行業(yè)樹立了新的技術(shù)標(biāo)桿。
R1V 2.0作為當(dāng)前最均衡兼顧視覺與文本推理能力的開源多模態(tài)模型,其在高考理科難題的深度推理與通用任務(wù)場景中均展現(xiàn)出了卓越的性能。該模型不僅在理科學(xué)科題目(數(shù)學(xué)、物理、化學(xué))的推理上效果拔群,為用戶提供了一個免費(fèi)的AI解題助手,更在38B權(quán)重和技術(shù)報告上全面開源,極大地推動了多模態(tài)生態(tài)的建設(shè)與發(fā)展。
技術(shù)上的創(chuàng)新是R1V 2.0的一大亮點(diǎn)。模型引入了多模態(tài)獎勵模型Skywork-VL Reward與混合偏好優(yōu)化機(jī)制MPO,這些創(chuàng)新技術(shù)全面提升了模型的泛化能力。同時,選擇性樣本緩沖區(qū)機(jī)制SSB的引入,也成功突破了強(qiáng)化學(xué)習(xí)中“優(yōu)勢消失”的瓶頸。這些技術(shù)上的突破,使得R1V 2.0在多個權(quán)威基準(zhǔn)測試中,相較于前代R1V 1.0,在文本與視覺推理任務(wù)中均實(shí)現(xiàn)了顯著的性能躍升。
在MMMU測試中,R1V 2.0取得了73.6分,刷新了開源SOTA紀(jì)錄;在Olympiad Bench上,模型更是達(dá)到了62.6分,顯著領(lǐng)先其他開源模型。在MathVision、MMMU-PRO與MathVista等多項(xiàng)視覺推理榜單中,R1V 2.0也均表現(xiàn)出色,其多項(xiàng)能力已可媲美閉源商業(yè)模型,成為當(dāng)前開源多模態(tài)推理模型中的佼佼者。在與開源多模態(tài)模型的對比中,R1V 2.0的視覺推理能力更是脫穎而出。
在文本推理方面,R1V 2.0同樣展現(xiàn)出了非凡的實(shí)力。在AIME2024和LiveCodeBench等挑戰(zhàn)中,模型分別取得了78.9分和63.6分,展現(xiàn)出了人類專家級的數(shù)學(xué)與代碼理解能力。在與專用文本推理模型的對比中,R1V 2.0同樣不落下風(fēng),其卓越的文本推理能力得到了充分驗(yàn)證。
昆侖萬維團(tuán)隊(duì)在R1V 2.0的開發(fā)過程中,充分吸收了全球開發(fā)者與研究者的反饋,針對模型推理能力的提升與通用能力的保持進(jìn)行了深入研究。為實(shí)現(xiàn)多模態(tài)大模型在“深度推理”與“通用能力”之間的最佳平衡,R1V 2.0引入了全新的多模態(tài)獎勵模型Skywork-VL Reward及規(guī)則驅(qū)動的混合強(qiáng)化訓(xùn)練機(jī)制。這一創(chuàng)新不僅顯著增強(qiáng)了模型的推理能力,更穩(wěn)固了模型在多任務(wù)、多模態(tài)場景中的穩(wěn)定表現(xiàn)與泛化能力。
Skywork-VL Reward模型的推出,為通用視覺語言模型(VLM)提供了高質(zhì)量獎勵信號,精準(zhǔn)評估了多模態(tài)推理模型長序列輸出的整體質(zhì)量,同時也作為并行線上推理最優(yōu)答案選擇的利器,極大地促進(jìn)了多模態(tài)模型的協(xié)同發(fā)展。在視覺獎勵模型評測榜單VL-RewardBench中,Skywork-VL Reward取得了73.1的SOTA成績,同時在純文本獎勵模型評測榜單RewardBench中也斬獲了高達(dá)90.1的優(yōu)異分?jǐn)?shù),全面展示了其在多模態(tài)和文本任務(wù)中的強(qiáng)大泛化能力。
為回饋社區(qū)和行業(yè),昆侖萬維團(tuán)隊(duì)將Skywork-VL Reward完整開源,這一舉措無疑將進(jìn)一步推動多模態(tài)強(qiáng)化學(xué)習(xí)的發(fā)展。R1V 2.0還引入了MPO機(jī)制和基于規(guī)則的群體相對策略優(yōu)化GRPO方法,通過同組候選響應(yīng)之間的相對獎勵比較,引導(dǎo)模型學(xué)會更精準(zhǔn)的選擇和推理路徑,進(jìn)一步提升了模型的推理能力。
R1V 2.0的誕生,不僅推動了開源多模態(tài)大模型在能力邊界上的突破,更為多模態(tài)智能體的搭建提供了新的基座模型。昆侖萬維在人工智能領(lǐng)域的持續(xù)深耕和創(chuàng)新,無疑將為行業(yè)的未來發(fā)展注入更多活力與可能。