火山引擎近日震撼發(fā)布豆包1.5深度思考模型,該模型采用先進(jìn)的MoE架構(gòu),總參數(shù)量高達(dá)200B,但激活參數(shù)僅為20B,展現(xiàn)了卓越的性能與效率。在多個基準(zhǔn)測試中,豆包1.5的表現(xiàn)均達(dá)到了或接近全球頂尖水平,標(biāo)志著國產(chǎn)推理模型邁出了重要一步。
特別是在數(shù)學(xué)、編程及科學(xué)領(lǐng)域,豆包1.5深度思考模型展現(xiàn)出了超越國內(nèi)其他推理模型如DeepSeek-R1、QwQ-32B的實(shí)力,其能力與OpenAI的o1、o3-mini-high等模型不相上下。尤為在極具挑戰(zhàn)性的通用人工智能測試ARC-AGI上,豆包1.5的得分甚至超過了OpenAI的上述模型,彰顯了其強(qiáng)大的推理與泛化能力。
豆包1.5深度思考模型不僅具備高效的推理能力,還擁有“邊想邊搜”和“視覺理解”等創(chuàng)新功能。企業(yè)用戶即日起可在火山方舟平臺上體驗(yàn)到這一模型。同時,火山引擎還升級了豆包文生圖模型3.0和豆包視覺理解模型,為用戶提供更多元化的服務(wù)。
數(shù)據(jù)顯示,截至今年3月底,豆包大模型的日均tokens調(diào)用量已超過12.7萬億,較去年12月增長了3倍,與發(fā)布初期相比更是激增了106倍。據(jù)IDC報(bào)告,2024年中國公有云大模型調(diào)用量激增,火山引擎憑借46.4%的市場份額,穩(wěn)居中國市場首位。
豆包1.5深度思考模型憑借其較小的參數(shù)量和激活參數(shù)量,實(shí)現(xiàn)了更低的訓(xùn)練和推理成本,即便在高并發(fā)場景下也能保持20毫秒的低延遲。其搜索能力尤為突出,不同于傳統(tǒng)推理模型的“先搜索再思考”模式,豆包App通過定向訓(xùn)練,實(shí)現(xiàn)了“邊想邊搜”的智能化體驗(yàn)。
例如,在推薦露營裝備時,豆包1.5深度思考模型能夠拆解需求、規(guī)劃信息、判斷信息完備性,并自主補(bǔ)充搜索信息,最終給出預(yù)算范圍內(nèi)且細(xì)致周到的推薦方案。該模型還具備強(qiáng)大的視覺理解能力,能夠結(jié)合文字與圖像信息進(jìn)行綜合思考,如理解菜單內(nèi)容、分析菜品組成、照顧不同口味和過敏食物等,為用戶提供個性化的點(diǎn)餐建議。
火山引擎透露,為了提升豆包1.5深度思考模型的通用能力,模型團(tuán)隊(duì)優(yōu)化了數(shù)據(jù)處理策略,融合了可驗(yàn)證數(shù)據(jù)與創(chuàng)意性數(shù)據(jù),以滿足各類任務(wù)的需求。同時,團(tuán)隊(duì)還采用了創(chuàng)新的雙軌獎勵機(jī)制進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練,有效提升了算法的可靠性與優(yōu)化效率。
在權(quán)威基準(zhǔn)測試上,豆包1.5深度思考模型同樣表現(xiàn)出色。在數(shù)學(xué)測試中,其得分與OpenAI的o3-mini-high基本持平;在博士級推理難題測試集GPQA Diamond上,得分與OpenAI的o1、o3-mini-high僅有微小差距;在編程基準(zhǔn)測試中,更是實(shí)現(xiàn)了接近或超越DeepSeek-R1的成績。特別是在高難度通用人工智能測試ARC-AGI上,豆包1.5深度思考模型以39.9分的優(yōu)異成績大幅領(lǐng)先OpenAI的o1和o3-mini-high。
全新升級的豆包文生圖模型3.0同樣令人矚目。該模型能夠?qū)崿F(xiàn)更好的文字排版、實(shí)拍級圖像生成以及2K高清圖片輸出,廣泛應(yīng)用于影視、海報(bào)、繪畫、玩偶設(shè)計(jì)等營銷、電商、設(shè)計(jì)場景。在最新的文生圖領(lǐng)域權(quán)威榜單Artificial Analysis競技場中,豆包文生圖3.0模型已躋身全球第一梯隊(duì)。
新版本的豆包視覺理解模型也具備了更強(qiáng)的視覺定位能力,支持多目標(biāo)、小目標(biāo)、通用目標(biāo)的框定位和點(diǎn)定位,以及定位計(jì)數(shù)、描述定位內(nèi)容、3D定位等功能。該模型可應(yīng)用于線下門店巡檢、GUI agent、機(jī)器人訓(xùn)練、自動駕駛訓(xùn)練等多個領(lǐng)域。例如,通過發(fā)送一張草莓圖片給豆包視覺理解模型,它能迅速數(shù)出草莓?dāng)?shù)量并框定其位置。
同時,新版本在視頻理解能力上也取得了顯著提升,包括記憶、總結(jié)理解、速度感知、長視頻理解等。結(jié)合向量搜索技術(shù),豆包視覺理解模型可直接對視頻進(jìn)行語義搜索,廣泛應(yīng)用于安防、家庭看護(hù)等商業(yè)化場景。