隨著春節(jié)的腳步日益臨近,國(guó)產(chǎn)大模型領(lǐng)域迎來(lái)了一波新春大禮包,令人目不暇接。百川智能,作為國(guó)產(chǎn)大模型領(lǐng)域的佼佼者,近期頻繁推出新品,從全場(chǎng)景深度推理模型Baichuan-M1-preview到醫(yī)療增強(qiáng)開(kāi)源模型Baichuan-M1-14B,每一款都引起了業(yè)界的廣泛關(guān)注。
而最新發(fā)布的全模態(tài)模型Baichuan-Omni-1.5,更是被譽(yù)為“大模型通才”,以其全面且強(qiáng)大的能力吸引了眾多目光。這款全模態(tài)模型不僅能夠同時(shí)處理文本、圖像、音視頻等多種模態(tài)的理解任務(wù),還支持文本和音頻的雙模態(tài)生成,實(shí)現(xiàn)了理解和生成的完美統(tǒng)一。
據(jù)測(cè)評(píng)結(jié)果顯示,Baichuan-Omni-1.5的多模態(tài)能力整體超越了GPT-4o mini。特別是在百川智能深耕的醫(yī)療領(lǐng)域,該模型在醫(yī)療圖片評(píng)測(cè)上的表現(xiàn)更是大幅領(lǐng)先,展現(xiàn)了其卓越的專(zhuān)業(yè)能力。這一成就不僅彰顯了百川智能在模型技術(shù)探索上的深厚實(shí)力,也為其在醫(yī)療行業(yè)的應(yīng)用落地奠定了堅(jiān)實(shí)基礎(chǔ)。
除了醫(yī)療領(lǐng)域,Baichuan-Omni-1.5在音頻的理解與生成方面同樣表現(xiàn)出色。該模型支持多語(yǔ)言對(duì)話,并具備端到端的音頻合成能力,包括ASR(自動(dòng)語(yǔ)音識(shí)別)和TTS(文本轉(zhuǎn)語(yǔ)音)功能。在此基礎(chǔ)上,它還支持音視頻實(shí)時(shí)交互,進(jìn)一步提升了用戶體驗(yàn)。在音頻評(píng)測(cè)數(shù)據(jù)集上,Baichuan-Omni-1.5的整體表現(xiàn)也遠(yuǎn)超其他競(jìng)品。
百川智能還開(kāi)源了兩個(gè)評(píng)測(cè)集:OpenMM-Medical和OpenAudioBench,為研究人員和開(kāi)發(fā)者提供了統(tǒng)一的標(biāo)準(zhǔn)數(shù)據(jù),有助于催生一系列新的語(yǔ)言理解算法和模型架構(gòu)。這些舉措不僅促進(jìn)了國(guó)內(nèi)開(kāi)源生態(tài)的繁榮,也為Baichuan-Omni-1.5等全模態(tài)模型的應(yīng)用推廣提供了有力支持。
為了實(shí)現(xiàn)全模態(tài)模型的理解和生成統(tǒng)一,百川智能的研究團(tuán)隊(duì)在模型結(jié)構(gòu)、訓(xùn)練策略以及訓(xùn)練數(shù)據(jù)等多方面進(jìn)行了全流程的深度優(yōu)化。在模型結(jié)構(gòu)上,Baichuan-Omni-1.5采用了創(chuàng)新的文本-音頻交錯(cuò)輸出設(shè)計(jì),使得模型能夠同時(shí)生成文本和音頻。同時(shí),為了處理任意分辨率的圖片,該模型還引入了NaViT技術(shù),全面提升了圖片信息的提取和理解能力。
在數(shù)據(jù)層面,百川智能構(gòu)建了包含3.4億條高質(zhì)量圖片/視頻-文本數(shù)據(jù)和近100萬(wàn)小時(shí)音頻數(shù)據(jù)的龐大數(shù)據(jù)庫(kù),并使用1700萬(wàn)條全模態(tài)數(shù)據(jù)進(jìn)行了監(jiān)督微調(diào)(SFT)。為了加強(qiáng)跨模態(tài)理解能力,百川智能還構(gòu)建了高質(zhì)量的視覺(jué)-音頻-文本交錯(cuò)數(shù)據(jù),并對(duì)模型進(jìn)行了對(duì)齊訓(xùn)練。這些舉措共同提升了Baichuan-Omni-1.5的全模態(tài)理解和生成能力。
Baichuan-Omni-1.5的發(fā)布標(biāo)志著AI技術(shù)正在從模型能力向落地應(yīng)用方向發(fā)展。該模型強(qiáng)大的多模態(tài)融合能力將技術(shù)與實(shí)際場(chǎng)景緊密結(jié)合,為各行業(yè)的數(shù)字化轉(zhuǎn)型提供了有力支撐。特別是在醫(yī)療行業(yè),Baichuan-Omni-1.5的理解、生成能力可以用于輔助醫(yī)生診斷,提高診斷準(zhǔn)確性和效率,為AI在醫(yī)療場(chǎng)景的應(yīng)用探索開(kāi)辟了新的道路。