日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:52011
  • 待審:79
  • 小程序:12
  • 文章:1184964
  • 會員:801

智源研究院攜手上海交通大學(xué)等科研機(jī)構(gòu),近期震撼發(fā)布了Video-XL-2,一款專為超長視頻理解設(shè)計的新一代模型。這一創(chuàng)新成果標(biāo)志著長視頻理解技術(shù)在開源領(lǐng)域邁入了一個全新的里程碑,為多模態(tài)大模型在視頻內(nèi)容深度解析的道路上鋪設(shè)了堅實(shí)的基石。

Video-XL-2的技術(shù)架構(gòu)匠心獨(dú)運(yùn),融合了視覺編碼器、動態(tài)Token合成模塊(DTS)及大語言模型(LLM)三大核心組件。其視覺編碼器采用SigLIP-SO400M,能夠逐幀解析視頻,將每一幀圖像轉(zhuǎn)化為高維視覺特征。DTS模塊則負(fù)責(zé)整合這些特征,捕捉其時序動態(tài),提煉出更具意義的視覺信息。這些信息經(jīng)過平均池化與多層感知機(jī)(MLP)的處理,與文本嵌入空間實(shí)現(xiàn)精準(zhǔn)對齊,最終由Qwen2.5-Instruct大語言模型進(jìn)行深度理解與推理。

在訓(xùn)練策略上,Video-XL-2采用了循序漸進(jìn)的四階段方法。前兩階段側(cè)重于利用圖像與視頻文本對,初步訓(xùn)練DTS模塊并實(shí)現(xiàn)跨模態(tài)對齊。第三階段引入更豐富、更高質(zhì)量的圖像與視頻描述數(shù)據(jù),為模型打下堅實(shí)的視覺理解基礎(chǔ)。進(jìn)入第四階段,模型在大規(guī)模、多樣化且高質(zhì)量的圖像與視頻指令數(shù)據(jù)上進(jìn)行精細(xì)調(diào)優(yōu),使其視覺理解能力得到質(zhì)的飛躍,能夠精準(zhǔn)響應(yīng)復(fù)雜的視覺指令。

為了提升效率,Video-XL-2還精心設(shè)計了效率優(yōu)化策略。通過分段式預(yù)裝填策略(Chunk-based Prefilling),將超長視頻切割成多個連續(xù)片段,每個片段內(nèi)部采用稠密注意力機(jī)制編碼,片段間則通過時間戳傳遞上下文,顯著降低了計算與顯存成本。同時,雙粒度KV解碼機(jī)制(Bi-granularity KV Decoding)允許模型根據(jù)任務(wù)需求,靈活加載關(guān)鍵片段的完整KVs,而對次要片段則加載稀疏KVs,有效縮短了推理窗口,提升了解碼效率。

在實(shí)際應(yīng)用中,Video-XL-2展現(xiàn)出了驚人的性能。在MLVU、VideoMME和LVBench等長視頻評測基準(zhǔn)上,它超越了所有現(xiàn)有輕量級開源模型,達(dá)到了行業(yè)領(lǐng)先水平。尤其在MLVU和LVBench上,Video-XL-2的表現(xiàn)甚至逼近或超越了參數(shù)規(guī)模高達(dá)720億的大型模型,如Qwen2.5-VL-72B和LLaVA-Video-72B。在時序定位任務(wù)中,它在Charades-STA數(shù)據(jù)集上也取得了卓越成績,驗(yàn)證了其在多模態(tài)視頻理解領(lǐng)域的廣泛適用性。

Video-XL-2在處理超長視頻方面同樣表現(xiàn)出色。在消費(fèi)級顯卡(如RTX3090/4090)上,它能處理長達(dá)千幀的視頻;而在高性能顯卡(如A100/H100)上,更是支持萬幀級視頻輸入,遠(yuǎn)超當(dāng)前主流開源模型。與VideoChat-Flash和初代Video-XL相比,Video-XL-2不僅大幅提升了視頻處理長度,還有效降低了資源需求。

在速度方面,Video-XL-2同樣令人矚目。它僅需12秒即可完成2048幀視頻的預(yù)填充,且預(yù)填充時間與輸入幀數(shù)呈近似線性增長,展現(xiàn)了極強(qiáng)的可擴(kuò)展性。相比之下,Video-XL與VideoChat-Flash在處理長視頻時的效率明顯不及Video-XL-2。

憑借卓越的視頻理解能力和高效處理性能,Video-XL-2在影視內(nèi)容分析、監(jiān)控視頻異常檢測、影視作品內(nèi)容總結(jié)及游戲直播內(nèi)容分析等多個實(shí)際應(yīng)用場景中展現(xiàn)出巨大潛力。它不僅能夠快速準(zhǔn)確地理解電影情節(jié)、回答相關(guān)問題,還能在監(jiān)控視頻中及時發(fā)現(xiàn)異常行為并發(fā)出預(yù)警。

目前,Video-XL-2的模型權(quán)重已全面向公眾開放,項(xiàng)目主頁、模型鏈接及倉庫鏈接均已發(fā)布,為更多實(shí)際場景的應(yīng)用提供了可能,進(jìn)一步推動了長視頻理解技術(shù)的發(fā)展。

項(xiàng)目主頁:https://unabletousegit.github.io/video-xl2.github.io/

模型hf鏈接:https://huggingface.co/BAAI/Video-XL-2

倉庫鏈接:https://github.com/VectorSpaceLab/Video-XL

分享到:
標(biāo)簽:研究院 發(fā)布 智源 Video
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 52011

    網(wǎng)站

  • 12

    小程序

  • 1184964

    文章

  • 801

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定