(ChinaZ.com)1月19日 消息:百度推出的UniVG是一款視頻生成模型,其特點在于針對高自由度和低自由度兩種任務(wù)分別采用不同的生成方式,以更好地平衡兩者之間的關(guān)系。
項目地址:https://top.aibase.com/tool/univg
項目演示頁面:https://univg-baidu.github.io/
視頻生成技術(shù)基于“擴散”原理的方法近來在學(xué)術(shù)和產(chǎn)業(yè)界引起廣泛關(guān)注,并取得顯著成就。然而,目前這一領(lǐng)域主要集中在單一目標(biāo)或單一任務(wù)的視頻生成上,例如根據(jù)文本、圖片或它們的組合生成視頻。但這樣的方法并不能完全滿足真實世界多變的應(yīng)用需求。用戶通常需要更靈活的輸入方式,如單獨使用圖像或文本,或?qū)⒍呓Y(jié)合起來。
為了解決這一問題,百度提出了UniVG,一種“統(tǒng)一模態(tài)視頻生成系統(tǒng)”,能夠處理各種文本和圖像的組合輸入。該系統(tǒng)重新定義了視頻生成模型中的多項任務(wù),將它們劃分為“高自由度生成”和“低自由度生成”兩大類。在高自由度視頻生成方面,采用了“多條件交叉注意力”技術(shù),以生成與輸入的圖像或文本語義高度一致的視頻。而在低自由度視頻生成方面,引入了“偏置高斯噪聲”,這種方法相較于傳統(tǒng)的完全隨機高斯噪聲更能有效地保留輸入條件的原始內(nèi)容。
技術(shù)性能方面,UniVG在MSR-VTT視頻數(shù)據(jù)庫上表現(xiàn)出色,獲得了最低的幀間視頻差異性度量(Frame Video Distance, FVD)。這一成績不僅超越了當(dāng)前的開源方法,還與業(yè)界領(lǐng)先的閉源方法Gen2不相上下,顯示出了卓越的實用價值和技術(shù)優(yōu)勢。