百度最近發布了一款名為UniVG的視頻生成模型,它具有處理各種文本和圖像組合輸入的能力。UniVG的特色在于對高自由度和低自由度兩種任務采用不同的生成方式,以更好地平衡兩者之間的關系。
項目地址:https://top.aibase.com/tool/univg
項目演示頁面:https://univg-baidu.github.io/
具體而言,該系統引入了“多條件交叉注意力”技術,用于高自由度視頻生成,以生成與輸入圖像或文本語義一致的視頻。而在低自由度視頻生成方面,采用了“偏置高斯噪聲”的方法,相較于傳統的完全隨機高斯噪聲更能有效地保留輸入條件的原始內容。
UniVG的技術性能在MSR-VTT視頻數據庫上表現出色,獲得了最低的幀間視頻差異性度量。這一成績不僅超越了當前的開源方法,還與業界領先的閉源方法Gen2不相上下,展現了其在實用價值和技術優勢方面的卓越表現。
總的來說,UniVG的推出填補了視頻生成模型領域的一些空白,為用戶提供了更靈活的輸入方式,滿足了真實世界多變的應用需求。
該模型的多模態視頻生成系統在處理不同自由度任務時展現出色的性能,為未來的視頻生成領域帶來了新的可能性。如果你對這一領域感興趣,可以通過訪問UniVG官方網站了解更多信息。