近期,視頻生成技術領域取得了突破性進展,特別是在超長視頻的創作上。上海人工智能實驗室攜手南京大學、復旦大學、南洋理工大學S-Lab及英偉達等頂尖機構,聯合推出了LongVie框架,成功攻克了制作高質量且風格一致的長視頻所面臨的難題。
LongVie框架致力于提升超長視頻生成的可控性和一致性。研究團隊發現,傳統視頻生成模型在處理長時間視頻時,往往會出現時序不連貫和視覺質量下降的問題。時序不連貫表現為視頻內容在細節上缺乏流暢性,而視覺質量下降則是指隨著視頻時長增加,畫面顏色和清晰度逐漸變差。
為了應對這些挑戰,LongVie采取了雙重策略:優化控制信號和統一噪聲初始化。團隊創新性地提出了控制信號全局歸一化方法,即在視頻生成過程中,不再局限于單個片段的歸一化處理,而是對整個視頻序列的控制信號進行統一,從而增強了視頻片段之間的連貫性。同時,通過引入統一噪聲初始化策略,確保所有片段從相同的初始噪聲開始生成,有效減少了不同片段間的視覺差異。
在解決視覺退化問題上,LongVie框架采用了多模態精細控制技術。團隊指出,單一模態的控制往往難以提供足夠的穩定性約束。因此,LongVie結合了密集控制信號(例如深度圖)和稀疏控制信號(如關鍵點),并引入了退化感知訓練策略。這一組合使得模型在處理長視頻時能夠保持更高的畫質和細節表現力。
LongVie還推出了LongVGenBench基準數據集,這是首個專為可控超長視頻生成設計的測試集。該數據集包含100個時長超過1分鐘的高分辨率視頻,旨在為該領域的研究和評估提供有力支持。通過定量分析和用戶評測,LongVie在多個評估指標上超越了現有技術,贏得了用戶的高度認可,達到了行業領先水平。
LongVie框架的問世標志著超長視頻生成技術邁入了一個全新階段,為創作者提供了更大的自由度和創意空間。項目詳細信息可訪問LongVie官方網站獲取。