騰訊在12月3日正式推出了其備受期待的混元大模型文生視頻功能,該功能此前已在11月底被提前“劇透”。用戶現(xiàn)在可以通過騰訊元寶App中的“AI視頻”板塊申請試用,而企業(yè)客戶則可以通過騰訊云接入服務。與此同時,API內測申請也已同步開放。
騰訊混元大模型的文生視頻功能允許用戶通過輸入一段描述性文字來生成視頻。混元為用戶提供了三種靈感提示:轉場視頻、多動作視頻和超寫實視頻。在體驗過程中,用戶可以選擇五種視頻風格(寫實、動畫、電影、黑白、賽博朋克)和五種比例,以及更多的高級指令選項,如景別、光線和鏡頭運動。
據(jù)騰訊提供的評測報告顯示,騰訊混元視頻生成模型在文本對齊、運動質量和視覺質量方面與國內同類模型相比表現(xiàn)出色。騰訊混元還宣布開源該視頻生成大模型,企業(yè)和個人開發(fā)者可免費使用并開發(fā)生態(tài)插件。
騰訊混元多模態(tài)生成技術負責人凱撒表示,混元基于與Sora類似的DiT架構,并進行了升級。通過新一代文本編碼器、統(tǒng)一的全注意力機制和圖像視頻混合VAE,模型在細節(jié)表現(xiàn)上有了顯著提升。
對于選擇此時上線文生視頻功能的原因,凱撒表示技術已經(jīng)成熟。分析師李錦清則認為,盡管文生視頻的實現(xiàn)難度較高,但其商業(yè)空間更大,行業(yè)和企業(yè)需要解決數(shù)據(jù)等共性和特性問題。