阿里云近期宣布了一項重大開源舉措——通義萬相2.2版本正式對外開放。此次開源涵蓋了三大核心模型:文生視頻模型Wan2.2-T2V-A14B、圖生視頻模型Wan2.2-I2V-A14B,以及統一視頻生成模型Wan2.2-TI2V-5B。
用戶現在可以通過GitHub、HuggingFace和魔搭社區等多個平臺下載這些模型的代碼和資源。通義萬相的官方網站和APP也提供了直接體驗的機會,讓開發者能夠輕松上手。
值得注意的是,文生視頻和圖生視頻模型均首次采用了MoE架構,總參數量高達27B,激活參數為14B。尤為特別的是,這兩款模型內置了創新的電影美學控制系統,能夠精準控制光影、色彩、構圖和微表情,達到專業電影級別的制作效果。
Wan2.2-T2V-A14B和Wan2.2-I2V-A14B的設計巧妙結合了高噪聲專家模型和低噪專家模型,前者負責視頻的整體布局,后者則專注于細節優化。這種組合在同參數規模下,實現了約50%的計算資源節省。在性能上,通義萬相2.2在復雜運動生成、人物交互和美學表達等多個維度上均取得了顯著提升。
統一視頻生成模型Wan2.2-TI2V-5B則是一款小巧而強大的模型,其尺寸僅為5B,卻能同時支持文生視頻和圖生視頻功能。更令人驚喜的是,它可以在消費級顯卡上部署,大大降低了使用門檻。該模型采用了先進的3D VAE架構,實現了高達4×16×16的時間與空間壓縮比,信息壓縮率也提升至64,均達到了開源模型中的頂尖水平。
憑借這一高壓縮率架構,Wan2.2-TI2V-5B僅需22G顯存(單張消費級顯卡),就能在短短數分鐘內生成5秒高清視頻。這一速度在24幀每秒、720P像素級的視頻生成中堪稱最快,為視頻創作領域帶來了全新的基礎模型選擇。