近日,三言科技從阿里云方面獲悉,其研發(fā)的視頻生成大模型——萬相2.1(Wan)已正式宣布開源。此次開源遵循Apache2.0協議,涵蓋了14B和1.3B兩種參數規(guī)格的全部推理代碼及權重,為全球開發(fā)者提供了強大的視頻生成工具。
開發(fā)者們現在可以在Github、HuggingFace以及魔搭社區(qū)等平臺上下載并體驗這一前沿技術。萬相2.1不僅支持文字生成視頻的功能,還能實現圖片生成視頻的任務,極大地拓寬了視頻創(chuàng)作的邊界。
在萬相2.1的兩個開源版本中,14B版本展現出了卓越的性能。它在指令遵循、復雜運動生成、物理建模以及文字視頻生成等多個方面均表現出色。在權威評測集Vbench中,萬相2.1以86.22%的總分,遙遙領先于國內外的Sora、Luma、Pika等模型,穩(wěn)居評測榜首。
而1.3B版本的萬相模型同樣不容小覷。盡管其參數規(guī)模較小,但性能卻超越了部分更大尺寸的開源模型,甚至與一些閉源模型的結果相近。更為重要的是,這一版本的模型對硬件要求較低,能夠在消費級顯卡上流暢運行。僅需8.2GB的顯存,就能生成480P的視頻,這為二次模型開發(fā)和學術研究提供了極大的便利。