【ITBEAR】8月6日消息,智譜科技在7月26日正式推出了其創新性的AI視頻生成應用“清影”,并同步上線了智譜清言APP,該應用能夠在短短30秒內將用戶提供的任意文字或圖片轉化為生動視頻。這一技術突破標志著視頻內容創作領域邁入了一個全新的自動化時代。
智譜科技不僅止步于產品發布,更宣布將“清影”背后的核心視頻生成模型——CogVideoX進行開源,旨在鼓勵每一位開發者、每一家企業都能基于這一強大基礎,自由探索并開發出符合自身需求的視頻生成解決方案。這一舉措無疑將極大地促進視頻生成技術的普及與應用創新。
CogVideoX開源模型家族涵蓋了多個尺寸規格,以滿足不同場景下的使用需求。目前,智譜已率先開放CogVideoX-2B模型,該模型在FP-16精度下展現出了極高的效率,推理過程僅需18GB顯存支持,而進行微調時則僅需40GB顯存,這意味著即便是使用單張NVIDIA 4090或A6000顯卡,用戶也能輕松駕馭這一強大的視頻生成工具。
據ITBEAR了解,CogVideoX-2B模型在功能表現上同樣可圈可點,它支持最多226個token的提示詞輸入,能夠生成長達6秒、幀率為8幀/秒、分辨率為720*480的視頻內容。這一規格雖然已足夠滿足多數基礎應用場景,但智譜科技明確表示,他們已為視頻質量的進一步提升預留了充分的空間,并期待開發者們能在提示詞優化、視頻長度擴展、幀率提升、分辨率升級以及場景微調等多個方面貢獻自己的力量,共同推動視頻生成技術的持續進步。
此外,智譜科技還透露,他們正在研發性能更強、參數量更大的視頻生成模型,并將適時對外發布。這無疑為整個視頻生成領域注入了更多的期待與想象空間。
自“清影”發布以來,其受歡迎程度超乎想象。據智譜發布的數據顯示,該應用在發布后的短短6天內,就已經生成了超過百萬量級的視頻內容,充分證明了市場對這一創新技術的熱切需求與高度認可。