字節跳動旗下的即夢AI近日在官方社交媒體平臺上揭曉了一項即將上線的新功能,通過一段引人入勝的預告視頻,向公眾展示了其最新研發的多模態視頻生成模型——OmniHuman。該技術的問世,預示著用戶僅需憑借一張圖片和一段音頻,便能輕松制作出栩栩如生、質量上乘的AI視頻,這無疑將為AI短片制作領域帶來一場效率與質量的雙重革命。
據OmniHuman的技術主頁介紹,這一模型由字節跳動自主研發,并采用了閉源策略,確保了技術的獨特性和安全性。它支持多種尺寸的圖片輸入,無論是肖像、半身還是全身照,都能根據用戶提供的音頻內容,讓視頻中的人物做出與音頻相匹配的動作,如演講、歌唱、演奏樂器以及行走等。尤為OmniHuman在解決人物視頻生成中常見的手勢失真問題上,相較于現有技術有了顯著的提升。該技術還能處理動漫、3D卡通等非真人圖片輸入,生成的視頻能夠完美保留原圖的特定風格和運動模式。
從技術主頁展示的演示效果來看,OmniHuman所生成的視頻在自然度方面已經達到了相當高的水平。然而,為了防范技術被濫用,字節跳動技術團隊明確表示,OmniHuman將不會對外開放下載,從而在一定程度上保障了技術的合法合規使用。
即夢AI的相關負責人透露,盡管OmniHuman在目前的測試中已經展現出了良好的性能,但在生成接近影視級別的真實視頻方面,仍有進一步提升的空間。因此,該模型支持的多模態視頻生成功能將在即夢平臺上以小規模內測的形式進行調優,并逐步向更廣泛的用戶開放。同時,即夢AI還將為這一功能設置嚴格的安全審核機制,并對輸出的視頻添加水印,以此提醒用戶注意視頻的合法合規使用,確保AI技術能夠發揮正面、積極的作用,助力視頻創作者更好地實現創意和想象力的表達。