即夢AI在其官方社交媒體平臺上近日發布了一段引人注目的新功能預告視頻,揭示了一項名為OmniHuman的創新多模態視頻生成模型。該模型僅需用戶輸入一張圖片和一段音頻,即可自動生成一段生動逼真的AI視頻,這一突破有望極大地提升AI短片的生產效率和視覺質量。
據即夢AI視頻號發布的內容截圖顯示,OmniHuman是由字節跳動自主研發的閉源模型。該模型能夠處理包括肖像、半身照及全身照等不同尺寸的圖片輸入,并依據用戶提供的音頻內容,自動為視頻中的人物生成相應的動作,如演講、歌唱、樂器演奏以及身體移動等。尤為OmniHuman在解決人物視頻生成中常見的手勢失真問題上,相較于現有技術有了顯著提升。
不僅如此,OmniHuman還支持動漫、3D卡通等非真人圖片的輸入,并能保持這些特定風格及原有的運動模式,生成的視頻效果同樣出色。從技術主頁上的演示效果來看,OmniHuman所生成的視頻已經具備了高度的自然度和逼真感。
然而,為防止這項技術被濫用,字節跳動技術團隊明確表示,OmniHuman將不會對外提供下載服務。即夢AI的相關負責人透露,盡管OmniHuman模型已經展現出了良好的性能,但在生成達到影視真實級別的視頻方面,仍有待進一步提升。因此,該模型支持的多模態視頻生成功能將首先在即夢平臺上以小規模內測的形式進行調優和完善,并逐步向更廣泛的用戶開放。
為確保AI技術的正面應用和積極影響,即夢AI不僅設置了嚴格的安全審核機制,還將在輸出的視頻上標注水印以作提醒。這一舉措旨在助力視頻創作者更好地實現創意表達,同時確保技術的使用符合道德和法律規范。