【ITBEAR】復旦大學攜手百度,近期共同推出了名為Hallo2的AI模型,這一創(chuàng)新成果在視頻生成領域取得了顯著突破。該模型能夠生成長達數(shù)小時、分辨率為4K的高質量人物動畫,并已開源至GitHub,供全球開發(fā)者免費使用與研究,為視頻生成技術的普及與發(fā)展注入了新動力。
Hallo2的亮點在于其引入了可調整的語義文本標簽,使得肖像表情的生成更加可控且多樣化。這一特性使得Hallo2成為首個能夠實現(xiàn)4K分辨率、長達1小時音頻驅動人像圖像動畫的AI模型。
在應用領域,Hallo2展現(xiàn)出廣泛潛力。在電影和視頻制作中,它可用于增強角色的面部表情和口型動畫;在虛擬助手和數(shù)字人領域,Hallo2則能創(chuàng)造出逼真的虛擬形象,提升用戶體驗。
技術層面,Hallo2基于latent diffusion models構建,并引入了數(shù)據(jù)增強技術,如patch-drop和高斯噪聲,以及向量量化生成對抗網絡和時間對齊技術,確保了視頻的視覺一致性、時間連貫性以及高質量與流暢性。