【ITBEAR】復(fù)旦大學(xué)與百度強(qiáng)強(qiáng)聯(lián)手,成功研發(fā)出革命性AI模型——Hallo2,該模型在視頻生成技術(shù)上取得了里程碑式的突破,能夠生成分辨率高達(dá)4K、時(shí)長(zhǎng)可達(dá)數(shù)小時(shí)的人物動(dòng)畫(huà)。這一創(chuàng)新成果已在GitHub平臺(tái)開(kāi)源,供全球開(kāi)發(fā)者免費(fèi)使用,旨在推動(dòng)視頻生成技術(shù)的普及與進(jìn)步。
Hallo2模型的核心亮點(diǎn)在于其引入了可調(diào)整的語(yǔ)義文本標(biāo)簽肖像表情作為條件輸入,顯著提升了生成內(nèi)容的可控性和多樣性。這一特性使得Hallo2成為業(yè)界首個(gè)實(shí)現(xiàn)4K分辨率、長(zhǎng)達(dá)1小時(shí)音頻驅(qū)動(dòng)人像圖像動(dòng)畫(huà)的AI模型。
在電影和視頻制作領(lǐng)域,Hallo2能夠生成或增強(qiáng)角色的面部表情和口型,為科幻和動(dòng)畫(huà)電影提供新的創(chuàng)作手段。同時(shí),在虛擬助手和數(shù)字人領(lǐng)域,Hallo2也能發(fā)揮重要作用,創(chuàng)建逼真的虛擬形象,提升用戶體驗(yàn)。
技術(shù)層面,Hallo2基于latent diffusion models構(gòu)建,在視頻生成效果上較前代模型有顯著提升。通過(guò)引入數(shù)據(jù)增強(qiáng)技術(shù),如patch-drop和高斯噪聲,Hallo2有效提升了長(zhǎng)時(shí)間視頻的視覺(jué)一致性和時(shí)間連貫性。結(jié)合向量量化生成對(duì)抗網(wǎng)絡(luò)和時(shí)間對(duì)齊技術(shù),Hallo2確保了視頻的高質(zhì)量與流暢性。