10 月 21 日消息,復(fù)旦大學(xué)和百度聯(lián)合開(kāi)發(fā)了一款名為 Hallo2 的全新 AI 模型,該模型可以生成長(zhǎng)達(dá)數(shù)小時(shí)的 4K 分辨率人物動(dòng)畫(huà),現(xiàn)已在 GitHub 發(fā)布開(kāi)源。
Hallo2 模型建立在 latent diffusion models 的基礎(chǔ)上,相比上一代 Hallo 模型的效果更好,支持了長(zhǎng)視頻生成,通過(guò)引入數(shù)據(jù)增強(qiáng)方法如 patch-drop 和高斯噪聲,有效提高了長(zhǎng)時(shí)間視頻的視覺(jué)一致性和時(shí)間連貫性。
Hallo2 還結(jié)合了向量量化生成對(duì)抗網(wǎng)絡(luò)和時(shí)間對(duì)齊技術(shù),保證了高分辨率視頻的質(zhì)量和流暢性。
此外,Hallo2 將可調(diào)整的語(yǔ)義文本標(biāo)簽的肖像表情作為條件輸入。這超出了傳統(tǒng)的音頻提示,可以提高可控性并增加所生成內(nèi)容的多樣性。項(xiàng)目頁(yè)面介紹稱(chēng),Hallo2 是第一種實(shí)現(xiàn) 4K 分辨率并生成長(zhǎng)達(dá) 1 小時(shí)的音頻驅(qū)動(dòng)的人像圖像動(dòng)畫(huà)的方法,并通過(guò)文本提示進(jìn)行增強(qiáng)。
IT之家附 Hallo2 項(xiàng)目地址如下:
https://fudan-generative-vision.github.io/hallo2/#/
【來(lái)源:IT之家】