【ITBEAR】作者 | 華衛(wèi)
近日,百度聯(lián)合復(fù)旦大學(xué)等發(fā)布 Hallo2,一個(gè)可以生成長(zhǎng)達(dá)數(shù)小時(shí)且分辨率為 4K 的人物動(dòng)畫的視覺模型。Hallo2 目前已經(jīng)在 GitHub 平臺(tái)開源,供全球開發(fā)者免費(fèi)使用和研究,預(yù)計(jì)將促進(jìn)視頻生成技術(shù)的廣泛應(yīng)用和發(fā)展。( 項(xiàng)目地址:https://fudan-generative-vision.github.io/hallo2/#/)
Hallo2 發(fā)布后,在海外引發(fā)了不小的震動(dòng)。有人驚嘆視頻生成的長(zhǎng)度和分辨率,也有老用戶從 Hallo 第一代模型就被圈粉,還有對(duì) Hallo2 開源模型和代碼的認(rèn)可。
Hallo2 備受關(guān)注,很重要一個(gè)原因是百度和復(fù)旦的研究團(tuán)隊(duì)解決了人像視頻生成一個(gè)很大的痛點(diǎn):如何提升視頻生成的時(shí)長(zhǎng)和質(zhì)量。
一直以來,生成高質(zhì)量的人物動(dòng)畫需要耗費(fèi)大量的時(shí)間和人力成本。而百度與復(fù)旦聯(lián)合發(fā)布的 Hallo2 的出現(xiàn),有望徹底改變這一現(xiàn)狀,為數(shù)字人、電影制作、虛擬助手、游戲開發(fā)等領(lǐng)域帶來革命性的變化。
Hallo2 是能夠?qū)崿F(xiàn)長(zhǎng)達(dá)一小時(shí)、4K 分辨率的音頻驅(qū)動(dòng)人像動(dòng)畫生成模型。通過創(chuàng)新的圖像塊丟棄、噪聲增強(qiáng)和時(shí)間對(duì)齊等技術(shù),Hallo2 解決了長(zhǎng)時(shí)視頻生成中的外觀漂移和視覺不一致問題,支持靈活的語(yǔ)音與文本控制,生成質(zhì)量達(dá)到業(yè)內(nèi)領(lǐng)先水平。
Hallo2 繼承了前代 Hallo 模型的創(chuàng)新框架,繼續(xù)采用基于擴(kuò)散的生成模型和分層音頻驅(qū)動(dòng)視覺合成模塊,提高了音頻與視覺輸出之間的同步精度,并經(jīng)過改進(jìn)使得各部分的協(xié)同作用更加高效,增強(qiáng)了生成動(dòng)畫的質(zhì)量和真實(shí)感。Hallo2 不僅在圖像和視頻的質(zhì)量方面有了顯著提升,而且大幅增加了動(dòng)作的豐富性和多樣性。
有行業(yè)專家表示,Hallo2 的出現(xiàn),標(biāo)志著音頻驅(qū)動(dòng)的肖像圖像動(dòng)畫技術(shù)邁入了新的發(fā)展階段。百度基于長(zhǎng)期的視覺技術(shù)積累,正在瞄準(zhǔn)行業(yè)痛點(diǎn)進(jìn)行針對(duì)性研究和場(chǎng)景落地,不僅為開發(fā)者提供了強(qiáng)大的工具,也為未來各種應(yīng)用場(chǎng)景下的動(dòng)畫形象創(chuàng)作帶來了新的可能性。