(ChinaZ.com)11月20日 消息:Google最近推出了一種新的圖像生成技術(shù),通過保證內(nèi)容特征的一致性,可以生成具有相同視覺特征的連貫圖像。這對于故事可視化、游戲開發(fā)和廣告等領(lǐng)域非常重要,因為在生成過程中,角色或內(nèi)容的一致性是必需的。
論文地址:https://arxiv.org/pdf/2311.10093.pdf
這項技術(shù)的實現(xiàn)方法包括三個步驟。首先是身份聚類,通過生成一系列圖像,并將它們嵌入到語義空間中,使用聚類算法將這些圖像分組,每個組代表一種可能的角色身份。這個過程旨在識別出一組視覺上一致的圖像,從而確定角色的主要視覺特征。
接下來是身份提取,一旦確定了一組具有高內(nèi)聚性的圖像,就會在這些圖像上訓練模型,以提取出更一致的角色身份。這意味著模型將學習到特定角色的關(guān)鍵視覺特征,以便在未來的生成中更準確地重現(xiàn)這些特征。