【ITBEAR】OpenAI近期在人工智能領域取得了重大突破,其研究人員程璐和楊松發(fā)表了一篇關于新型連續(xù)時間一致性模型(sCM)的論文。這一模型在生成圖像、視頻和音頻等多媒體內(nèi)容方面,速度相較于傳統(tǒng)擴散模型提升了50倍,僅需十分之一秒即可生成高質(zhì)量圖像。
sCM模型通過僅兩個采樣步驟,就能實現(xiàn)與傳統(tǒng)擴散模型相當?shù)臉颖举|(zhì)量,顯著降低了計算成本和時間。這一創(chuàng)新使得實時生成AI應用變得更加可行,為多媒體內(nèi)容的快速生成提供了新的解決方案。
擴散模型雖在生成逼真多媒體內(nèi)容方面表現(xiàn)出色,但其采樣效率低下,限制了實時應用。而sCM模型則克服了這一挑戰(zhàn),實現(xiàn)了速度與質(zhì)量的雙重提升。
sCM模型在ImageNet 512×512上進行了訓練,可擴展至15億個參數(shù),同時保持了與最佳擴散模型相媲美的樣本質(zhì)量。基準測試顯示,sCM模型在減少計算開銷的同時,仍能提供頂級結果。
隨著sCM模型規(guī)模的擴大,樣本質(zhì)量的差距進一步縮小。這一模型的成功還得益于其能夠隨著從中提煉知識的教師傳播模型按比例擴展,使得采樣步驟數(shù)的增加會進一步縮小質(zhì)量差異。
sCM模型的快速采樣和可擴展性為實時生成AI開辟了新的可能性,從圖像生成到音頻和視頻合成,為需要快速、高質(zhì)量輸出的應用程序提供了實用解決方案。