由Adobe Research和澳大利亞國立大學(ANU)聯合研發的人工智能模型宣布了一項突破性的成果,能夠從單一的2D圖像中生成3D圖像。
研究人員表示,他們的新算法在大規模圖像樣本上進行訓練,可以在幾秒鐘內生成這樣的3D圖像。該算法采用了名為LRM(Large Reconstruction Model)的高度可擴展神經網絡,包含一百萬數據集和五億參數,涵蓋圖像、3D形狀和視頻等多種數據。
該項目的領導作者、澳大利亞國立大學工程、計算和控制學院的畢業生、Adobe實習生Yicong Hong表示:“這種高容量模型和大規模訓練數據的結合使得我們的模型具有很強的泛化能力,能夠從各種測試輸入中產生高質量的3D重建。”
據Hong介紹,早期的3D成像軟件只在特定主題類別中表現良好,后來的圖像生成進展是通過程序如DALL-E和Stable Diffusion實現的,它們利用了2D擴散模型的卓越泛化能力以實現多視圖。然而,這些程序的結果僅限于預訓練的2D生成模型。
其他系統利用每形狀優化來取得令人印象深刻的結果,但根據Hong的說法,它們“通常緩慢且不切實際”。他指出,利用大規模數據的巨大變壓器網絡內的自然語言模型的發展激發了他的團隊提出一個問題:“是否可能學習從單一圖像重建對象的通用3D先驗?”他們的答案是“是”。
“LRM可以從現實世界中捕獲的各種圖像以及由生成模型創建的圖像中重建高保真度的3D形狀。” Hong說道,“LRM也是下游應用的高度實用解決方案,因為它可以在僅五秒鐘內生成一個3D形狀,無需后期優化。”
該程序的成功在于其能夠利用數百萬圖像參數的數據庫,并預測神經輻射場(NeRF)。這意味著它能夠僅基于2D圖像生成逼真的3D圖像,即使這些圖像是低分辨率的。與之前的3D軟件相比,該模型的突破性在于其快速、高效地生成高質量的3D圖像,為增強現實、虛擬現實系統、游戲、影視動畫和工業設計等領域帶來了轉變。
總的來說,LRM(Large Reconstruction Model)是一種用于從單張圖像生成高保真度3D物體模型的模型。LRM通過采用大規模數據和高容量模型的組合,實現了從單張圖像到3D模型的快速而準確的重建。以下是LRM的主要功能特色:
1. 快速生成:LRM能夠在短短5秒內,從單張輸入圖像中生成高保真度的3D物體模型。
2. 大規模訓練:與許多先前的方法不同,LRM采用了高度可擴展的基于transformer的架構,具有5億個可學習參數,用于直接預測神經輻射場(NeRF)。
3. 數據多樣性:模型以端到端的方式在包含大約100萬個對象的大規模多視圖數據上進行訓練,包括Objaverse的合成渲染和MVIm.NET的實際捕捉數據。
4.高通用性: 由于高容量模型和大規模訓練數據的結合,LRM具有很強的通用性,能夠從各種測試輸入中生成高質量的3D重建,包括真實世界中的野外捕捉和生成模型的圖像。
5. Transformer-Based架構:LRM采用了完全可微分的transformer-based編碼器-解碼器框架,通過預訓練的視覺模型(DINO)對輸入圖像進行編碼,使用大型transformer解碼器通過交叉注意力將圖像特征投影到3D三平面表示,然后通過多層感知器預測體積渲染的點顏色和密度。
項目頁面:https://yiconghong.me/LRM/