(ChinaZ.com) 5月9日消息:OpenAI 最近分享了他們在將文本提示轉(zhuǎn)化為 3D 物體方面的最新探索,名為 Shap-E。這款生成式 AI 工具提供了一種新的方式來生成 3D 物體,其制作的物體比去年發(fā)布的 Point-E 模型更好、更詳細(xì)、更準(zhǔn)確。
截自Shap-E GitHub 頁面
OpenAI 構(gòu)建了 Shap-E 作為文本到 3D 模型生成器,能夠生成細(xì)粒度紋理和復(fù)雜的詳細(xì)形狀。而 Point-E 根據(jù)文本提示生成 3D 點云,Shap-E 直接創(chuàng)建物體的輪廓,并采用了名為神經(jīng)輻射場(NeRFs)的特性來克服之前模型的模糊性。NeRFs 是虛擬和增強(qiáng)現(xiàn)實中使用的技術(shù),可以使三維場景看起來像是真實照片一樣。
Shap-E 將這項技術(shù)應(yīng)用于更常見的擴(kuò)散模型,以形成與文本提示所建議的物體形狀和紋理。該過程也比 Point-E 快得多。在單個 NVIDIA V100 GPU 上,集合中的每個 Shap-E 樣本生成時間約為 13 秒,而 Point-E 在相同硬件上渲染可能需要多達(dá)兩分鐘的時間。
研究人員解釋道:「我們發(fā)現(xiàn),在相同的數(shù)據(jù)集、模型架構(gòu)和訓(xùn)練計算資源的條件下,Shap·E 與類似的顯式生成模型相匹配或超越其性能。我們還發(fā)現(xiàn),我們的純文本條件模型可以生成多樣化、有趣的物體,而無需依賴圖像作為中間表示。這些結(jié)果突顯了生成隱式表示的潛力,特別是在像三維領(lǐng)域這樣的領(lǐng)域,隱式表示比顯式表示更具靈活性。」
Shap-E 的開發(fā)者承認(rèn),與 Point-E 的點云方法相比,大規(guī)模使用的計算能力可能較高。這款 AI 在理解如何制作一些復(fù)雜物體方面仍然存在困難,但總體而言,其結(jié)果在成功方面非常顯著。