在科技界的一次重大突破中,AI領域的重量級人物李飛飛創立的World Labs震撼發布了其首個核心成果——世界模型,該模型能夠從單張圖像中生成完整的3D世界。
這一消息迅速在行業內引發了轟動,李飛飛也迅速在社交媒體上分享了這一喜訊。她所展示的,是一個前所未有的AI新紀元,即從2D內容生成邁向3D世界創造的飛躍。
目前,市面上的大多數AI工具仍局限于制作圖像或視頻等2D內容,這些工具在內容的控制和一致性方面存在顯著缺陷。而World Labs的3D生成技術,則顯著提升了內容的可控性和一致性。其模型能夠預測3D幾何形狀,并填充場景中不可見的部分,這將徹底改變電影、游戲、模擬器及其他數字表現形式的制作方式。
World Labs的技術允許用戶通過輸入任意一張圖片,即可生成一個完整的3D世界。用戶可以通過鍵盤上的WASD鍵控制視角的上下左右移動,還可以通過鼠標拖動探索這個世界的每一個角落。這種體驗,不僅僅是視覺上的震撼,更是互動性的全面升級。
除了基本的視角控制外,World Labs還提供了多種玩法。例如,用戶可以使用虛擬攝像機進行實時渲染,通過精確控制攝像機的各項參數,實現各種藝術攝影效果,如淺景深效果、推移變焦效果等。這些效果不僅增強了畫面的層次感,還創造了獨特的視覺沖擊力和動態感。
在3D效果方面,World Labs的生成模型不僅僅局限于像素層面的預測。其優勢在于生成的3D場景具有持久的現實性、實時控制性和符合物理規則的特點。一旦生成了一個世界,它就會一直存在,不會因視角的改變而發生變化。用戶可以實時移動場景,探索細節,感受真實世界的堅實感和深度感。通過深度貼圖技術,每個像素都按其與相機的距離著色,使得場景更具空間感。
World Labs團隊還展示了他們從梵高、霍珀、修拉和康定斯基等藝術大師的作品中生成的3D世界。這些作品不僅保留了原作的藝術風格,還通過3D技術賦予了新的生命和活力。
3D生成技術還可以與其他AI工具組合使用,如Midjourney、Runway、Suno等。這將極大地改變創作者的工作流程,使他們能夠更高效地創作出具有獨特風格的3D世界。例如,用戶可以先使用文生圖模型生成圖像,然后將其導入World Labs中生成3D世界,從而得到不同風格的3D場景。
World Labs的成立,是李飛飛自2018年從谷歌離職重返斯坦福后的首次直接創業項目。作為一家專注于打造世界模型進行3D世界感知、生成和互動的AI初創公司,World Labs在短短三個月內就完成了兩輪融資,融資總額超過2.3億美元,估值突破10億美元。投資方包括硅谷知名風投a16z和AI基金Radical Ventures。
李飛飛認為,未來AI的核心在于“空間智能”,即讓AI具備感知、推理并與3D世界交互的能力。她希望通過World Labs推動這一領域的發展,實現更高層次的空間智能。World Labs的團隊陣容豪華,除了李飛飛外,還包括實時風格轉換和超分辨率領域的專家賈斯汀·約翰遜、神經輻射場(NeRF)的提出者本·米爾登霍爾以及3D重建專家克里斯托夫·拉斯納。
然而,盡管World Labs在技術研發和團隊配置上具有顯著優勢,但其面臨的挑戰也不容忽視。從技術角度來看,構建一個高精度的3D世界理解和生成模型需要大量的數據和計算資源,同時還需要解決實時交互的技術難題。在市場競爭方面,英偉達、meta等多家公司也在積極布局物理AI與3D世界的相關技術,使得市場競爭異常激烈。