谷歌旗下的人工智能研究先鋒DeepMind,于美國周三正式揭曉了其最新研發(fā)成果——Genie 2模型。這款模型是對年初推出的Genie的全面升級,標志著虛擬世界生成技術(shù)的一次飛躍。
Genie 2被定位為一種基礎(chǔ)性的世界生成模型,它擁有將單一圖片轉(zhuǎn)化為無限多樣、可操控及可探索3D環(huán)境的能力,專為訓練和評估具身智能體而設(shè)計。這一特性讓Genie 2在人工智能領(lǐng)域獨樹一幟。
據(jù)DeepMind介紹,Genie 2能生成“異彩紛呈的3D世界”,用戶在這些世界中可以隨心所欲地跳躍、游泳,享受與環(huán)境的真實互動。通過視頻訓練,模型能夠精確模擬物體的交互、動畫效果、照明、物理現(xiàn)象、反射效果以及非玩家角色的行為,為用戶帶來沉浸式的體驗。
DeepMind發(fā)布的一段演示視頻,直觀展示了Genie 2的神奇之處。視頻中,系統(tǒng)首先利用Imagen 3根據(jù)文字描述生成一張初始圖片,隨后Genie 2基于這張圖片構(gòu)建出一個完整的互動世界。用戶通過鍵盤和鼠標在這個世界里自由探索,而Genie 2則實時渲染出用戶所見的每一幀畫面,流暢且自然。
Genie 2還具備從不同視角生成連貫世界的能力,無論是第一人稱視角還是等距視角,都能呈現(xiàn)出一致且連貫的虛擬世界。這些生成的世界可持續(xù)時間最長可達一分鐘,盡管大多數(shù)情況下維持在10到20秒之間,但這已足夠展現(xiàn)出其強大的生成能力和應用潛力。
DeepMind在人工智能領(lǐng)域的深耕細作,不僅體現(xiàn)在Genie 2的研發(fā)上,還體現(xiàn)在其對人才的重視上。今年10月,DeepMind成功聘請了OpenAI前視頻生成項目負責人Tim Brooks,同時兩年前還從meta挖來了以開放式實驗聞名的Tim Rockt?schel。這些重量級人才的加入,無疑為DeepMind的未來發(fā)展注入了新的活力。
隨著谷歌對世界模型研究的持續(xù)投入,我們有理由相信,未來會有更多像Genie 2這樣的創(chuàng)新成果涌現(xiàn),為人工智能領(lǐng)域帶來更多的驚喜和突破。