英偉達AI總監(jiān)Jim Fan在紅杉AI Ascent大會上分享了關(guān)于具身智能未來的核心挑戰(zhàn)和解決方案。Fan指出,盡管大語言模型已經(jīng)突破了傳統(tǒng)的圖靈測試,但機器人在物理世界中的表現(xiàn)仍遠未達到人類水平。其中,數(shù)據(jù)成為了制約機器人發(fā)展的最大瓶頸。
Fan解釋說,機器人需要物理交互的真實數(shù)據(jù),這些數(shù)據(jù)無法從網(wǎng)頁上抓取,只能通過人類手動采集,效率極低。為了應(yīng)對這一挑戰(zhàn),英偉達團隊提出了在仿真世界中尋找解決方案。通過超高速仿真技術(shù),機器人可以在2小時內(nèi)完成相當(dāng)于現(xiàn)實世界10年的訓(xùn)練量,并將這些知識無縫遷移到物理世界。
Fan進一步指出,生成式AI技術(shù),如3D生成和紋理生成,將進一步降低仿真訓(xùn)練對人工數(shù)據(jù)的依賴。當(dāng)視頻生成模型構(gòu)建的虛擬世界逐漸成型時,機器人將能夠在無限可能的“夢境空間”中訓(xùn)練,不僅成本極低,還能通過提示詞自由創(chuàng)造反事實的訓(xùn)練場景,從而拓寬機器人的能力邊界。
Fan在演講中提出了“物理圖靈測試”的概念,即機器人能否在物理世界中完成任務(wù),以至于人類無法區(qū)分這是人類還是機器人的勞動成果。他強調(diào),目前機器人還遠未達到這一標(biāo)準(zhǔn),例如人形機器人和機器狗在實際操作中仍頻繁出錯。
Fan和英偉達團隊認(rèn)為,仿真技術(shù)是推動機器人技術(shù)發(fā)展的關(guān)鍵。通過構(gòu)建數(shù)字孿生,即機器人和世界的1:1副本,在仿真世界中訓(xùn)練,然后在真實世界中測試,可以大大加速機器人的學(xué)習(xí)過程。Fan展示了在仿真世界中訓(xùn)練機器人在瑜伽球上行走,然后將其遷移到真實世界的成功案例。
Fan還介紹了英偉達開發(fā)的大規(guī)模仿真平臺RoboCasa,該平臺除了機器人本體之外,所有視覺元素都是由AI生成的。通過RoboCasa,操作者可以在虛擬環(huán)境中進行遙操作,系統(tǒng)可以回放仿真軌跡,并利用硬件加速的射線追蹤技術(shù)呈現(xiàn)逼真的光影效果。
Fan指出,未來世界模型與仿真技術(shù)的深度融合將推動機器人技術(shù)進入“仿真2.0”時代。視頻生成模型的出現(xiàn),使得仿真技術(shù)不再依賴于繁瑣的人工建模,而是能夠自動生成復(fù)雜場景和物體。這種“數(shù)字游民”式的仿真,將漫游進視頻擴散模型的夢境空間,為機器人提供無限可能的訓(xùn)練環(huán)境。
Fan最后表示,物理AI的下一個前沿將是“物理API”的革命。就像今天的大模型API處理數(shù)字信息一樣,物理API將能夠操控物理世界的物質(zhì)變化。這將催生全新的經(jīng)濟形態(tài),如“物理App Store”和“技能經(jīng)濟”,機器人將逐漸融入生活背景,成為環(huán)境智能的一部分。