智元機(jī)器人近日宣布了一項(xiàng)革命性的技術(shù)突破,正式推出了業(yè)內(nèi)首個(gè)開(kāi)源的機(jī)器人世界模型平臺(tái)——Genie Envisioner(簡(jiǎn)稱GE)。這一創(chuàng)新平臺(tái)的問(wèn)世,標(biāo)志著機(jī)器人在學(xué)習(xí)技術(shù)領(lǐng)域邁出了關(guān)鍵的一步。
不同于傳統(tǒng)的機(jī)器人學(xué)習(xí)方式,Genie Envisioner平臺(tái)采用了全新的設(shè)計(jì)理念,其核心是一個(gè)統(tǒng)一的視頻生成世界模型,形成了一個(gè)閉環(huán)系統(tǒng)。該系統(tǒng)集成了未來(lái)幀預(yù)測(cè)、策略學(xué)習(xí)與仿真評(píng)估等多個(gè)功能模塊,使得機(jī)器人能夠在單一模型內(nèi)實(shí)現(xiàn)從環(huán)境感知、決策制定到動(dòng)作執(zhí)行的完整流程。
該平臺(tái)的核心架構(gòu)高度集成,主要包括三個(gè)部分:GE-Base模型、GE-Act動(dòng)作解碼器和GE-Sim神經(jīng)仿真器。GE-Base模型基于龐大的數(shù)據(jù)集訓(xùn)練而成,擁有卓越的環(huán)境布局解析能力和動(dòng)作意圖理解能力。GE-Act則負(fù)責(zé)將模型的理解結(jié)果轉(zhuǎn)化為具體的動(dòng)作指令,確保機(jī)器人能夠準(zhǔn)確執(zhí)行。而GE-Sim則是一個(gè)基于動(dòng)作條件的神經(jīng)仿真器,通過(guò)精細(xì)的分層機(jī)制,實(shí)現(xiàn)了高精度的視覺(jué)預(yù)測(cè)。這三個(gè)部分協(xié)同工作,共同推動(dòng)了平臺(tái)的高效運(yùn)行。
在開(kāi)發(fā)過(guò)程中,智元機(jī)器人投入了大量資源,利用了約3000小時(shí)的真實(shí)機(jī)器人操作視頻數(shù)據(jù)。這些數(shù)據(jù)不僅幫助模型建立了語(yǔ)言指令與視覺(jué)空間之間的直接聯(lián)系,還完整保留了操作過(guò)程中的時(shí)空信息,從而確保了平臺(tái)的準(zhǔn)確性和實(shí)用性。
在實(shí)際應(yīng)用中,搭載GE平臺(tái)的機(jī)器人已經(jīng)展現(xiàn)出了強(qiáng)大的任務(wù)執(zhí)行能力。例如,在測(cè)試中,配備GE-Act模塊的機(jī)器人成功完成了制作三明治、倒茶和擦拭桌面等多項(xiàng)復(fù)雜任務(wù)。這些成果不僅驗(yàn)證了GE平臺(tái)的技術(shù)優(yōu)勢(shì),也充分展示了其在提升機(jī)器人智能化水平和任務(wù)執(zhí)行能力方面的巨大潛力。