在機(jī)器人技術(shù)的前沿探索中,逐際動力近期宣布了一項(xiàng)重大突破:成功研發(fā)出基于視頻生成大模型的具身操作算法LimX VGM。這一創(chuàng)新技術(shù)標(biāo)志著國內(nèi)首次將人類操作數(shù)據(jù)直接轉(zhuǎn)化為機(jī)器人操作能力的實(shí)現(xiàn)。
長久以來,具身智能領(lǐng)域一直面臨數(shù)據(jù)應(yīng)用的難題。盡管人類操作視頻豐富多樣,但這些視頻數(shù)據(jù)卻難以直接應(yīng)用于機(jī)器人操作。盡管大型模型能夠根據(jù)視頻生成行為軌跡和操作數(shù)據(jù),但往往存在精度不足、偏離物理規(guī)律等問題,使得這些數(shù)據(jù)在實(shí)際應(yīng)用中受到限制。
逐際動力的LimX VGM算法通過對人類操作視頻數(shù)據(jù)進(jìn)行后訓(xùn)練,成功解決了這一難題。該算法僅需場景圖片和操作任務(wù)指令作為提示,即可實(shí)現(xiàn)任務(wù)的理解與拆分、物體操作軌跡的生成,以及最終的機(jī)器人操作執(zhí)行。整個過程無需任何真實(shí)機(jī)器人的樣本數(shù)據(jù),且具備跨平臺泛化的能力。
LimX VGM的工作流程包括三個關(guān)鍵步驟:在訓(xùn)練階段,算法通過采集真實(shí)人類操作的視頻數(shù)據(jù),對現(xiàn)有視頻生成大模型進(jìn)行后訓(xùn)練;在推理階段,算法結(jié)合初始場景和任務(wù)操作指令,生成帶深度信息的人類操作視頻,并據(jù)此生成機(jī)器人的操作行為;在執(zhí)行階段,算法輸出符合機(jī)器人操作邏輯的行為解算,由機(jī)器人執(zhí)行相應(yīng)的操作軌跡。
LimX VGM的創(chuàng)新不僅在于其工作流程,更在于其背后的三大核心技術(shù)突破。首先,該算法通過有效訓(xùn)練從現(xiàn)有大模型框架中提取關(guān)鍵信息,轉(zhuǎn)化為機(jī)器人操作策略及行為,從而實(shí)現(xiàn)了人類操作視頻到機(jī)器人操作策略的橋接。這一過程大大簡化了數(shù)據(jù)采集工作,降低了成本,提高了效率。
其次,LimX VGM引入了空間智能模塊,突破了2D生成視頻的局限。在視頻生成大模型的后訓(xùn)練過程中,算法通過深度相機(jī)捕捉人手真實(shí)操作過程,引入深度信息,使生成的操作視頻直接包含三維空間數(shù)據(jù)。這一創(chuàng)新為機(jī)器人在物理空間中的操作提供了關(guān)鍵支持。
最后,LimX VGM實(shí)現(xiàn)了算法與機(jī)器人本體的解耦,使得算法可以跨平臺部署。整個訓(xùn)練過程僅依賴人類操作視頻,不涉及任何機(jī)器人本體。因此,算法的真機(jī)部署僅需簡單適配,即可實(shí)現(xiàn)跨硬件平臺的直接操作執(zhí)行。這一特性使得LimX VGM在面對不斷推陳出新的機(jī)器人硬件時,無需大幅調(diào)整算法或重新采集數(shù)據(jù),實(shí)現(xiàn)了操作能力的設(shè)備泛化。
在演示中,研究人員展示了LimX VGM算法在三種構(gòu)型、參數(shù)、能力等方面差異巨大的機(jī)械臂上的應(yīng)用效果。盡管這些機(jī)械臂在諸多方面存在顯著差異,但算法仍然能夠?qū)崿F(xiàn)一致的操作效果,充分展示了其跨平臺部署和泛化能力。