近期,谷歌在機(jī)器人技術(shù)領(lǐng)域邁出了重要一步,推出了Gemini Robotics On-Device模型,這一升級(jí)版是在其三月發(fā)布的“視覺語言動(dòng)作”(VLA)模型基礎(chǔ)上進(jìn)一步優(yōu)化而來。據(jù)谷歌官方介紹,該模型專為在機(jī)器人設(shè)備上本地運(yùn)行而設(shè)計(jì),代表了他們目前最頂尖的VLA技術(shù)。
谷歌DeepMind的高級(jí)總監(jiān)及機(jī)器人項(xiàng)目主管強(qiáng)調(diào),Gemini Robotics On-Device模型無需依賴數(shù)據(jù)網(wǎng)絡(luò),這對(duì)延遲敏感的應(yīng)用來說是一大福音。它確保了即便在網(wǎng)絡(luò)不穩(wěn)定或無網(wǎng)絡(luò)的環(huán)境中,機(jī)器人也能保持穩(wěn)定的運(yùn)行。這一特性使得該模型在多種應(yīng)用場景中展現(xiàn)出極高的靈活性和可靠性。
Gemini Robotics On-Device模型是專為雙臂機(jī)器人設(shè)計(jì)的,旨在提升機(jī)器人應(yīng)對(duì)復(fù)雜任務(wù)的靈巧性和適應(yīng)能力。在之前的演示中,搭載了該本地模型的機(jī)器人展示了諸如拉開拉鏈和折疊衣物等基本動(dòng)作的出色執(zhí)行能力。谷歌表示,雖然該模型最初是為ALOHA機(jī)器人訓(xùn)練的,但經(jīng)過調(diào)整,現(xiàn)已成功應(yīng)用于雙臂Franka FR3機(jī)器人和Apollo人形機(jī)器人。
為了進(jìn)一步推動(dòng)Gemini Robotics的發(fā)展,谷歌DeepMind還發(fā)布了配套的SDK。開發(fā)人員可以在MuJoCo高級(jí)物理模擬器上利用這些模型,通過向機(jī)器人展示50到100個(gè)任務(wù)演示來訓(xùn)練它們完成任務(wù)。這種訓(xùn)練方式不僅提高了機(jī)器人的學(xué)習(xí)效率,還增強(qiáng)了其在實(shí)際應(yīng)用中的表現(xiàn)。
與單純的大語言模型相比,機(jī)器人AI面臨更多挑戰(zhàn)。機(jī)器人不僅存在于物理世界中,還會(huì)改變其環(huán)境。谷歌DeepMind機(jī)器人技術(shù)負(fù)責(zé)人指出,Gemini不僅能夠生成文本、寫詩、總結(jié)文章甚至編寫代碼,現(xiàn)在還能生成機(jī)器人動(dòng)作。這意味著谷歌的機(jī)器人模型已經(jīng)能夠通過大數(shù)據(jù)訓(xùn)練來掌握各種動(dòng)作,在快速迭代中應(yīng)對(duì)物理世界中的各種問題。
然而,安全性是機(jī)器人AI發(fā)展中不可忽視的問題。與對(duì)話型AI相比,機(jī)器人AI更需注重安全,以避免出現(xiàn)類似“終結(jié)者”這樣的恐怖場景。為了保障Gemini Robotics的安全,谷歌采用了多層限制的方法。具體來說,機(jī)器人由一個(gè)底層VLA模型控制,而在其之上還有一個(gè)上級(jí)VLA模型,該模型通過推理來判斷哪些指令是安全的。這種“AI管理AI”的方式為機(jī)器人的安全運(yùn)行提供了有力保障。
隨著谷歌在機(jī)器人技術(shù)領(lǐng)域的不斷突破,越來越多的公司也開始關(guān)注這一新賽道。包括Nvidia在內(nèi)的許多企業(yè)都在秘密研發(fā)自己的機(jī)器人項(xiàng)目。可以預(yù)見,未來將有更多企業(yè)在這一領(lǐng)域展開競爭,共同推動(dòng)機(jī)器人技術(shù)的發(fā)展和創(chuàng)新。