谷歌DeepMind最近通過(guò)官方渠道宣布,推出了一款名為Gemini Robotics On-Device的本地化機(jī)器人人工智能模型。這款模型基于視覺(jué)-語(yǔ)言-動(dòng)作(VLA)一體化架構(gòu)設(shè)計(jì),實(shí)現(xiàn)了在沒(méi)有云端支持的情況下對(duì)實(shí)體機(jī)器人的精確操控。
Gemini Robotics On-Device模型的最大創(chuàng)新之處在于其完全本地化運(yùn)行的特性,這一改變賦予了機(jī)器人低延遲響應(yīng)的能力。尤其在一些網(wǎng)絡(luò)環(huán)境不穩(wěn)定或要求即時(shí)響應(yīng)的場(chǎng)所,如醫(yī)療設(shè)施,該模型展現(xiàn)出了巨大的應(yīng)用潛力。
在操作精度層面,該模型的表現(xiàn)同樣令人矚目。它能夠完成諸如拉開(kāi)包袋拉鏈、折疊衣物、系鞋帶等一系列高精度任務(wù)。模型配備的雙機(jī)械臂設(shè)計(jì),目前已適配ALOHA、Franka FR3以及Apollo人形機(jī)器人平臺(tái),進(jìn)一步擴(kuò)展了其應(yīng)用場(chǎng)景。
為了幫助開(kāi)發(fā)者更輕松地利用這一技術(shù),谷歌提供了全面的Gemini Robotics SDK工具包。開(kāi)發(fā)者僅需通過(guò)50至100次的任務(wù)演示,即可為機(jī)器人定制新功能。系統(tǒng)還支持MuJoCo物理模擬器,允許開(kāi)發(fā)者在部署前進(jìn)行模擬測(cè)試,降低了開(kāi)發(fā)風(fēng)險(xiǎn)。
安全性方面,Gemini Robotics On-Device模型也建立了完善的安全機(jī)制。通過(guò)Live API進(jìn)行語(yǔ)義安全檢測(cè),確保機(jī)器人行為符合規(guī)范。同時(shí),底層安全控制器對(duì)動(dòng)作的力度和速度進(jìn)行精確管理,有效防止了意外傷害的發(fā)生。
項(xiàng)目負(fù)責(zé)人Carolina Parada介紹道:“這款系統(tǒng)充分利用了Gemini的多模態(tài)理解能力,就像Gemini能夠生成文本、代碼和圖像一樣,現(xiàn)在它也能生成精確的機(jī)器人動(dòng)作,實(shí)現(xiàn)了從認(rèn)知到動(dòng)作的全面智能化?!?/p>
目前,該模型尚處于測(cè)試階段,僅向參與可信測(cè)試計(jì)劃的開(kāi)發(fā)者開(kāi)放。值得注意的是,這款模型基于Gemini2.0架構(gòu)開(kāi)發(fā),與谷歌最新的Gemini2.5版本相比,存在一定的技術(shù)差距。