在機(jī)器人技術(shù)的前沿探索中,一款名為智元啟元大模型Genie Operator-1(簡(jiǎn)稱(chēng)GO-1)的通用具身基座模型于近日震撼發(fā)布,標(biāo)志著機(jī)器人在理解和執(zhí)行人類(lèi)指令方面邁出了重要一步。這款模型由智元機(jī)器人公司傾力打造,以其獨(dú)特的Vision-Language-Latent-Action(ViLLA)框架,展現(xiàn)了小樣本快速泛化、跨本體應(yīng)用、持續(xù)進(jìn)化及人類(lèi)視頻學(xué)習(xí)等多重優(yōu)勢(shì)。
GO-1的核心在于其創(chuàng)新的ViLLA框架,該框架融合了VLM(多模態(tài)大模型)與MoE(混合專(zhuān)家)技術(shù)。VLM作為主干網(wǎng)絡(luò),繼承了開(kāi)源多模態(tài)大模型的權(quán)重,并利用互聯(lián)網(wǎng)上的大規(guī)模文本和圖文數(shù)據(jù),賦予了GO-1強(qiáng)大的場(chǎng)景感知和理解能力。而MoE中的隱動(dòng)作專(zhuān)家模型和動(dòng)作專(zhuān)家模型,則分別通過(guò)學(xué)習(xí)互聯(lián)網(wǎng)上的人類(lèi)操作視頻和高質(zhì)量的仿真及真機(jī)數(shù)據(jù),實(shí)現(xiàn)了對(duì)動(dòng)作的理解和精細(xì)執(zhí)行能力。
GO-1的發(fā)布,不僅展示了其在技術(shù)上的突破,更體現(xiàn)了其在實(shí)際應(yīng)用中的廣泛潛力。其五大特點(diǎn)——采訓(xùn)推一體、小樣本快速泛化、一腦多形、持續(xù)進(jìn)化以及人類(lèi)視頻學(xué)習(xí),共同構(gòu)成了GO-1強(qiáng)大的競(jìng)爭(zhēng)力。這意味著,無(wú)論是在家庭場(chǎng)景中的簡(jiǎn)單任務(wù),還是在辦公和商業(yè)場(chǎng)景中的復(fù)雜工作,GO-1都能迅速適應(yīng)并高效完成。
在具身智能領(lǐng)域,GO-1的推出無(wú)疑是一次革命性的進(jìn)展。它打破了傳統(tǒng)機(jī)器人在場(chǎng)景和物體泛化、語(yǔ)言理解能力以及新技能學(xué)習(xí)方面的局限。通過(guò)ViLLA框架,GO-1能夠?qū)⑤斎氲亩嘞鄼C(jī)視覺(jué)信號(hào)和人類(lèi)語(yǔ)言指令直接轉(zhuǎn)化為機(jī)器人的動(dòng)作執(zhí)行。這一能力,使得GO-1在面對(duì)各種復(fù)雜指令時(shí),都能迅速拆解并精準(zhǔn)執(zhí)行。
例如,當(dāng)用戶(hù)告訴機(jī)器人“掛衣服”時(shí),GO-1能夠首先理解這一指令的含義和要求,然后回憶并模擬掛衣服的過(guò)程,最后精準(zhǔn)完成整個(gè)任務(wù)。這種能力,不僅讓機(jī)器人在日常生活中更加便捷實(shí)用,也為其在更多場(chǎng)景中的應(yīng)用提供了無(wú)限可能。
GO-1的持續(xù)進(jìn)化能力也是其不可忽視的一大亮點(diǎn)。通過(guò)數(shù)據(jù)回流系統(tǒng),GO-1能夠從實(shí)際執(zhí)行中遇到的問(wèn)題數(shù)據(jù)中不斷學(xué)習(xí)進(jìn)化,不斷提升自身的執(zhí)行任務(wù)能力。這意味著,隨著時(shí)間的推移和經(jīng)驗(yàn)的積累,GO-1將變得越來(lái)越智能、越來(lái)越高效。
在商務(wù)會(huì)議、家庭生活、工業(yè)制造等多個(gè)場(chǎng)景中,GO-1都展現(xiàn)出了其強(qiáng)大的應(yīng)用潛力。無(wú)論是準(zhǔn)備餐食、收拾桌面這樣的簡(jiǎn)單任務(wù),還是接待訪(fǎng)客、發(fā)放物品這類(lèi)復(fù)雜工作,GO-1都能輕松應(yīng)對(duì)。這一能力的實(shí)現(xiàn),不僅極大地提升了機(jī)器人的實(shí)用性和智能化水平,也為人類(lèi)的生活和工作帶來(lái)了更多的便利和可能。