在人工智能領(lǐng)域邁出重要一步,智元機(jī)器人于近日震撼發(fā)布了其首個(gè)通用具身基座模型——智元啟元大模型Genie Operator-1(簡稱GO-1)。這一創(chuàng)新模型的推出,標(biāo)志著機(jī)器人在理解人類指令、執(zhí)行多樣化任務(wù)方面取得了突破性進(jìn)展。
GO-1的核心在于其獨(dú)特的Vision-Language-Latent-Action(ViLLA)框架,該框架巧妙融合了多模態(tài)大模型VLM與混合專家MoE。VLM作為模型的主干網(wǎng)絡(luò),借助互聯(lián)網(wǎng)上的海量純文本和圖文數(shù)據(jù),賦予了GO-1強(qiáng)大的場景感知和理解能力。而MoE則進(jìn)一步增強(qiáng)了模型的動(dòng)作規(guī)劃和執(zhí)行能力,通過隱動(dòng)作專家模型和動(dòng)作專家模型的協(xié)同工作,GO-1能夠精準(zhǔn)地理解并執(zhí)行復(fù)雜的任務(wù)。
GO-1展現(xiàn)了五大顯著優(yōu)勢:采訓(xùn)推一體化設(shè)計(jì),確保了數(shù)據(jù)采集、模型訓(xùn)練和推理的無縫銜接;小樣本快速泛化能力,使得模型能夠在極少數(shù)據(jù)甚至零樣本的情況下快速適應(yīng)新場景和新任務(wù);一腦多形特性,允許模型在不同機(jī)器人形態(tài)之間靈活遷移,快速適配各種本體;持續(xù)進(jìn)化機(jī)制,借助智元的數(shù)據(jù)回流系統(tǒng),模型能夠根據(jù)實(shí)際執(zhí)行中遇到的問題數(shù)據(jù)進(jìn)行持續(xù)學(xué)習(xí)和優(yōu)化;人類視頻學(xué)習(xí)能力,讓模型能夠通過互聯(lián)網(wǎng)視頻和真實(shí)人類示范進(jìn)行學(xué)習(xí),進(jìn)一步提升對人類行為的理解。
在構(gòu)建GO-1的過程中,智元機(jī)器人采用了具身領(lǐng)域的數(shù)字金字塔結(jié)構(gòu)。底層是互聯(lián)網(wǎng)的大規(guī)模純文本與圖文數(shù)據(jù),為機(jī)器人提供通用知識(shí)和場景理解的基礎(chǔ)。往上則是大規(guī)模的人類操作和跨本體視頻數(shù)據(jù),幫助機(jī)器人學(xué)習(xí)各種動(dòng)作操作模式。再往上則是仿真數(shù)據(jù),用于增強(qiáng)模型的泛化能力。而金字塔的頂層,則是高質(zhì)量的真機(jī)示教數(shù)據(jù),用于訓(xùn)練機(jī)器人精準(zhǔn)的動(dòng)作執(zhí)行能力。
ViLLA框架通過預(yù)測隱式動(dòng)作標(biāo)記(Latent Action Tokens),成功彌合了圖像-文本輸入與機(jī)器人執(zhí)行動(dòng)作之間的鴻溝。用戶只需用日常語言向機(jī)器人發(fā)出指令,如“掛衣服”,GO-1便能根據(jù)所學(xué)習(xí)的知識(shí)和數(shù)據(jù),拆解并執(zhí)行這一任務(wù)。從理解指令的含義和要求,到識(shí)別掛衣服的環(huán)節(jié),再到理解物體和環(huán)境并打通整個(gè)任務(wù)過程,最終精準(zhǔn)完成操作,GO-1展現(xiàn)了驚人的執(zhí)行能力和智能化水平。
GO-1的應(yīng)用場景廣泛且多樣。從家庭場景中的準(zhǔn)備餐食、收拾桌面,到辦公和商業(yè)場景中的接待訪客、發(fā)放物品,再到工業(yè)等更多場景的其他操作任務(wù),GO-1都能快速實(shí)現(xiàn)。這意味著機(jī)器人將能夠更多地融入人類的生活和工作,為人類帶來更多便利。
GO-1還具備持續(xù)進(jìn)化的能力。例如,當(dāng)機(jī)器人在做咖啡時(shí)不小心將杯子放歪時(shí),它能夠從這次失敗中學(xué)習(xí)并優(yōu)化自己的行為,直到成功完成任務(wù)。這種自我學(xué)習(xí)和優(yōu)化的能力,讓GO-1在面對多變和復(fù)雜的真實(shí)世界時(shí)更加從容。
智元機(jī)器人的這一創(chuàng)新成果,無疑為具身智能的發(fā)展注入了新的活力。GO-1的出現(xiàn),不僅解決了具身智能在場景和物體泛化、語言理解、新技能學(xué)習(xí)以及跨本體部署等方面的難題,更推動(dòng)了具身智能向通用化、開放化與智能化的方向加速邁進(jìn)。未來,我們有望看到更多像GO-1這樣的智能機(jī)器人,它們將在各個(gè)領(lǐng)域發(fā)揮更大的作用,為人類創(chuàng)造更加美好的生活和工作環(huán)境。