在機器人技術的前沿探索中,一款名為智元啟元大模型Genie Operator-1(簡稱GO-1)的通用具身基座模型于近日震撼發布,標志著智能機器人領域邁入了一個全新的發展階段。這款模型由智元機器人公司傾力打造,通過創新的Vision-Language-Latent-Action(ViLLA)框架,實現了多模態學習與混合專家系統的完美融合。
GO-1的核心競爭力在于其ViLLA框架,該框架由VLM(多模態大模型)與MoE(混合專家)兩大模塊構成。VLM作為模型的主干網絡,基于開源多模態大模型5-2B的權重進行訓練,借助互聯網上的海量純文本與圖文數據,賦予了GO-1卓越的場景感知與理解能力。而MoE則通過隱動作專家模型和動作專家模型的協同作用,讓機器人能夠學習并理解人類操作模式,同時具備精細的動作執行能力。
GO-1的五大特點尤為引人注目:采訓推一體化設計,使得數據采集、模型訓練與推理過程無縫銜接;小樣本快速泛化能力,使模型能夠在極少數據甚至零樣本的情況下快速適應新場景與新任務;一腦多形功能,讓模型能夠輕松遷移至不同形態的機器人本體;持續進化特性,依托智元的數據回流系統,模型能夠不斷從實際執行中遇到的問題數據中學習進化;人類視頻學習能力,使模型能夠通過互聯網視頻和真實人類示范進行學習,進一步提升對人類行為的理解。
在構建過程中,GO-1采用了具身領域的數字金字塔結構,從底層的大規模純文本與圖文數據,到人類操作與跨本體視頻,再到仿真數據與高質量真機示教數據,形成了全面的知識庫與技能庫。這一結構使得GO-1能夠輕松應對多種多樣的環境和物體,快速學習新的操作。
ViLLA框架的引入,使得GO-1能夠將多相機的視覺信號與人類語言指令直接轉化為機器人的動作執行。與Vision-Language-Action(VLA)模型相比,ViLLA通過預測隱式動作標記(Latent Action Tokens),有效彌合了圖像-文本輸入與機器人執行動作之間的鴻溝。用戶只需用自然語言向機器人發出指令,如“掛衣服”,GO-1便能根據所學知識與經驗,拆解任務步驟,精準完成整個操作。
GO-1的應用場景廣泛,從家庭場景中的準備餐食、收拾桌面,到辦公和商業場景中的接待訪客、發放物品,再到工業等更多領域的操作任務,GO-1都能快速實現。其強大的數據回流與持續進化能力,使得機器人在執行任務過程中不斷積累經驗,優化表現。例如,當機器人在制作咖啡時不慎將杯子放歪,它便能從這次失敗中學習,并在未來的任務中避免類似錯誤。