谷歌DeepMind在人工智能領域再次邁出重要一步,近日推出了兩款專為現實世界任務設計的AI模型,旨在增強機器人的功能與適應性。
其中一款名為Gemini Robotics的模型,憑借其強大的視覺語言行動能力,讓機器人無需特定訓練即可理解并應對全新的情境。這款模型基于DeepMind的最新旗艦AI——Gemini 2.0構建。據DeepMind機器人部門的高級總監Carolina Parada介紹,Gemini Robotics通過整合Gemini的多模態世界理解能力,并加入物理行動的新模態,成功實現了向現實世界的拓展。
Gemini Robotics在構建高效機器人所需的三大核心領域——通用性、互動性和靈活性上取得了顯著進展。它不僅能夠靈活應對各種新情境,還在與人類及環境的互動中展現出更出色的表現,甚至能夠執行如折紙、打開瓶蓋等精細的物理操作。
另一款新模型名為Gemini Robotics-ER(具象推理),DeepMind將其描述為一種能夠“理解復雜且動態世界”的先進視覺語言模型。Parada進一步解釋,當執行如裝便當盒等任務時,機器人需要考慮桌上物品的位置及操作步驟,而Gemini Robotics-ER正是為解決此類推理任務而設計的。通過該模型,機器人專家可以與現有的低級控制系統對接,解鎖由Gemini Robotics-ER驅動的新功能。
在安全性方面,DeepMind的研究員Vikas Sindhwani透露,公司正在開發一種“分層安全策略”,并已訓練Gemini Robotics-ER模型評估在特定情境下某個動作的安全性。同時,DeepMind還發布了新的基準和框架,以推動AI領域的安全研究。去年DeepMind還推出了受艾薩克·阿西莫夫啟發的“機器人憲法”,作為機器人的行為規范。
在合作方面,DeepMind與Apptronik攜手致力于“打造下一代人形機器人”。DeepMind還向包括Agile Robots、Agility Robotics、波士頓動力和Enchanted Tools在內的多家“受信任的測試者”開放了Gemini Robotics-ER模型。Parada表示:“我們專注于打造能夠理解物理世界并在其中行動的智能,非常期待將這一技術應用于更廣泛的領域和表現形式。”