英偉達在最近的 SIGGRAPH 國際計算機圖形學與交互技術盛會上,向全球機器人開發者展示了一項重大技術突破——Cosmos Reason,一款開源的物理人工智能模型。這款模型擁有高達70億的參數,專為提升機器人在復雜環境中的視覺推理能力而設計。
自OpenAI推出CLIP模型以來,視覺語言模型在物體識別、模式匹配等領域取得了顯著成果。然而,面對需要多步驟推理的復雜任務,傳統模型往往難以應對,特別是在處理模糊或前所未有的現實場景時。Cosmos Reason憑借其強大的記憶與理解能力,讓機器人能夠像人類一樣進行邏輯推理,從而在現實世界中作出更加精準的行為決策。
在英偉達的實際演示中,裝備了Cosmos Reason模型的機器人手臂成功識別出“面包與烤面包機”的組合,并自動推導出下一步是將面包放入烤面包機進行烘烤。這一“機器人規劃與推理”的演示,彰顯了Cosmos Reason在處理復雜指令時的出色效率和靈活性。
Cosmos Reason不僅可作為機器人的“智慧大腦”,還能廣泛應用于其他人工智能領域。例如,它能自動化處理規模龐大、種類繁多的訓練數據集,進行高效的數據整理和標注。該模型還能從海量視頻數據中提取關鍵信息,進行深入分析。目前,該模型已進入商業化階段,英偉達內部的機器人和自動駕駛團隊正利用它進行數據整理和分析工作。
優步也在利用Cosmos Reason為其自動駕駛訓練數據進行標注和生成說明,極大地提升了數據處理的效率。麥格納國際則通過該模型開發出全自動即時配送解決方案,旨在使車輛更快適應不同的城市環境。VAST Data和Milestone Systems等公司也在交通監控、視覺檢測等領域廣泛應用這一技術。
英偉達在此次大會上還推出了Cosmos世界模型的新成員——Cosmos Transfer-2,旨在加速3D仿真場景中合成數據的生成。同時,英偉達更新了Omniverse軟件開發工具包,并推出了新的神經重建庫,進一步豐富了開發者的工具選擇,推動了機器人技術與人工智能的深度融合。