在具身智能領域,中科視語再次傳來振奮人心的消息。繼成功推出PhysVLM——首個開源機器人物理空間具身大模型后,中科視語科研團隊再次取得重大進展,發布了LightPlanner,一個創新的輕量化具身決策深度推理大模型。
LightPlanner的推出,標志著中科視語在解決邊緣設備上“輕量與智能不可兼得”的行業難題上邁出了關鍵一步。通過創新的層次化決策框架,LightPlanner不僅大幅提升了機器人在復雜任務中的規劃能力,更為其在物流、制造、服務等場景的廣泛應用奠定了堅實基礎。
傳統大語言模型雖然具備強大的語義理解能力,但其龐大的參數規模限制了其在邊緣設備上的高效運行。而輕量級模型雖然解決了算力問題,卻在復雜推理任務中表現不佳。中科視語針對這一挑戰,提出了LightPlanner,通過創新的層次化深度推理和動態參數化技能控制方法,充分釋放了輕量級模型的推理能力。
LightPlanner的層次化深度推理機制模擬了人類的決策邏輯,在執行每一步動作前都會進行三層驗證,包括執行反饋、語義一致性和參數有效性,從而實現了“錯誤自愈”、任務目標對齊和動作精度的提升。同時,其參數化動態技能鏈突破了固定技能模板的限制,能夠根據上下文感知動態解析指令中的參數,使系統能夠執行復雜的具身任務。
LightPlanner還采用了邊緣設備友好的架構,通過引入動態更新的歷史行動記憶模塊和迭代式上下文管理,顯著降低了顯存占用,滿足了邊緣端設備的部署需求。目前,該設備已支持多種國產化邊緣計算設備,包括Nvidia jetson系列、瑞芯微、算能、華為Atlas等。
為推動技術普惠,中科視語團隊還同步開源了LightPlanner的量化模型和LightPlan-40K數據集。量化模型提供了多種量化版本,憑借其卓越性能和實用價值,在Hugging Face平臺上熱度飆升。而LightPlan-40K數據集則是首個具身決策深度推理數據集,覆蓋了不同復雜度的任務,為訓練LightPlanner模型提供了豐富的數據資源。
實驗結果顯示,在真實世界環境中的具身決策規劃任務中,盡管LightPlanner的參數數量較少,但其任務成功率卻最高。特別是在需要空間語義推理的任務中,其成功率比ReAct高出14.9%。這一成果不僅突顯了LightPlanner在資源受限環境中的適用性,更為具身智能技術的創新與發展提供了新的動力。