近期,人工智能領域迎來了一項突破性進展:螞蟻技術研究院攜手中科院自動化所及香港中文大學,共同研發出一款名為ViLaSR-7B的新型AI大模型,該模型在空間推理能力上達到了前所未有的高度。這一成果標志著AI技術向模擬人類空間思維邁出了關鍵一步。
ViLaSR-7B模型采用了獨特的“視覺互動推理”訓練策略,即在理解圖像信息的同時進行空間推理。這一創新方法使得模型在迷宮導航、靜態圖像解析及視頻內容分析等任務上的準確率平均提升了18.4%。尤為在權威的空間推理基準測試VSI-Bench中,ViLaSR-7B取得了45.4%的優異成績,超越了當前所有已知方法。
為了實現這一目標,研究團隊為ViLaSR-7B設計了一個分階段訓練體系。初期,模型通過基礎視覺訓練建立必要的圖像識別能力;隨后,通過引入反思拒絕采樣機制,模型學會了自我修正,提高了推理的準確性;最終階段,結合強化學習技術,進一步優化了模型的推理效能。
傳統視覺語言模型在處理圖像信息時,往往依賴于“視覺轉文本”的策略,這一方法在處理復雜空間關系時顯得力不從心。相比之下,ViLaSR-7B采用的“視覺互動推理”策略,通過模擬人類在解決空間問題時的思考過程,使模型能夠更加靈活地捕捉圖像中的空間關系。這種創新性的方法不僅提升了模型的理解深度,還顯著增強了其推理效果。
ViLaSR-7B的成功不僅彰顯了AI技術在視覺推理領域的巨大潛力,更為未來智能應用的發展提供了全新的視角和可能。這一突破性成果無疑將為人工智能領域注入新的活力,推動相關技術的持續進步與創新。