meta人工智能研究團隊(FAIR)近期宣布了一系列在AI感知領域的突破性進展,共發布了五項創新研究成果。這些開源項目覆蓋了從視覺理解到3D空間定位,再到協作推理框架等多個方面,為通向高級機器智能(AMI)鋪平了道路,為AI如何更深入地理解和感知世界帶來了全新視角。
meta感知編碼器(Perception Encoder)作為此次發布的核心之一,是一款大規模視覺編碼器,其在圖像和視頻處理方面展現出了卓越性能。這款編碼器如同一雙“機器之眼”,不僅能夠將視覺信息與語言連接起來,還能在復雜甚至對抗性環境中保持高度穩定。它不僅能識別廣泛的視覺概念,還能捕捉到細微差別,例如在海底識別隱藏的黃貂魚,或是在夜間野生動物攝像機中捕捉飛奔的刺豚。在零樣本分類和檢索任務中,感知編碼器的表現超越了所有現有的開源和專有模型,其強大的感知能力還成功遷移到了下游的語言任務中。
與此同時,meta推出了感知語言模型(PLM),這是一個開放且可復現的視覺-語言模型,專為解決復雜的視覺識別任務而設計。PLM基于大規模合成數據和開放視覺-語言理解數據集進行訓練,未依賴外部模型蒸餾。為了彌補現有視頻理解數據的不足,meta團隊還收集了250萬個細粒度視頻問答和時空標題樣本,創建了目前規模最大的同類數據集。PLM結合這些數據和人工標注,創建了一個健壯、準確且完全可復現的模型,提供不同參數規模的版本,非常適合透明的學術研究。
meta Locate3D則是一款端到端模型,能夠精確定位來自開放詞匯查詢的物體。該模型可以直接處理來自RGB-D傳感器的3D點云數據,根據文本提示考慮空間關系和上下文,識別并精確定位特定物體實例。meta團隊還發布了一個新數據集,包含跨三個廣泛使用數據集的13萬個語言標注,有效提升了現有數據標注量。meta Locate3D將支持更復雜和高效的機器人系統開發,標志著智能自主機器領域的重要進展。
meta發布了80億參數的動態字節潛在變換器(Dynamic Byte Latent Transformer)模型權重,這是字節級語言模型架構的重大進步。該架構在各種任務中的表現超越了基于分詞器的模型,顯著提高了推理效率和魯棒性,為傳統分詞方法提供了有力替代方案。
meta的協作推理器(Collaborative Reasoner)框架旨在評估和提高大型語言模型的協作推理技能。這一框架包含一系列目標導向任務,需要兩個智能體通過多輪對話完成多步推理。為了改善語言模型的協作推理能力,meta提出了使用合成交互數據的自我提升方法。該方法在多個任務上的性能顯著提高,展現了通過協作實現更好任務表現的潛力。
meta FAIR團隊通過廣泛開放這些研究成果,旨在促進AI開放生態系統的發展,加速技術進步和發現。這些模型、基準和數據集專注于提升機器的感知能力,幫助機器以更快的速度和人類般的智能獲取、處理和解釋感官信息,為實現高級機器智能奠定了堅實基礎。