近期,科技領域迎來了一項關于多模態人工智能(AI)的重要進展。據報道,蘋果公司的工程師與法國索邦大學的研究人員攜手,針對多模態AI的模型融合策略進行了深入探索。
多模態AI的核心在于同時處理圖像、文本等多種數據類型,然而,如何有效整合這些異構數據一直是業內的一大挑戰。當前的主流方法多采用后期融合策略,即分別使用預訓練的單模態模型,如視覺編碼器和語言模型,再將它們的結果進行組合。盡管這種方法操作簡便,但其局限性也顯而易見:由于單模態預訓練帶來的固有偏差,模型難以捕捉跨模態之間的依賴關系,從而限制了真正的多模態理解。
隨著系統規模的擴大,不同組件的參數、預訓練需求和擴展特性差異顯著,這不僅增加了計算資源分配的復雜性,還影響了整體性能,特別是在需要深度多模態推理的任務中表現尤為明顯。
針對這些問題,蘋果與索邦大學的聯合團隊提出了一種新的思路,他們深入研究了從頭訓練的原生多模態模型(NMMs)的擴展特性,并對比了早期融合與后期融合模型的效果。研究結果顯示,在從頭訓練的情況下,早期融合模型與后期融合模型在性能上相當,但早期融合模型在低計算預算下展現出了更高的效率和更好的擴展性。
進一步的研究還探索了專家混合(MoE)稀疏架構的潛力。這種架構能夠動態分配參數,針對不同模態進行專項優化。與稠密模型相比,稀疏模型在性能上有了顯著提升,特別是在小規模模型中,優勢更為明顯。分析顯示,稀疏模型更傾向于優先擴展訓練數據而非活躍參數,這與稠密模型的擴展模式形成了鮮明對比。
為了驗證這些發現,研究團隊進行了系統實驗,訓練了從0.3億到40億活躍參數的多模態模型。實驗結果表明,原生多模態模型的擴展規律與語言模型相似,但跨模態數據類型和訓練組合會對擴展系數產生一定影響。在等效推理成本下,稀疏模型持續優于密集模型,展現出在處理異構數據方面的強大能力。
這一研究成果不僅挑戰了傳統的多模態AI設計理念,還為未來高效多模態AI系統的發展指明了方向。統一早期融合架構與動態參數分配的結合,有望成為推動多模態AI領域進步的重要動力。