近來,多模態大語言模型(Multimodal Large Language Model,MLLM)受到廣泛關注,成為一個新興的研究熱點。
MLLM通常以大語言模型(Large Language Model,LLM)為基礎,融入其它非文本的模態信息,完成各種多模態任務。
圖片
相比于常規的多模態模型,MLLM涌現出一些令人驚嘆的新能力,例如基于圖片進行詩文創作和OCR-Free的數學推理等。這些強大的能力顯示MLLM有望成為實現通用人工智能的一種途徑。
為此,來自中科大、騰訊等機構的研究人員深入探討了MLLM的研究進展并發表了該領域的首篇綜述《A Survey on Multimodal Large Language Models》:
圖片
論文鏈接:https://arxiv.org/pdf/2306.13549.pdf
圖片
項目鏈接(實時更新最新論文):https://Github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
研究人員將MLLM定義為「由LLM擴展而來的具有接收與推理多模態信息能力的模型」,該類模型相較于熱門的單模態LLM具有以下的優勢:
1. 更符合人類認知世界的習慣。人類具有多種感官來接受多種模態信息,這些信息通常是互為補充、協同作用的。因此,使用多模態信息一般可以更好地認知與完成任務。
2. 更加強大與用戶友好的接口。通過支持多模態輸入,用戶可以通過更加靈活的方式輸入與傳達信息。
3. 更廣泛的任務支持。LLM通常只能完成純文本相關的任務,而MLLM通過多模態可以額外完成更多任務,如圖片描述和視覺知識問答等。
該綜述主要圍繞MLLM的三個關鍵技術以及一個應用展開,包括:
1. 多模態指令微調(Multimodal Instruction Tuning,M-IT)
2. 多模態上下文學習(Multimodal In-Context Learning,M-ICL)
3. 多模態思維鏈(Multimodal ChAIn of Thought,M-CoT)
4. LLM輔助的視覺推理(LLM-Aided Visual Reasoning,LAVR)
前三項技術構成了MLLM的基礎,而最后一個是以LLM為核心的多模態系統。
三項技術作為LLM的代表性能力在NLP領域已有廣泛研究,但擴展到多模態領域時會出現許多新的特點與挑戰。
LLM輔助的視覺推理系統涉及幾種典型的設計思路,即將LLM作為控制器、決策器或語義修飾器。
CVPR 2023最佳論文Visual Programming [1]即采用了將LLM作為控制器的設計思路。本文將對前述的幾個方面以及相關挑戰做簡單的概覽,更豐富的內容請參考原文。
多模態指令微調 M-IT
指令(Instruction)指的是對任務的描述,多模態指令微調是一種通過指令格式的數據(Instruction-formatted data)來微調預訓練的MLLM的技術。
通過該技術,MLLM可以跟隨新的指令泛化到未見過的任務上,提升zero-shot性能。多模態的指令格式如下所示:
圖1.M-IT格式
多模態指令數據的基本形式可以概括為(指令,多模態輸入,回答)三元組。指令的設計可以分為手工設計與GPT輔助設計這兩種方式。
前者指的是人工為每種任務設計一系列指令模板,比如對于傳統的視覺問答任務,指令可以設計為「<image> What is the answer to the question? {question}」,其中<image>和{question}(對應著圖1中的<text>)為原有視覺問答任務中的圖像和問題。
另一種GPT輔助設計的方式是通過手工設計少量樣例來Prompt GPT生成更豐富的指令。
對于多模態指令微調,研究人員從數據、模態橋接(Modality Bridging)和評測三個方面對現有工作進行了總結,如下圖所示:
圖2.M-IT總結
多模態上下文學習 M-ICL
多模態上下文學習指的是給定少量樣例作為Prompt輸入,激發模型潛在的能力并規范化模型的輸出。其樣例如下圖所示:
圖3.M-CoT樣例
目前以Flamingo[2]為代表的M-ICL相關的研究工作還比較少。
LLM通常不需要專門的訓練即可擁有ICL能力,但現階段的MLLM還比較依賴訓練,并且仍缺乏對樣例選擇和樣例順序等方面的深入研究。
多模態思維鏈 M-CoT
多模態思維鏈通過顯示地逐步推理(給出中間的推理步驟)來獲得多模態任務的答案。相比于直接輸出答案,M-CoT在較為復雜的推理任務上能夠取得更好的表現。
研究人員從模態橋接(Modality Bridging)、學習范式、思維鏈配置以及生成模式這四個方面總結了當前的研究:
圖4. M-CoT總結
目前M-CoT的研究也較少,仍處在初步探索階段。
LLM輔助的視覺推理 LAVR
這類工作利用LLM強大的內嵌知識與能力以及其他工具,設計各種視覺推理系統。
相比于傳統視覺推理模型,這些工作具有以下的好的特性:
(1)強大的零/少樣本泛化能力
(2)具備新的能力,這些系統能夠執行更加復雜的任務,如解讀梗圖的深層含義
(3)更好的互動性與可控性
研究人員從訓練范式、LLM扮演的角色以及評測三個部分總結了當前的進展:
圖5.LAVR總結
挑戰和未來方向
目前來看,MLLM的發展還處于起步階段,無論是相關技術還是具體應用都還存在著許多挑戰與可研究的問題,可以總結為以下幾點:
1. 現有MLLM的感知能力受限,導致獲取的視覺信息不完整或者有誤,并進一步使得后續的推理出錯。這可能是因為現有模型在信息容量和計算負擔之間的妥協造成的。
2. MLLM的推理鏈較為脆弱。表現為即使是做簡單的多模態推理問題,模型有時仍會因為推理鏈條斷裂導致輸出錯誤答案。
3. MLLM的指令服從能力需要進一步提升。表現為在進行指令微調后,即使是較為簡單的指令,部分MLLM仍然無法輸出預期的答案。
4. 物體幻視問題普遍存在。表現為MLLM輸出的回復與圖片的內容不相符,出現了編造物體等現象,影響了MLLM的可靠性。
5. 高效參數訓練。由于MLLM的模型容量很大,在計算資源受限的條件下,高效參數訓練有望能夠解鎖更多MLLM的能力。
上述前四點問題在與本文同系列的論文(https://arxiv.org/pdf/2306.13394.pdf)中有非常詳細的評測和討論,歡迎大家閱讀。
除了上述問題外,MLLM在具體的子方向上也都只進行了初步探索,比如M-ICL目前仍然缺乏對樣本選取以及排序的深入研究。
參考資料:
[1] Gupta, Tanmay and Kembhavi, Aniruddha. Visual programming: Compositional visual reasoning without training. CVPR 2023
[2] Alayrac, Jean-Baptiste and Donahue, Jeff and Luc, Pauline and Miech, Antoine and Barr, Iain and Hasson, Yana and Lenc, Karel and Mensch, Arthur and Millican, Katherine and Reynolds, Malcolm and others. Flamingo: a visual language model for few-shot learning. NeurIPS 2019