近期,科技界迎來了一項創新突破,蘋果公司攜手復旦大學,共同推出了StreamBridge端側視頻大語言模型(Video-LLMs)框架。這一框架專為提升AI對直播流視頻的理解能力而設計,旨在滿足機器人技術、自動駕駛等領域對實時感知與響應的迫切需求。
在以往,傳統的視頻大語言模型在處理視頻內容時,往往局限于靜態視頻,難以適應需要即時反饋的復雜場景。尤其是在機器人操作和自動駕駛等應用中,AI系統需要迅速理解連續的直播視頻流,并據此作出準確判斷。然而,現有的模型在處理這類任務時,面臨著兩大核心挑戰:一是如何在理解最新視頻片段的同時,保留歷史視覺和對話上下文;二是如何實現模型的主動監控功能,使其能在沒有明確指令的情況下,自主輸出反饋。
為了克服這些難題,蘋果與復旦大學的科研團隊聯手開發了StreamBridge框架。該框架采用創新的內存緩沖區和輪次衰減壓縮策略,有效支持了長上下文的交互處理。這一設計使得模型能夠在處理實時視頻流時,同時保留并有效利用歷史信息,從而提高了理解的準確性和連貫性。
StreamBridge框架還引入了一個輕量化的獨立激活模型。這一模型能夠與現有的視頻大語言模型無縫集成,賦予了模型主動響應的能力。這意味著,即使在沒有明確指令的情況下,模型也能夠像人類一樣主動監控視頻流,并在關鍵時刻及時輸出反饋,從而大大提升了系統的實用性和靈活性。
為了驗證StreamBridge框架的有效性,研究團隊還推出了一個名為Stream-IT的數據集。該數據集包含了約60萬個樣本,融合了視頻與文本序列,并支持多樣化的指令格式。通過在這一數據集上進行訓練和測試,研究團隊能夠更全面地評估和提升模型對流式視頻的理解能力。
實驗結果顯示,StreamBridge框架在多個主流離線模型上均取得了顯著的性能提升。特別是在Qwen2-VL模型上,其在OVO-Bench和Streaming-Bench上的平均分分別提高至71.30和77.04,甚至超越了GPT-4o和Gemini 1.5 Pro等專有模型。同時,Oryx-1.5模型也表現出了明顯的性能改進,而LLaVA-OV模型雖然性能略有下降,但通過Stream-IT數據集的微調后,所有模型的表現均得到了進一步的提升。
這一研究成果不僅證明了StreamBridge框架在流式視頻理解領域的強大潛力,也為未來的機器人技術、自動駕駛等應用領域提供了更加智能、高效的解決方案。隨著技術的不斷進步和完善,我們有理由相信,StreamBridge框架將在更多領域發揮重要作用,推動人工智能技術的持續發展和創新。