蘋果復旦聯手打造StreamBridge，突破流式視頻理解技術瓶頸-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網為廣大站長提供免費收錄網站服務，提交前請做好本站友鏈：【網站目錄：http://www.ylptlb.cn 】，免友鏈快審服務（50元/站），

網站：52011
待審：79
小程序：12
文章：1184964
會員：801

蘋果復旦聯手打造StreamBridge，突破流式視頻理解技術瓶頸

發布時間：2025-05-13 15:41:18 作者：網友整理

近期，科技界迎來了一項創新突破，蘋果公司攜手復旦大學，共同推出了StreamBridge端側視頻大語言模型（Video-LLMs）框架。這一框架專為提升AI對直播流視頻的理解能力而設計，旨在滿足機器人技術、自動駕駛等領域對實時感知與響應的迫切需求。

在以往，傳統的視頻大語言模型在處理視頻內容時，往往局限于靜態視頻，難以適應需要即時反饋的復雜場景。尤其是在機器人操作和自動駕駛等應用中，AI系統需要迅速理解連續的直播視頻流，并據此作出準確判斷。然而，現有的模型在處理這類任務時，面臨著兩大核心挑戰：一是如何在理解最新視頻片段的同時，保留歷史視覺和對話上下文；二是如何實現模型的主動監控功能，使其能在沒有明確指令的情況下，自主輸出反饋。

為了克服這些難題，蘋果與復旦大學的科研團隊聯手開發了StreamBridge框架。該框架采用創新的內存緩沖區和輪次衰減壓縮策略，有效支持了長上下文的交互處理。這一設計使得模型能夠在處理實時視頻流時，同時保留并有效利用歷史信息，從而提高了理解的準確性和連貫性。

StreamBridge框架還引入了一個輕量化的獨立激活模型。這一模型能夠與現有的視頻大語言模型無縫集成，賦予了模型主動響應的能力。這意味著，即使在沒有明確指令的情況下，模型也能夠像人類一樣主動監控視頻流，并在關鍵時刻及時輸出反饋，從而大大提升了系統的實用性和靈活性。

為了驗證StreamBridge框架的有效性，研究團隊還推出了一個名為Stream-IT的數據集。該數據集包含了約60萬個樣本，融合了視頻與文本序列，并支持多樣化的指令格式。通過在這一數據集上進行訓練和測試，研究團隊能夠更全面地評估和提升模型對流式視頻的理解能力。

實驗結果顯示，StreamBridge框架在多個主流離線模型上均取得了顯著的性能提升。特別是在Qwen2-VL模型上，其在OVO-Bench和Streaming-Bench上的平均分分別提高至71.30和77.04，甚至超越了GPT-4o和Gemini 1.5 Pro等專有模型。同時，Oryx-1.5模型也表現出了明顯的性能改進，而LLaVA-OV模型雖然性能略有下降，但通過Stream-IT數據集的微調后，所有模型的表現均得到了進一步的提升。

這一研究成果不僅證明了StreamBridge框架在流式視頻理解領域的強大潛力，也為未來的機器人技術、自動駕駛等應用領域提供了更加智能、高效的解決方案。隨著技術的不斷進步和完善，我們有理由相信，StreamBridge框架將在更多領域發揮重要作用，推動人工智能技術的持續發展和創新。

分享到：

標簽：復旦瓶頸聯手流式理解