亚洲精品成人网,国产精品久久久一本精品,日韩午夜激情电影

蘋果復旦聯手打造StreamBridge，突破端側視頻大語言模型理解瓶頸

發布時間：2025-05-13 14:32 來源：ITBEAR 作者：馮璃月

近期，科技界傳來一則令人矚目的合作消息。據科技媒體報道，蘋果公司攜手復旦大學，共同推出了名為StreamBridge的端側視頻大語言模型（Video-LLMs）框架，該框架專注于提升AI對直播流視頻的理解能力。

在探討直播流視頻理解的需求與挑戰時，我們不得不提及傳統視頻大語言模型的局限性。盡管它們在處理靜態視頻方面表現出色，但在諸如機器人技術和自動駕駛等需要實時感知的領域，卻顯得力不從心。這些場景要求模型能夠迅速理解直播視頻流的內容，并據此作出反應。

當前，模型面臨的主要難題包括多輪實時理解和主動響應。多輪實時理解意味著模型在處理最新視頻片段時，需要保留歷史視覺和對話上下文，而主動響應則要求模型能夠像人類一樣主動監控視頻流，并在沒有明確指令的情況下及時輸出反饋。

為了攻克這些難題，蘋果公司與復旦大學的研究團隊共同開發了StreamBridge框架。該框架通過創新的內存緩沖區和輪次衰減壓縮策略，實現了長上下文交互的支持。這一特性使得模型能夠更有效地處理連續的視頻流信息。

StreamBridge框架還引入了一個輕量化的獨立激活模型，該模型能夠無縫集成到現有的視頻大語言模型中，從而賦予模型主動響應的能力。研究團隊還精心打造了一個名為Stream-IT的數據集，該數據集包含約60萬個樣本，融合了視頻與文本序列，并支持多樣化的指令格式。Stream-IT數據集的推出，旨在進一步提升流式視頻的理解能力。

為了驗證StreamBridge框架的有效性，研究團隊在主流離線模型上進行了測試，包括LLaVA-OV-7B、Qwen2-VL-7B和Oryx-1.5-7B等。測試結果顯示，Qwen2-VL在OVO-Bench和Streaming-Bench上的平均分分別提升至71.30和77.04，這一成績甚至超越了GPT-4o和Gemini 1.5 Pro等專有模型。Oryx-1.5也取得了顯著的進步，而LLaVA-OV的性能雖然略有下降，但經過Stream-IT數據集的微調后，所有模型的表現都得到了進一步的提升。

更多>同類內容