思99热精品久久只有精品,国产极品嫩模在线视频一区,99久久99久久

Meta新模型Multi-SpatialMLLM：多模態AI空間理解能力大幅提升

發布時間：2025-05-29 14:09 來源：ITBEAR 作者：沈瑾瑜

近日，科技界傳來一項重要進展，meta公司與香港中文大學攜手，在人工智能領域邁出了關鍵一步。他們共同推出的Multi-SpatialMLLM模型，實現了對深度感知、視覺對應和動態感知三大功能的整合，打破了單幀圖像分析的局限性。

近年來，多模態大語言模型（MLLMs）在視覺任務處理方面取得了顯著成果。然而，作為獨立的數字實體，MLLMs的實際應用卻受到了一定限制。隨著機器人、自動駕駛等領域的快速發展，對MLLMs的空間理解能力提出了更高要求。但遺憾的是，現有的模型在基礎空間推理任務中表現并不理想，例如，它們常常無法準確區分左右。

針對這一難題，meta旗下的FAIR團隊與香港中文大學展開了深入研究。他們發現，過去的研究往往將問題歸咎于缺乏專門的訓練數據，并試圖通過單張圖像的空間數據進行改進。然而，這種方法只能局限于靜態視角的分析，缺乏動態信息處理的能力。

為了解決這個問題，FAIR團隊與香港中文大學聯合推出了MultiSPA數據集。這個數據集包含了超過2700萬個樣本，涉及多樣化的3D和4D場景，為MLLMs的訓練提供了豐富的資源。MultiSPA數據集結合了Aria Digital Twin、Panoptic Studio等高質量標注場景數據，并通過GPT-4o生成了多樣化的任務模板，從而確保了數據的全面性和多樣性。

在MultiSPA數據集的基礎上，研究團隊設計了五個訓練任務，包括深度感知、相機移動感知、物體大小感知等。這些任務旨在提升Multi-SpatialMLLM模型在多幀空間推理上的能力，使其能夠更好地理解和處理復雜的空間信息。

經過嚴格的測試和評估，Multi-SpatialMLLM模型展現出了卓越的性能。在MultiSPA基準測試中，該模型相比基礎模型平均提升了36%，在定性任務上的準確率達到80%-90%，遠超基礎模型的50%。甚至在預測相機移動向量等高難度任務上，該模型也取得了18%的準確率。在BLINK基準測試中，Multi-SpatialMLLM模型的準確率接近90%，平均提升26.4%，超越了多個專有系統。

Multi-SpatialMLLM模型在保持原有性能的同時，還展現出了不依賴過度擬合空間推理任務的通用能力。在標準視覺問答（VQA）測試中，該模型依然保持了出色的表現。這一成果不僅為MLLMs在空間理解方面的發展提供了新的思路和方法，也為機器人、自動駕駛等領域的未來發展奠定了堅實的基礎。

更多>同類內容