亚洲深夜福利视频,亚洲激情第一页,久久久av电影

Ollama發(fā)布自研多模態(tài)AI引擎，本地推理性能實現(xiàn)大幅提升

發(fā)布時間：2025-05-17 15:17 來源：ITBEAR 作者：柳晴雪

近期，科技領域迎來了一項新的技術突破。據(jù)WinBuzzer于5月16日報道，開源大語言模型服務工具Ollama宣布成功研發(fā)出一款多模態(tài)AI定制引擎，這一創(chuàng)新成果標志著Ollama在技術上實現(xiàn)了對llama.cpp框架的直接依賴的擺脫。

此前，llama.cpp項目通過整合libmtmd庫，為項目增添了全面的視覺支持功能。這一進展引發(fā)了社區(qū)對Ollama與llama.cpp之間關系的廣泛討論。針對這一話題，Ollama團隊成員在Hacker News平臺上進行了澄清，強調他們的引擎是基于golang獨立開發(fā)的，并未直接借鑒llama.cpp的C++實現(xiàn)，并對社區(qū)的反饋表示了感謝。

在官方聲明中，Ollama指出，隨著各大科技公司如meta的Llama 4、Google的Gemma 3、阿里巴巴的Qwen 2.5 VL以及Mistral Small 3.1等推出的AI模型復雜性日益增加，現(xiàn)有的技術架構已難以滿足高效處理的需求。因此，Ollama決定推出這款全新的多模態(tài)AI定制引擎。

這款新引擎在本地推理精度上實現(xiàn)了顯著突破，特別是在處理大型圖像并生成大量token時，表現(xiàn)尤為突出。Ollama通過引入圖像處理附加元數(shù)據(jù)，優(yōu)化了批量處理和位置數(shù)據(jù)管理，有效避免了圖像分割錯誤導致的輸出質量下降問題。他們還采用了KVCache優(yōu)化技術，進一步加速了transformer模型的推理速度。

在內存管理方面，新引擎也進行了大幅優(yōu)化，并新增了圖像緩存功能。這一功能確保了圖像處理后的數(shù)據(jù)可以重復使用，避免了數(shù)據(jù)的提前丟棄，從而提高了資源利用效率。為了進一步提升性能，Ollama還與NVIDIA、AMD、Qualcomm、Intel和Microsoft等硬件巨頭展開合作，通過精準檢測硬件元數(shù)據(jù)，對內存估算進行了優(yōu)化。

針對像meta的Llama 4 Scout（一款擁有1090億參數(shù)的混合專家模型MoE）這樣的復雜模型，Ollama的新引擎還支持分塊注意力（chunked attention）和2D旋轉嵌入（2D rotary embedding）等先進技術。這些技術的引入，使得Ollama在處理復雜模型時能夠展現(xiàn)出更高的效率和準確性。

更多>同類內容