近期,科技領(lǐng)域迎來了一項(xiàng)新的技術(shù)突破。據(jù)WinBuzzer于5月16日報(bào)道,開源大語言模型服務(wù)工具Ollama宣布成功研發(fā)出一款多模態(tài)AI定制引擎,這一創(chuàng)新成果標(biāo)志著Ollama在技術(shù)上實(shí)現(xiàn)了對llama.cpp框架的直接依賴的擺脫。
此前,llama.cpp項(xiàng)目通過整合libmtmd庫,為項(xiàng)目增添了全面的視覺支持功能。這一進(jìn)展引發(fā)了社區(qū)對Ollama與llama.cpp之間關(guān)系的廣泛討論。針對這一話題,Ollama團(tuán)隊(duì)成員在Hacker News平臺上進(jìn)行了澄清,強(qiáng)調(diào)他們的引擎是基于golang獨(dú)立開發(fā)的,并未直接借鑒llama.cpp的C++實(shí)現(xiàn),并對社區(qū)的反饋表示了感謝。
在官方聲明中,Ollama指出,隨著各大科技公司如meta的Llama 4、Google的Gemma 3、阿里巴巴的Qwen 2.5 VL以及Mistral Small 3.1等推出的AI模型復(fù)雜性日益增加,現(xiàn)有的技術(shù)架構(gòu)已難以滿足高效處理的需求。因此,Ollama決定推出這款全新的多模態(tài)AI定制引擎。
這款新引擎在本地推理精度上實(shí)現(xiàn)了顯著突破,特別是在處理大型圖像并生成大量token時(shí),表現(xiàn)尤為突出。Ollama通過引入圖像處理附加元數(shù)據(jù),優(yōu)化了批量處理和位置數(shù)據(jù)管理,有效避免了圖像分割錯(cuò)誤導(dǎo)致的輸出質(zhì)量下降問題。他們還采用了KVCache優(yōu)化技術(shù),進(jìn)一步加速了transformer模型的推理速度。
在內(nèi)存管理方面,新引擎也進(jìn)行了大幅優(yōu)化,并新增了圖像緩存功能。這一功能確保了圖像處理后的數(shù)據(jù)可以重復(fù)使用,避免了數(shù)據(jù)的提前丟棄,從而提高了資源利用效率。為了進(jìn)一步提升性能,Ollama還與NVIDIA、AMD、Qualcomm、Intel和Microsoft等硬件巨頭展開合作,通過精準(zhǔn)檢測硬件元數(shù)據(jù),對內(nèi)存估算進(jìn)行了優(yōu)化。
針對像meta的Llama 4 Scout(一款擁有1090億參數(shù)的混合專家模型MoE)這樣的復(fù)雜模型,Ollama的新引擎還支持分塊注意力(chunked attention)和2D旋轉(zhuǎn)嵌入(2D rotary embedding)等先進(jìn)技術(shù)。這些技術(shù)的引入,使得Ollama在處理復(fù)雜模型時(shí)能夠展現(xiàn)出更高的效率和準(zhǔn)確性。