meta近期推出了其最新的Llama 4系列AI模型,這一系列包括了Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth三款模型。據(jù)meta透露,這些模型均經(jīng)過(guò)了龐大的未標(biāo)注文本、圖像和視頻數(shù)據(jù)的訓(xùn)練,旨在賦予它們廣泛的視覺理解能力。
目前,meta已將Scout和Maverick兩款模型上架至Hugging Face平臺(tái)。而Behemoth模型仍在緊鑼密鼓的訓(xùn)練中。Scout模型能夠在單個(gè)英偉達(dá)H100 GPU上運(yùn)行,而Maverick則需要更高配置的英偉達(dá)H100 DGX AI平臺(tái)或性能相當(dāng)?shù)脑O(shè)備。
值得注意的是,Llama 4系列是meta首次采用混合專家(MoE)架構(gòu)的模型。這種架構(gòu)通過(guò)將數(shù)據(jù)處理任務(wù)分解為多個(gè)子任務(wù),再將這些子任務(wù)分配給更小的、專門化的“專家”模型,從而在訓(xùn)練和回答用戶查詢時(shí)展現(xiàn)出更高的效率。例如,Maverick模型擁有4000億個(gè)參數(shù),但在128個(gè)“專家”模型中,只有170億個(gè)參數(shù)處于活躍狀態(tài)。
相比之下,Scout模型擁有170億個(gè)活躍參數(shù),分布在16個(gè)“專家”模型中,總參數(shù)數(shù)為1090億個(gè)。盡管Llama 4系列模型在性能上有所提升,但它們并非像OpenAI的o1和o3-mini那樣的“推理模型”。推理模型會(huì)對(duì)答案進(jìn)行事實(shí)核查,通常能更可靠地回答問(wèn)題,但響應(yīng)時(shí)間相對(duì)較長(zhǎng)。
meta內(nèi)部測(cè)試顯示,Maverick模型在通用AI助手和聊天等應(yīng)用場(chǎng)景中表現(xiàn)出色,尤其在創(chuàng)意寫作、代碼生成、翻譯、推理、長(zhǎng)文本上下文總結(jié)和圖像基準(zhǔn)測(cè)試等方面,其性能超過(guò)了OpenAI的GPT-4和谷歌的Gemini 2.0等模型。然而,與谷歌的Gemini 2.5 Pro、Anthropic的Claude 3.7 Sonnet和OpenAI的GPT-4.5等更強(qiáng)大的最新模型相比,Maverick仍有一定的提升空間。
Scout模型則擅長(zhǎng)總結(jié)文檔和基于大型代碼庫(kù)進(jìn)行推理。該模型支持處理1000萬(wàn)個(gè)詞元,這意味著它一次能夠處理數(shù)百萬(wàn)字的文本。meta還預(yù)告了其Behemoth模型。據(jù)透露,Behemoth擁有2880億個(gè)活躍參數(shù),分布在16個(gè)“專家”模型中,總參數(shù)數(shù)接近2萬(wàn)億個(gè)。meta內(nèi)部基準(zhǔn)測(cè)試顯示,在一些衡量解決數(shù)學(xué)問(wèn)題等科學(xué)、技術(shù)、工程和數(shù)學(xué)(STEM)技能的評(píng)估中,Behemoth的表現(xiàn)優(yōu)于GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Pro,但略遜于Gemini 2.5 Pro。