近期,全球開(kāi)源領(lǐng)域的巨頭meta發(fā)布了一系列新動(dòng)向,引發(fā)了業(yè)界的廣泛關(guān)注。4月5日,meta正式推出了Llama 4系列中的兩款新模型:Scout(偵察者)和Maverick(獨(dú)行俠),并提前展示了尚在訓(xùn)練階段的Behemoth(巨獸)模型。然而,這一系列的發(fā)布并未如meta所期望的那樣順利,反而因?qū)崪y(cè)效果未達(dá)預(yù)期而陷入了一場(chǎng)“刷榜”風(fēng)波。
根據(jù)meta的介紹,Llama 4 Maverick在LM Arena評(píng)測(cè)榜中取得了第二名的佳績(jī),超越了ChatGPT-4o、DeepSeek-V3等一眾領(lǐng)先模型,僅次于谷歌的Gemini 2.5 pro。然而,這一成績(jī)很快便受到了質(zhì)疑。LM Arena平臺(tái)在社交媒體上指出,meta在測(cè)試中使用的Llama 4 Maverick模型是針對(duì)對(duì)話優(yōu)化后的定制版本,而meta在公告中并未明確這一點(diǎn)。LM Arena表示,將添加Maverick的公開(kāi)版本,并更新排行榜政策,以確保公平性和可重復(fù)評(píng)估性。
LM Arena是一個(gè)由加州大學(xué)伯克利分校SkyLab研究人員創(chuàng)建的模型基準(zhǔn)測(cè)試平臺(tái),采用眾包投票的方式評(píng)選最佳大模型。用戶可以向兩個(gè)匿名的AI對(duì)話助手提出任何問(wèn)題,并投票選出認(rèn)為更優(yōu)的答案。在關(guān)于Llama 4的回應(yīng)中,LM Arena提到,初步分析顯示,風(fēng)格和模型回應(yīng)的語(yǔ)氣是影響排名的重要因素,正在進(jìn)行更深入的分析,表情符號(hào)的使用或許也會(huì)產(chǎn)生影響。
業(yè)內(nèi)專(zhuān)家指出,盡管LM Arena的眾包形式具有泛化性,但仍存在“刷榜”風(fēng)險(xiǎn)。北京理工大學(xué)研究語(yǔ)言模型評(píng)測(cè)與推理方向的博士生袁沛文表示,通過(guò)各種隱蔽的方式可以實(shí)現(xiàn)去匿名化,大模型廠商就可以通過(guò)海量IP來(lái)為自己的模型刷票?,F(xiàn)有的大模型評(píng)測(cè)方式都難以做到完全的客觀、全面。
面對(duì)質(zhì)疑,meta副總裁兼GenAI負(fù)責(zé)人Ahmad Al-Dahle在社交媒體上否認(rèn)了在測(cè)試集上進(jìn)行模型訓(xùn)練的說(shuō)法,并表示用戶感知到的質(zhì)量差異是由于穩(wěn)定性還沒(méi)有完全調(diào)整到位。除了備受爭(zhēng)議的LM Arena測(cè)試外,meta公布的結(jié)果顯示,Llama 4 Maverick在部分基準(zhǔn)測(cè)試上表現(xiàn)優(yōu)于GPT-4o、Gemini 2.0 Flash、DeepSeek-V3等模型,但不及更為領(lǐng)先的GPT-4.5、Claude 3.7 Sonnet、Gemini 2.5 Pro等。
值得注意的是,meta此次發(fā)布的Llama 4模型是其首批使用MoE(混合專(zhuān)家)架構(gòu)的模型。在過(guò)去一年多的時(shí)間里,meta的研究人員一直在爭(zhēng)論是否要將Llama 4變成MoE模型,這一決定對(duì)meta來(lái)說(shuō)并不容易。MoE架構(gòu)在處理單個(gè)token時(shí)只激活模型中的部分參數(shù),以實(shí)現(xiàn)更高的計(jì)算效率,DeepSeek-V3、阿里Qwen2.5-Max等模型也是基于這一架構(gòu)。
自DeepSeek年初引發(fā)熱議以來(lái),meta在開(kāi)源領(lǐng)域的領(lǐng)先地位受到了巨大沖擊。據(jù)報(bào)道,meta為此組建了多個(gè)專(zhuān)門(mén)的研究小組,對(duì)DeepSeek進(jìn)行分析,并希望借此改進(jìn)Llama模型。盡管面臨諸多挑戰(zhàn)和質(zhì)疑,但meta仍在不斷探索和創(chuàng)新,以保持其在全球開(kāi)源領(lǐng)域的競(jìng)爭(zhēng)力。