滾動(dòng)資訊

當(dāng)前位置：網(wǎng)界 > 智能出行 > 正文內(nèi)容

Meta Llama 4“刷榜”風(fēng)波：大模型評(píng)測(cè)機(jī)制面臨挑戰(zhàn)

時(shí)間：2025-04-09 09:46 作者：沈如風(fēng)

近期，全球開(kāi)源領(lǐng)域的巨頭meta發(fā)布了一系列新動(dòng)向，引發(fā)了業(yè)界的廣泛關(guān)注。4月5日，meta正式推出了Llama 4系列中的兩款新模型：Scout（偵察者）和Maverick（獨(dú)行俠），并提前展示了尚在訓(xùn)練階段的Behemoth（巨獸）模型。然而，這一系列的發(fā)布并未如meta所期望的那樣順利，反而因?qū)崪y(cè)效果未達(dá)預(yù)期而陷入了一場(chǎng)“刷榜”風(fēng)波。

根據(jù)meta的介紹，Llama 4 Maverick在LM Arena評(píng)測(cè)榜中取得了第二名的佳績(jī)，超越了ChatGPT-4o、DeepSeek-V3等一眾領(lǐng)先模型，僅次于谷歌的Gemini 2.5 pro。然而，這一成績(jī)很快便受到了質(zhì)疑。LM Arena平臺(tái)在社交媒體上指出，meta在測(cè)試中使用的Llama 4 Maverick模型是針對(duì)對(duì)話優(yōu)化后的定制版本，而meta在公告中并未明確這一點(diǎn)。LM Arena表示，將添加Maverick的公開(kāi)版本，并更新排行榜政策，以確保公平性和可重復(fù)評(píng)估性。

LM Arena是一個(gè)由加州大學(xué)伯克利分校SkyLab研究人員創(chuàng)建的模型基準(zhǔn)測(cè)試平臺(tái)，采用眾包投票的方式評(píng)選最佳大模型。用戶可以向兩個(gè)匿名的AI對(duì)話助手提出任何問(wèn)題，并投票選出認(rèn)為更優(yōu)的答案。在關(guān)于Llama 4的回應(yīng)中，LM Arena提到，初步分析顯示，風(fēng)格和模型回應(yīng)的語(yǔ)氣是影響排名的重要因素，正在進(jìn)行更深入的分析，表情符號(hào)的使用或許也會(huì)產(chǎn)生影響。

業(yè)內(nèi)專(zhuān)家指出，盡管LM Arena的眾包形式具有泛化性，但仍存在“刷榜”風(fēng)險(xiǎn)。北京理工大學(xué)研究語(yǔ)言模型評(píng)測(cè)與推理方向的博士生袁沛文表示，通過(guò)各種隱蔽的方式可以實(shí)現(xiàn)去匿名化，大模型廠商就可以通過(guò)海量IP來(lái)為自己的模型刷票?，F(xiàn)有的大模型評(píng)測(cè)方式都難以做到完全的客觀、全面。

面對(duì)質(zhì)疑，meta副總裁兼GenAI負(fù)責(zé)人Ahmad Al-Dahle在社交媒體上否認(rèn)了在測(cè)試集上進(jìn)行模型訓(xùn)練的說(shuō)法，并表示用戶感知到的質(zhì)量差異是由于穩(wěn)定性還沒(méi)有完全調(diào)整到位。除了備受爭(zhēng)議的LM Arena測(cè)試外，meta公布的結(jié)果顯示，Llama 4 Maverick在部分基準(zhǔn)測(cè)試上表現(xiàn)優(yōu)于GPT-4o、Gemini 2.0 Flash、DeepSeek-V3等模型，但不及更為領(lǐng)先的GPT-4.5、Claude 3.7 Sonnet、Gemini 2.5 Pro等。

值得注意的是，meta此次發(fā)布的Llama 4模型是其首批使用MoE（混合專(zhuān)家）架構(gòu)的模型。在過(guò)去一年多的時(shí)間里，meta的研究人員一直在爭(zhēng)論是否要將Llama 4變成MoE模型，這一決定對(duì)meta來(lái)說(shuō)并不容易。MoE架構(gòu)在處理單個(gè)token時(shí)只激活模型中的部分參數(shù)，以實(shí)現(xiàn)更高的計(jì)算效率，DeepSeek-V3、阿里Qwen2.5-Max等模型也是基于這一架構(gòu)。

自DeepSeek年初引發(fā)熱議以來(lái)，meta在開(kāi)源領(lǐng)域的領(lǐng)先地位受到了巨大沖擊。據(jù)報(bào)道，meta為此組建了多個(gè)專(zhuān)門(mén)的研究小組，對(duì)DeepSeek進(jìn)行分析，并希望借此改進(jìn)Llama模型。盡管面臨諸多挑戰(zhàn)和質(zhì)疑，但meta仍在不斷探索和創(chuàng)新，以保持其在全球開(kāi)源領(lǐng)域的競(jìng)爭(zhēng)力。

更多>同類(lèi)內(nèi)容

地平線攜手上汽，征程6系列智駕平臺(tái)引領(lǐng)未來(lái)出行新篇章

04-11

索尼PSN港服會(huì)員價(jià)格2025年起上調(diào)，已訂閱用戶6月24日后生效

04-11

DOOGEE S200 Plus震撼登場(chǎng)：三防機(jī)身+萬(wàn)毫安電池+億級(jí)像素

04-11

雷蛇旋風(fēng)黑鯊V2 X白色特別版來(lái)襲，國(guó)補(bǔ)價(jià)僅需212元，音質(zhì)升級(jí)體驗(yàn)！

04-11

2024年廣告業(yè)收入大增，互聯(lián)網(wǎng)廣告占據(jù)半壁江山！

04-11

英偉達(dá)RTX 5060 Ti性能曝光：較4060 Ti提升14%，能否緩解顯卡荒？

04-11

《Marathon》周六亮相，Bungie確認(rèn)PC/Xbox版無(wú)需PlayStation賬號(hào)

04-11

宇樹(shù)科技G1機(jī)器人“拳擊”挑戰(zhàn)人類(lèi)，格斗直播即將震撼來(lái)襲！

04-11

明基W5850家庭影院投影儀上市：2600流明激光源，巨幕享受支持HDR10+

04-11

*ST富潤(rùn)連續(xù)20日股價(jià)市值雙低，明日停牌，終止上市命運(yùn)已定？

04-11

零跑B10上市：激光雷達(dá)下探至10萬(wàn)級(jí)，智駕免費(fèi)+老用戶退費(fèi)，真香？

04-10

長(zhǎng)安汽車(chē)2024年?duì)I收微增，新能源與燃油車(chē)雙線布局未來(lái)

04-10

極兔速遞2025年Q1包裹量破66億，國(guó)內(nèi)外市場(chǎng)齊頭并進(jìn)

04-10

智己汽車(chē)2025之夜：全新車(chē)型第四季度上線控底盤(pán)，技術(shù)儲(chǔ)備大揭秘

04-10

OPPO Find X8s系列震撼發(fā)布：天璣9400+處理器與哈蘇聯(lián)名影像來(lái)襲！

04-10

點(diǎn)擊查看更多 +

全站最新

Microsoft 365家庭版訂閱異常，用戶：Office功能被禁，OneDrive卻沒(méi)事？

三星顯示2025工資協(xié)議出爐，員工薪資平均漲5.1%！

《風(fēng)林火山》入圍戛納！梁家輝金城武等巨星演繹罪案風(fēng)云

索尼PSN港服會(huì)員價(jià)格2025年起上調(diào)，已訂閱用戶6月24日后生效

長(zhǎng)三乙火箭成功送通信技術(shù)試驗(yàn)衛(wèi)星十七號(hào)入軌！

摩托羅拉新平板Pro版與首款筆記本Moto Book 60將登場(chǎng)

熱門(mén)內(nèi)容

本欄最新

索尼PSN港服會(huì)員價(jià)格2025年起上調(diào)，已訂閱用戶6月24日后生效

DOOGEE S200 Plus震撼登場(chǎng)：三防機(jī)身+萬(wàn)毫安電池+億級(jí)像素

雷蛇旋風(fēng)黑鯊V2 X白色特別版來(lái)襲，國(guó)補(bǔ)價(jià)僅需212元，音質(zhì)升級(jí)體驗(yàn)！

2024年廣告業(yè)收入大增，互聯(lián)網(wǎng)廣告占據(jù)半壁江山！

英偉達(dá)RTX 5060 Ti性能曝光：較4060 Ti提升14%，能否緩解顯卡荒？

《Marathon》周六亮相，Bungie確認(rèn)PC/Xbox版無(wú)需PlayStation賬號(hào)

網(wǎng)界 - 新財(cái)經(jīng) 新科技新未來(lái) - 網(wǎng)界傳媒旗下網(wǎng)站 - 中國(guó) · 北京
合作咨詢微信：netspread（注明:網(wǎng)界）
網(wǎng)界^?是本公司38類(lèi)注冊(cè)商標(biāo)，是該商標(biāo)的唯一持有者，未經(jīng)授本公司授權(quán)，嚴(yán)禁使用。
Copyright ? CNU 2012-2022 www.mladies.com.cn All rights reserved. 魯ICP備2022032383號(hào)-6

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

Meta Llama 4“刷榜”風(fēng)波：大模型評(píng)測(cè)機(jī)制面臨挑戰(zhàn)