滾動(dòng)資訊

當(dāng)前位置：網(wǎng)界 > 數(shù)據(jù)洞察 > 正文內(nèi)容

OpenAI o3模型實(shí)測分?jǐn)?shù)引爭議，透明度與測試標(biāo)準(zhǔn)成焦點(diǎn)

時(shí)間：2025-04-21 08:09 作者：楊凌霄

近期，關(guān)于OpenAI的o3人工智能模型在基準(zhǔn)測試上的表現(xiàn)引發(fā)了廣泛關(guān)注與討論。爭議的核心在于，OpenAI首次發(fā)布o(jì)3模型時(shí)公布的測試結(jié)果與外界第三方機(jī)構(gòu)的測試結(jié)果存在顯著差異。

去年12月，OpenAI自豪地宣布，其o3模型在極具難度的FrontierMath數(shù)學(xué)問題集上取得了突破性成績，正確率超過四分之一，遠(yuǎn)超其他競爭對手。OpenAI首席研究官M(fèi)ark Chen在直播中強(qiáng)調(diào)，這一成績是在內(nèi)部激進(jìn)測試條件下，使用資源更為強(qiáng)大的o3模型版本所得出的。

然而，事情并未如此簡單。負(fù)責(zé)FrontierMath的Epoch研究所隨后公布的獨(dú)立基準(zhǔn)測試結(jié)果顯示，公開發(fā)布的o3模型得分僅為約10%，遠(yuǎn)低于OpenAI宣稱的分?jǐn)?shù)。這一發(fā)現(xiàn)立即引發(fā)了外界對OpenAI透明度和測試實(shí)踐的質(zhì)疑。

值得注意的是，OpenAI在12月公布的測試結(jié)果中確實(shí)包含了一個(gè)與Epoch測試結(jié)果相符的較低分?jǐn)?shù)。Epoch在報(bào)告中指出，測試設(shè)置的差異、評估使用的FrontierMath版本更新，以及可能的計(jì)算資源和框架不同，都可能是導(dǎo)致結(jié)果差異的原因。

ARC Prize基金會也在X平臺上發(fā)布消息，進(jìn)一步證實(shí)了Epoch的報(bào)告。ARC Prize指出，公開發(fā)布的o3模型是一個(gè)針對聊天和產(chǎn)品使用進(jìn)行了調(diào)整的不同版本，且所有發(fā)布的o3計(jì)算層級都比預(yù)發(fā)布版本要小。這意味著，盡管o3模型在內(nèi)部測試中取得了高分，但公開發(fā)布的版本在性能上有所妥協(xié)。

盡管如此，OpenAI并未因此止步。該公司后續(xù)推出的o3-mini-high和o4-mini模型在FrontierMath上的表現(xiàn)已經(jīng)超越了最初的o3模型。同時(shí)，OpenAI還計(jì)劃在未來幾周內(nèi)推出更強(qiáng)大的o3版本——o3-pro。

然而，這一系列事件再次凸顯了人工智能基準(zhǔn)測試結(jié)果的復(fù)雜性和不確定性。尤其是當(dāng)這些結(jié)果來自有產(chǎn)品需要銷售的公司時(shí)，外界對其真實(shí)性和可靠性的質(zhì)疑聲往往會更加響亮。隨著人工智能行業(yè)的競爭加劇，各供應(yīng)商紛紛急于推出新模型以吸引眼球和市場份額，基準(zhǔn)測試“爭議”正變得越來越普遍。

事實(shí)上，類似的爭議并非個(gè)例。今年1月，Epoch因在OpenAI宣布o(jì)3之后才披露其從OpenAI獲得的資金支持而受到批評。許多為FrontierMath做出貢獻(xiàn)的學(xué)者直到公開時(shí)才知道OpenAI的參與。而最近，埃隆·馬斯克的xAI也被指控為其最新的人工智能模型Grok 3發(fā)布了誤導(dǎo)性的基準(zhǔn)測試圖表。就在本月，meta也承認(rèn)其宣傳的基準(zhǔn)測試分?jǐn)?shù)所基于的模型版本與提供給開發(fā)者的版本不一致。

更多>同類內(nèi)容

金價(jià)高開高走，逼近歷史新高，避險(xiǎn)情緒高漲背后的原因何在？

04-21

尼康Z5II配40mm f/2鏡頭：定格生活藝術(shù)，解鎖創(chuàng)作新境界！

04-21

美團(tuán)嚴(yán)正聲明：騎手封號純屬謠言，將依法維權(quán)！

04-21

蔚來螢火蟲上市，李斌：未來車款增減，盈利說了算！

04-20

長城2025上海車展前瞻：閃電貓旅行版攜手UTV越野小車震撼登場

04-20

神舟二十號即將發(fā)射，火箭系統(tǒng)升級二十余項(xiàng)，全高清攝像頭助力全程監(jiān)控

04-20

邁騰280TSI豪華型限時(shí)特惠，僅需13.98萬起，購車政策大放送！

04-20

俄“聯(lián)盟MS-26”載人飛船圓滿完成任務(wù)，三名宇航員安全歸家

04-20

蔚來螢火蟲換電新規(guī)劃：明年并入五代站，三大品牌共融何時(shí)成真？

04-20

榮耀GT Pro人像新升級，「雅顧光影寫真大師」功能來襲！

04-20

大眾“與眾06”預(yù)告圖曝光，金色標(biāo)識亮點(diǎn)十足，上海車展即將登場！

04-20

《封神第二部》不實(shí)言論引爭議，北京文化嚴(yán)正聲明：以官方公告為準(zhǔn)！

04-20

古稀之年！NASA最年長現(xiàn)役宇航員唐?佩蒂特生日當(dāng)天重返地球

04-20

TPM 2.0成Win11升級難關(guān)，微軟詳解其安全重要性勸用戶升級

04-20

榮耀手機(jī)動(dòng)態(tài)照片朋友圈新上線，超十五款機(jī)型已適配！

04-20

點(diǎn)擊查看更多 +

全站最新

《風(fēng)暴崛起》意外提前發(fā)售，RTS 游戲品類能否借此東風(fēng)重回巔峰？

金價(jià)高開高走，逼近歷史新高，避險(xiǎn)情緒高漲背后的原因何在？

尼康Z5II配40mm f/2鏡頭：定格生活藝術(shù)，解鎖創(chuàng)作新境界！

AltStore Classic來襲！歐盟iPhone用戶側(cè)載應(yīng)用更自由

羅技美國多款產(chǎn)品悄然提價(jià)，最高漲幅竟達(dá)25%！

《封神三》后期制作中，北京文化財(cái)報(bào)透露未來影片規(guī)劃

熱門內(nèi)容

本欄最新

OpenAI o3模型實(shí)測分?jǐn)?shù)引爭議，透明度與測試標(biāo)準(zhǔn)成焦點(diǎn)

金價(jià)高開高走，逼近歷史新高，避險(xiǎn)情緒高漲背后的原因何在？

尼康Z5II配40mm f/2鏡頭：定格生活藝術(shù)，解鎖創(chuàng)作新境界！

美團(tuán)嚴(yán)正聲明：騎手封號純屬謠言，將依法維權(quán)！

蔚來螢火蟲上市，李斌：未來車款增減，盈利說了算！

長城2025上海車展前瞻：閃電貓旅行版攜手UTV越野小車震撼登場

網(wǎng)界 - 新財(cái)經(jīng) 新科技新未來 - 網(wǎng)界傳媒旗下網(wǎng)站 - 中國 · 北京
合作咨詢微信：netspread（注明:網(wǎng)界）
網(wǎng)界^?是本公司38類注冊商標(biāo)，是該商標(biāo)的唯一持有者，未經(jīng)授本公司授權(quán)，嚴(yán)禁使用。
Copyright ? CNU 2012-2022 www.mladies.com.cn All rights reserved. 魯ICP備2022032383號-6

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

OpenAI o3模型實(shí)測分?jǐn)?shù)引爭議，透明度與測試標(biāo)準(zhǔn)成焦點(diǎn)