滾動(dòng)資訊

當(dāng)前位置：網(wǎng)界 > 智能手機(jī) > 正文內(nèi)容

AI推理模型受熱捧，基準(zhǔn)測試費(fèi)用為何水漲船高？

時(shí)間：2025-04-13 11:15 作者：陸辰風(fēng)

隨著人工智能技術(shù)日新月異的發(fā)展，推理AI模型逐漸成為了科研領(lǐng)域的熱門焦點(diǎn)。這類模型能夠模擬人類的思考過程，尤其在物理學(xué)等專業(yè)領(lǐng)域，展現(xiàn)出了超越非推理模型的卓越能力。然而，高昂的測試成本卻成為了驗(yàn)證這些模型性能的一大障礙。

據(jù)第三方AI測試機(jī)構(gòu)“人工智能分析”提供的數(shù)據(jù)，評估不同推理模型的費(fèi)用差異顯著。以O(shè)penAI的o1推理模型為例，在七個(gè)主流的AI基準(zhǔn)測試中的評估費(fèi)用高達(dá)2767.05美元，折合人民幣約20191元。相比之下，Anthropic的Claude 3.7 Sonnet混合推理模型的評估費(fèi)用為1485.35美元，折合人民幣約10839元。而OpenAI的o3-mini-high模型評估則僅需344.59美元，折合人民幣約2514元。盡管存在費(fèi)用較低的模型，如OpenAI的o1-mini評估費(fèi)用僅為141.22美元，折合人民幣約1030元，但整體來看，推理模型的測試成本依然偏高。

“人工智能分析”機(jī)構(gòu)已投入約5200美元，折合人民幣約37945元，用于評估十幾種推理模型，這一投入幾乎是非推理模型評估費(fèi)用2400美元的兩倍。OpenAI在2024年5月發(fā)布的非推理GPT-4o模型評估成本僅為108.85美元，而Claude 3.6 Sonnet的評估成本更是低至81.41美元。該機(jī)構(gòu)的聯(lián)合創(chuàng)始人喬治·卡梅倫表示，隨著推理模型的開發(fā)日益增多，測試預(yù)算也將相應(yīng)增加。

AI初創(chuàng)公司“通用推理”的首席執(zhí)行官羅斯·泰勒也面臨著測試成本上升的挑戰(zhàn)。他透露，為評估Claude 3.7 Sonnet，使用了約3700個(gè)獨(dú)特的提示詞，費(fèi)用高達(dá)580美元。泰勒估計(jì)，僅對MMLU Pro進(jìn)行一次完整測試的成本就可能超過1800美元。他擔(dān)憂地指出，隨著資源投入的差異，學(xué)者可能無法復(fù)制實(shí)驗(yàn)室的報(bào)告結(jié)果。

推理模型測試成本高昂的主要原因在于其生成的token數(shù)量龐大。Token是原始文本的片段，如將單詞“fantastic”拆分為多個(gè)音節(jié)。據(jù)“人工智能分析”稱，在基準(zhǔn)測試中，OpenAI的o1模型生成了超過4400萬個(gè)token，是GPT-4o生成量的八倍。由于大多數(shù)AI公司按token收費(fèi)，因此成本迅速累積。

現(xiàn)代基準(zhǔn)測試包含復(fù)雜、多步驟任務(wù)的問題，導(dǎo)致模型生成大量token。Epoch AI的高級(jí)研究員讓-斯坦尼斯拉斯·德內(nèi)恩指出，盡管每個(gè)基準(zhǔn)測試的問題數(shù)量總體減少，但問題本身更加復(fù)雜，旨在評估模型執(zhí)行現(xiàn)實(shí)世界任務(wù)的能力，如編寫和執(zhí)行代碼、瀏覽互聯(lián)網(wǎng)等。最昂貴的模型每百萬輸出token的成本也在不斷增加。例如，Anthropic發(fā)布的Claude 3 Opus模型每百萬輸出token的成本為75美元，而OpenAI的GPT-4.5和o1-pro模型的成本則分別為150美元和600美元。

德內(nèi)恩表示，盡管隨著技術(shù)進(jìn)步，模型的性能提升且成本有所下降，但評估最大最好的模型仍需支付高昂費(fèi)用。部分AI實(shí)驗(yàn)室，包括OpenAI，為測試目的向基準(zhǔn)測試組織提供免費(fèi)或補(bǔ)貼的模型訪問權(quán)限，但一些專家擔(dān)憂這可能影響測試結(jié)果的公正性。

更多>同類內(nèi)容

《死亡擱淺2》推新功能：BOSS戰(zhàn)可當(dāng)小說看，游戲難度再降

04-13

海盜船攜手《使命召喚：戰(zhàn)區(qū)》推出全系列電競裝備！

04-13

美教育部長峰會(huì)發(fā)言出錯(cuò)，竟將AI誤喊成A1牛排醬？

04-13

《圍攻》VR版來襲！經(jīng)典策略物理游戲下月登陸Meta Quest平臺(tái)

04-13

美團(tuán)全渠道助力！外貿(mào)企業(yè)如何開拓國內(nèi)市場？

04-12

廣州推新政！港澳臺(tái)及外籍人士可享消費(fèi)品以舊換新高額補(bǔ)貼

04-12

瑞莎新推雙2.5G網(wǎng)口擴(kuò)展板，兼容樹莓派5，售價(jià)324.99元

04-12

榮耀GT Pro曝光：直屏金屬框，全系搭載驍龍8至尊版性能如何？

04-12

《攻殼機(jī)動(dòng)隊(duì)》TV動(dòng)畫新作定檔2026，全新陣容打造能否再續(xù)經(jīng)典？

04-12

東方甄選助力外貿(mào)優(yōu)品，國內(nèi)消費(fèi)者將迎來更多優(yōu)質(zhì)選擇！

04-12

京東外賣豪擲百億補(bǔ)貼，許冉：決心堅(jiān)定，日均訂單量將破500萬

04-12

河南家裝廚衛(wèi)“煥新”有補(bǔ)貼，智能家居單品最高補(bǔ)1500元！

04-12

GNOME Weather緊隨Decibels，成GNOME第二款采用TypeScript核心應(yīng)用

04-12

東風(fēng)日產(chǎn)N7純電轎車預(yù)訂在即，搭載8295P芯片引領(lǐng)同級(jí)新潮流

04-12

方程豹鈦3純電SUV來襲，年輕人的硬核選擇即將上市！