滾動(dòng)資訊

當(dāng)前位置：網(wǎng)界 > 行業(yè)動(dòng)態(tài) > 正文內(nèi)容

GPT-4.1編程能力飛躍，谷歌Gemini系列仍領(lǐng)跑AI性能榜？

時(shí)間：2025-04-16 09:11 作者：沈瑾瑜

近期，科技領(lǐng)域迎來了一波新的模型發(fā)布高潮，其中OpenAI推出的GPT-4.1系列模型尤為引人注目。據(jù)bleepingcomputer報(bào)道，這一最新版本相較于其前身GPT-4o，在性能上實(shí)現(xiàn)了顯著飛躍。

OpenAI于4月15日正式揭曉了GPT-4.1、GPT-4.1 mini及GPT-4.1 nano三款新模型。從官方公布的跑分?jǐn)?shù)據(jù)來看，這些新模型在編程能力上有了質(zhì)的飛躍，遠(yuǎn)遠(yuǎn)超越了GPT-4o及其小型版本GPT-4o mini。以SWE-bench Verified跑分為例，GPT-4o僅獲得了21.4%的分?jǐn)?shù)，而GPT-4.1則一舉躍升至54.6%，展現(xiàn)出了強(qiáng)大的編程實(shí)力。

然而，盡管GPT-4.1系列模型在性能上取得了顯著提升，但在與谷歌Gemini系列的對(duì)比中，卻并未能占據(jù)上風(fēng)。根據(jù)Stagehand發(fā)布的基準(zhǔn)數(shù)據(jù)，Gemini 2.0 Flash在錯(cuò)誤率和精確匹配率上均表現(xiàn)優(yōu)異，錯(cuò)誤率僅為6.67%，精確匹配率高達(dá)90%，且價(jià)格更為親民，速度更快。相比之下，GPT-4.1的錯(cuò)誤率則高達(dá)16.67%，成本更是Gemini 2.0 Flash的十倍以上。

來自哈佛大學(xué)的RNA科學(xué)家Pierre Bongrand也提供了相關(guān)數(shù)據(jù)，進(jìn)一步印證了GPT-4.1在性價(jià)比方面的不足。他指出，相較于Gemini 2.0 Flash、Gemini 2.5 Pro及DeepSeek等競品，GPT-4.1的性價(jià)比并不具備優(yōu)勢。

在編碼專項(xiàng)測試中，GPT-4.1的表現(xiàn)同樣未能讓人眼前一亮。Aider Polyglot的測試結(jié)果顯示，GPT-4.1的編碼得分僅為52%，而谷歌的Gemini 2.5則以73%的得分遙遙領(lǐng)先，進(jìn)一步凸顯了GPT-4.1在編碼能力上的不足。

值得注意的是，盡管GPT-4.1被歸類為非推理模型，但其在編碼能力方面依然處于行業(yè)領(lǐng)先地位。這一成績無疑為OpenAI的AI研發(fā)實(shí)力提供了有力證明，同時(shí)也為未來的AI模型發(fā)展提供了更多可能性。

然而，在與谷歌Gemini系列的對(duì)比中，GPT-4.1也暴露出了自身在性價(jià)比和錯(cuò)誤率方面的不足。這提醒我們，在AI技術(shù)的快速發(fā)展中，仍需不斷追求性能與成本的平衡，以更好地滿足實(shí)際應(yīng)用需求。

更多>同類內(nèi)容

華碩2025款TUF Gaming A14游戲本登場：14英寸配RTX 5060，性能再升級(jí)

04-16

驍龍8 Elite 2曝光：CPU頻率飆升至4.4GHz，小米16或?qū)⑹装l(fā)搭載

04-16

榮耀GT Pro性能旗艦來襲，4月23日見證最強(qiáng)性能手機(jī)誕生！

04-16

蘋果推送iOS 18.5、macOS 15.5公測版，新功能搶先看！

04-16

Anthropic本月或推語音交互，直面ChatGPT競爭

04-16

楊維廉逝世：他讓“嫦娥一號(hào)”多飛了一年

04-16

榮耀GT Pro電競旗艦4月23日震撼發(fā)布，性能配置全面升級(jí)！

04-16

美團(tuán)閃購獨(dú)立亮相，羅永浩點(diǎn)贊，年交易用戶量直逼3億大關(guān)

04-15

理想AES立功！高速夜行自動(dòng)避障，車主險(xiǎn)中逃生

04-15

我國人形機(jī)器人國家標(biāo)準(zhǔn)獲批，產(chǎn)業(yè)發(fā)展步入快車道

04-15

銀行股增持熱情高漲，蘇州銀行大股東豪擲超5億增持引關(guān)注

04-15

嵐圖汽車CEO揭秘：智控云測技術(shù)如何為整車性能保駕護(hù)航？

04-15

:《2024年度中國二手電商市場數(shù)據(jù)報(bào)告》發(fā)布

04-15

捷途山海L9震撼上市，高性價(jià)比中型SUV僅14.69萬起，能否掀起購車熱潮？

04-15

功率半導(dǎo)體價(jià)格戰(zhàn)！鍇威特營收暴跌，高管漲薪背后業(yè)績首現(xiàn)虧損

04-15

點(diǎn)擊查看更多 +

全站最新

GPT-4.1編程能力飛躍，谷歌Gemini系列仍領(lǐng)跑AI性能榜？

技嘉RTX 5060 OC LP 8G半高顯卡發(fā)布，專為SFF機(jī)箱打造，小巧又強(qiáng)大！

馬自達(dá)轉(zhuǎn)子發(fā)動(dòng)機(jī)重生在望，有望通過嚴(yán)苛排放法規(guī)

Outlook打字致CPU狂飆，微軟急發(fā)警告！

華碩2025款TUF Gaming A14游戲本登場：14英寸配RTX 5060，性能再升級(jí)

馬斯克再立FLAG：特斯拉2025年能否真·完全自動(dòng)駕駛？

熱門內(nèi)容

本欄最新

GPT-4.1編程能力飛躍，谷歌Gemini系列仍領(lǐng)跑AI性能榜？

華碩2025款TUF Gaming A14游戲本登場：14英寸配RTX 5060，性能再升級(jí)

驍龍8 Elite 2曝光：CPU頻率飆升至4.4GHz，小米16或?qū)⑹装l(fā)搭載

榮耀GT Pro性能旗艦來襲，4月23日見證最強(qiáng)性能手機(jī)誕生！

Anthropic本月或推語音交互，直面ChatGPT競爭

楊維廉逝世：他讓“嫦娥一號(hào)”多飛了一年

網(wǎng)界 - 新財(cái)經(jīng) 新科技新未來 - 網(wǎng)界傳媒旗下網(wǎng)站 - 中國 · 北京
合作咨詢微信：netspread（注明:網(wǎng)界）
網(wǎng)界^?是本公司38類注冊商標(biāo)，是該商標(biāo)的唯一持有者，未經(jīng)授本公司授權(quán)，嚴(yán)禁使用。
Copyright ? CNU 2012-2022 www.mladies.com.cn All rights reserved. 魯ICP備2022032383號(hào)-6

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

GPT-4.1編程能力飛躍，谷歌Gemini系列仍領(lǐng)跑AI性能榜？

GPT-4.1編程能力飛躍，谷歌Gemini系列仍領(lǐng)跑AI性能榜？