滾動(dòng)資訊

當(dāng)前位置：網(wǎng)界科技 > 行業(yè)動(dòng)態(tài) > 正文內(nèi)容

阿里通義千問(wèn)Qwen CodeElo測(cè)試：o1-mini編程力超九成人類程序員

時(shí)間：2025-01-04 14:04 來(lái)源：ITBEAR作者：蘇婉清

近日，阿里巴巴旗下的通義千問(wèn)Qwen團(tuán)隊(duì)推出了一個(gè)名為CodeElo的基準(zhǔn)測(cè)試，該測(cè)試旨在通過(guò)Elo評(píng)級(jí)系統(tǒng)，對(duì)比大語(yǔ)言模型（LLM）與人類程序員的編程能力。

在AI應(yīng)用場(chǎng)景中，大語(yǔ)言模型的一個(gè)關(guān)鍵應(yīng)用是代碼生成與補(bǔ)全。然而，在評(píng)估LLM編程能力的真實(shí)性方面，業(yè)界面臨著諸多挑戰(zhàn)?，F(xiàn)有的基準(zhǔn)測(cè)試，如LiveCodeBench和USACO，都存在明顯的局限性，如缺乏健壯的私有測(cè)試用例、不支持專門的判斷系統(tǒng)，以及執(zhí)行環(huán)境不一致等問(wèn)題。

CodeElo基準(zhǔn)測(cè)試的核心優(yōu)勢(shì)在于其全面性、穩(wěn)健性和標(biāo)準(zhǔn)化。在題目選擇上，CodeElo涵蓋了廣泛的比賽分區(qū)、難度級(jí)別和算法標(biāo)簽，為L(zhǎng)LM提供了全面的評(píng)估。在評(píng)估方法上，CodeElo利用CodeForces平臺(tái)的特殊評(píng)估機(jī)制，確保了對(duì)代碼準(zhǔn)確性的判斷，避免了誤報(bào)等問(wèn)題，并支持需要特殊評(píng)判機(jī)制的題目。在評(píng)級(jí)計(jì)算上，CodeElo采用Elo評(píng)級(jí)系統(tǒng)，根據(jù)問(wèn)題的難度和解決方案的正確性對(duì)LLM進(jìn)行評(píng)分，并對(duì)錯(cuò)誤進(jìn)行懲罰，從而激勵(lì)高質(zhì)量的解決方案。

在對(duì)30個(gè)開(kāi)源LLM和3個(gè)專有LLM進(jìn)行測(cè)試后，結(jié)果顯示OpenAI的o1-mini模型表現(xiàn)最為出色，其Elo評(píng)分達(dá)到了1578，超過(guò)了90%的人類參與者。在開(kāi)源模型中，QwQ-32B-Preview以1261分的成績(jī)位居榜首。然而，這些模型在解決簡(jiǎn)單問(wèn)題時(shí)仍然表現(xiàn)出一定的困難，通常排名在人類參與者的后20%左右。分析發(fā)現(xiàn)，這些模型在數(shù)學(xué)和實(shí)現(xiàn)等類別上表現(xiàn)出色，但在動(dòng)態(tài)規(guī)劃和樹(shù)形算法方面存在明顯的不足。

測(cè)試還發(fā)現(xiàn)，當(dāng)使用C++進(jìn)行編碼時(shí)，LLM的表現(xiàn)更為出色，這與競(jìng)技程序員的偏好一致。這些結(jié)果不僅揭示了LLM在編程能力方面的優(yōu)勢(shì)，也指出了其需要改進(jìn)的領(lǐng)域。通過(guò)CodeElo基準(zhǔn)測(cè)試，我們可以更加清晰地了解LLM在編程競(jìng)賽中的表現(xiàn)，并為未來(lái)的研究和開(kāi)發(fā)提供有益的參考。

隨著技術(shù)的不斷發(fā)展，LLM在編程領(lǐng)域的應(yīng)用將會(huì)越來(lái)越廣泛。CodeElo基準(zhǔn)測(cè)試的推出，為評(píng)估LLM的編程能力提供了一個(gè)新的視角和工具。未來(lái)，我們可以期待更多類似的基準(zhǔn)測(cè)試出現(xiàn)，以推動(dòng)LLM在編程領(lǐng)域的不斷進(jìn)步和發(fā)展。

01-04

我國(guó)AI技術(shù)新突破！博鰲超級(jí)醫(yī)院成功應(yīng)用全球首個(gè)人工智能耳蝸植入系統(tǒng)

01-04

紅龍RS82 RT磁軸鍵盤來(lái)襲，1月6日首銷，粉磁軸僅需399元起！

01-04

小米汽車工廠開(kāi)放參觀預(yù)約，2025年目標(biāo)交付30萬(wàn)輛

01-04

問(wèn)界汽車遭起訴，剎車失靈爭(zhēng)議再起波瀾

01-04

Win11文件管理器大升級(jí)：右鍵菜單標(biāo)簽功能回歸，還有哪些新變化？

01-04

微軟誤封用戶Microsoft Rewards賬號(hào)，官方回應(yīng)：已部署修復(fù)程序

01-04

蛇年新春來(lái)襲！蘋果官網(wǎng)推出多款中國(guó)風(fēng)第三方保護(hù)殼

01-04

Ubuntu 25.04嘗鮮LLVM編譯器，構(gòu)建結(jié)果喜憂參半

01-04

嫦娥五號(hào)新發(fā)現(xiàn)：月球20億年前有弱磁場(chǎng)，揭示月球發(fā)電機(jī)演化秘密

01-04

國(guó)外手機(jī)品牌在華寒冬持續(xù)，2024年11月出貨量暴跌近半

01-04

海信L9Q激光電視震撼發(fā)布：150英寸巨幕搭配6.2.2環(huán)繞聲，影院級(jí)享受？

01-04

賽輪思攜手英偉達(dá)，CaLLM語(yǔ)言模型功能再升級(jí)！

01-03

問(wèn)界汽車銷售公司起訴廣州M7事故鑒定機(jī)構(gòu)及關(guān)聯(lián)方侵權(quán)

01-03

領(lǐng)克SPA Evo架構(gòu)發(fā)布：領(lǐng)克900 EM-P領(lǐng)銜豪華大車新時(shí)代

01-03

點(diǎn)擊查看更多 +

全站最新

2025款大眾ID.4 CROZZ煥新上市，入門版僅14.99萬(wàn)元起，續(xù)航升級(jí)！

小米SU7璀璨洋紅版上市，15周年特別獻(xiàn)禮，女性車主會(huì)愛(ài)嗎？

相約西安，見(jiàn)證驍龍電競(jìng)先鋒賽·2024秋季賽最終桂冠！

小米再推高性價(jià)比新機(jī)！Redmi 14C起售價(jià)499元，能否續(xù)寫銷量傳奇？

華為nova 13系列AI修圖新體驗(yàn)：最佳表情功能讓你照片更完美

創(chuàng)新引領(lǐng) 卓越前行——惠州創(chuàng)想三維3D打印產(chǎn)業(yè)園開(kāi)園儀式圓滿舉辦

熱門內(nèi)容

本欄最新

華為nova 13系列AI修圖新體驗(yàn)：最佳表情功能讓你照片更完美

小米Poco X7系列配置大揭秘：天璣7300Ultra與8400芯片加持

榮耀Magic7 RSR保時(shí)捷版本月登場(chǎng)，對(duì)決華為Mate 70 RS，真機(jī)美圖搶先看！

《角斗士3》在路上？雷德利·斯科特透露新片構(gòu)想

《Braise》奇幻冒險(xiǎn)登陸Steam，2025年第一季玩家可探索龍谷謎團(tuán)

《黑神話：悟空》金搖桿獎(jiǎng)奪冠，國(guó)內(nèi)外玩家意見(jiàn)不一

網(wǎng)界 - 新財(cái)經(jīng) 新科技新未來(lái) / 網(wǎng)界傳媒旗下網(wǎng)站 / 中國(guó)·北京 / 合作咨詢微信：netspread（注明:網(wǎng)界）
網(wǎng)界^?是本公司38類注冊(cè)商標(biāo)，是該商標(biāo)的唯一持有者，未經(jīng)授本公司授權(quán)，嚴(yán)禁使用。
Copyright ? CNU 2012-2022 www.mladies.com.cn All rights reserved. 魯ICP備2022032383號(hào)-6

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

阿里通義千問(wèn)Qwen CodeElo測(cè)試：o1-mini編程力超九成人類程序員