滾動資訊

當(dāng)前位置：網(wǎng)界 > 數(shù)據(jù)洞察 > 正文內(nèi)容

大模型基準(zhǔn)測試國際標(biāo)準(zhǔn)出爐，中國信通院引領(lǐng)制定

時間：2025-04-11 16:07 作者：楊凌霄

近日，國際電信聯(lián)盟電信標(biāo)準(zhǔn)分局（ITU-T）正式公布了由中國信息通信研究院（簡稱“中國信通院”）主導(dǎo)制定的全新國際標(biāo)準(zhǔn)——ITU-T F.748.44，該標(biāo)準(zhǔn)聚焦于大模型基準(zhǔn)測試評估體系，命名為“基準(zhǔn)測試/Assessment criteria for foundation models: Benchmark”。這一里程碑式的成就標(biāo)志著大模型技術(shù)評估領(lǐng)域邁向了國際化標(biāo)準(zhǔn)化的新篇章。

該國際標(biāo)準(zhǔn)深入規(guī)范了大模型基準(zhǔn)測試的各項關(guān)鍵要素，包括測試維度、數(shù)據(jù)集、方法及工具，旨在構(gòu)建一個全球公認(rèn)的大模型能力評估框架。通過系統(tǒng)性研究全球產(chǎn)學(xué)研界超過500項基準(zhǔn)測試，標(biāo)準(zhǔn)確立了四大核心測試維度，即測試場景、測試能力、測試任務(wù)和測試指標(biāo)，為全面、客觀地衡量大模型性能提供了科學(xué)依據(jù)。

隨著人工智能技術(shù)的飛速發(fā)展，如何準(zhǔn)確評估大模型的綜合能力及其潛在缺陷，已成為學(xué)術(shù)界與產(chǎn)業(yè)界共同關(guān)注的焦點。模型基準(zhǔn)測試作為目前最為認(rèn)可的評估手段，通過精心設(shè)計的測試任務(wù)和評價數(shù)據(jù)集，實現(xiàn)了對模型性能的公正、量化評估。然而，由于缺乏統(tǒng)一標(biāo)準(zhǔn)，當(dāng)前市場上存在眾多基準(zhǔn)測試方法和數(shù)據(jù)集，評測結(jié)果的公正性備受質(zhì)疑。

為了破解這一難題，中國信通院自2023年起便著手布局大模型基準(zhǔn)測試研究，并于年底推出了“方升”大模型基準(zhǔn)測試體系，創(chuàng)新性地引入了自適應(yīng)動態(tài)測試方法，積累了600萬條數(shù)據(jù)集，并構(gòu)建了FactTeting測試工具，實現(xiàn)了大模型測試流程的自動化。這一系列的努力為國際標(biāo)準(zhǔn)的制定奠定了堅實基礎(chǔ)。

自2024年起，中國信通院參照已發(fā)布的ITU大模型基準(zhǔn)測試國際標(biāo)準(zhǔn)，對國內(nèi)外眾多標(biāo)桿大模型進行了持續(xù)監(jiān)測，涵蓋了OpenAI o1、DeepSeek R1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Qwen2.5-Max以及百度文心大模型X1等上百個模型。通過每兩個月一次的周期性評測，發(fā)布了涵蓋大語言通用能力、推理能力、代碼能力、多模態(tài)理解能力、文生圖能力以及文生視頻能力等多個方面的評測結(jié)果，為行業(yè)提供了權(quán)威、全面的參考。

ITU-T F.748.44國際標(biāo)準(zhǔn)的發(fā)布，不僅為大模型技術(shù)的提供方和應(yīng)用方提供了高質(zhì)量的能力評估依據(jù)，還促進了大模型基準(zhǔn)測試體系架構(gòu)的國際共識，引導(dǎo)大模型技術(shù)及產(chǎn)業(yè)健康有序發(fā)展。這一標(biāo)準(zhǔn)化成果對于推動技術(shù)創(chuàng)新、引領(lǐng)行業(yè)趨勢以及加強國際合作與交流具有重要意義，標(biāo)志著大模型測試領(lǐng)域邁出了堅實的一步。

更多>同類內(nèi)容

【M9】在選擇MPV車型上，奔騰M9讓我感受到不一樣的體驗

04-13

OPPO小布助手網(wǎng)頁版來襲，滿血版DeepSeek加持體驗升級！

04-13

領(lǐng)克08 EM-P四月購車福利大放送：全系享萬元補貼，多項禮遇等你拿！

04-13

《黑鏡》第七季手游上線，Netflix探索劇集與游戲聯(lián)動新模式

04-13

Meta Quest頭顯v76更新上線，實時字幕功能助力障礙用戶

04-13

中國首次突破模擬微重力“太空級”3D打印技術(shù)！航空航天制造迎新飛躍

04-13

Windows 11更新現(xiàn)“inetpub”空文件夾，微軟：切勿刪除！

04-13

奧斯卡新添榮耀！最佳特技設(shè)計獎即將登場

04-13

《虐殺原形3》傳聞開發(fā)中，初代英雄亞歷克斯·墨瑟疑似“死而復(fù)生”回歸？

04-13

《我的世界大電影》熱映，游戲玩家激增，銷量再創(chuàng)新高！

04-13

特斯拉二手車市場火爆，新車銷量為何反降？

04-13

中西電影合作再升級，人文交流新動力何在？

04-13

索泰RTX 5060 Ti顯卡曝光：雙槽雙扇設(shè)計，16GB GDDR7顯存引關(guān)注

04-12

滴滴豪擲20億助力穩(wěn)就業(yè)促消費，攜手共克外部挑戰(zhàn)

04-12

美團全渠道助力，外貿(mào)企業(yè)如何快速開拓國內(nèi)市場？

04-12

點擊查看更多 +

全站最新

OPPO Find X8 Ultra影像實測：夜景人像新王者，拍攝體驗再升級

斯堪尼亞接手Northvolt重工業(yè)電池部門，大眾電動化戰(zhàn)略再添一子

微信鴻蒙版App新版本嘗鮮升級，功能再升級有哪些亮點？

全球首座海上移動式“增產(chǎn)一號”油田平臺青島正式啟動建造！

超頻三RZ820旗艦風(fēng)冷散熱器新推白色版，8熱管設(shè)計售價不變?nèi)詾?49元

瑪莎拉蒂陷困境，Stellantis力挺：美國關(guān)稅下，未來何去何從？

熱門內(nèi)容

本欄最新

【M9】在選擇MPV車型上，奔騰M9讓我感受到不一樣的體驗

OPPO小布助手網(wǎng)頁版來襲，滿血版DeepSeek加持體驗升級！

領(lǐng)克08 EM-P四月購車福利大放送：全系享萬元補貼，多項禮遇等你拿！

《黑鏡》第七季手游上線，Netflix探索劇集與游戲聯(lián)動新模式

Meta Quest頭顯v76更新上線，實時字幕功能助力障礙用戶

中國首次突破模擬微重力“太空級”3D打印技術(shù)！航空航天制造迎新飛躍

網(wǎng)界 - 新財經(jīng) 新科技新未來 - 網(wǎng)界傳媒旗下網(wǎng)站 - 中國 · 北京
合作咨詢微信：netspread（注明:網(wǎng)界）
網(wǎng)界^?是本公司38類注冊商標(biāo)，是該商標(biāo)的唯一持有者，未經(jīng)授本公司授權(quán)，嚴(yán)禁使用。
Copyright ? CNU 2012-2022 www.mladies.com.cn All rights reserved. 魯ICP備2022032383號-6

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

大模型基準(zhǔn)測試國際標(biāo)準(zhǔn)出爐，中國信通院引領(lǐng)制定

大模型基準(zhǔn)測試國際標(biāo)準(zhǔn)出爐，中國信通院引領(lǐng)制定