滾動(dòng)資訊

當(dāng)前位置：網(wǎng)界 > 行業(yè)動(dòng)態(tài) > 正文內(nèi)容

AI評(píng)測新招：讓AI在《我的世界》中比拼建筑創(chuàng)意

時(shí)間：2025-03-22 16:24 作者：鐘景軒

在探索人工智能（AI）能力邊界的過程中，傳統(tǒng)的基準(zhǔn)測試方法正面臨挑戰(zhàn)。為了更全面、直觀地評(píng)估AI模型的能力，開發(fā)者們正轉(zhuǎn)向一些非傳統(tǒng)途徑，其中，《我的世界》這款沙盒建造游戲成為了備受矚目的測試平臺(tái)。

據(jù)TechCrunch報(bào)道，一位名叫阿迪·辛格的高三學(xué)生，憑借對(duì)AI評(píng)測的獨(dú)到見解，創(chuàng)建了名為Minecraft Benchmark（簡稱MC-Bench）的網(wǎng)站。該網(wǎng)站利用《我的世界》作為競技場，讓AI模型在相同的提示下生成建筑作品，并通過用戶投票的方式評(píng)選出優(yōu)秀作品。投票結(jié)束后，才會(huì)揭曉每幅作品的創(chuàng)作者——即哪款A(yù)I模型。

辛格表示，選擇《我的世界》并非因?yàn)槠溆螒蛐裕瞧鋸V泛的知名度和獨(dú)特的方塊風(fēng)格。這種風(fēng)格使得即便是非玩家也能輕松分辨出哪個(gè)方塊狀的建筑更加逼真?！啊段业氖澜纭窞槲覀兲峁┝艘粋€(gè)直觀的窗口，讓我們能夠清晰地看到AI發(fā)展的進(jìn)步。大家對(duì)這款游戲的視覺風(fēng)格非常熟悉，這使得評(píng)估過程更加直接和有效。”

目前，MC-Bench網(wǎng)站已經(jīng)吸引了8名志愿貢獻(xiàn)者的加入。Anthropic、谷歌、OpenAI和阿里巴巴等科技巨頭為該項(xiàng)目提供了寶貴的AI計(jì)算資源支持，盡管他們并未直接參與網(wǎng)站的開發(fā)工作。

辛格進(jìn)一步解釋說，MC-Bench目前的測試還處于基礎(chǔ)階段，主要用于觀察AI從GPT-3時(shí)代到現(xiàn)在的進(jìn)步。然而，他展望了未來可能的拓展方向：“我們或許可以將測試擴(kuò)展到更復(fù)雜的目標(biāo)導(dǎo)向任務(wù)和長期規(guī)劃能力評(píng)估。游戲作為一種測試平臺(tái)，具有安全性和可控性的優(yōu)勢，是評(píng)估AI智能體推理能力的理想選擇?！?/p>

從嚴(yán)格意義上講，MC-Bench屬于編程基準(zhǔn)測試的一種變體，因?yàn)锳I模型需要編寫代碼來生成建筑，如“霜雪人”或“熱帶風(fēng)情的海濱小屋”等。這種測試方式相較于傳統(tǒng)的代碼分析更具直觀性，因?yàn)榇蠖鄶?shù)用戶更容易通過作品本身來評(píng)判AI的表現(xiàn)。

盡管關(guān)于這些測試結(jié)果是否能真正反映AI的實(shí)際應(yīng)用價(jià)值仍存在爭議，但辛格認(rèn)為這些數(shù)據(jù)仍然具有重要的參考價(jià)值。“MC-Bench的排行榜與我在實(shí)際使用中的體驗(yàn)高度一致，這在許多傳統(tǒng)的文本基準(zhǔn)測試中并不常見。因此，我相信它能夠幫助AI開發(fā)者判斷自己是否正在朝著正確的方向前進(jìn)?！?/p>

更多>同類內(nèi)容

任天堂美服eShop“任虧券”重歸，99.98美元兌指定Switch游戲

03-22

我國科研團(tuán)隊(duì)發(fā)布蛋白質(zhì)“精準(zhǔn)設(shè)計(jì)”大模型，開啟功能“定向進(jìn)化”新篇章

03-22

AI編程新寵Trae免費(fèi)來襲，Cursor霸主地位能否不保？

03-22

AI手機(jī)：未來之路還是概念迷霧？

03-22

家電以舊換新熱潮！近9000萬臺(tái)換新，國補(bǔ)政策真香預(yù)警！

03-22

吉利繽越L超越版來襲！3月25日上市，運(yùn)動(dòng)化風(fēng)格更吸睛

03-22

阿爾法·羅密歐Stelvio換代首秀，純電版?zhèn)窝b測試車亮相引期待

03-22

海思鴻蒙蜂窩表芯方案來襲，智能手表將邁入獨(dú)立輕智能新時(shí)代

03-22

TCL冰麒麟深冷冰箱：極寒鎖鮮，真雙系統(tǒng)，打造健康儲(chǔ)鮮新境界

03-22

海思2025下半年量產(chǎn)鴻蒙蜂窩表芯，千元內(nèi)實(shí)現(xiàn)獨(dú)立通信新突破！

03-22

微軟DirectX Raytracing 1.2發(fā)布：兩項(xiàng)新技術(shù)引領(lǐng)實(shí)時(shí)渲染新紀(jì)元

03-22

ChatGPT對(duì)用戶情緒影響幾何？OpenAI聯(lián)合MIT發(fā)布研究報(bào)告

03-22

AI配音技術(shù)引發(fā)爭議，薩曼莎·貝阿特?fù)?dān)憂行業(yè)未來

03-22

匯頂科技終止收購云英谷，雙方交易價(jià)格未達(dá)成一致

03-22

真我14國行版來襲！1799元起售，標(biāo)配16GB大內(nèi)存，防水等級(jí)滿級(jí)IP69

03-22

點(diǎn)擊查看更多 +

全站最新

任天堂美服eShop“任虧券”重歸，99.98美元兌指定Switch游戲

比亞迪海鷗變身海豚Surf登陸英國，性價(jià)比能否征服歐洲市場？

奇瑞星途FLY EYE車載無人機(jī)預(yù)售：6999元，一鍵起飛伴你行！

vivo進(jìn)軍機(jī)器人領(lǐng)域，成立LAB專注家務(wù)機(jī)器人研發(fā)

短劇免費(fèi)潮涌，付費(fèi)與免費(fèi)并存，商業(yè)模式探索新路徑

AI編程新寵Trae免費(fèi)來襲，Cursor霸主地位能否不保？

熱門內(nèi)容

本欄最新

AI編程新寵Trae免費(fèi)來襲，Cursor霸主地位能否不保？

家電以舊換新熱潮！近9000萬臺(tái)換新，國補(bǔ)政策真香預(yù)警！

吉利繽越L超越版來襲！3月25日上市，運(yùn)動(dòng)化風(fēng)格更吸睛

阿爾法·羅密歐Stelvio換代首秀，純電版?zhèn)窝b測試車亮相引期待

海思鴻蒙蜂窩表芯方案來襲，智能手表將邁入獨(dú)立輕智能新時(shí)代

TCL冰麒麟深冷冰箱：極寒鎖鮮，真雙系統(tǒng)，打造健康儲(chǔ)鮮新境界

網(wǎng)界 - 新財(cái)經(jīng) 新科技新未來 - 網(wǎng)界傳媒旗下網(wǎng)站 - 中國 · 北京
合作咨詢微信：netspread（注明:網(wǎng)界）
網(wǎng)界^?是本公司38類注冊(cè)商標(biāo)，是該商標(biāo)的唯一持有者，未經(jīng)授本公司授權(quán)，嚴(yán)禁使用。
Copyright ? CNU 2012-2022 www.mladies.com.cn All rights reserved. 魯ICP備2022032383號(hào)-6

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

AI評(píng)測新招：讓AI在《我的世界》中比拼建筑創(chuàng)意