亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

  • 科技·商業(yè)·財(cái)經(jīng)媒體
科技·商業(yè)·財(cái)經(jīng)

AI評(píng)測新招:讓AI在《我的世界》中比拼建筑創(chuàng)意

   時(shí)間:2025-03-22 16:24 作者:鐘景軒

在探索人工智能(AI)能力邊界的過程中,傳統(tǒng)的基準(zhǔn)測試方法正面臨挑戰(zhàn)。為了更全面、直觀地評(píng)估AI模型的能力,開發(fā)者們正轉(zhuǎn)向一些非傳統(tǒng)途徑,其中,《我的世界》這款沙盒建造游戲成為了備受矚目的測試平臺(tái)。

據(jù)TechCrunch報(bào)道,一位名叫阿迪·辛格的高三學(xué)生,憑借對(duì)AI評(píng)測的獨(dú)到見解,創(chuàng)建了名為Minecraft Benchmark(簡稱MC-Bench)的網(wǎng)站。該網(wǎng)站利用《我的世界》作為競技場,讓AI模型在相同的提示下生成建筑作品,并通過用戶投票的方式評(píng)選出優(yōu)秀作品。投票結(jié)束后,才會(huì)揭曉每幅作品的創(chuàng)作者——即哪款A(yù)I模型。

辛格表示,選擇《我的世界》并非因?yàn)槠溆螒蛐裕瞧鋸V泛的知名度和獨(dú)特的方塊風(fēng)格。這種風(fēng)格使得即便是非玩家也能輕松分辨出哪個(gè)方塊狀的建筑更加逼真?!啊段业氖澜纭窞槲覀兲峁┝艘粋€(gè)直觀的窗口,讓我們能夠清晰地看到AI發(fā)展的進(jìn)步。大家對(duì)這款游戲的視覺風(fēng)格非常熟悉,這使得評(píng)估過程更加直接和有效。”

目前,MC-Bench網(wǎng)站已經(jīng)吸引了8名志愿貢獻(xiàn)者的加入。Anthropic、谷歌、OpenAI和阿里巴巴等科技巨頭為該項(xiàng)目提供了寶貴的AI計(jì)算資源支持,盡管他們并未直接參與網(wǎng)站的開發(fā)工作。

辛格進(jìn)一步解釋說,MC-Bench目前的測試還處于基礎(chǔ)階段,主要用于觀察AI從GPT-3時(shí)代到現(xiàn)在的進(jìn)步。然而,他展望了未來可能的拓展方向:“我們或許可以將測試擴(kuò)展到更復(fù)雜的目標(biāo)導(dǎo)向任務(wù)和長期規(guī)劃能力評(píng)估。游戲作為一種測試平臺(tái),具有安全性和可控性的優(yōu)勢,是評(píng)估AI智能體推理能力的理想選擇?!?/p>

從嚴(yán)格意義上講,MC-Bench屬于編程基準(zhǔn)測試的一種變體,因?yàn)锳I模型需要編寫代碼來生成建筑,如“霜雪人”或“熱帶風(fēng)情的海濱小屋”等。這種測試方式相較于傳統(tǒng)的代碼分析更具直觀性,因?yàn)榇蠖鄶?shù)用戶更容易通過作品本身來評(píng)判AI的表現(xiàn)。

盡管關(guān)于這些測試結(jié)果是否能真正反映AI的實(shí)際應(yīng)用價(jià)值仍存在爭議,但辛格認(rèn)為這些數(shù)據(jù)仍然具有重要的參考價(jià)值。“MC-Bench的排行榜與我在實(shí)際使用中的體驗(yàn)高度一致,這在許多傳統(tǒng)的文本基準(zhǔn)測試中并不常見。因此,我相信它能夠幫助AI開發(fā)者判斷自己是否正在朝著正確的方向前進(jìn)?!?/p>

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容