亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

  • 科技·商業(yè)·財(cái)經(jīng)媒體
科技·商業(yè)·財(cái)經(jīng)

{中美AI“考生”東大入學(xué)考:英語(yǔ)超群數(shù)學(xué)短板,能否預(yù)示AI未來(lái)?)

   時(shí)間:2025-04-07 13:04 作者:陸辰風(fēng)

近期,據(jù)日經(jīng)新聞披露的一項(xiàng)聯(lián)合研究成果顯示,中美兩國(guó)的新型生成式人工智能(AI)已經(jīng)展現(xiàn)出令人矚目的學(xué)術(shù)能力,成功跨越了日本頂尖學(xué)府——東京大學(xué)理科3類(lèi)入學(xué)考試的門(mén)檻。這一突破性進(jìn)展是通過(guò)對(duì)比測(cè)試美國(guó)OpenAI的“o1”模型與中國(guó)AI初創(chuàng)企業(yè)DeepSeek的“R1”模型得出的。

測(cè)試內(nèi)容涵蓋了2025年度的東京大學(xué)入學(xué)考試科目,由AI初創(chuàng)公司Life Prompt提供答案輸出,并由知名預(yù)備學(xué)校河合塾的專(zhuān)業(yè)講師進(jìn)行評(píng)分。結(jié)果顯示,在兩個(gè)基礎(chǔ)模型的表現(xiàn)中,o1獲得了374分,R1緊隨其后,取得了369分,均超過(guò)了東大理科3類(lèi)合格的最低分?jǐn)?shù)線(xiàn)368.7分。

值得注意的是,盡管R1在理科1類(lèi)和理科2類(lèi)的共通考試中未能達(dá)到合格線(xiàn),但在其他類(lèi)別,包括文科在內(nèi),它與o1均成功“合格”。這一表現(xiàn)不僅展示了AI在跨學(xué)科應(yīng)用上的潛力,也反映了其在學(xué)術(shù)評(píng)估中的廣泛適用性。

在具體的考試科目中,英語(yǔ)成為了AI模型的強(qiáng)項(xiàng)。o1和R1在英語(yǔ)部分的得分率均超過(guò)了75%,河合塾的英語(yǔ)講師久恒秀雄對(duì)此評(píng)價(jià)道:“這兩個(gè)模型在英語(yǔ)表達(dá)上幾乎沒(méi)有單詞和語(yǔ)法的錯(cuò)誤,其水平遠(yuǎn)遠(yuǎn)超過(guò)了東大考生的平均水平?!?/p>

然而,在數(shù)學(xué)科目上,盡管AI模型能夠正確解答出不少最終答案,但在圖形處理和論證問(wèn)題上卻頻繁出現(xiàn)論述錯(cuò)誤和說(shuō)明不足的情況。在滿(mǎn)分為120分的理科數(shù)學(xué)考試中,o1得了38分,R1得了49分,這一成績(jī)顯著低于合格者的平均分。負(fù)責(zé)數(shù)學(xué)評(píng)分的香坂季京講師指出:“AI在數(shù)學(xué)論證上的表現(xiàn)還有待提高?!?/p>

對(duì)于這一研究成果,自2011年起便致力于“機(jī)器人能否進(jìn)入東京大學(xué)”項(xiàng)目的國(guó)立信息學(xué)研究所新井紀(jì)子教授給予了高度評(píng)價(jià):“這是AI成長(zhǎng)歷程中的一個(gè)重要里程碑。然而,我們也必須認(rèn)識(shí)到,AI有時(shí)會(huì)給出令人困惑甚至錯(cuò)誤的答案。因此,培養(yǎng)能夠正確判斷并熟練使用AI輸出的人才顯得尤為重要?!?/p>

 
 
更多>同類(lèi)內(nèi)容
全站最新
熱門(mén)內(nèi)容