近期,一項(xiàng)關(guān)于人工智能(AI)能力邊界的研究引起了廣泛關(guān)注。據(jù)LiveScience報(bào)道,盡管AI在編程、圖像生成、文本創(chuàng)作乃至部分標(biāo)準(zhǔn)化測(cè)試中表現(xiàn)出色,但在執(zhí)行日常生活中看似簡(jiǎn)單的“讀時(shí)鐘”和“算日子”等任務(wù)時(shí),卻頻頻失誤。
這項(xiàng)研究在2025年的“國(guó)際學(xué)習(xí)表征會(huì)議”(ICLR)上被詳細(xì)介紹,相關(guān)論文已在arXiv平臺(tái)上發(fā)布,盡管尚未完成同行評(píng)審。愛(ài)丁堡大學(xué)的研究員Rohit Saxena是論文的主要作者,他指出,人類(lèi)對(duì)時(shí)間和日歷概念的掌握幾乎是本能的,而AI在這方面的欠缺應(yīng)被視為一個(gè)需要重視的問(wèn)題。
為了驗(yàn)證這一點(diǎn),研究團(tuán)隊(duì)設(shè)計(jì)了一系列專(zhuān)門(mén)測(cè)試時(shí)鐘識(shí)別和日歷計(jì)算的圖像,并將它們輸入到多個(gè)具備圖文處理能力的大型語(yǔ)言模型中,包括meta的Llama 3.2-Vision、Anthropic的Claude-3.5 Sonnet、谷歌的Gemini 2.0和OpenAI的GPT-4。然而,測(cè)試結(jié)果顯示,這些模型在判斷時(shí)鐘時(shí)間和推算日期星期上的準(zhǔn)確率均未超過(guò)50%。
Saxena進(jìn)一步解釋?zhuān)珹I在處理時(shí)鐘問(wèn)題時(shí),不僅需要識(shí)別指針的位置,還要理解角度和分辨不同風(fēng)格的表盤(pán),如羅馬數(shù)字或藝術(shù)化設(shè)計(jì),這遠(yuǎn)比簡(jiǎn)單的物體識(shí)別復(fù)雜得多。而日歷問(wèn)題同樣困擾著AI,特別是在處理如“每年第153天是星期幾”這類(lèi)問(wèn)題時(shí),錯(cuò)誤率依然很高。
研究數(shù)據(jù)顯示,AI在讀時(shí)鐘上的正確率僅為38.7%,而在判斷日歷上的準(zhǔn)確率更是低至26.3%。Saxena強(qiáng)調(diào),AI的推理過(guò)程并不基于固定的算法規(guī)則,而是依賴(lài)于從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的模式,這導(dǎo)致它們的推理過(guò)程缺乏一致性和準(zhǔn)確性。
研究還發(fā)現(xiàn),當(dāng)AI的訓(xùn)練樣本中缺乏某些特定現(xiàn)象,如閏年或復(fù)雜的日歷規(guī)則時(shí),它們的表現(xiàn)會(huì)進(jìn)一步下降。即使模型已經(jīng)理解了“閏年”這一概念,它們也很難將這個(gè)知識(shí)正確地應(yīng)用到具體的視覺(jué)判斷中。
針對(duì)這些問(wèn)題,研究提出了兩個(gè)改進(jìn)方向:一是增加訓(xùn)練數(shù)據(jù)中的代表性示例,以確保AI能夠接觸到更多樣化的情境;二是重新審視AI如何整合邏輯推理與空間感知能力,特別是在處理不常遇到的任務(wù)時(shí)。這些發(fā)現(xiàn)不僅揭示了AI的當(dāng)前局限,也為未來(lái)的研究和開(kāi)發(fā)提供了重要的指導(dǎo)。