近期,蘋果公司發(fā)布了一篇引人注目的研究論文,該論文對(duì)傳統(tǒng)上被認(rèn)為是“推理”的人工智能模型的能力提出了深刻質(zhì)疑。論文指出,盡管諸如DeepSeek、o3-mini和Claude 3.7等模型在市場(chǎng)上廣受關(guān)注,但它們所展現(xiàn)的推理能力,實(shí)質(zhì)上仍局限于模式匹配的范疇,并未真正具備邏輯推導(dǎo)的能力。
為了對(duì)這一觀點(diǎn)進(jìn)行更為嚴(yán)謹(jǐn)?shù)尿?yàn)證,蘋果的研究團(tuán)隊(duì)設(shè)計(jì)了一系列結(jié)構(gòu)化謎題任務(wù),包括漢諾塔問(wèn)題、跳棋交換問(wèn)題、過(guò)河問(wèn)題以及積木世界等。這些任務(wù)不僅具有高度的復(fù)雜性,而且可以通過(guò)調(diào)整參數(shù)來(lái)精確控制難度,從而實(shí)現(xiàn)對(duì)模型推理能力的系統(tǒng)性評(píng)估。
實(shí)驗(yàn)結(jié)果顯示,當(dāng)任務(wù)難度逐漸增加時(shí),這些模型雖然在一開(kāi)始表現(xiàn)出一定的適應(yīng)能力,如延長(zhǎng)生成回應(yīng)前的等待時(shí)間,但隨著任務(wù)難度的進(jìn)一步攀升,模型的推理深度卻開(kāi)始減弱。在最為關(guān)鍵的時(shí)刻,即使模型仍有充足的token預(yù)算,它們也未能進(jìn)一步深入分析,而是選擇了停止。當(dāng)任務(wù)難度超過(guò)某個(gè)臨界值時(shí),所有模型,包括那些專為推理設(shè)計(jì)的模型,都完全喪失了基本的解題能力,準(zhǔn)確率迅速歸零,呈現(xiàn)出明顯的性能崩潰。
這篇論文一經(jīng)發(fā)布,立即在網(wǎng)絡(luò)上引發(fā)了廣泛的討論。一些用戶批評(píng)蘋果,認(rèn)為作為擁有雄厚資金支持的科技公司,蘋果在近年來(lái)并未推出具有突破性的技術(shù)成果,反而對(duì)行業(yè)內(nèi)其他公司的進(jìn)展提出質(zhì)疑。然而,也有觀點(diǎn)認(rèn)為,這篇論文的意圖并非全盤否定現(xiàn)有的技術(shù)成果,而是希望推動(dòng)業(yè)界對(duì)更為有效的推理機(jī)制和評(píng)估方法進(jìn)行更為深入的探索和研究。
值得注意的是,蘋果在2024年的全球開(kāi)發(fā)者大會(huì)上首次展示了其智能系統(tǒng)Apple Intelligence。然而,該系統(tǒng)在過(guò)去一年中遭遇了多項(xiàng)功能的推遲上線、功能不完善甚至被撤回的情況。這一背景或許為蘋果此次發(fā)布論文提供了更為復(fù)雜的動(dòng)機(jī),即希望通過(guò)揭示當(dāng)前模型的局限性,激發(fā)業(yè)界對(duì)更有效推理機(jī)制和評(píng)估方法的關(guān)注和投入。