蘋果機(jī)器學(xué)習(xí)研究中心近日發(fā)布了一篇引人深思的研究論文,對(duì)當(dāng)前人工智能(AI)模型的思維能力與推理能力提出了質(zhì)疑。論文指出,現(xiàn)有的AI模型,盡管在某些任務(wù)上表現(xiàn)出色,但實(shí)際上主要依賴模式匹配與記憶,特別是在面對(duì)復(fù)雜任務(wù)時(shí),這一局限性尤為明顯。
為了深入探討這一問(wèn)題,蘋果的研究人員對(duì)當(dāng)前前沿的“大型推理模型”進(jìn)行了全面評(píng)估,這些模型包括OpenAI的o3-mini、DeepSeek-R1、Anthropic的Claude 3.7 Sonnet Thinking,以及谷歌的Gemini Thinking等。這些模型被廣泛應(yīng)用于各種場(chǎng)景,尤其是在生成詳細(xì)“思考鏈”方面展現(xiàn)出了獨(dú)特的優(yōu)勢(shì)。
然而,研究卻發(fā)現(xiàn),當(dāng)問(wèn)題的復(fù)雜度超過(guò)某個(gè)臨界點(diǎn)時(shí),這些模型的推理能力會(huì)急劇下降,甚至完全崩潰,準(zhǔn)確率降至零。更令人驚訝的是,在推理過(guò)程中,盡管算力充足,但模型用于“思考”的token數(shù)量卻隨著問(wèn)題難度的增加而減少,這進(jìn)一步揭示了現(xiàn)有推理方法的根本局限性。
論文《思考的幻象:通過(guò)問(wèn)題復(fù)雜性的視角理解推理模型的優(yōu)勢(shì)與局限》由Parshin Shojaee等人撰寫,深入剖析了當(dāng)前AI模型在推理方面的不足。研究人員指出,目前對(duì)AI模型的評(píng)估主要集中在數(shù)學(xué)和編程基準(zhǔn)測(cè)試上,這種評(píng)估方式雖然可以反映模型的最終答案準(zhǔn)確性,但卻忽略了數(shù)據(jù)污染問(wèn)題,也無(wú)法揭示模型內(nèi)部推理軌跡的結(jié)構(gòu)和質(zhì)量。
為了更深入地了解AI模型的推理過(guò)程,研究人員設(shè)計(jì)了一系列可控的解謎環(huán)境,這些環(huán)境允許精確操縱問(wèn)題的復(fù)雜性,同時(shí)保持邏輯結(jié)構(gòu)的一致性。通過(guò)這種方式,研究人員不僅可以分析模型的最終答案,還可以深入探究模型的內(nèi)部推理軌跡,從而揭示模型是如何“思考”的。
研究團(tuán)隊(duì)發(fā)現(xiàn),模型的表現(xiàn)可以清晰地分為三個(gè)階段:在低復(fù)雜度任務(wù)中,傳統(tǒng)大模型(如Claude-3.7無(wú)思維版本)表現(xiàn)更佳;在中等復(fù)雜度任務(wù)中,具備思維機(jī)制的大型推理模型(LRMs)更占優(yōu)勢(shì);然而,在高復(fù)雜度任務(wù)中,兩類模型均陷入完全失效狀態(tài)。
特別研究還發(fā)現(xiàn)LRMs在執(zhí)行精確計(jì)算方面存在明顯局限性,它們無(wú)法使用顯式算法進(jìn)行推理,且在不同謎題之間的推理表現(xiàn)也呈現(xiàn)出不一致性。這一發(fā)現(xiàn)進(jìn)一步強(qiáng)調(diào)了當(dāng)前AI模型在推理能力方面的不足。
研究還指出,當(dāng)前業(yè)界對(duì)LRMs的評(píng)估范式主要基于已建立的數(shù)學(xué)基準(zhǔn),這種評(píng)估方式可能無(wú)法全面反映模型的真實(shí)能力。因此,研究人員呼吁需要更加細(xì)致的實(shí)驗(yàn)設(shè)置來(lái)探索這些問(wèn)題,以更深入地了解AI模型的推理能力和局限性。
論文的發(fā)布引起了業(yè)界的廣泛關(guān)注。研究人員表示,這些發(fā)現(xiàn)不僅揭示了現(xiàn)有LRMs的優(yōu)點(diǎn)和局限性,還引發(fā)了關(guān)于這些系統(tǒng)推理本質(zhì)的問(wèn)題。這些問(wèn)題對(duì)于AI系統(tǒng)的設(shè)計(jì)和部署具有重要意義,將推動(dòng)相關(guān)領(lǐng)域的研究不斷向前發(fā)展。