滾動資訊

當前位置：網界 > 數據洞察 > 正文內容

蘋果AI研究引爭議：模型推理極限還是評估方法有誤？

時間：2025-06-14 09:28 作者：江紫萱

近期，科技界圍繞蘋果公司發(fā)布的一篇AI研究論文展開了熱烈討論。這篇名為《思維的幻象》的論文，于6月6日問世，迅速引起了專家們的關注與爭議。

論文中，蘋果公司提出了一項令人矚目的觀點：即便是目前技術最前沿的大型推理模型（LRMs），在應對復雜任務時也會遭遇崩潰。這一論斷立即引發(fā)了廣泛討論，其中Open Philanthropy的研究員Alex Lawsen尤為活躍，他對蘋果的結論提出了詳盡的反駁。

爭議的焦點集中在蘋果論文所提及的一個實驗：在處理如漢諾塔問題這樣的復雜任務時，即便是最先進的LRMs也會徹底失敗。漢諾塔問題，作為一個經典的遞歸算法難題，要求將一系列大小不同的圓盤從一個柱子移動到另一個柱子上，過程中需遵守嚴格的規(guī)則。

針對蘋果的這一發(fā)現，Lawsen在其反駁文章《思維的幻象之幻象》中，深入剖析了實驗設計的潛在問題。他認為，蘋果的研究結果更多地反映了實驗設置上的缺陷，而非LRMs推理能力的根本性不足。Lawsen指出，蘋果的研究混淆了輸出限制與評估設置的問題，導致了對模型推理能力的誤判。

為了支撐自己的觀點，Lawsen提出了三大核心質疑。首先，他強調蘋果忽略了模型在處理復雜任務時的Token預算限制。在處理8盤以上的漢諾塔問題時，一些模型如Anthropic的Claude Opus已接近輸出極限，甚至因節(jié)省Token而停止輸出。

其次，Lawsen指出蘋果的“過河”測試中包含無解謎題。例如，當角色數量與船只容量限制不匹配時，模型因拒絕解答而被扣分。這一設置無疑對模型的評估造成了不公平的影響。

最后，Lawsen批評蘋果的自動化評估腳本過于僵化。該腳本僅以完整步驟列表為標準，未能有效區(qū)分推理失敗與輸出截斷的情況，導致部分策略性輸出被錯誤地判定為失敗。

為了驗證自己的觀點，Lawsen重新設計了漢諾塔測試。他要求模型生成遞歸Lua函數來打印解法，而非逐一列出所有步驟。這一改進的測試方法取得了令人驚訝的結果：Claude、Gemini和OpenAI的o3模型均能正確生成15盤問題的算法解法，遠超蘋果報告中所述的“零成功”界限。

基于這些發(fā)現，Lawsen得出結論：在去除人為輸出限制后，LRMs在處理高復雜任務時展現出了強大的推理能力，至少在算法生成層面是如此。這表明，問題可能并不在于模型本身，而在于評估方法的選擇與應用。

更多>同類內容

蘋果M2 Mac Mini遭遇開機難，官方推出免費檢修服務

06-14

標致E-208 GTi純電小鋼炮來襲，性能表現能否超越大眾？

06-14

濟南工程職業(yè)技術學院：建行杯創(chuàng)新大賽斬獲佳績，榮膺高校集體獎！

06-13

濟南工程職院“小馬達”志愿服務隊：用青春力量點亮社區(qū)，傳承雷鋒精神！

06-13

聊城職業(yè)技術學院智慧農業(yè)研學：實地探索科技興農新路徑

06-13

聊城學子探秘新疆鄉(xiāng)村振興：冰雪經濟與葡萄產業(yè)如何共繪新篇章？

06-13

5月車企出口榜：奇瑞領跑，比亞迪增速驚人，老外車主鐘愛新能源？

06-13

鴻蒙崛起！華為鴻蒙系統(tǒng)手機出貨量破億，你用過嗎？

06-13

小鵬G7預售火爆！46分鐘訂單破萬

在萬眾矚目之下，小鵬汽車的重磅新品——G7，于昨晚正式拉開了預售的序幕。這款被標榜為全球首款L3級算力AI汽車的新星，以23.58萬元的預售價驚艷亮相，瞬間吸引了業(yè)界的廣泛關注。

06-13

低空技術盛會落幕，延慶區(qū)攜手業(yè)界共繪智慧天空新篇章

06-12

谷歌AOSP新變動：Pixel設備定制ROM之路變坎坷

06-12

微軟Windows 11 24H2更新遇阻后，修復版已重新上路

06-12

Xbox 25周年慶典在即，微軟游戲戰(zhàn)略如何新布局？

06-12

微軟Win10更新KB5060533：強制Bing搜索引爭議，秒數顯示獲好評

06-12

福瑞泰克領航城市NOA，量產高效助力高階智能駕駛普及新時代

06-12

點擊查看更多 +

全站最新

瑪莎拉蒂與阿爾法·羅密歐聯手自救，新車合作能否扭轉銷量頹勢？

蘋果Vision Pro頭顯：兩年過去，原生應用何在？

美交通部放寬自動駕駛監(jiān)管，無方向盤踏板車輛或加速上路？

蘋果M2 Mac Mini遭遇開機難，官方推出免費檢修服務

蘋果WWDC25后全球巡回：普通話線上講座探索最新技術更新