亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

  • 科技·商業(yè)·財(cái)經(jīng)媒體
科技·商業(yè)·財(cái)經(jīng)

蘋果AI研究引爭議:模型推理極限還是評估方法有誤?

   時(shí)間:2025-06-14 09:28 作者:江紫萱

近期,科技界圍繞蘋果公司發(fā)布的一篇AI研究論文展開了熱烈討論。這篇名為《思維的幻象》的論文,于6月6日問世,迅速引起了專家們的關(guān)注與爭議。

論文中,蘋果公司提出了一項(xiàng)令人矚目的觀點(diǎn):即便是目前技術(shù)最前沿的大型推理模型(LRMs),在應(yīng)對復(fù)雜任務(wù)時(shí)也會(huì)遭遇崩潰。這一論斷立即引發(fā)了廣泛討論,其中Open Philanthropy的研究員Alex Lawsen尤為活躍,他對蘋果的結(jié)論提出了詳盡的反駁。

爭議的焦點(diǎn)集中在蘋果論文所提及的一個(gè)實(shí)驗(yàn):在處理如漢諾塔問題這樣的復(fù)雜任務(wù)時(shí),即便是最先進(jìn)的LRMs也會(huì)徹底失敗。漢諾塔問題,作為一個(gè)經(jīng)典的遞歸算法難題,要求將一系列大小不同的圓盤從一個(gè)柱子移動(dòng)到另一個(gè)柱子上,過程中需遵守嚴(yán)格的規(guī)則。

針對蘋果的這一發(fā)現(xiàn),Lawsen在其反駁文章《思維的幻象之幻象》中,深入剖析了實(shí)驗(yàn)設(shè)計(jì)的潛在問題。他認(rèn)為,蘋果的研究結(jié)果更多地反映了實(shí)驗(yàn)設(shè)置上的缺陷,而非LRMs推理能力的根本性不足。Lawsen指出,蘋果的研究混淆了輸出限制與評估設(shè)置的問題,導(dǎo)致了對模型推理能力的誤判。

為了支撐自己的觀點(diǎn),Lawsen提出了三大核心質(zhì)疑。首先,他強(qiáng)調(diào)蘋果忽略了模型在處理復(fù)雜任務(wù)時(shí)的Token預(yù)算限制。在處理8盤以上的漢諾塔問題時(shí),一些模型如Anthropic的Claude Opus已接近輸出極限,甚至因節(jié)省Token而停止輸出。

其次,Lawsen指出蘋果的“過河”測試中包含無解謎題。例如,當(dāng)角色數(shù)量與船只容量限制不匹配時(shí),模型因拒絕解答而被扣分。這一設(shè)置無疑對模型的評估造成了不公平的影響。

最后,Lawsen批評蘋果的自動(dòng)化評估腳本過于僵化。該腳本僅以完整步驟列表為標(biāo)準(zhǔn),未能有效區(qū)分推理失敗與輸出截?cái)嗟那闆r,導(dǎo)致部分策略性輸出被錯(cuò)誤地判定為失敗。

為了驗(yàn)證自己的觀點(diǎn),Lawsen重新設(shè)計(jì)了漢諾塔測試。他要求模型生成遞歸Lua函數(shù)來打印解法,而非逐一列出所有步驟。這一改進(jìn)的測試方法取得了令人驚訝的結(jié)果:Claude、Gemini和OpenAI的o3模型均能正確生成15盤問題的算法解法,遠(yuǎn)超蘋果報(bào)告中所述的“零成功”界限。

基于這些發(fā)現(xiàn),Lawsen得出結(jié)論:在去除人為輸出限制后,LRMs在處理高復(fù)雜任務(wù)時(shí)展現(xiàn)出了強(qiáng)大的推理能力,至少在算法生成層面是如此。這表明,問題可能并不在于模型本身,而在于評估方法的選擇與應(yīng)用。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容