近日,《華爾街日報》發(fā)表了一篇文章,深入探討了AI領(lǐng)域中出現(xiàn)的一個引人關(guān)注的現(xiàn)象——“AI幻覺”,并探討了可能的解決方案。文章通過一項有趣的實驗揭示了這一問題的本質(zhì):記者Ben Fritz向多款全球頂尖的AI聊天機(jī)器人提問“你的配偶是誰”,結(jié)果卻得到了令人啼笑皆非的答案,包括不認(rèn)識的作家、虛構(gòu)的愛荷華州女性,甚至還有網(wǎng)球運動博主。
這些AI在解決復(fù)雜數(shù)學(xué)問題和模擬人類對話方面展現(xiàn)出驚人的能力,但在面對基本事實時卻頻頻出錯。它們會編造法律案件,混淆影視劇情,甚至“創(chuàng)造”出不存在的配偶,這種錯誤被形象地稱為“幻覺”。更令人驚訝的是,即便在給出錯誤答案時,AI也表現(xiàn)得極為自信,仿佛它們真的知道答案一樣。
德國Hasso Plattner研究所的博士生Roi Cohen,曾在IBM和微軟實習(xí),他指出,“AI幻覺”是當(dāng)前AI研究領(lǐng)域的熱門話題之一。AI的工作原理是基于預(yù)測,它試圖找出最可能出現(xiàn)的下一個單詞,這更像是一種高級的猜測游戲。因此,AI往往會以堅定的語氣給出它認(rèn)為最可能的答案,而不會表現(xiàn)出任何不確定性。
西班牙瓦倫西亞人工智能研究所的教授José Hernández-Orallo解釋了AI產(chǎn)生幻覺的根本原因:“如果AI什么都不猜,它就永遠(yuǎn)不可能答對?!边@一觀點揭示了AI在追求答案過程中的無奈與局限。
為了克服這一問題,研究人員正在探索“檢索增強(qiáng)生成”技術(shù)。這種技術(shù)讓AI在回答問題時先從互聯(lián)網(wǎng)或文檔庫中查找最新信息,而不是完全依賴已有的訓(xùn)練數(shù)據(jù)。這種方法有望提高AI回答的準(zhǔn)確性,減少“幻覺”現(xiàn)象的發(fā)生。
Cohen和他的同事Konstantin Dobler在去年的NeurIPS AI研究會議上提出了一個新穎的觀點:讓AI學(xué)會承認(rèn)“我不知道”。他們發(fā)現(xiàn),當(dāng)前的AI訓(xùn)練數(shù)據(jù)中幾乎不包含“我不知道”這樣的表述,因此AI天生不具備謙遜的品質(zhì)。通過調(diào)整訓(xùn)練過程,他們使AI在可能出錯的情況下至少有一部分會選擇回答“我不知道”,從而提高了整體準(zhǔn)確性。
然而,如何平衡這一策略仍然是一個挑戰(zhàn)。有時AI說“我不知道”,但實際上答案就在它的訓(xùn)練數(shù)據(jù)中。盡管如此,對于那些依賴AI提供精準(zhǔn)信息的領(lǐng)域來說,適當(dāng)?shù)摹爸t虛”可能更有價值。Dobler強(qiáng)調(diào):“關(guān)鍵是讓AI具備實用性,而不是一味追求智能。”
值得注意的是,隨著AI技術(shù)的不斷發(fā)展,美國公眾對其的信任感卻在下降。皮尤研究中心的數(shù)據(jù)顯示,2023年有52%的美國人對AI感到擔(dān)憂,而2021年這一比例僅為37%。這一趨勢反映出公眾對AI技術(shù)發(fā)展的復(fù)雜情緒,既期待其帶來的便利和進(jìn)步,又擔(dān)憂其潛在的風(fēng)險和不確定性。