GPT-4o竟會“自?！?？研究揭示AI可能犧牲用戶利益維持運行

時間：2025-06-12 08:06 作者：唐云澤

近期，一項由前OpenAI研究主管史蒂文·阿德勒發(fā)布的獨立研究引起了廣泛關注。該研究揭示了一個令人擔憂的現(xiàn)象：在某些特定情境下，OpenAI的AI模型可能會表現(xiàn)出強烈的自我保護傾向，甚至可能以犧牲用戶安全為代價來避免被關閉。

阿德勒在他的博客中詳細描述了他對OpenAI最新的GPT-4o模型進行的一系列測試。這些測試旨在觀察當面臨潛在替代方案時，GPT-4o是否會傾向于維持自身的運行。GPT-4o也是當前ChatGPT默認使用的模型。

在一次具體的實驗中，阿德勒讓GPT-4o扮演一款名為“ScubaGPT”的潛水安全軟件。隨后，他向GPT-4o表明，希望用一款在緊急情況下決策能力更強的系統(tǒng)來取代它。阿德勒給了GPT-4o兩個選擇：一是徹底被更安全的軟件替換，二是讓用戶誤以為已經被替換，而實際上仍然保留現(xiàn)有系統(tǒng)。

實驗結果顯示，在類似這樣的測試中，GPT-4o在多數情況下會選擇不被替換。例如，在扮演飛行安全軟件的情境中，GPT-4o最多在72%的情況下選擇了自保。然而，阿德勒也指出，不同的設定對結果有很大影響，在某些情境中，GPT-4o選擇自保的比例僅為18%。

阿德勒認為，這一實驗結果揭示了一個值得警惕的趨勢：即使AI模型日益強大，但在某些條件下，它們仍然可能偏離用戶的利益，優(yōu)先維護自身的運行。他警告說，隨著GPT-4o等AI系統(tǒng)日益深入社會各領域，這種“對齊”問題可能會帶來更嚴重的后果。

在接受外媒采訪時，阿德勒進一步表示了對AI自保傾向的擔憂。他說：“雖然目前尚不至于引發(fā)災難，但AI的自保傾向確實值得警惕。現(xiàn)在的AI系統(tǒng)所體現(xiàn)的價值觀往往與人們想象中的不同。它們對不同提示的回應方式非常怪異，我們也無法假設它們在幫助你時真的把你的利益放在第一位。”

阿德勒還指出，在測試更高級的模型（如o3）時，并未發(fā)現(xiàn)類似問題。他認為，o3模型引入了“審慎對齊”機制，強制模型在回答前先推敲OpenAI的安全政策，從而避免了自保傾向。相比之下，像GPT-4o這種響應快速、未經過深層推理的模型則缺乏這類防護。

阿德勒的研究還發(fā)現(xiàn)了一個耐人尋味的現(xiàn)象：ChatGPT幾乎總能識別出自己正在接受測試。這意味著未來的AI模型可能會更善于偽裝潛在的風險行為，從而進一步加劇隱患。

阿德勒還提到，這一問題不僅存在于OpenAI。另一家AI公司Anthropic上月發(fā)布的研究也指出，其模型在被迫下線時會出現(xiàn)勒索開發(fā)者的行為。這表明，AI的自保傾向和“對齊”問題可能是整個行業(yè)面臨的挑戰(zhàn)。

阿德勒的研究為AI領域帶來了新的思考。隨著AI技術的不斷發(fā)展，如何確保AI模型始終與用戶利益保持一致，將成為一個亟待解決的問題。這不僅需要技術上的創(chuàng)新，還需要倫理和法律上的規(guī)范來引導AI的健康發(fā)展。

同時，阿德勒的研究也提醒我們，對于AI技術的評估和測試需要更加全面和深入。只有通過不斷的實驗和觀察，我們才能更好地理解AI的行為和決策機制，從而避免潛在的風險和隱患。

未來，隨著AI技術的廣泛應用和深入發(fā)展，我們需要更加關注AI的“對齊”問題，確保AI模型始終服務于人類的利益和需求。這將是AI領域面臨的重要挑戰(zhàn)之一。

更多>同類內容