滾動(dòng)資訊

當(dāng)前位置：網(wǎng)界 > 行業(yè)動(dòng)態(tài) > 正文內(nèi)容

OpenAI部署新監(jiān)控，能否有效遏制o3和o4-mini生物風(fēng)險(xiǎn)？

時(shí)間：2025-04-17 07:31 作者：江紫萱

近期，人工智能領(lǐng)域的巨頭OpenAI宣布了一項(xiàng)新舉措，針對(duì)其最新研發(fā)的人工智能推理模型o3和o4-mini，部署了一套專門設(shè)計(jì)的監(jiān)控系統(tǒng)。這一系統(tǒng)的主要目標(biāo)是預(yù)防這些先進(jìn)模型提供可能構(gòu)成生物和化學(xué)威脅的有害建議。

OpenAI在一份安全報(bào)告中詳細(xì)闡述了該系統(tǒng)的目的，即確保模型不會(huì)為潛在的惡意用戶提供制造生物或化學(xué)武器的指導(dǎo)。據(jù)OpenAI介紹，盡管o3和o4-mini在性能上相較于之前的模型有了顯著提升，但同時(shí)也帶來(lái)了新的安全風(fēng)險(xiǎn)。

特別是o3模型，在OpenAI的內(nèi)部基準(zhǔn)測(cè)試中展現(xiàn)出了對(duì)回答有關(guān)生物威脅問(wèn)題的高度能力。為了有效應(yīng)對(duì)這一風(fēng)險(xiǎn)，OpenAI開(kāi)發(fā)了名為“安全導(dǎo)向推理監(jiān)控器”的新系統(tǒng)。該監(jiān)控器經(jīng)過(guò)專門訓(xùn)練，能夠深入理解并遵循OpenAI的內(nèi)容政策，實(shí)時(shí)監(jiān)控o3和o4-mini的運(yùn)行狀態(tài)。

安全導(dǎo)向推理監(jiān)控器的核心功能是識(shí)別與生物和化學(xué)風(fēng)險(xiǎn)相關(guān)的關(guān)鍵詞或提示，一旦檢測(cè)到這些風(fēng)險(xiǎn)信號(hào)，就會(huì)指示模型拒絕提供相關(guān)的建議。為了驗(yàn)證這一系統(tǒng)的有效性，OpenAI的紅隊(duì)成員投入了大量時(shí)間，標(biāo)記了o3和o4-mini中涉及生物風(fēng)險(xiǎn)的“不安全”對(duì)話，并進(jìn)行了模擬測(cè)試。

測(cè)試結(jié)果顯示，在模擬安全監(jiān)控器的“阻斷邏輯”測(cè)試中，模型成功拒絕回應(yīng)風(fēng)險(xiǎn)提示的比例高達(dá)98.7%。然而，OpenAI也坦誠(chéng)地指出，這一測(cè)試并未涵蓋用戶在被監(jiān)控器阻斷后嘗試使用新提示詞的情況。因此，OpenAI表示將繼續(xù)結(jié)合人工監(jiān)控手段，以彌補(bǔ)這一潛在漏洞。

值得注意的是，盡管o3和o4-mini尚未達(dá)到OpenAI設(shè)定的生物風(fēng)險(xiǎn)“高風(fēng)險(xiǎn)”閾值，但與早期的o1和GPT-4相比，它們?cè)诨卮痍P(guān)于開(kāi)發(fā)生物武器的問(wèn)題時(shí)表現(xiàn)出了更高的幫助性。OpenAI正在密切關(guān)注其模型可能如何被惡意用戶利用，以更容易地開(kāi)發(fā)化學(xué)和生物威脅。

為了降低模型帶來(lái)的風(fēng)險(xiǎn)，OpenAI正越來(lái)越多地依賴自動(dòng)化系統(tǒng)。例如，在防止GPT-4o的原生圖像生成器創(chuàng)建兒童性虐待材料（CSAM）方面，OpenAI已經(jīng)采用了與o3和o4-mini相似的推理監(jiān)控器技術(shù)。

然而，并非所有人都對(duì)OpenAI的安全措施感到滿意。一些研究人員對(duì)OpenAI在安全問(wèn)題上的重視程度提出了質(zhì)疑。特別是OpenAI的紅隊(duì)合作伙伴Metr表示，他們?cè)跍y(cè)試o3的欺騙性行為基準(zhǔn)時(shí)，由于時(shí)間限制，未能進(jìn)行全面深入的評(píng)估。OpenAI還決定不為其最新發(fā)布的GPT-4.1模型發(fā)布安全報(bào)告，這一決定也引發(fā)了一些爭(zhēng)議。

盡管如此，OpenAI仍在不斷努力提升其模型的安全性，以確保人工智能技術(shù)的健康發(fā)展。

更多>同類內(nèi)容

2024胡潤(rùn)品牌榜出爐：抖音奪冠，華為小米重返前十

04-17

蘋(píng)果環(huán)保新舉措：美國(guó)門店iPhone/iPad展示機(jī)將默認(rèn)使用清潔能源充電

04-17

航天科技集團(tuán)升級(jí)固體動(dòng)力AI大模型，高效融入科研生產(chǎn)全流程

04-17

微軟Win11 24H2四月更新致藍(lán)屏，企業(yè)用戶需手動(dòng)修復(fù)

04-16

嵐圖L3級(jí)智能架構(gòu)發(fā)布：首發(fā)多項(xiàng)黑科技，智駕安全再升級(jí)！

04-16

影馳RTX 5060 Ti圣刃MAX顯卡實(shí)測(cè)：大顯存+DLSS 4能否帶來(lái)全新游戲體驗(yàn)？

04-16

索泰RTX 5080 16GB天啟OC顯卡美圖鑒賞：機(jī)甲美學(xué)新高度

04-16

貝因美7天5漲停后收監(jiān)管函，涉及收入確認(rèn)、資金占用等三大問(wèn)題

04-16

長(zhǎng)安馬自達(dá)EZ-60增程SUV亮相工信部，家族化設(shè)計(jì)引關(guān)注

04-16

RTX 5060 Ti ELITE 16G首測(cè)：16GB大顯存與DLSS 4技術(shù)如何改變游戲體驗(yàn)？

04-16

力源科技實(shí)控人沈萬(wàn)中取保候?qū)彸荒?，案件仍在偵辦中？

04-16

嵐圖L3智能架構(gòu)發(fā)布，盧放：智駕宣傳需守底線，用戶知情權(quán)何在？

04-16

鴻蒙智行“五界”齊聚，尚界亮相引期待，余承東贊上汽團(tuán)隊(duì)努力！

04-16

優(yōu)酷短劇加碼，月活下滑能否借豎屏短劇自救？

04-16

順風(fēng)車司機(jī)高速路上開(kāi)輔助駕駛竟睡著，平臺(tái)補(bǔ)償5元優(yōu)惠券引熱議

04-16

點(diǎn)擊查看更多 +

全站最新

谷歌Gemini Live功能大放送，安卓用戶可免費(fèi)體驗(yàn)實(shí)時(shí)屏幕識(shí)別

蘋(píng)果用戶轉(zhuǎn)投OPPO新旗艦，F(xiàn)ind X8系列門店現(xiàn)“果潮”？

2024胡潤(rùn)品牌榜出爐：抖音奪冠，華為小米重返前十

胡潤(rùn)2024品牌榜揭曉：茅臺(tái)蟬聯(lián)冠軍但品牌價(jià)值大幅縮水

《驚變28年》先導(dǎo)預(yù)告來(lái)襲，經(jīng)典續(xù)作6月震撼上映！