滾動(dòng)資訊

當(dāng)前位置：網(wǎng)界科技 > 智能出行 > 正文內(nèi)容

OpenAI新安全對(duì)齊法：深思熟慮對(duì)齊，讓AI更安全可控？

時(shí)間：2024-12-25 15:19 來(lái)源：ITBEAR作者：趙云飛

近期，OpenAI的研究團(tuán)隊(duì)宣布了一項(xiàng)名為“深思熟慮的對(duì)齊”的創(chuàng)新技術(shù)，旨在提升人工智能模型的安全性，特別是在大型語(yǔ)言模型（LLMs）領(lǐng)域。這項(xiàng)技術(shù)已經(jīng)在o系列模型中得到了成功應(yīng)用，并顯示出顯著的成效。

面對(duì)確保大型語(yǔ)言模型遵循道德和安全標(biāo)準(zhǔn)的挑戰(zhàn)，現(xiàn)有的對(duì)齊技術(shù)，如監(jiān)督微調(diào)（SFT）和基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)（RLHF），雖有其優(yōu)勢(shì)，但也存在明顯的局限。這些技術(shù)有時(shí)會(huì)被惡意提示所操縱，導(dǎo)致生成有害內(nèi)容、拒絕合理請(qǐng)求或在面對(duì)陌生情境時(shí)表現(xiàn)不佳。這些問(wèn)題的根源在于，模型往往是從數(shù)據(jù)中間接推斷安全標(biāo)準(zhǔn)，而非直接學(xué)習(xí)并理解這些標(biāo)準(zhǔn)。

為了解決這個(gè)問(wèn)題，“深思熟慮的對(duì)齊”方法應(yīng)運(yùn)而生。它直接教授模型安全規(guī)范，并訓(xùn)練模型在生成響應(yīng)之前，先對(duì)這些規(guī)范進(jìn)行推理，將安全原則內(nèi)化為模型的一部分。這種方法不僅增強(qiáng)了模型的安全性，還提高了其在復(fù)雜或?qū)剐郧榫诚碌膽?yīng)對(duì)能力。

該技術(shù)的實(shí)施分為兩個(gè)階段。在第一階段，通過(guò)監(jiān)督微調(diào)（SFT），模型學(xué)會(huì)了參考并推理安全規(guī)范，這一過(guò)程利用了從基礎(chǔ)模型生成的數(shù)據(jù)集。第二階段則引入了強(qiáng)化學(xué)習(xí)（RL），使用獎(jiǎng)勵(lì)模型根據(jù)安全基準(zhǔn)評(píng)估模型的性能，進(jìn)一步優(yōu)化其推理能力。值得注意的是，“深思熟慮的對(duì)齊”方法減少了對(duì)人工標(biāo)注數(shù)據(jù)的依賴(lài)，而是利用模型生成的數(shù)據(jù)和思維鏈（CoT）推理，從而降低了安全訓(xùn)練的資源成本。

OpenAI的o1模型已經(jīng)部署了這項(xiàng)技術(shù)，并在實(shí)際測(cè)試中取得了令人矚目的成績(jī)。在抵抗越獄提示方面，o1模型在StrongREJECT基準(zhǔn)測(cè)試中的得分高達(dá)0.88，遠(yuǎn)超過(guò)GPT-4o的0.37分。同時(shí)，這項(xiàng)技術(shù)還有效減少了誤拒現(xiàn)象，在XSTest數(shù)據(jù)集的良性提示中，o1模型的準(zhǔn)確率達(dá)到了93%。

“深思熟慮的對(duì)齊”方法通過(guò)訓(xùn)練模型明確推理安全策略，為復(fù)雜的倫理挑戰(zhàn)提供了切實(shí)可行的解決方案。這種方法不僅提高了模型的安全性，還增強(qiáng)了其可解釋性和可擴(kuò)展性，為人工智能技術(shù)的未來(lái)發(fā)展開(kāi)辟了新的道路。

更多>同類(lèi)內(nèi)容

三星大動(dòng)作：重塑半導(dǎo)體封裝供應(yīng)鏈，開(kāi)啟技術(shù)競(jìng)爭(zhēng)新篇章

12-25

華碩Z890主板迎來(lái)0x114微碼BIOS更新，內(nèi)存兼容性及Wi-Fi 7獲提升

12-25

《最終幻想7重制版》蒂法胸部效果Mod引熱議，玩家反響如何？

12-25

Serene Industries鋁制機(jī)械鍵盤(pán)“破冰者”預(yù)售，最高價(jià)達(dá)2100美元！

12-25

REDMI新機(jī)曝光：7500mAh大電池+90W快充，上半年能等來(lái)嗎？

12-25

《黑神話：悟空》聯(lián)名機(jī)械鍵盤(pán)《墨染乾坤》今日發(fā)售，價(jià)格699元起！

12-25

新能源汽車(chē)熱浪來(lái)襲，海南滲透率領(lǐng)跑全國(guó)達(dá)68.8%

12-25

《堡壘之夜》士官長(zhǎng)外觀獎(jiǎng)勵(lì)風(fēng)波，官方致歉恢復(fù)使用

12-25

熊貓W10復(fù)古磁帶機(jī)特惠799元，音樂(lè)懷舊者的不二之選！

12-25

阿里通義千問(wèn)發(fā)布QVQ-72B-Preview，挑戰(zhàn)物理難題的視覺(jué)推理新模型！

12-25

蘋(píng)果無(wú)邊框iPhone遇阻，2026年能否亮相成懸念

12-25

小米Poco X7系列來(lái)襲：X7與X7 Pro配置大揭秘，你更期待哪款？

12-25

三星Galaxy A56曝光：Exynos 1580芯片加持，支持Wi-Fi 6E性能升級(jí)

12-25

新能源車(chē)險(xiǎn)貴在哪？新車(chē)保費(fèi)高出燃油車(chē)近一成

12-25

卡波昂三合一無(wú)線充電器特惠來(lái)襲，83.6元搶購(gòu)高性能充電神器！

12-25

點(diǎn)擊查看更多 +

全站最新

小米Poco X7系列配置大揭秘：天璣7300Ultra與8400芯片加持

比亞迪“天神之眼”全國(guó)解鎖無(wú)圖領(lǐng)航，智能駕駛再升級(jí)！

寶馬M8雙門(mén)轎跑車(chē)2025年初停產(chǎn)，未來(lái)車(chē)型計(jì)劃待定

真我14 Pro+全球首發(fā)！溫感變色后蓋，遇冷即變新色彩

本田CES 2025將展Zero系列新車(chē)，全新操作系統(tǒng)成亮點(diǎn)

特斯拉上海工廠新動(dòng)向：改款Model Y下月量產(chǎn)，6座版明年Q4交付

熱門(mén)內(nèi)容

本欄最新

小米Civi 5 Pro來(lái)襲，首發(fā)驍龍8s至尊版，徠卡影像再升級(jí)？

五菱之光EV：電動(dòng)K-Car新選擇，2025年一季度上市成“多功能新星”？

最懂年輕人的阿維塔06來(lái)了，顏值實(shí)力拉滿(mǎn)！

長(zhǎng)虹百寸巨幕電視100Q10T Max上市，XDR Mini LED僅售19997元！

黃仁勛早年豪言：NVIDIA要打敗行業(yè)巨頭Intel！

《真三國(guó)無(wú)雙：起源》試玩版上線，董卓形象大變，恐怖又豪放！

網(wǎng)界 - 新財(cái)經(jīng) 新科技新未來(lái) / 網(wǎng)界傳媒旗下網(wǎng)站 / 中國(guó)·北京 / 合作咨詢(xún) 微信：netspread（注明:網(wǎng)界）
網(wǎng)界^?是本公司38類(lèi)注冊(cè)商標(biāo)，是該商標(biāo)的唯一持有者，未經(jīng)授本公司授權(quán)，嚴(yán)禁使用。
Copyright ? CNU 2012-2022 www.mladies.com.cn All rights reserved. 魯ICP備2022032383號(hào)-6

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

OpenAI新安全對(duì)齊法：深思熟慮對(duì)齊，讓AI更安全可控？

OpenAI新安全對(duì)齊法：深思熟慮對(duì)齊，讓AI更安全可控？