滾動資訊

當(dāng)前位置：網(wǎng)界 > 產(chǎn)業(yè)經(jīng)濟 > 正文內(nèi)容

AI模型越獄難題何解？Anthropic憲法分類器來護航

時間：2025-02-05 16:21 來源：ITBEAR作者：任飛揚

近期，Anthropic公司推出了一項創(chuàng)新的安全技術(shù)——“憲法分類器”，旨在解決大型語言模型中普遍存在的濫用自然語言提示問題。這項技術(shù)通過在大型語言模型中嵌入類似人類價值觀的“憲法”，為模型設(shè)定了明確的安全邊界，防止其生成超出預(yù)期的輸出。

在最新發(fā)布的學(xué)術(shù)論文中，Anthropic公司的安全保障研究團隊詳細介紹了這一新安全措施。他們指出，在引入憲法分類器后，Claude3.5 Sonnet（Anthropic公司的最新大型語言模型）的越獄成功率顯著降低，降幅高達81.6%。同時，該技術(shù)對模型性能的影響微乎其微，生產(chǎn)流量的拒絕率僅增加了0.38%，推理開銷也僅提升了23.7%。

為了驗證憲法分類器的有效性，Anthropic公司還發(fā)起了一項挑戰(zhàn)活動。他們設(shè)計了一系列與化學(xué)、生物、放射和核（CBRN）相關(guān)的越獄關(guān)卡，邀請用戶嘗試突破。然而，這一活動也引發(fā)了一些爭議。有批評者認為，這實際上是在利用社區(qū)成員作為免費的安全志愿者或“紅隊隊員”，幫助他們測試閉源模型的安全性。

面對這些質(zhì)疑，Anthropic公司進行了回應(yīng)。他們解釋說，成功越獄的模型是通過繞過憲法分類器的防御措施，而非直接規(guī)避這些措施。同時，他們也承認了在測試過程中存在的一些問題。例如，一些基于規(guī)則的測試系統(tǒng)可能產(chǎn)生了誤報和漏報，導(dǎo)致部分提示的拒絕率異常高。

盡管存在這些挑戰(zhàn)和爭議，但Anthropic公司的憲法分類器仍被視為在解決大型語言模型安全問題上邁出的重要一步。它不僅在遏制模型越獄方面取得了顯著成果，還展示了將人類價值觀融入AI技術(shù)中的潛力。然而，需要明確的是，這項技術(shù)并非萬能的解決方案。它仍然需要不斷的研究和改進，以應(yīng)對日益復(fù)雜的安全威脅。

更多>同類內(nèi)容

《天國：拯救2》正式發(fā)售，獲88分高分好評，值得入手嗎？

02-05

證券時報e公司煥新上線，新春答題贏好禮，財富之路更順暢！

02-05

AMD Instinct MI350系列數(shù)據(jù)中心GPU：因需求強勁，提前量產(chǎn)發(fā)貨

02-05

微短劇新規(guī)！國家廣電總局推行“分類分層審核”，行業(yè)將迎來新變革

02-05

vivo V50 5G藍色版真機圖賞：驍龍7 Gen3+6000mAh電池，2月18日印度發(fā)布

02-05

鑫谷KE-850P白金牌電源預(yù)告：為高端顯卡提供更多功率選擇

02-05

天翼云率先支持DeepSeek-R1模型，開啟AI智算新篇章

02-05

日本Rapidus 2nm工廠進展神速，NVIDIA或成其客戶，半導(dǎo)體界迎新變數(shù)！

02-05

雷軍開工豪派紅包，盧偉冰喜提168元寓意“一路發(fā)”

02-05

《優(yōu)米雅的煉金工房》新作預(yù)熱：妮娜角色生日賀圖甜蜜來襲！

02-05

車魚視聽攜手汽水音樂登陸蔚來，智能座艙音樂體驗再升級！

02-05

Outlook升級：郵件分類功能上線，iOS版新增“返回上一封”選項

02-05

《怪物獵人：荒野》鎖刃龍雪雕，札幌冰雪節(jié)驚艷亮相！

02-05

銀發(fā)青年的消費特征

02-05

DeepSeek系列模型入駐國家超算互聯(lián)網(wǎng)，開啟AI算力新篇章！

02-05

點擊查看更多 +

全站最新

AMD CPU曝出高危漏洞，攻擊者可篡改處理器核心機制

小米38款機型電池換新特惠，8折起僅79元！

《天國：拯救2》正式發(fā)售，獲88分高分好評，值得入手嗎？

手繪游戲封面走紅，每幅都是獨一無二的藝術(shù)品！

蛇年開工小米大放送，雷軍親自發(fā)紅包，隱藏款紀(jì)念幣引熱搶！

《攻殼機動隊》30周年展來襲，2026年新作動向引人期待！

熱門內(nèi)容

本欄最新

AI模型越獄難題何解？Anthropic憲法分類器來護航

《天國：拯救2》正式發(fā)售，獲88分高分好評，值得入手嗎？

證券時報e公司煥新上線，新春答題贏好禮，財富之路更順暢！

AMD Instinct MI350系列數(shù)據(jù)中心GPU：因需求強勁，提前量產(chǎn)發(fā)貨

vivo V50 5G藍色版真機圖賞：驍龍7 Gen3+6000mAh電池，2月18日印度發(fā)布

鑫谷KE-850P白金牌電源預(yù)告：為高端顯卡提供更多功率選擇

網(wǎng)界 - 新財經(jīng) 新科技新未來 - 網(wǎng)界傳媒旗下網(wǎng)站 - 中國 · 北京
合作咨詢微信：netspread（注明:網(wǎng)界）
網(wǎng)界^?是本公司38類注冊商標(biāo)，是該商標(biāo)的唯一持有者，未經(jīng)授本公司授權(quán)，嚴禁使用。
Copyright ? CNU 2012-2022 www.mladies.com.cn All rights reserved. 魯ICP備2022032383號-6

亚洲精品,日韩av,亚洲国产一区二区三区亚瑟,玩弄寡妇丰满肉体,香蕉久久夜色精品升级完成,亚洲av无码成人精品区一区

AI模型越獄難題何解？Anthropic憲法分類器來護航

AI模型越獄難題何解？Anthropic憲法分類器來護航