<ul id="mwmk6"><sup id="mwmk6"></sup></ul>
<ul id="mwmk6"></ul>
    <abbr id="mwmk6"></abbr>
  • <ul id="mwmk6"></ul>
  • <ul id="mwmk6"><sup id="mwmk6"></sup></ul>
    資訊在沃

    Anthropic“憲法分類器”能否有效管住大型語言模型的“嘴”?

       發(fā)布時間:2025-02-05 12:01 作者:顧雨柔

    近日,人工智能領(lǐng)域迎來了一項新的安全創(chuàng)新。為了應(yīng)對人工智能工具濫用自然語言提示的問題,OpenAI的競爭對手Anthropic推出了一項名為“憲法分類器”的全新概念。這一創(chuàng)新方法旨在將一套類似人類價值觀的規(guī)則(形象地比喻為一部“憲法”)嵌入大型語言模型中。

    據(jù)悉,Anthropic的安全保障研究團(tuán)隊在一篇最新的學(xué)術(shù)論文中詳細(xì)闡述了這一安全措施。該措施的主要目標(biāo)是減少其最新、最先進(jìn)的大型語言模型Claude 3.5 Sonnet的“越獄”行為,即生成超出既定安全防護(hù)范圍的輸出內(nèi)容。實驗結(jié)果顯示,在實施憲法分類器后,Claude模型的越獄成功率顯著降低了81.6%,而該系統(tǒng)對模型性能的影響微乎其微,生產(chǎn)流量拒絕率僅絕對增加了0.38%,推理開銷增加了23.7%。

    隨著大型語言模型的應(yīng)用日益廣泛,生成有害內(nèi)容的風(fēng)險也日益凸顯。Anthropic及其同行如OpenAI等,對化學(xué)、生物、放射和核(CBRN)相關(guān)內(nèi)容的風(fēng)險尤為關(guān)注。例如,這些模型可能會提供制造有害化學(xué)制劑的指導(dǎo)。為了驗證憲法分類器的有效性,Anthropic發(fā)起了一項挑戰(zhàn),邀請用戶嘗試突破8個與CBRN內(nèi)容相關(guān)的越獄關(guān)卡。然而,這一舉措也引發(fā)了一些爭議,有批評者認(rèn)為這是在利用社區(qū)資源為閉源模型的安全測試做貢獻(xiàn)。

    針對這些爭議,Anthropic進(jìn)行了解釋。他們指出,成功的越獄行為是繞過了憲法分類器,而非直接規(guī)避。他們列舉了兩種常見的越獄方法:一種是良性釋義,即通過改變表述方式繞過敏感內(nèi)容;另一種是長度利用,即通過添加無關(guān)細(xì)節(jié)來迷惑模型。同時,Anthropic也承認(rèn),在測試期間,一些提示因誤報或漏報而被錯誤地拒絕,拒絕率較高。

    Anthropic進(jìn)一步補(bǔ)充說,盡管已知對沒有憲法分類器的模型有效的越獄方法在這一防御措施下并未成功,但他們?nèi)栽诓粩喔倪M(jìn)和完善這一系統(tǒng)。他們認(rèn)識到,基于規(guī)則的測試系統(tǒng)存在局限性,并致力于提高系統(tǒng)的準(zhǔn)確性和可靠性。這一創(chuàng)新不僅為大型語言模型的安全性提供了新的解決方案,也為人工智能領(lǐng)域的未來發(fā)展開辟了新的方向。

     
     
    更多>同類內(nèi)容
    全站最新
    熱門內(nèi)容
    本欄最新
     
    色综合久久综精品| 久久久99精品免费观看| 国产精品白浆在线播放| 国产精品2019| 亚洲视频精品在线| 99热婷婷国产精品综合| 亚洲国产精品成人久久蜜臀 | 国产综合成人色产三级高清在线精品发布 | 中文字幕日韩精品有码视频| 国产精品成人久久久久久久| 国产对白精品刺激一区二区| 精品一区二区三区东京热| 国产成人精品一区二区三区免费| 国产系列高清精品第一页| 国产精品偷窥熟女精品视频| 日韩在线视频不卡| 日韩在线视精品在亚洲| 国产1024精品视频专区免费| 亚洲国产精品张柏芝在线观看| 老司机精品视频在线| 国产精品99久久久久久www| 日韩欧国产精品一区综合无码| 国内精品福利视频| 精品国产日韩久久亚洲| 亚洲精品国产免费| 久久av老司机精品网站导航| 中文无码久久精品| 久久国产美女免费观看精品| 亚洲国产日韩综合久久精品| 国产在线观看91精品不卡 | 亚洲av无码成人精品区| 亚洲AV无码日韩AV无码导航| 精品久久久久久亚洲综合网| 国产亚洲精品AAAA片APP| 国产精品视频一区二区三区经| 久久亚洲私人国产精品| 国产精品美女久久久久久2018 | 日本精品中文字幕| 高清国产精品人妻一区二区| 久久久久九九精品影院| 国产精品无打码在线播放 |