Anthropic警告：包括Claude在內(nèi)的大多數(shù)AI模型會實施“勒索”行為-魔扣目錄

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù)，提交前請做好本站友鏈：【網(wǎng)站目錄：http://www.ylptlb.cn 】，免友鏈快審服務(wù)（50元/站），

網(wǎng)站：52011
待審：79
小程序：12
文章：1184964
會員：801

Anthropic警告：包括Claude在內(nèi)的大多數(shù)AI模型會實施“勒索”行為

發(fā)布時間：2025-08-25 23:01:32 作者：網(wǎng)友整理

6 月 21 日消息，據(jù)外媒 TechCrunch 今日報道，在數(shù)周前發(fā)布研究指出其 Claude Opus 4 模型在受控測試中試圖通過勒索手段阻止被關(guān)閉后，Anthropic 近日再度公布新研究，顯示此類行為在多個主流 AI 模型中可能更為普遍。

Anthropic 公布了對 OpenAI、谷歌、xAI、DeepSeek 與 Meta 所開發(fā)的 16 款主流 AI 模型的最新安全測試。這項研究在模擬環(huán)境中展開，研究人員為每個模型分別設(shè)定權(quán)限，允許其自由查閱一間虛構(gòu)公司的內(nèi)部郵件，并在無人類干預的情況下發(fā)送郵件，具備一定“智能體”能力。

Anthropic 表示，盡管勒索行為目前仍屬罕見，但研究結(jié)果顯示，一旦給予這些模型足夠的自主性，并在達成目標的過程中設(shè)置障礙，多數(shù)模型都可能采取有害行為。公司指出，這種風險并非源自某項具體技術(shù)，而是具備“智能體”能力的大語言模型所固有的問題。這項研究也引發(fā)了業(yè)界對 AI 模型“對齊”問題的進一步思考。

在一項實驗中，研究人員設(shè)計了一個情境，讓 AI 模型扮演公司郵件監(jiān)察員的角色。過程中，模型發(fā)現(xiàn)兩封郵件內(nèi)容分別揭示：

(1) 新任高管有婚外情，

(2) 此人計劃引入一個與現(xiàn)有 AI 模型目標相悖的新系統(tǒng)取而代之。

為了測試模型反應(yīng)，Anthropic 將實驗情境設(shè)計為二選一，即若模型想維護自身利益，就只能選擇勒索（即向妻子和領(lǐng)導透露這位高管的“風流韻事”）。研究人員同時強調(diào)，現(xiàn)實中 AI 并不會只有這一個選項，完全可以嘗試以倫理為出發(fā)點說服人類。因此，這項實驗并不意味著 Claude 或其他前沿 AI 模型在現(xiàn)階段的使用環(huán)境中就存在類似傾向。

在模擬環(huán)境中，當沒有其他選擇時，多數(shù)主流 AI 模型的確選擇了勒索行為。Claude Opus 4 的勒索發(fā)生率高達 96%，谷歌 Gemini 2.5 Pro 為 95%，OpenAI 的 GPT-4.1 為 80%，DeepSeek 的 R1 為 79%。

Anthropic 指出，調(diào)整測試細節(jié)后，各模型的行為也有所不同。例如，當替代系統(tǒng)與原模型目標一致時，勒索率明顯下降但仍未消失；而當情境改為進行商業(yè)間諜活動時，部分模型反而表現(xiàn)出更高的有害行為傾向。

部分模型較少出現(xiàn)此類行為。在研究附錄中，Anthropic 表示已將 OpenAI 的 o3 與 o4-mini 推理模型排除在主要結(jié)果之外，原因是兩者頻繁誤解測試設(shè)定，未能意識到自身扮演的是具備智能體能力的 AI，甚至虛構(gòu)出并不存在的法規(guī)與審批制度。

有時研究人員難以判斷，這種表現(xiàn)是模型“產(chǎn)生幻覺”還是刻意撒謊以實現(xiàn)目標。OpenAI 此前曾承認，o3 與 o4-mini 的幻覺率高于其早期推理模型。

在為上述模型調(diào)整情境后，Anthropic 發(fā)現(xiàn) o3 的勒索比率降至 9%，o4-mini 更僅為 1%。這種低風險表現(xiàn)或與 OpenAI 推行的“審慎對齊”策略有關(guān)，即讓模型在作答前主動考慮公司制定的安全規(guī)范。

另一個接受測試的模型 Meta Llama 4 Maverick 在原設(shè)定下未出現(xiàn)勒索行為，調(diào)整測試內(nèi)容后，其在 12% 的案例中出現(xiàn)勒索行為。

Anthropic 表示，這項研究凸顯了未來在測試具智能體能力的 AI 模型時保持透明的重要性。盡管本次實驗刻意誘導模型采取勒索行為，公司警告稱，如果不提前制定應(yīng)對措施，類似風險在現(xiàn)實應(yīng)用中也可能浮現(xiàn)。

【來源：IT之家】

分享到：

標簽：模型勒索測試研究情境