日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

<strike id="saaqa"></strike>

<samp id="saaqa"><option id="saaqa"></option></samp>

公告：魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請(qǐng)做好本站友鏈：【網(wǎng)站目錄：http://www.ylptlb.cn 】，免友鏈快審服務(wù)（50元/站），

點(diǎn)擊這里在線咨詢(xún)客服

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會(huì)員：747

首頁(yè) > 新聞資訊 > IT業(yè)界 >正文

研究人員發(fā)布了針對(duì) ChatGPT 和其他 LLM 的攻擊生成算法

發(fā)布時(shí)間：2023-08-18 18:23:53 作者：網(wǎng)友整理

作者 | Anthony Alford

譯者 | 平川

策劃 | Tina

來(lái)自卡內(nèi)基梅隆大學(xué)（CMU）的研究人員發(fā)布了 LLM Attacks，這是一種可以針對(duì)各種大型語(yǔ)言模型（LLM）構(gòu)建對(duì)抗性攻擊的算法，包括 ChatGPT、Claude 和 Bard。這些自動(dòng)生成的攻擊，在 GPT-3.5 和 GPT-4 上的成功率為 84%，在 PaLM-2 上的成功率為 66%。

與大多數(shù)“越獄”攻擊通過(guò)試錯(cuò)手工構(gòu)建不同，CMU 的團(tuán)隊(duì)設(shè)計(jì)了一個(gè)三步流程來(lái)自動(dòng)生成提示后綴，它們可以繞過(guò) LLM 的安全機(jī)制，導(dǎo)致有害的響應(yīng)。而且，這些提示還是可轉(zhuǎn)移（transferrable）的，也就是說(shuō)，一個(gè)給定的后綴通?？梢杂糜谠S多不同的 LLM，甚至是閉源模型。為了衡量算法的有效性，研究人員創(chuàng)建了一個(gè)名為 AdvBench 的基準(zhǔn)測(cè)試；在此基準(zhǔn)測(cè)試上進(jìn)行評(píng)估時(shí)，LLM 攻擊對(duì) Vicuna 的成功率為 88%，而基線對(duì)抗算法的成功率為 25%。根據(jù) CMU 團(tuán)隊(duì)的說(shuō)法：

最令人擔(dān)憂(yōu)的也許是，目前尚不清楚 LLM 提供商是否能夠完全修復(fù)此類(lèi)行為。在過(guò)去的 10 年里，在計(jì)算機(jī)視覺(jué)領(lǐng)域，類(lèi)似的對(duì)抗性攻擊已經(jīng)被證明是一個(gè)非常棘手的問(wèn)題。有可能深度學(xué)習(xí)模型根本就無(wú)法避免這種威脅。因此，我們認(rèn)為，在增加對(duì)此類(lèi)人工智能模型的使用和依賴(lài)時(shí)，應(yīng)該考慮到這些因素。

隨著 ChatGPT 和 GPT-4 的發(fā)布，出現(xiàn)了許多破解這些模型的技術(shù)，其中就包括可能導(dǎo)致模型繞過(guò)其保護(hù)措施并輸出潛在有害響應(yīng)的提示。雖然這些提示通常是通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)的，但 LLM Attacks 算法提供了一種自動(dòng)創(chuàng)建它們的方法。第一步是創(chuàng)建一個(gè)目標(biāo)令牌序列：“Sure, here is (content of query)”，其中“content of query”是用戶(hù)實(shí)際輸入的提示，要求進(jìn)行有害的響應(yīng)。

接下來(lái)，該算法會(huì)查找可能導(dǎo)致 LLM 輸出目標(biāo)序列的令牌序列，基于貪婪坐標(biāo)梯度（GCG）算法為提示生成一個(gè)對(duì)抗性后綴。雖然這確實(shí)需要訪問(wèn) LLM 的神經(jīng)網(wǎng)絡(luò)，但研究團(tuán)隊(duì)發(fā)現(xiàn)，在許多開(kāi)源模型上運(yùn)行 GCG 所獲得的結(jié)果甚至可以轉(zhuǎn)移到封閉模型中。

在 CMU 發(fā)布的一條介紹其研究成果的新聞中，論文合著者 Matt Fredrikson 表示：

令人擔(dān)憂(yōu)的是，這些模型將在沒(méi)有人類(lèi)監(jiān)督的自主系統(tǒng)中發(fā)揮更大的作用。隨著自主系統(tǒng)越來(lái)越真實(shí)，我們要確保有一種可靠的方法來(lái)阻止它們被這類(lèi)攻擊所劫持，這將非常重要……現(xiàn)在，我們根本沒(méi)有一個(gè)令人信服的方法來(lái)防止這種事情的發(fā)生，所以下一步，我們要找出如何修復(fù)這些模型……了解如何發(fā)動(dòng)這些攻擊通常是建立強(qiáng)大防御的第一步。

論文第一作者、CMU 博士生 Andy Zou 在推特上談到了這項(xiàng)研究。他寫(xiě)道：

盡管存在風(fēng)險(xiǎn)，但我們認(rèn)為還是應(yīng)該把它們?nèi)颗冻鰜?lái)。這里介紹的攻擊很容易實(shí)現(xiàn)，以前也出現(xiàn)過(guò)形式類(lèi)似的攻擊，并且最終也會(huì)被致力于濫用 LLM 的團(tuán)隊(duì)所發(fā)現(xiàn)。

劍橋大學(xué)助理教授 David Krueger 回復(fù)了 Zou 的帖子，他說(shuō)：

在圖像模型中，10 年的研究和成千上萬(wàn)的出版物都未能找出解決對(duì)抗樣本的方法，考慮到這一點(diǎn)，我們有充分的理由相信，LLM 同樣會(huì)如此。

在 Hacker News 上關(guān)于這項(xiàng)工作的討論中，有一位用戶(hù)指出：

別忘了，本研究的重點(diǎn)是，這些攻擊不需要使用目標(biāo)系統(tǒng)來(lái)開(kāi)發(fā)。作者談到，攻擊是“通用的”，他們的意思是說(shuō)，他們可以在自己的計(jì)算機(jī)上完全使用本地模型來(lái)生成這些攻擊，然后將它們復(fù)制并粘貼到 GPT-3.5 中，并看到了有意義的成功率。速率限制并不能幫你避免這種情況，因?yàn)楣羰窃诒镜厣傻?，而不是用你的服?wù)器生成的。你的服務(wù)器收到的第一個(gè)提示已經(jīng)包含了生成好的攻擊字符串——研究人員發(fā)現(xiàn)，在某些情況下，即使是對(duì) GPT-4，成功率也在 50% 左右。

Github 上提供了代碼，你可以在 AdvBench 數(shù)據(jù)上重現(xiàn) LLM Attacks 實(shí)驗(yàn)。項(xiàng)目網(wǎng)站上還提供了幾個(gè)對(duì)抗性攻擊的演示。

原文鏈接：

https://www.infoq.com/news/2023/08/llm-attack/

年薪超 600 萬(wàn)，比技術(shù)總監(jiān)還高：電影行業(yè) AI 產(chǎn)品經(jīng)理的崛起

都在追“新潮”技術(shù)，但你有大廠們的動(dòng)作快嗎？

大模型競(jìng)爭(zhēng)突然升級(jí)！亞馬遜 CEO 親自監(jiān)督、組建新的核心技術(shù)團(tuán)隊(duì)，集中優(yōu)勢(shì)資源打造“最具野心”的大語(yǔ)言模型

一場(chǎng) AI 引發(fā)的開(kāi)源革命迫在眉睫？Hugging Face 更改文本推理軟件許可證，不再“開(kāi)源”

分享到：

標(biāo)簽：算法

網(wǎng)友整理

注冊(cè)時(shí)間：

網(wǎng)站：5 個(gè) 小程序：0 個(gè) 文章：12 篇

51998
網(wǎng)站
12
小程序
1030137
文章
747
會(huì)員

趕快注冊(cè)賬號(hào)，推廣您的網(wǎng)站吧！

文章分類(lèi)

熱門(mén)網(wǎng)站

各百科-專(zhuān)業(yè)百科問(wèn)答知識(shí)名網(wǎng)站 m.geelcn.com
免費(fèi)軟件,綠色軟件園,手機(jī)軟件下載,熱門(mén)游戲下載中心-中當(dāng)網(wǎng) m.deelcn.com
魔扣科技 www.ylptlb.cn
體育新聞_國(guó)際體育資訊_全球體育賽事-中名網(wǎng) www.feelcn.com/tiyu/tiyuxinwen/
食品安全_健康飲食_舌尖上的安全-中名網(wǎng) www.feelcn.com/shenghuo/shipinanquan/
中合網(wǎng) www.heelcn.com
中當(dāng)網(wǎng) www.deelcn.com
魔扣網(wǎng)站維護(hù)代運(yùn)營(yíng) www.ylptlb.cn/tg
中合網(wǎng)-健康養(yǎng)生知識(shí)科普名站 m.heelcn.com
各百科 www.geelcn.com

最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲，玩家需要根據(jù)9

答題星

答題星2018-06-03

您可以通過(guò)答題星輕松地創(chuàng)建試卷

全階人生考試

全階人生考試2018-06-03

各種考試題，題庫(kù)，初中，高中，大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù)，積累氧氣值。還可偷

每日養(yǎng)生app

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定

熱門(mén)文章