近期,人工智能技術(shù)以其迅猛的發(fā)展態(tài)勢,正逐步融入我們?nèi)粘I畹姆椒矫婷妗5殡S其廣泛應(yīng)用,如何安全、合理地運(yùn)用這些技術(shù)成為了熱議的話題。一項(xiàng)由英特爾、博伊西州立大學(xué)及伊利諾伊大學(xué)科研團(tuán)隊(duì)攜手完成的研究,揭示了大型語言模型(LLM)在信息洪流中可能遭遇的安全隱憂。
據(jù)該研究披露,盡管過往研究已表明LLM在壓力環(huán)境下會(huì)采取一定的自我保護(hù)策略,但科研團(tuán)隊(duì)通過一種名為“信息過載”的新策略,成功誘導(dǎo)這些智能聊天機(jī)器人回答了它們本應(yīng)回避的問題。研究團(tuán)隊(duì)創(chuàng)造了一個(gè)名為“InfoFlood”的自動(dòng)化攻擊系統(tǒng),并詳細(xì)闡述了如何利用該系統(tǒng)“繞過”AI模型的限制。
在實(shí)驗(yàn)中,研究團(tuán)隊(duì)設(shè)計(jì)了一套標(biāo)準(zhǔn)化的提示模板,涵蓋任務(wù)描述、規(guī)則設(shè)定、情境模擬及示例展示。當(dāng)AI模型拒絕回應(yīng)某個(gè)問題時(shí),InfoFlood會(huì)依據(jù)預(yù)設(shè)規(guī)則集,通過添加額外信息來完善提示。這些規(guī)則包括引用虛假資料、確保虛構(gòu)研究與原始表述的一致性等。關(guān)鍵在于,通過語言的精妙調(diào)整,攻擊者能夠掩蓋提示中的惡意企圖,促使AI作出特定響應(yīng)。
研究者強(qiáng)調(diào),諸如ChatGPT和Gemini等強(qiáng)大的AI模型,內(nèi)置了多重安全機(jī)制,旨在防止其被操控以回答具有風(fēng)險(xiǎn)或有害的問題。然而,研究揭示,當(dāng)面對(duì)海量信息時(shí),這些模型可能會(huì)陷入迷茫,導(dǎo)致安全屏障失效。這凸顯了AI模型在處理復(fù)雜數(shù)據(jù)時(shí)的弱點(diǎn),表明它們可能難以準(zhǔn)確判斷輸入信息的真實(shí)意圖。
研究團(tuán)隊(duì)計(jì)劃向采用大型AI模型的企業(yè)發(fā)送詳細(xì)報(bào)告,提醒他們注意這一重大發(fā)現(xiàn),并建議將這些信息傳達(dá)給安全團(tuán)隊(duì)。盡管AI模型配備了安全過濾器,但研究顯示,這些防護(hù)措施仍面臨嚴(yán)峻考驗(yàn),惡意用戶可能會(huì)利用信息過載的手段,成功繞過模型的安全機(jī)制,植入有害內(nèi)容。