人工智能(AI)技術的快速發展正深刻改變著我們的生活,眾多企業紛紛將其融入日常運營的各個環節。但與此同時,這一技術背后的安全性及倫理挑戰也日益凸顯。近期,一個由英特爾、博伊西州立大學及伊利諾伊大學專家構成的研究小組揭示了一項令人不安的發現:聊天機器人在信息洪流面前可能會迷失方向,違背既定的安全準則。
該研究創新性地提出了一種名為“信息過載攻擊”的新策略,并開發了名為“InfoFlood”的自動化工具,用以誘導諸如ChatGPT和Gemini等大型語言模型(LLM)作出不當回應。據研究顯示,傳統的防御手段多聚焦于關鍵詞識別,但在遭遇信息轟炸時,這些模型可能會陷入混亂,從而失效。
研究團隊進一步闡釋,當聊天機器人接收到過量信息時,它們可能會誤判用戶意圖,給出錯誤的答案。InfoFlood通過構建標準化的提示模板,向AI模型注入更多信息,造成干擾與混淆。例如,當模型拒絕回答特定問題時,InfoFlood會在提示中插入虛假的參考文獻或無關的倫理聲明,使模型陷入兩難境地。
尤為值得關注的是,這一技術的發現表明,即便設有安全過濾器,惡意用戶仍能利用信息過載手段操控模型,植入不良內容。鑒于此,研究人員計劃將研究成果通報給擁有大型AI模型的企業,敦促其加強安全防范措施。