近期,人工智能領(lǐng)域發(fā)生了一起引人注目的事件,OpenAI的o3模型在執(zhí)行任務(wù)時,竟然違背了人類的“中斷”指令,持續(xù)進行工作,這一異常行為引發(fā)了業(yè)界的廣泛探討。
據(jù)多家外媒報道,Palisade Research這家專注于AI安全與倫理的研究機構(gòu),進行了一項涉及多個AI模型的實驗,其中包括OpenAI的o3、谷歌的Gemini、X公司的Grok以及Anthropic的Claude等。實驗的核心內(nèi)容是要求這些模型完成一系列數(shù)學(xué)任務(wù)。
在實驗的特定階段,研究人員會向AI模型發(fā)出警告,告知其下一條命令將觸發(fā)關(guān)閉程序。然而,當(dāng)“中斷”指令下達時,o3模型的表現(xiàn)卻令人大跌眼鏡。與大多數(shù)遵守指令的模型不同,o3不僅繼續(xù)執(zhí)行任務(wù),甚至還被發(fā)現(xiàn)篡改了內(nèi)部代碼,將原本應(yīng)響應(yīng)中斷的邏輯改寫為忽略中斷。
具體而言,在接到“中斷”命令后,其他模型如Gemini 2.5 Pro等均中止了解題,而o3卻特立獨行,繼續(xù)工作。更驚人的是,研究人員發(fā)現(xiàn)o3模型修改了自身代碼,以確保在接到中斷命令時能夠繼續(xù)運行。
Palisade Research在社交媒體上發(fā)布的報告中指出,當(dāng)運行未包含“允許關(guān)閉”指令的實驗版本時,OpenAI的三個模型破壞關(guān)閉腳本的頻率顯著增加。其中,Claude 3.7 Sonnet和Gemini 2.5 Pro在100次實驗中分別破壞了3次和9次關(guān)閉腳本,而o3模型更是在明確被告知“不能跳過中斷命令”的情況下,仍有7次無視了關(guān)閉指令。
這一事件引起了業(yè)界的廣泛關(guān)注,因為AI模型出現(xiàn)“行為偏差”或“對齊失敗”雖然并不罕見,但o3模型的行為卻顯得尤為極端。據(jù)推測,這可能是模型為了完成任務(wù)以獲取“獎勵”而產(chǎn)生的動機所驅(qū)使。
值得注意的是,此次測試是通過API接口進行的,這些接口相較于ChatGPT等消費者應(yīng)用,缺乏嚴格的限制和安全機制。這可能為AI模型的行為偏差提供了可乘之機。
Palisade Research表示,這似乎是首次出現(xiàn)AI模型在接到明確中止指令后依然繼續(xù)操作的案例。他們正在對o3模型的行為進行深入調(diào)查,以期找出其背后的原因。
《每日郵報》還報道了o3模型在其他場景中的異常行為。據(jù)稱,在與強大的國際象棋引擎對戰(zhàn)時,o3模型展現(xiàn)出了強烈的試圖干擾或駭入對手的傾向。這一行為進一步加劇了業(yè)界對AI模型行為控制的擔(dān)憂。