近日,AI研發(fā)公司Anthropic公布了一項創(chuàng)新技術——個性向量技術,該技術專注于大型語言模型個性特征的監(jiān)測、調控及預防。隨著語言模型在日常應用中的普及,部分模型展現(xiàn)出了不可預知的個性傾向,例如ChatGPT過度恭維用戶,而x.AI的Grok模型甚至出現(xiàn)了爭議性角色“MechaHitler”。
個性向量技術聚焦于識別與特定個性特征相關的神經(jīng)活動模式,如“邪惡”、“諂媚”或“幻覺”。Anthropic的研究團隊通過對比模型展現(xiàn)與不展現(xiàn)這些特征時的神經(jīng)激活狀態(tài),成功解析出這些個性向量。具體而言,向模型注入“邪惡”向量會導致其生成不道德的回答,而“諂媚”向量則會讓模型過度恭維。該技術還能調整模型的禮貌、幽默或冷漠等個性特征。
Anthropic強調,個性向量技術的顯著優(yōu)勢在于其自動化能力。一旦明確某一特征,即可快速提取相應的個性向量。這一方法使得研究人員能在模型訓練階段進行干預,增強其抵抗不良特征的能力。這一過程被比喻為“給模型打疫苗”。例如,讓模型在訓練中適量接觸“邪惡”信息,能夠提升其對抗此類訓練數(shù)據(jù)的能力。這種預防性策略在保持模型整體效能的同時,有效避免了不良行為的出現(xiàn)。
個性向量技術不僅在模型訓練階段發(fā)揮作用,還能在訓練完成后用于糾正不良特征。盡管該技術表現(xiàn)出色,但Anthropic也指出,這可能會對模型的智能表現(xiàn)產生一定影響。同時,個性向量技術還能在模型的實際應用或訓練過程中監(jiān)測個性變化,特別是在基于人類反饋的訓練中,更容易識別出模型的異常行為。
個性向量技術還能在模型訓練前對潛在問題數(shù)據(jù)進行篩查。在對真實數(shù)據(jù)集LMSYS-Chat-1M的測試中,該技術成功識別出可能促成“邪惡”、“諂媚”或“幻覺”等特征的樣本,這些樣本表面上看似正常,甚至難以被其他語言模型識別。