自去年ChatGPT發(fā)布后,業(yè)內(nèi)外都涌現(xiàn)出了一股對(duì)大型語(yǔ)言模型的狂熱情緒,甚至有谷歌員工宣稱公司內(nèi)部的語(yǔ)言模型有了意識(shí)。
最近,紐約大學(xué)教授、Meta首席AI科學(xué)家、圖靈獎(jiǎng)得主Yann LeCun及紐約大學(xué)計(jì)算機(jī)科學(xué)系的博士后Jacob Browning發(fā)表了一篇長(zhǎng)文,他們認(rèn)為是語(yǔ)言本身的局限性讓LLM的智能無(wú)法提升。
雖然語(yǔ)言模型變得越來(lái)越通用且強(qiáng)大,但我們卻越來(lái)越不懂模型的思考過(guò)程。
模型可以在各個(gè)常識(shí)推理基準(zhǔn)測(cè)試中取得非常高的準(zhǔn)確率,但為什么還是會(huì)說(shuō)廢話、給出危險(xiǎn)的建議呢?
也就是說(shuō),為什么語(yǔ)言模型如此聰明,能力卻又如此有限?
研究人員認(rèn)為,問(wèn)題根本不是出在AI算法,而在于語(yǔ)言的局限性,一旦我們放棄「語(yǔ)言即思維」的假設(shè),就會(huì)發(fā)現(xiàn)盡管LLM的表現(xiàn)出色,但它們永遠(yuǎn)無(wú)法達(dá)到接近人類的智慧程度。
語(yǔ)言模型到底是怎么回事?
在19世紀(jì)和20世紀(jì)的哲學(xué)和科學(xué)研究中,主流認(rèn)知是「知識(shí)即語(yǔ)言學(xué)」,也就是說(shuō),知道某樣只是意味著想到了正確的句子,并了解如何與已知的真實(shí)網(wǎng)絡(luò)中的其他句子聯(lián)系起來(lái)。
按照這種邏輯,語(yǔ)言的理想形式應(yīng)該是一種純粹形式化的、符合邏輯數(shù)學(xué)的形式,由任意的符號(hào)組成,依照嚴(yán)格的推理規(guī)則連接起來(lái),但自然語(yǔ)言可能還需要語(yǔ)義消歧和不精確的。
奧地利哲學(xué)家Wittgenstein曾說(shuō)過(guò),真命題的總和就是自然科學(xué)的全部。
雖然在認(rèn)知地圖(cognitive maps)和心像(mental images)領(lǐng)域還存在爭(zhēng)議,但20世紀(jì)確立的語(yǔ)言學(xué)基礎(chǔ)就是符號(hào)主義。
這一觀點(diǎn)到目前也被很多人接受:如果百科全書可以包含所有已知的內(nèi)容,那只要把所有書都讀一遍,那就可以對(duì)世界有一個(gè)全面了解。
人工智能的早期研究也遵循這個(gè)思想,定義符號(hào)操作,根據(jù)邏輯規(guī)則以不同方式將語(yǔ)言符號(hào)綁定在一起。
對(duì)于當(dāng)時(shí)的研究人員來(lái)說(shuō),人工智能的知識(shí)都儲(chǔ)存在一個(gè)由人工邏輯連接的真實(shí)句子組成的龐大數(shù)據(jù)庫(kù),如果人工智能系統(tǒng)在正確的時(shí)間吐出正確的句子,即能夠以適當(dāng)?shù)姆绞竭M(jìn)行符號(hào)操作的話,就可以認(rèn)為是一個(gè)智能系統(tǒng)。
這一想法也是圖靈測(cè)試的基礎(chǔ):如果一臺(tái)機(jī)器可以在合適的時(shí)機(jī)把自己知道的內(nèi)容說(shuō)出去,就意味著它知道自己在說(shuō)什么,以及何時(shí)運(yùn)用自己的知識(shí)。
但反對(duì)者認(rèn)為,一臺(tái)機(jī)器可以聊天,并不意味著它可以理解談?wù)摰木唧w內(nèi)容,因?yàn)檎Z(yǔ)言并不能窮盡知識(shí),相反,語(yǔ)言只是一種高度具體的、非常有限的知識(shí)表征。
所有的語(yǔ)言,無(wú)論是編程語(yǔ)言、符號(hào)邏輯還是口語(yǔ),都只是一種特定類型的表征模式,以極高的抽象級(jí)別表達(dá)離散的對(duì)象和屬性以及彼此之間的關(guān)系。
不過(guò),閱讀樂(lè)譜和聽音樂(lè)之間存在巨大的鴻溝,與演奏技巧之間的差異則更大。
語(yǔ)言表征更像是對(duì)某些具體信息的壓縮,例如描述不規(guī)則的形狀、物體的運(yùn)動(dòng)、復(fù)雜機(jī)制的功能等,其他非語(yǔ)言的表征也可以用一種可理解的方式來(lái)傳達(dá)信息,如圖像、錄音、圖表等。
語(yǔ)言的局限性
語(yǔ)言是一種帶寬非常低的傳輸方式,如果脫離上下文的話,孤立的單詞或句子能傳達(dá)出的信息量非常少,并且由于同音異義詞和代詞的數(shù)量很多,許多句子的語(yǔ)義都非常模糊。
喬姆斯基(Chomsky )在幾十年前就提出,語(yǔ)言并不是一種清晰且明確的溝通工具。
但人類并不需要一個(gè)完美的溝通工具,我們對(duì)一個(gè)句子的理解通常取決于句子出現(xiàn)的語(yǔ)境,從而推斷出句子的表達(dá)含義。
在大多數(shù)情況下,我們都在討論面前的事物,比如正在進(jìn)行的足球比賽,或是面對(duì)某些特定的社會(huì)角色,比如跟服務(wù)員點(diǎn)餐,交流一些明確的目標(biāo)。
在閱讀一篇短文時(shí),主要考察的是使用通用閱讀理解策略來(lái)理解文本內(nèi)容,但研究表明,兒童對(duì)某個(gè)主題的背景知識(shí)量實(shí)際上是影響理解的關(guān)鍵因素。
It is clear that these systems are doomed to a shallow understanding that will never Approximate the full-bodied thinking we see in humans.
很明顯,AI系統(tǒng)注定只能膚淺地理解世界,永遠(yuǎn)不會(huì)接近人類所具有的全面思維。
單詞和句子的固有上下文性質(zhì)是了解LLM如何運(yùn)行的關(guān)鍵。
神經(jīng)網(wǎng)絡(luò)通常將知識(shí)表示為know-how,即對(duì)上下文高度敏感,并能同時(shí)找到具體和抽象的規(guī)則,實(shí)現(xiàn)對(duì)任務(wù)相關(guān)的輸入進(jìn)行細(xì)微處理。
在LLM中,整個(gè)過(guò)程涉及到系統(tǒng)在現(xiàn)有文本的多個(gè)層次上識(shí)別模式,既可以看到單個(gè)單詞在段落中是如何連接的,也可以看到句子是如何連接在一起以構(gòu)建更大的篇章段落。
其結(jié)果是,LLM對(duì)語(yǔ)言的理解肯定是語(yǔ)境化的,在理解單詞時(shí)不是根據(jù)根據(jù)字典含義,而是根據(jù)其在不同句子集合中所起的作用。
并且,許多單詞的運(yùn)用,比如carbonizer, menu, debugging, electron等,幾乎只在特定領(lǐng)域使用,即使在一個(gè)孤立的句子中,該單詞也會(huì)帶有上下文語(yǔ)義。
簡(jiǎn)而言之,LLM的訓(xùn)練過(guò)程就是學(xué)習(xí)每個(gè)句子的背景知識(shí),尋找周圍的單詞和句子來(lái)拼湊上下文,使得模型能夠?qū)⒉煌渥踊蚨陶Z(yǔ)的無(wú)限可能性作為輸入,并想出合理的方法來(lái)繼續(xù)對(duì)話或續(xù)寫文章等。
一個(gè)接受過(guò)所有人類所寫的文章進(jìn)行訓(xùn)練的系統(tǒng),應(yīng)該可以具備對(duì)話所需的通用理解能力。
LLM學(xué)到的只是淺層知識(shí)
有些人并不認(rèn)為L(zhǎng)LM初步具備「理解」能力或所謂「智能」,批評(píng)者們認(rèn)為這些系統(tǒng)只是模仿的比較好而已,因?yàn)長(zhǎng)LM對(duì)語(yǔ)言的理解仍然十分膚淺,就像在教室里故作高深的學(xué)生,實(shí)際上他們并不知道自己在說(shuō)什么,只是對(duì)教授或課文的無(wú)意識(shí)模仿。
LLM對(duì)一切都有這種膚淺的理解。像GPT-3這樣的系統(tǒng)是通過(guò)屏蔽句子或段落中的未來(lái)單詞來(lái)訓(xùn)練的,并迫使機(jī)器猜測(cè)最有可能的單詞,然后糾正錯(cuò)誤的猜測(cè)。該系統(tǒng)最終能夠熟練地猜測(cè)最有可能的單詞,使其成為一個(gè)有效的預(yù)測(cè)系統(tǒng)。
比如GPT-3,只是通過(guò)對(duì)句子中的某些詞進(jìn)行遮罩,要求模型猜測(cè)具體的單詞,并進(jìn)行糾正而已,最終訓(xùn)練成為一個(gè)預(yù)測(cè)系統(tǒng)。
不過(guò)這種方式也讓我們對(duì)語(yǔ)言有了進(jìn)一步的理解,實(shí)際上,對(duì)于任何問(wèn)題或謎題來(lái)說(shuō),通常只有少數(shù)幾個(gè)正確答案,以及無(wú)數(shù)個(gè)錯(cuò)誤答案.
對(duì)于特定的語(yǔ)言技能來(lái)說(shuō),比如解釋笑話、單詞、邏輯難題等,實(shí)際上就是預(yù)測(cè)問(wèn)題的正確的答案,進(jìn)而使機(jī)器能夠執(zhí)行縮寫、重寫、復(fù)述等其他需要語(yǔ)言理解的任務(wù)。
正如符號(hào)AI所預(yù)期的那樣,知識(shí)的表征與上下文相關(guān),在給定前提的情況下輸出一個(gè)合理的句子。
Abandoning the view that all knowledge is linguistic permits us to realize how much of our knowledge is nonlinguistic.
放棄所有知識(shí)都是語(yǔ)言的觀點(diǎn),可以讓我們認(rèn)識(shí)到有多少知識(shí)不是用語(yǔ)言來(lái)表示的。
但是,從語(yǔ)言上解釋一個(gè)概念的能力與實(shí)際使用的能力是不同的。
比如一個(gè)語(yǔ)言系統(tǒng)可以解釋如何執(zhí)行某個(gè)算法,但它并不具備執(zhí)行能力;它也可以解釋哪些單詞是冒犯性的,但并不能使用。
進(jìn)一步分析還可以發(fā)現(xiàn),語(yǔ)言模型的注意力和記憶力只有一小段時(shí)間,更傾向于關(guān)注前兩句話,或是下一句話。
當(dāng)涉及到復(fù)雜的對(duì)話技巧,如積極傾聽、回憶和重溫先前的對(duì)話、堅(jiān)持一個(gè)主題以提出一個(gè)特定的觀點(diǎn),同時(shí)避開干擾因素等,語(yǔ)言模型的記憶力缺陷就暴露出來(lái)了,聊幾分鐘就會(huì)發(fā)現(xiàn)它們前后口徑不一致等問(wèn)題。
如果撤回太多,系統(tǒng)就會(huì)重啟,接受新觀點(diǎn),或者承認(rèn)它相信你所說(shuō)的一切,形成一個(gè)連貫世界觀所必需的理解遠(yuǎn)遠(yuǎn)超出了語(yǔ)言模型的知識(shí)范圍。
不止語(yǔ)言
雖然書籍包含了大量可以解壓和使用的信息,但其他格式的信息也很重要,比如宜家的使用說(shuō)明書上只有圖紙沒(méi)有文字,研究人員經(jīng)常先看論文中的圖表,掌握論文結(jié)構(gòu)后再瀏覽文字;游客可以沿著地圖上的紅線或綠色線在市區(qū)內(nèi)導(dǎo)航等。
人類在探索世界的過(guò)程中學(xué)到了很多東西,一個(gè)只接受語(yǔ)言訓(xùn)練的系統(tǒng),即使從現(xiàn)在開始訓(xùn)練到宇宙的盡頭,也無(wú)法擁有接近人類的智能,
語(yǔ)言之所以重要,是因?yàn)樗軌蛞孕「袷絺鬟_(dá)大量信息,特別是在印刷機(jī)和互聯(lián)網(wǎng)發(fā)明之后,可以很輕松地復(fù)制和大規(guī)模應(yīng)用。
但是壓縮語(yǔ)言信息并不是免費(fèi)的:要破譯一段晦澀難懂的文字需要很大的努力。
人文學(xué)科的課程可能需要大量的課外閱讀,這也可以解釋為什么一臺(tái)接受過(guò)語(yǔ)言訓(xùn)練的機(jī)器可以知道這么多,卻又了解得這么少。
它可以接觸到人類的所有知識(shí),但書籍中的每一句話又蘊(yùn)含了大量的信息,理解起來(lái)依然很難。
語(yǔ)言模型里沒(méi)有幽靈
當(dāng)然,語(yǔ)言模型的缺陷并不意味著機(jī)器很愚蠢,只能說(shuō)明它們的智能程度存在著內(nèi)在限制。
在很多情況下,我們實(shí)際上也并不需要一個(gè)接近于人類的智能體,比如我們不會(huì)把圖靈測(cè)試用在另一個(gè)人類身上,迫使其他人做多位數(shù)乘法等,大多數(shù)談話內(nèi)容都只是閑聊而已。
語(yǔ)言可能是我們探索世界的一個(gè)有用工具,但語(yǔ)言并不是智力的全部,深層的「非語(yǔ)言理解」能力是理解語(yǔ)言的基礎(chǔ),可以加深我們對(duì)世界的認(rèn)知,也能讓我們理解別人在說(shuō)什么。
這種非語(yǔ)言的、對(duì)情境敏感的、與生物相關(guān)、具身感知的知識(shí)是AI研究人員更關(guān)注的,而非語(yǔ)言學(xué)。
大型語(yǔ)言模型沒(méi)有穩(wěn)定的身體或持久的注意力來(lái)感知世界,僅從語(yǔ)言中能了解到的世界非常有限,所以學(xué)到的常識(shí)總是膚淺的。