近期,中國(guó)科學(xué)院自動(dòng)化研究所的科研團(tuán)隊(duì)在人工智能領(lǐng)域取得了令人矚目的進(jìn)展。他們的一項(xiàng)研究發(fā)現(xiàn),多模態(tài)大語(yǔ)言模型在訓(xùn)練進(jìn)程中竟然能夠自主地“領(lǐng)悟”事物,且這種理解模式與人類的認(rèn)知機(jī)制高度相似。這一重大發(fā)現(xiàn)不僅為探索人工智能的認(rèn)知機(jī)制開辟了全新的方向,也為未來構(gòu)建具備人類般理解世界能力的人工智能系統(tǒng)奠定了堅(jiān)實(shí)的理論基礎(chǔ)。相關(guān)研究成果已在權(quán)威期刊《自然?機(jī)器智能》上發(fā)表。
理解,作為人類智能的核心要素,使我們能夠全面把握事物的本質(zhì)。當(dāng)我們目睹“狗”或“蘋果”時(shí),不僅能辨識(shí)其外在特征,如尺寸、色彩和形態(tài),更能領(lǐng)會(huì)其用途、情感價(jià)值及文化內(nèi)涵。這種全方位的理解構(gòu)成了我們認(rèn)知世界的基石。隨著ChatGPT等大模型的蓬勃興起,科學(xué)家們開始探究這些模型是否也能從海量文本和圖像中習(xí)得類似人類的理解能力。
以往的人工智能研究大多聚焦于物體識(shí)別的精確度,卻很少探討模型是否真正“領(lǐng)悟”了物體的深層含義。中國(guó)科學(xué)院研究員何暉光強(qiáng)調(diào),盡管當(dāng)前的人工智能能夠區(qū)分貓狗圖像,但這種“識(shí)別”與人類對(duì)貓狗的“理解”之間存在著本質(zhì)的差異,仍需深入研究。
為了揭示這一奧秘,科研團(tuán)隊(duì)借鑒人類大腦的認(rèn)知機(jī)制,精心設(shè)計(jì)了一項(xiàng)實(shí)驗(yàn):讓大模型與人類共同參與“找不同”游戲。他們從上千種常見物品中挑選出三組物品,要求參與者找出其中不合群的一個(gè)。通過對(duì)數(shù)百萬(wàn)次判斷數(shù)據(jù)的分析,科研人員首次描繪出大模型的“思維藍(lán)圖”,即“概念圖譜”。
研究結(jié)果顯示,科學(xué)家們歸納出66個(gè)表征人工智能“理解”事物的關(guān)鍵維度,這些維度不僅易于闡釋,而且與人類大腦中負(fù)責(zé)物體處理的神經(jīng)活動(dòng)模式高度契合。尤為重要的是,能夠同時(shí)處理文本和圖像的多模態(tài)模型在“思考”和選擇方面展現(xiàn)出與人類更為接近的模式。
值得注意的是,人類在進(jìn)行判斷時(shí),會(huì)綜合考慮物體的外觀特征及其意義或用途,而大模型則更傾向于依賴其所獲取的“文本標(biāo)簽”和抽象概念。這一發(fā)現(xiàn)表明,大模型確實(shí)發(fā)展出了一種與人類頗為相似的理解世界的方式,標(biāo)志著人工智能理解能力邁入了新的發(fā)展階段。