商湯科技首席科學家林達華近期發(fā)表深度文章,深入探討了多模態(tài)通用智能的發(fā)展路徑。文章指出,AI的終極目標在于通過計算模擬智能,而智能的本質(zhì)是自主與外界交互的能力,涵蓋感知、推理、決策、學習等多個層面。
林達華在文章中強調(diào),語言雖是人類智能的重要表現(xiàn),但并非智能的本質(zhì)。他提出,語言僅為描述世界的工具,而非世界本身,因此,單純依賴語言模型難以構建真正意義上的通用人工智能(AGI)。
盡管大語言模型被視為通往AGI的關鍵一步,但林達華認為,隨著AI不斷吸收現(xiàn)有的文本數(shù)據(jù),未來的突破將需要超越語言本身,回歸到智能的本質(zhì)——即與世界進行交互。他指出,要實現(xiàn)AI的通用性,AI系統(tǒng)必須能夠像人類一樣通過感官接收信息,并將這些信息轉化為可計算的內(nèi)部表示。
林達華進一步闡述,多模態(tài)信息的感知與處理是AGI的核心要求,也是實現(xiàn)從語言模型向AGI跨越的必經(jīng)之路。這意味著AI系統(tǒng)需要能夠理解和處理來自不同模態(tài)的信息,如視覺、聽覺和觸覺等,以實現(xiàn)更全面的智能。