在科幻電影《2001:太空漫游》和《流浪地球》中,人工智能形象如HAL 9000和Moss展現了高效、理性且邏輯嚴密的特性,引發了人類對智能機器的無盡遐想。隨著大語言模型和深度學習技術的快速發展,人類對于“超級AI”的期待愈加強烈。然而,要實現Moss那樣的“全能助手”,仍需跨越諸多技術障礙,其中最大的挑戰之一便是如何讓AI迅速理解并應對各種復雜場景,而不必依賴海量的數據。
最近,Karl Friston在arxiv上發表了一篇題為“Renormalising generative models:From pixels to planning: scale-free active inference”的論文,提出了一種創新的解決方案。通過主動推理(Active Inference)構建的尺度不變的生成模型(Renormalising Generative Model, RGM),該論文將分類、預測與規劃等問題轉化為推理問題,并利用最大化模型證據的統一框架,有效解決了視覺數據、時序數據分類及強化學習中的多種挑戰。得益于重整化群技術的引入,該方法能夠高效處理大規模數據集。
主動推理是一種基于當前觀察現象預測未來的模型。它不僅僅是被動等待事件發生,而是通過主動觀察推斷事件的原因。以網球比賽為例,球的飛行軌跡如同一棵不斷展開的“可能樹”,每次擊球都為這棵樹增添新的分支。選手需在眾多可能的路徑中做出選擇,這既取決于自身技術,也受制于對手策略。主動推理中的“自由能”代表了模型對所處環境“沒看明白”的程度,通過觀察和主動行動,選手可以降低這種不確定性,做出最佳決策。
RGM通過主動推理將分類、預測與規劃等問題轉化為推理問題,并通過重整化群技術在多層次、多尺度上處理數據。以圖像為例,模型首先會將連續的像素值轉化為離散值,然后通過分塊處理和變換,逐層簡化圖像,直到達到更高層次。這種多層次處理不僅減輕了計算負擔,還能跨時間、跨空間進行運算,提高模型效率。
在圖像和視頻處理方面,RGM展現了顯著的效果。通過對圖像進行量化、分塊和奇異值分解,模型實現了圖像的初步壓縮。重復這種分塊處理和變換,模型能夠學習到圖像的多層次結構,并根據不同層次之間的結構關系生成圖像。以MNIST數字分類問題為例,RGM通過主動學習優化模型參數,達到了先進的分類準確性。
除了圖像,RGM還可應用于視頻和音頻數據的處理。在視頻生成方面,模型會考慮時間的變化,將時間分成不同的“尺度”,并在每個時間層次上進行轉換,確保幀之間的過渡自然。在音頻處理方面,模型將像素替換為頻率和時間上的體素,通過連續小波變換和逆變換處理聲音數據,實現聲音的壓縮和復現。
RGM還可應用于規劃推理,幫助智能體在不確定性下進行決策。在主動推理框架下,智能體的行動基于對未來結果的后驗預測,通過貝葉斯規劃進行推理,減少了不確定性。以Atari類游戲為例,RGM可以從隨機動作的結果序列中自動組裝出能夠以專家水平進行游戲的智能體。
Friston及其同事的研究表明,基于重整化群的離散狀態空間模型(RGM)在多種場景下均表現出色。通過最小化預期自由能,RGM能夠高效處理大規模數據集,并在圖像、視頻、音頻及規劃推理等領域展現出巨大潛力。未來,隨著技術的不斷發展,RGM有望在更多應用場景中發揮重要作用,推動人工智能向更高水平邁進。