作者:澤南、杜偉
生成式 AI 上端側,要用真正的技術。
早晚會有這一天,但它還是比想象來得早了一些:大模型在手機上運行的預言被實現了。
上個月的計算機視覺學術頂會 CVPR 上,生成式 AI 成了重要方向,高通會議中展示了一把未來有望成為「主流」的 AI 應用:用手機跑大模型 AI 畫圖。
CVPR 是 AI 領域最負盛名的重要會議,我們曾在其中見證過人工智能的幾次重要突破,今年在獲獎和入圍的論文中,既有通用大模型,也有 AI 畫圖的研究,可謂一下進入了生成式 AI 的新時代。
在 CVPR 2023 上,高通共有八篇論文被主會議收錄,并行的展示覆蓋生成式 AI、計算機視覺、XR 和自動駕駛汽車等領域的理論創新,以及應用方向。
在這場最先進技術的碰撞中,有不少令人期待的未來圖景。
15 億大模型,手機 12 秒跑完
幾個月前,高通就曾在巴塞羅那 MWC 通信展上玩了一把手機跑 Stable Diffusion。此次對于終端側生成式 AI,高通首先展示了完全在Android/ target=_blank class=infotextkey>安卓手機上運行 Contro.NET 圖像生成圖像模型,并實現了速度「全球最快」。
用時是多少呢?不到 12 秒。要知道,ControlNet 擁有 15 億參數,而二月份高通演示在手機上運行 10 億參數的 Stable Diffusion,當時還花了 15 秒左右。
這讓人不得不感嘆,終端側的生成式 AI 能力又進化了。
作為一種生成式 AI 繪畫解決方案,ControlNet 被認為是擴散模型中的大殺器,它通過額外輸入控制預訓練大模型如 Stable Diffusion,可以精細地設定生成圖像的各種細節。先輸入一張參考圖,然后根據輸入的 prompt 進行預處理,就能對生成的圖像進行精準控制。
此次在高通 AI Research 的展示中,普通安卓手機僅用 11.26 秒便可以運行 ControlNet 生成一張圖片,并且無需訪問任何云端,完全本地化,交互式體驗良好且運行非常高效。下面是一個動圖演示:
我們知道,AI 畫圖的教程里通常會有對計算機配置的建議,在 ControlNet 上訓練需要 16G 顯存的 GPU,而推理用 M1 芯片需要 5 到 10 分鐘,高通卻能讓手機做到效率更高,這是如何實現的呢?
高通此次對 ControlNet 模型架構進行了軟硬件全棧式 AI 優化,以低功耗、低延遲地實現高質量圖像生成。其中用到的關鍵 AI 工具和軟硬件包括了高通 AI 模型增效工具包(AIMET)、高通 AI 引擎和高通 AI 軟件棧。我們一一來看。
首先是 AIMET,它是高通創新中心推出的端側 AI 模型效率工具包,能夠提供模型量化和壓縮服務,通過量化感知訓練,將浮點運算模型轉化為整數運算模型。此處高通利用 AIMET 及 Qualcomm AI Studio 完成 ControlNet 模型的 INT8 量化壓縮,節省更多功耗,提升運行效率。
其次是高通 AI 引擎,它是高通終端側 AI 優勢的核心,采用異構計算機構,包括高通 Hexagon 處理器、Adreno GPU 和 Kryo CPU。目前高通第二代驍龍 8 搭載了迄今最快、最先進的高通 AI 引擎。ControlNet 正是在第二代驍龍 8 的高通 Hexagon 處理器上,完成了 AI 加速。
還有高通 AI 軟件棧負責應用的構建、優化和部署。在跑 ControlNet 時,高通 AI 引擎 Direct 框架基于 Hexagon 處理器的硬件架構和內存層級進行運算排序,提升性能并最小化內存溢出,降低運行時延和功耗。
這么一套集 AI 模型壓縮工具、硬件和軟件框架于一體的全棧式優化下來,在手機上十幾秒跑大模型的不可能變成了可能。
接近落地,可以展示
除了給 AI 繪畫做移動版優化,高通還在數字人、神經網絡視頻編解碼等其他技術方向進一步探索 AI 能力的延展。
在 CVPR 上,利用基于視覺的大語言模型(LLM),高通打造了一個「數字健身教練」,它能夠與用戶實時互動,像真人教練一樣給予鼓勵,還能糾正并幫助達成自己的健身目標。既然是大模型驅動,AI 教練實現了極強的互動性,看起來健身私教要開始焦慮了。
在技術上,數字健身教練將用戶的運動視頻流交給動作識別模型進行處理,根據識別的動作提供提示并反饋給大模型。然后健身教練通過一個文本生成語音的數字化身,將 AI 的答復反饋回用戶。
得益于大模型的能力,數字化身能夠實時、不間斷地為用戶提供相關的健身反饋,比如「你的形體看起來棒極了」、「你的雙臂應與肩膀同寬」。
現在看起來和 AI 訓練就不能偷懶了,它會對用戶的健身互動進行評估,給出你的耐力、強度和形體分數,還告訴完成了多少組動作。同時也會給用戶提出相關建議。
與此同時,在神經網絡視頻編碼這一技術方向,高通又實現一個「全球首次」。同樣是在手機端,高通首創了 1080p 的視頻編碼和解碼過程。
對于神經網絡編解碼而言,它可以針對特定視頻需求進行定制,并運行在通用 AI 硬件上。在計算能力有限的終端設備上實現高分辨率(如 1080p、2k 等),則要借助 AI 算法的創新。
高通全新設計了高效的神經網絡視頻幀間壓縮架構,在搭載驍龍芯片的手機設備上,實現了 1080p 的視頻編解碼,視頻解碼速率也來到了每秒 35 幀上下,并且能夠保留豐富的視覺結構和復雜動作。
看起來,移動端生成式 AI、神經視覺編碼領域的很多技術已接近應用層,落地的速度追上了 GPT 系列更新的速度。高通在做的事,解決了生成式 AI 面臨的大問題。
生成式 AI 的未來在端側
我們知道,生成式 AI 有重塑所有行業的潛力,人工智能正在經歷自己的閃耀時刻,問題在于:生成式 AI 雖然更聰明,但也更耗費算力。
有研究表示,每次基于生成式 AI 的網絡搜索查詢(query),其成本是傳統搜索的 10 倍。全球每天都有超過 100 億次搜索請求,而且,移動端的搜索占比超過了 60%。
除了要買更多 GPU,我們更要考慮的是如何能讓大模型跑在手機上 —— 畢竟大家每天在用的都是端側設備。
對此,高通已有一個整體的規劃。今年 4 月,高通通過介紹「混合 AI」的概念,提出了大模型等 AI 任務處理在云端和終端共同進行的范式。
所謂混合 AI,是指充分利用邊緣側終端算力支持生成式 AI 應用的方式,相比僅在云端運行的 AI,前者能夠帶來高性能、個性化且更安全的體驗。
在其愿景下,我們根據 AI 模型和查詢需求的復雜度等因素,選擇不同方式在云端和終端側之間分配負載:如果模型、提示或生成內容的長度小于某個限定值,且精度足夠,推理就可以完全在終端側進行;如果任務相對復雜,則可以部分依靠云端模型;如果需要更多實時內容,模型也可以接入互聯網獲取信息。
在未來,不同的生成式 AI 用不同分流方式的混合 AI 架構,AI 也能在此基礎上持續演進:
大量生成式 AI 的應用,比如圖像生成或文本創作,需求 AI 能夠進行實時響應。在這種任務上,終端可通過運行不太復雜的推理完成大部分任務。
在終端設備充當「感知器官」的任務中,終端負責初步處理任務,云端運行大模型將生成的內容發回端側,這種操作節省了算力需求和帶寬。
終端和云端的 AI 計算也可以協同工作來處理 AI 負載。在大模型的工作過程中,每次推理生成的標記(token)都需要讀取全部參數才能完成,使用閑置算力通過共享參數來推測性并行運行大語言模型,可以提升性能并降低能耗。
最后,混合 AI 還支持模型在終端側和云端同時運行,也就是在終端側運行輕量版模型時,在云端并行處理完整模型的多個 token,并在需要時更正終端側的處理結果。
混合 AI 覆蓋的邊緣終端包括智能手機、汽車、個人電腦和物聯網終端設備,或許會成為未來生成式 AI 應用的標準。
但如何做到混合 AI ?對此,必須對 AI 的全棧進行優化。在生成式 AI 出現以前,高通就在推動 AI 處理向邊緣進行轉移。很多的日常功能,都是利用終端側 AI 進行支持的,如暗光拍攝、降噪和人臉解鎖。
如今,高通已構建起業界領先的硬件和軟件解決方案,從端側芯片上的高通 AI 引擎,云端專用芯片,到將其統一在一起的異構計算機制,在運行 AI 負載時,高通現在已可以充分利用硬件和軟件來加速終端側 AI 的推理速度。
而在部署時,利用高通 AI 軟件棧,開發者可以充分發揮高通 AI 引擎性能,并實現多端部署,模型構建一次,就可以應用到多種不同硬件上。
在高通的業務中,低功耗、高性能的 AI 已經形成了橫跨智能手機、汽車、XR、PC 和企業級 AI 等領域的龐大終端 AI 生態系統。從拍照,語音助手,到增強 5G 信號的黑科技,持續利用先進 AI 技術,讓這家公司保持了市場領先的地位。
在這背后,是高通 AI Research 對 AI 研究超過 15 年的持續投入。高通一直致力于 AI 基礎技術的研究,從感知、推理再到認知,我們見證了終端 AI 技術的不斷拓展。而在這個過程中,由高通發表的 AI 論文也逐漸影響了整個行業。
僅在生成式 AI 上,最初高通探索了生成式模型的壓縮方式,并進一步提升了生成痕跡(Artifact)的感知效果,其利用 VAE 技術創建的視頻和語音編解碼器,將模型規模控制在了 1 億參數以下。高通還將生成式 AI 理念延伸到無線領域來替代信道模型,提高了手機通信的效率。
CVPR 2023 上展示的技術,是高通生成式 AI 布局的重要一環。隨著端側 AI 計算能力的持續優化,混合 AI 的潛力將會進一步被釋放。預計在未來幾個月,高通還要在手機上部署超過 100 億參數的大模型。
生成式 AI 可以打造全新體驗,變革生產力水平,高通在邊緣側以低功耗運行生成式 AI 的獨特專長,讓生成式 AI 具有了融入人們日常生活的可行性。這些能力將會跟隨全球出貨的數十億塊芯片,很快進入到人們的手中。
在本周上海舉行的世界人工智能大會 WAIC 上,高通將會有多位高管參與演講,并有望在現場展示移動端運行 Stable Diffusion、ControlNet 等能力,讓來看展的人可以近距離接觸一下未來。