編輯:杜偉
看阿里媽媽如何在數(shù)智商業(yè)技術(shù)新時代把握生成式大模型引領(lǐng)的這股 AI 浪潮。
2023 年已經(jīng)過半,可以說是屬于生成式 AI 大模型的一年。自 ChatGPT 推出以來,這股新的 AI 技術(shù)浪潮迅速席卷了國內(nèi)外。尤其是國內(nèi),科技大廠、初創(chuàng)公司和科研機構(gòu)陸續(xù)推出了近百個通用或特定領(lǐng)域?qū)俅竽P图皯?yīng)用產(chǎn)品。
隨之而來,行業(yè)企業(yè)也尋求自身業(yè)務(wù)場景與相關(guān) AI 技術(shù)的契合點。以當前企業(yè)發(fā)展中普遍達成共識的數(shù)智化經(jīng)營為例,也在積極探索大語言模型、多模態(tài)技術(shù)等對數(shù)智化升級和業(yè)務(wù)經(jīng)營效率與效果的提升。
在近日于武漢舉行的 2023ACM 中國圖靈大會 SIGAI China 論壇上,阿里媽媽及閑魚 CTO 鄭波分享了他關(guān)于數(shù)智商業(yè)技術(shù)的洞見。他認為,在這輪生成式 AI 大模型的驅(qū)動下,數(shù)智商業(yè)技術(shù)將進入 2.0 時代,其中知識驅(qū)動、邏輯推理和創(chuàng)造性將成為明顯的特征。
在其主題報告《知識、推理和創(chuàng)造,重塑數(shù)智商業(yè)技術(shù) —— 從北大 - 阿里媽媽人工智能創(chuàng)新聯(lián)合實驗室談起》中,鄭波介紹了阿里媽媽技術(shù)團隊針對不同業(yè)務(wù)場景,探索生成式 AI 大模型、多模態(tài)、引擎等技術(shù)的創(chuàng)新和應(yīng)用,為商家客戶和消費者提供精準、高效、高質(zhì)的產(chǎn)品和服務(wù)。
以下為鄭波老師的主題分享內(nèi)容,機器之心在不改變原意的前提下進行了整理。
數(shù)智經(jīng)營技術(shù)從 1.0 進入 2.0 時代
阿里媽媽做好了準備
大家知道,自去年 12 月底至今,一波以生成式 AI 大模型和 AIGC 為代表的 AI 技術(shù)浪潮正在深刻影響著未來的技術(shù)走向,學(xué)術(shù)界和工業(yè)界都在關(guān)注相關(guān)技術(shù)的發(fā)展。我將更多地從工業(yè)界視角分享阿里媽媽對數(shù)智商業(yè)技術(shù)的一些趨勢判斷和技術(shù)進展。
作為直接與商家客戶、消費者互動的平臺,我們觀察到,AI 技術(shù)正以前所未有的速度重塑和改變商業(yè)場景,技術(shù)變革的速度可以用「時新日異」來形容。
面向未來的數(shù)智商業(yè)技術(shù),我們認為將會呈現(xiàn)三個明顯特征,即知識驅(qū)動、邏輯推理和創(chuàng)造性。未來將形成基于認知和常識、端到端鏈路有推理和執(zhí)行過程的、更有創(chuàng)造性的數(shù)智商業(yè)技術(shù)。
基于此,我們判斷數(shù)智商業(yè)技術(shù)將從 1.0 時代進入 2.0 時代。1.0 時代以在線經(jīng)營、基于數(shù)據(jù)統(tǒng)計和經(jīng)驗判斷的數(shù)字經(jīng)營為主,而 2.0 時代將會是知識經(jīng)營、基于 AI 的決策執(zhí)行和因果推斷的創(chuàng)造性智能經(jīng)營時代。
同時 1.0 時代更多是從領(lǐng)域數(shù)據(jù)、有監(jiān)督學(xué)習(xí)等 AI 技術(shù)出發(fā),2.0 時代則將從生成式 AI 大模型、多模態(tài)技術(shù)以及對數(shù)據(jù)的更有效運用等新變化出發(fā)。除了進一步重塑和改變商業(yè)場景之外,2.0 時代將深刻影響商家經(jīng)營方式、消費者購物體驗等。
在這種新的趨勢下,阿里媽媽立足知識驅(qū)動、邏輯推理和創(chuàng)造性三大方向,通過生成式 AI 大模型等領(lǐng)域的技術(shù)探索和研究應(yīng)用,形成領(lǐng)先的全棧式技術(shù)體系,將最前沿的 AI 技術(shù)應(yīng)用到多樣化商業(yè)場景中來。具體如下:
- 探索大語言模型、多模態(tài)、大模型引擎技術(shù)在智能營銷 Agent、聯(lián)盟廣告分析(智能問答助手)等知識驅(qū)動方面的應(yīng)用;
- 在邏輯推理方面,通過增強分析以及包括 AIDA、Neural Auction、AIGB 等 AIGA 決策智能技術(shù)算法體系,幫助商家進行投放決策和精準評估,管理大規(guī)模的人群、商品和內(nèi)容資產(chǎn);
- 在創(chuàng)造性方面,通過營銷創(chuàng)意工具、智能設(shè)計等幫助商家自由生產(chǎn)創(chuàng)意;
- 通過內(nèi)容風(fēng)控和防作弊等幫助商家和平臺更精準識別和處理風(fēng)險,降低損失。
- 接下來一一來看阿里媽媽在知識驅(qū)動、邏輯推理和創(chuàng)造性三個方面的應(yīng)用進展。
知識驅(qū)動篇
多模態(tài)賦能商品檢測
& 大模型服務(wù)引擎貫穿多場景
在知識驅(qū)動方面,我首先介紹多模態(tài)技術(shù)深度應(yīng)用工業(yè)場景的案例 —— 拍立淘。在手機淘寶中,用戶會使用拍立淘拍照搜索來準確表達搜索意圖,通常是想要找同款或者比較價格。因此,充分理解 Query 圖片和商品,實現(xiàn)同款商品準確檢測,不僅影響用戶體驗,也決定了商家對這部分精準用戶的有效投放。
可以說,廣告投放的多個環(huán)節(jié)都涉及到多模態(tài)技術(shù)的運用。我們首先針對商品主體檢測,提出基于文本 prompt 的多模態(tài)目標檢測方法,通過文本和圖片主體的對齊來提升目標檢測效果,相比單模態(tài)方法在檢測 mAP 指標上提升 2.1%。
在識別主體后,我們通過多階段的表征預(yù)訓(xùn)練框架,訓(xùn)練了面向同款檢索的商品多模態(tài)表征,并通過高性能向量化檢索引擎實現(xiàn)在線實時同款商品召回,top100 召回商品同款率超過 98%。
對于商品多模態(tài)統(tǒng)一預(yù)訓(xùn)練表征,我們使用了預(yù)訓(xùn)練 + 微調(diào)的兩階段訓(xùn)練范式。第一階段使用超過百億級電商圖文語料,采用圖文掩碼建模任務(wù)做無監(jiān)督預(yù)訓(xùn)練,讓模型在見過更多數(shù)據(jù)后,學(xué)得更好的圖文編碼器;第二階段使用超過十億級拍立淘成交圖文對,采用對比學(xué)習(xí)任務(wù)做有監(jiān)督微調(diào),并在 loss 上同時對齊圖像、文本和圖文,不同模態(tài)之間更好地對齊。
為了支持多模態(tài)模型的高效訓(xùn)練,阿里媽媽技術(shù)團隊研發(fā)了基于 MDL 訓(xùn)練框架和 AiLake 存儲系統(tǒng)的大規(guī)模多模態(tài)訓(xùn)練平臺。目前基于 100 張 A100 卡,我們可以在兩天內(nèi)完成 50 億量級樣本的訓(xùn)練。
除了商品檢索的多模態(tài)技術(shù)創(chuàng)新,阿里媽媽還針對智能創(chuàng)意、營銷分析、平臺提效、業(yè)務(wù)反作弊等多樣化商業(yè)場景開發(fā)了 AI Serving4LM(大模型服務(wù))引擎,具備千億參數(shù)規(guī)模的大模型服務(wù)能力。
邏輯推理篇
決策智能、增強分析助力商家精準投放
在邏輯推理方面,我將首先介紹阿里媽媽的決策智能技術(shù)體系。
我們以智能營銷決策大模型 AIGA(AI Generated Action)為核心塑造了智能營銷技術(shù)體系,其中 RL-based Bidding(基于強化學(xué)習(xí)的出價)幫助商家顯著提升營銷效果,Learning-based Auction Design(基于學(xué)習(xí)的拍賣機制設(shè)計)更加高效地統(tǒng)籌優(yōu)化多方利益。該技術(shù)體系完整架構(gòu)如下圖所示。
智能商業(yè)化策略解決的是,什么樣的資源進行拍賣對平臺最高效且最能平衡用戶體驗和商業(yè)收入。
智能拍賣機制決定了流量資源分配給哪些廣告主以及扣多少錢,其本身也是一個可決策問題。我們提出并落地了 Deep GSP、Neural Auction、Two-stage Auction 等多個創(chuàng)新算法。
智能出價策略面向精細化出價的決策過程,通過多參出價策略、RL 參數(shù)優(yōu)化或建模范式(如 Max Return 等)進行優(yōu)化。
底層是基于算法的工程架構(gòu),包括海量數(shù)據(jù)實時處理、ODL(在線深度學(xué)習(xí))模型訓(xùn)練等,它們構(gòu)成技術(shù)體系的基礎(chǔ)。
其實,我們團隊很早就開始嘗試用生成式大模型重塑智能營銷技術(shù)體系,并衍生出了 AIGB(AI Generated Bidding)領(lǐng)域技能模型。作為一種基于生成式模型的出價模型優(yōu)化方案,AIGB 將策略建模作為條件生成模型,消除了以往 RL 學(xué)習(xí)視角下的復(fù)雜性問題。
具體地,我們引入生成式模型將序列決策問題建模為一個序列動作生成問題。模型通過擬合歷史軌跡數(shù)據(jù)中的行為模式,達到策略輸出的目標。從結(jié)果來看,在通用數(shù)據(jù)集上,相較主流 RL 方法取得較好效果提升,為 Bidding 建模提供了一個可用的迭代方案。
接下來講如何利用數(shù)據(jù)進行決策。對于淘寶平臺上百萬級中小商家而言,利用數(shù)據(jù)驅(qū)動決策的能力是可望不可及的。因此,我們希望借助 LLM,讓數(shù)據(jù)轉(zhuǎn)化為知識,并讓知識普惠所有商家尤其是中小商家的經(jīng)營決策。
如何實現(xiàn)呢?具體流程可以參考如下 demo。首先利用 LLM 理解客戶意圖、分析任務(wù)規(guī)劃;然后在分析層,OLAP 引擎對多維數(shù)據(jù)集進行分析模型的自動化探查,向客戶提供描述性、診斷性、預(yù)測性和行動性知識;最后 AI analyst 將這些領(lǐng)域知識和洞見以 Data Story 的形式向客戶解讀。并且,這些功能將在隨后的產(chǎn)品中逐步開放給商家。
總之,通過增強分析,我們希望發(fā)揮數(shù)據(jù)在高質(zhì)量業(yè)務(wù)決策中的關(guān)鍵作用,獲得更深刻、敏捷的數(shù)據(jù)洞察。
最后來看智能營銷引擎,我們形成了多模態(tài)應(yīng)用范式驅(qū)動的交互式策略生成技術(shù)工程體系。在邏輯推理的工程引擎方面,為了更好地提升客戶投放效率和效果,阿里媽媽自研超融合多模智能引擎 HME。
目前我們已經(jīng)形成覆蓋 OLAP、AI、Streaming、Batch、運籌優(yōu)化五大方向的智能超融合引擎,圍繞洞察 - 策略 - 投放 - 衡量的全鏈路場景,解決商家多經(jīng)營目標組合優(yōu)化的難題。
創(chuàng)造性篇
用創(chuàng)意服務(wù)為商家減負和增效
至于阿里媽媽的創(chuàng)造性方面,我將通過以下幾個場景具體展開。
第一個場景是智能圖文創(chuàng)意。針對很多中小商家沒有制作創(chuàng)意圖預(yù)算的情況,我們利用內(nèi)容生成技術(shù)為他們制作創(chuàng)意圖片。目前每天為百萬商家制作數(shù)以億計的商品創(chuàng)意圖。
同時為了讓創(chuàng)意圖片更美觀且更原生,我們研發(fā)一整套圖片制作算法,包括 AI for 底圖生成、圖片智能布局和基于上下文的多模態(tài)圖上文案生成。
流程是這樣的:首先對商品建模,利用擴散模型對商品前景生成不同氛圍且融合度高的背景,裁剪尺度合適的圖片;然后選擇適合圖片的文案、襯底、Logo 或其他裝飾元素;最后根據(jù)預(yù)測出的文本框位置、大小及周圍顏色紋理,預(yù)測應(yīng)該寫什么文字。
第二個場景是虛擬模特。淘寶服飾商家會請模特來試穿,模特本身、布景、拍攝都要花不少錢。針對此,我們利用創(chuàng)意生成技術(shù)研發(fā)虛擬試裝模特。
下圖左為虛擬模特穿售賣衣服的圖片,其中模特的性別、年齡、膚色、發(fā)型以及背景場景都可以個性化選擇。商家基于自售衣服的特點選擇屬性,然后根據(jù)投放結(jié)果進行優(yōu)化,時間和制作成本大大減少。
我們在技術(shù)上獨創(chuàng)前、背景多次生成的流程,利用局部紋理控制網(wǎng)絡(luò)來精細控制生成內(nèi)容,并根據(jù)特有任務(wù)定制化訓(xùn)練基礎(chǔ)模型,解決了目前模特換裝中服飾還原度不夠和前背景邊緣不清晰問題。
第三個場景是多種風(fēng)格字體生成。商家做創(chuàng)意有時要花錢購買商用字體,我們?yōu)樗麄兲峁┝硕嗫蠲赓M、有特色的字體。如何做到呢?我們借鑒古代石碑、書籍中獨具風(fēng)格的文字,利用 AI 字體風(fēng)格生成技術(shù)學(xué)習(xí)建模一種字體風(fēng)格,再推廣到所有常用字,得到一種可用字體。
如下圖左,我們根據(jù)東晉著名碑刻拓印「爨 (cuan) 寶子碑」和顏真卿真跡「多寶塔碑」分別訓(xùn)練成了「阿里媽媽刀隸體」和「阿里媽媽東方大楷」。目前我們一共免費開放了 5 種字體。這些字體采用我們自研的字體風(fēng)格遷移算法,提出了內(nèi)容融合和投影字符損失等創(chuàng)新模塊,發(fā)表在了 CVPR 2023 上,遷移效果業(yè)界領(lǐng)先。
除了通過上述多個創(chuàng)意性產(chǎn)品來為中小商家「減負」和「增效」,阿里媽媽一直希望推動 AI 技術(shù)普惠,讓更多中小商家享受科技紅利。這里我要談一談阿里媽媽的 AI 技術(shù)產(chǎn)品 —— 萬相臺,從媒體流量變現(xiàn)切換到商家經(jīng)營需求視角,通過 AI 技術(shù)在全域流量上最大化滿足商家拉新、上新、大促等不同營銷需求,助力生意增長。
萬相臺的全鏈路流程。
除了深耕于融合業(yè)務(wù)場景的技術(shù)創(chuàng)新和應(yīng)用,我們也非常看重工業(yè)界與學(xué)術(shù)界的深度融合、相互促進。我認為現(xiàn)在也是學(xué)術(shù)界和工業(yè)界更加緊密聯(lián)系的一個契機,雙方通過產(chǎn)學(xué)研等合作方式,可以實現(xiàn)從 AI 理論到工業(yè)實際應(yīng)用場景的落地。
因此, 阿里媽媽正和國內(nèi)眾多知名高校、研究機構(gòu)開展多個方向、多個項目的產(chǎn)學(xué)研合作,其中代表性的是 2022 年 9 月成立的「北大 - 阿里媽媽人工智能創(chuàng)新聯(lián)合實驗室(PAAI)」,重點攻關(guān) AI 理論和創(chuàng)新算法研究。自成立以來,實驗室已在大規(guī)模圖模型、決策智能和智能音樂生成等方向有了一些研究成果和應(yīng)用。
目前實驗室已有 5 篇以上論文被 KDD、IJCAI、WWW 等國際一流頂會接收,大規(guī)模圖模型和決策智能技術(shù)在阿里媽媽應(yīng)用場景的落地也在有序上線準備中,智能音樂生成方向也完成了廣告配樂小樣的生成。
感興趣的讀者可以訪問該實驗室網(wǎng)站:http://paai.pku.edu.cn