當(dāng)數(shù)字人,從一項技術(shù)創(chuàng)新的產(chǎn)物,真正成為一個產(chǎn)業(yè),走向大規(guī)模的落地應(yīng)用,未來將如何轉(zhuǎn)化為現(xiàn)實生產(chǎn)力,如何形成完整的商業(yè)模式,如何推動下一階段的創(chuàng)新?技術(shù)路線還將發(fā)生哪些演進(jìn)?全真互聯(lián)的到來,將推動數(shù)字人出現(xiàn)在哪些全新的生產(chǎn)、生活場景?
12月20日,由騰訊云智能、騰訊研究院、創(chuàng)業(yè)黑馬聯(lián)合主辦的“數(shù)字人產(chǎn)業(yè)發(fā)展趨勢解讀”在線上舉行。騰訊云智能數(shù)智人產(chǎn)品總經(jīng)理陳磊、創(chuàng)業(yè)黑馬產(chǎn)業(yè)加速器總經(jīng)理馮莎莎,北京理工大學(xué)光電學(xué)院研究員、博士生導(dǎo)師、數(shù)字栩生創(chuàng)始人兼CTO翁冬冬,南方都市報官微運營部總監(jiān)申鵬,與線上觀眾共同解析、探討數(shù)字人產(chǎn)業(yè)發(fā)展趨勢。
01AI驅(qū)動數(shù)字人交互能力快速提升
技術(shù)進(jìn)步是數(shù)字人發(fā)展的第一推動力。在2022騰訊全球數(shù)字生態(tài)大會上,騰訊研究院、騰訊云智能和創(chuàng)業(yè)黑馬,共同發(fā)布了《數(shù)字人產(chǎn)業(yè)發(fā)展趨勢報告[2023] 》(以下簡稱“報告”)。《報告》指出,數(shù)字人的核心技術(shù)主要包括計算機(jī)圖形學(xué)、動作捕捉、圖像渲染、AI等,隨著各項技術(shù)的不斷迭代,正推動數(shù)字人制作效能和智能水平持續(xù)提升。
翁冬冬用四個關(guān)鍵詞總結(jié)數(shù)字人的發(fā)展:第一,高逼真:從信息交流學(xué)、傳播學(xué)角度來講,只有通過表情、眼神、肢體才能精準(zhǔn)地傳遞情感和信息,所以數(shù)字人具備高逼真的外觀是精準(zhǔn)傳遞信息的剛需;第二,實時化:數(shù)字人與人類的情感傳遞、互動是趨勢,在這種情況下,技術(shù)支持需要滿足數(shù)字人實時交互的需求;第三,智能化:在數(shù)字人生成和驅(qū)動中,AI算法起到至關(guān)重要的作用;第四,虛實融合:目前人機(jī)交互方式通過屏幕和人進(jìn)行交互,這種環(huán)境下數(shù)字人能夠起到的作用非常局限,未來在VR、AR場景下,數(shù)字人作為一種新型人機(jī)交互窗口,具有不可替代的作用。
陳磊表示,數(shù)字人作為AI綜合類的應(yīng)用,本質(zhì)上來說是承載全鏈條整合AI能力的“實體化”載體。例如,騰訊云智能數(shù)智人集合了騰訊內(nèi)部多個團(tuán)隊的優(yōu)勢 AI能力,在人像建模方面,通過優(yōu)圖實驗室的相關(guān) AI技術(shù),可以做到憑借幾張照片就快速生成寫實級的人臉;在動作綁定環(huán)節(jié),例如將動作從 A數(shù)智人遷移到 B數(shù)智人,可以利用 IEG的 NExT Studios團(tuán)隊的動作和表情遷移工具,快速綁定,相比于傳統(tǒng)的需要用動捕設(shè)備從零開始采集動作大大提升了生產(chǎn)效能;對話式 AI,由云智能語音 AI技術(shù)支撐;多情感驅(qū)動能力,由 AI Lab的相關(guān)支持等等。
與市面上流行的“數(shù)字虛擬人”、“AI數(shù)字人”等概念不同,騰訊云智能對數(shù)字人的定位傾向于“數(shù)智人”,屬于“交互智能入口級”相關(guān)的應(yīng)用。陳磊表示,數(shù)智人的生產(chǎn)運營主要考慮兩個維度,一是更加智能,從數(shù)字人的形象到驅(qū)動再到交互,每一個技術(shù)環(huán)節(jié)都需要AI去串聯(lián);二是更加落地,切實為行業(yè)帶來服務(wù)體感的升級、效率提升。
翁冬冬提出,數(shù)字人真正的核心技術(shù)是AI,這已經(jīng)是行業(yè)目前比較清晰的一個認(rèn)知,下一階段大家需要突破的目標(biāo)是“如何讓數(shù)字人變得更像一個人”。這將取決于內(nèi)外兩個方向。“外在分為靜態(tài)的像和動態(tài)的像,因為其實在真正交流的時候,情感傳遞更多是由動態(tài)的表情、姿態(tài)和動作來完成,這些呈現(xiàn)和交流內(nèi)容密切相關(guān),很難通過前期的預(yù)制動畫完成,未來需要AI算法和更智能的“動作引擎”來指導(dǎo)數(shù)字人的反應(yīng)。在內(nèi)在層面,又分為語音交互和非語音交互兩個部分,下一個突破點是讓數(shù)字人不再局限于答錄機(jī),而是像人一樣去思考。
陳磊也認(rèn)為,未來在AI技術(shù)的輔助下,有望形成輸入文本,或者通過語音、語義識別即可自動化生成情感、動作表達(dá)。“這也是多模態(tài)的一種手段。例如,不同的人說同一句話,不同的表述方式對應(yīng)的情感表達(dá)是不一樣的,驅(qū)動在表達(dá)上也有所區(qū)別,通過AI實現(xiàn)自動化,這些都是需要去重點深耕探索的方向。”
02管線化生產(chǎn)將加速提升數(shù)字人應(yīng)用效率
數(shù)字人的精細(xì)度和智能化水平不斷提升,一大批數(shù)字人加速融入生產(chǎn)、生活。我國數(shù)字人商業(yè)化應(yīng)用探索步伐持續(xù)加快,不同形式、不同領(lǐng)域的應(yīng)用場景不斷涌現(xiàn),數(shù)字人逐漸成為數(shù)字經(jīng)濟(jì)發(fā)展的新亮點。
通過創(chuàng)業(yè)黑馬對“數(shù)字人加速器”多家企業(yè)進(jìn)行調(diào)研,馮莎莎發(fā)現(xiàn)數(shù)字人在營銷方向應(yīng)用最多,其次是文娛、文旅以及直播帶貨,這些領(lǐng)域在商業(yè)化變現(xiàn)方面都做的很成功。大家也能明顯地感覺到數(shù)字人服務(wù)朝著脫虛向?qū)嵉姆较虬l(fā)展,在行業(yè)里面產(chǎn)生了實實在在的價值。
《報告》中也指出,受益于數(shù)字人生產(chǎn)工具和方案日漸完善,在企業(yè)服務(wù)、影視動畫、文化傳媒領(lǐng)域,數(shù)字人都得到了廣泛應(yīng)用。今年10月,騰訊與南都合作打造了虛擬主播“小N”,在經(jīng)歷真人采集建模、自然語音處理、圖像處理、語音合成等人工智能技術(shù)加持下,虛擬主播“小N”正式上崗。編輯只需要在后臺輸入文本,就可以實現(xiàn)聲畫同步的虛擬主播新聞視頻輸出,24小時全天候無間斷播出,大大提升了新聞生產(chǎn)效率和用戶覆蓋廣度。
作為虛擬主播項目負(fù)責(zé)人,申鵬舉例稱,“小N”在世界杯期間吸引了許多球迷和觀眾,整體點擊率達(dá)幾百萬,單條視頻最高峰點擊率有幾十萬。
從媒體行業(yè)角度出發(fā),申鵬對數(shù)字人提出的第一個關(guān)鍵詞是“真實”,作為媒體信息的傳遞者,虛擬主播需要無限接近于真實主播,要能夠體現(xiàn)人類情感從而打動觀眾;第二點是“便利”,未來數(shù)字人如果能與手機(jī)攝像頭融合,數(shù)字人的呈現(xiàn)將不再局限于演播室,而是可以走入新聞現(xiàn)場;第三點,希望虛擬主播“小N”可以變成一個內(nèi)容UI界面,不僅能夠播報內(nèi)容,還可以和用戶互動,成為一個高度擬人化的表達(dá)渠道。
根據(jù)IDC在《中國AI數(shù)字人市場現(xiàn)狀與機(jī)會分析,2022》報告中預(yù)計,到2026年中國AI數(shù)字人市場規(guī)模將達(dá)到102.4億元。
馮莎莎表示,未來的數(shù)字人是每一家企業(yè)的標(biāo)配,也就是今天說的“數(shù)字員工賦能千行百業(yè)”,因此各行各業(yè)也對數(shù)字人的生產(chǎn)提出了更高的要求——成本和效率。
對此,翁冬冬也提出,行業(yè)更多思考的是如何通過降低成本推動數(shù)字人的普及。“現(xiàn)在是一個產(chǎn)線迭代的時代,數(shù)字人最初出現(xiàn)是為藝術(shù)服務(wù),但到了工業(yè)化生產(chǎn)階段,行業(yè)需要思考的是,如果將個性化的生產(chǎn)經(jīng)驗固化到AI算法,讓數(shù)字人變得更容易制造,更容易使用。”
截至目前,騰訊云智能數(shù)智人已經(jīng)覆蓋了10+行業(yè)領(lǐng)域以及50+的應(yīng)用場景。在這個過程中,陳磊觀察到,數(shù)智人作為一個交互智能的新的入口,最大的挑戰(zhàn)來自于如何通過一個強(qiáng)大的供給的能力,滿足到快速覆蓋落地于不同行業(yè)、不同場景里,這對數(shù)智人生產(chǎn)制作流程以及技術(shù)積累都提出了很高要求。
基于此,騰訊云智能在之前已經(jīng)推出了數(shù)字人內(nèi)容生產(chǎn)平臺,交互數(shù)智人平臺。在形象建模上,今年新推出的小樣本2D數(shù)智人生產(chǎn)管線,通過上傳3—5分鐘左右的視頻即可快速生成一個數(shù)字分身,生產(chǎn)周期縮短至小時級別。在企業(yè)服務(wù)領(lǐng)域,通過騰訊“神農(nóng)MShenNonG”,以一個很小的模型就能夠解決客戶垂直場景的應(yīng)答需求。例如,疫情期間,在一汽大眾云展廳案例中,數(shù)智導(dǎo)購Ida經(jīng)過汽車語料的學(xué)習(xí),可以為顧客提供各類購車信息。效果顯示,相對于傳統(tǒng)的現(xiàn)場營銷服務(wù),這種數(shù)字人服務(wù)推動整體留資率上升13%,每個用戶在云展廳逛展時間接近10分鐘。陳磊表示,“只有達(dá)到足夠低成本、足夠高效率的生產(chǎn),數(shù)字人才會有更強(qiáng)的行業(yè)覆蓋性。”
03“數(shù)字人自由”時代即將到來
目前,隨著虛擬數(shù)字人產(chǎn)業(yè)鏈逐步走向成熟,已經(jīng)形成了由上游制作、渲染工具,中游的虛擬人驅(qū)動及運營,下游的場景應(yīng)用一起組成的完整虛擬數(shù)字人產(chǎn)業(yè)鏈生態(tài)圖譜。產(chǎn)業(yè)鏈的成熟催生了低成本的數(shù)字人應(yīng)用軟件應(yīng)運而生,很多對價格比較敏感的中小企業(yè),甚至是個人,已經(jīng)開始躍躍欲試,嘗試給自己定制個“數(shù)字分身”。
在討論中,圓桌嘉賓給出了平民化、易生成、易操作等關(guān)鍵詞。陳磊認(rèn)為,平民化的本質(zhì)是生產(chǎn)數(shù)智人的周期、成本、運營能夠大幅度降低,將有望推進(jìn)“數(shù)字人自由”。他舉例最近2D小樣本的數(shù)智人迎來增長點,快速獲得商機(jī),背后的本質(zhì)是平民化的使用門檻。
從應(yīng)用層面,翁冬冬也提出了3個關(guān)鍵詞。首先是“優(yōu)雅”,他認(rèn)為數(shù)字人應(yīng)該特別易于使用,不需要調(diào)整太多參數(shù)就可以“優(yōu)雅”地使用,預(yù)計數(shù)字人自由將在2023年到來;第二個關(guān)鍵詞是“經(jīng)濟(jì)”,物美價廉的數(shù)字人在行業(yè)里才有更大的生存空間;第三個關(guān)鍵詞是“無所不在”,未來,數(shù)字人將應(yīng)用于千行百業(yè),存在于社會的方方面面。
陳磊還對數(shù)字人未來展望提到“場景化”關(guān)鍵詞,目前數(shù)字人應(yīng)用還處于行業(yè)早期,未來需要從場景出發(fā),找到并解決客戶在實際的落地過程中遇到的問題,真正提升客戶企業(yè)運營效率才能獲得長久發(fā)展。
04利好政策加速數(shù)字人產(chǎn)業(yè)落地
今年以來,乘著利好政策的“東風(fēng)”,數(shù)字人產(chǎn)業(yè)一腳踏進(jìn)了快車道。例如,今年7月北京市發(fā)布《北京市促進(jìn)數(shù)字人產(chǎn)業(yè)創(chuàng)新發(fā)展行動計劃(2022-2025年)》,成為國內(nèi)出臺的首個數(shù)字人產(chǎn)業(yè)專項支持政策。
報告顯示,隨著多個垂直行業(yè)陸續(xù)出臺應(yīng)用建設(shè)指南,將會更好地推動數(shù)字人的落地應(yīng)用。
創(chuàng)業(yè)黑馬產(chǎn)業(yè)加速器總經(jīng)理馮莎莎表示,2023年將會是數(shù)字人相關(guān)支持政策及指導(dǎo)意見頻繁落地一年。目前,國內(nèi)已有30多個地市出臺相關(guān)支持政策,其中大部分為引導(dǎo)型,主要引導(dǎo)方向為技術(shù)自主化、打造數(shù)字人的自主產(chǎn)業(yè)鏈;產(chǎn)品工具化,培育一體化、自動化、批量化的數(shù)字人開發(fā)工具,以及鼓勵企業(yè)探索產(chǎn)業(yè)應(yīng)用。
“從統(tǒng)計數(shù)據(jù)來看,數(shù)字人應(yīng)用里,數(shù)字員工型應(yīng)用到明后年會快速增長。”馮莎莎也給出了企業(yè)自評的三個核心競爭力,分別為AI算法、數(shù)字人制作能力、商業(yè)化變現(xiàn)能力。“從市場的角度來看,AI算法是排名第一的核心競爭力,企業(yè)只有具備核心技術(shù)和內(nèi)容創(chuàng)新能力,才能保證自己在數(shù)字人賽道上的競爭力。”
除了蓬勃發(fā)展的市場需求,隨著數(shù)字人從技術(shù)創(chuàng)新走向產(chǎn)業(yè)應(yīng)用,越來越多的數(shù)字人開始“持證上崗”,也給數(shù)字人的制作、研發(fā)等后端工作帶來很大的壓力。
市場對數(shù)字人還有哪些期待?
翁冬冬表示, AI數(shù)字人目前整體還處于起步階段,距離市場成熟還有較長的距離,需要大量的技術(shù)積累。由于現(xiàn)在可選擇的方向比較多,實現(xiàn)手段和技術(shù)多,更新速度快,導(dǎo)致行業(yè)還處在混亂無序的狀態(tài)。他呼吁大家能走慢一點、走穩(wěn)一點,只有更細(xì)致的打磨和挖掘,才能把這條路走的更長遠(yuǎn)。
陳磊認(rèn)為,市場對數(shù)智人的期待,既要是敬業(yè)多才的員工,也要是吸粉明星代言人。“從最開始企業(yè)品牌IP數(shù)智化員工的打造,通過員工的打造慢慢下沉,在營銷獲客場景里面做獲客增益,然后再與用戶做日常運營、業(yè)務(wù)辦理,提供全域全生命周期的服務(wù)打造。”
騰訊研究院高級研究員宋揚表示,面向未來,數(shù)字人正朝幾個方向加速迭代,一方面,外貌更加精致、形象更加逼真、動作更加自然,這就是所謂的皮囊更加好看。另一方面,隨著AI技術(shù)的不斷完善,數(shù)字人多模態(tài)的感知和交互的能力會得到顯著的提升,數(shù)字人未來可能會具備記憶力和判斷力,更加的智能,在思想和行為上更加接近于人,擁有所謂有趣的靈魂。“相關(guān)技術(shù)快速發(fā)展,已經(jīng)到了商業(yè)化大規(guī)模推廣的臨界點。未來,數(shù)字人將進(jìn)入越來越多的產(chǎn)業(yè)提供服務(wù),成為人機(jī)交互的新入口,帶來更加智能、更加沉浸的‘在場’體驗。”