文 丨 新浪科技 周文猛
在擔任京東集團副總裁、京東探索研究院院長、智能服務與產品部總裁的同時,何曉冬同時也在中國計算機學會(CCF)內也身兼數職,擔任CCF企工委副主任和CTO Club主席職位。
近日,由中國計算機學會主辦的2023中國計算機大會(CNCC2023)召開前夕,新浪科技《科創100人》專訪了何曉冬,就CNCC2023大會籌備情況及大模型產業機遇等問題進行交流。溝通中,何曉冬指出:“ChatGPT的通用性讓人感到驚艷,讓全球科技行業以為這就是通用人工智能(GAI)的雛形,但目前看來,這一技術在多模態智能方面仍存在很長的局限,并未真正實現‘智能涌現’。”
相比于通用大模型,何曉冬更看好垂直領域大模型,強調“布局大模型應結合具體場景,從產業價值出發”。結合在京東長期從事研究和技術管理的經驗,何曉冬總結了從技術探索到產業落地的“五步走”策略,并進一步指出,保持對技術趨勢的前瞻性,是CTO們的基本素養,企業技術高管需從全局價值出發,兼顧好當前和未來的發展。
“大模型應該產業化才能產生價值,而且在落地產業的時候必然會遇到很多問題,這樣才能不斷迭代進步。”何曉冬表示。在他看來,“企業擁抱大模型產業機遇,還是要長期主義,堅定長期投入。”
ChatGPT是GAI原始雛形,但多模態智能還未成功
隨著基于GPT3.5大模型的ChatGPT面世并引發轟動,關于大模型和通用人工智能的討論便成了業界關注的焦點。那么,大模型與AGI的關聯性嗎?大模型是如何開啟通用人工智能道路的?
在何曉冬看來,事實上自深度學習出現以后,該技術所具備的能夠將不同模態、不同知識體系統一的潛力,便讓全球科技行業看到了通用人工到來的前兆。但一直到GPT3.0大模型技術的出現,業界才逐漸相信了基于“大模型+深度神經網絡”這一組合,能夠推動通用人工智能的發展。
“尤其是ChatGPT的出現,通過人類反饋學習和微調等方式,讓人類能夠與大模型進行很流暢的交互,這開始讓業界信服這條道路的可行。”何曉冬表示。他強調指出,ChatGPT最具魅力的一點在于,它實現了人與GPT大模型的自然交流。
“之前的大模型雖然能力很強大,但它跟人的交互很痛苦,只能做一些續寫的工作,其他功能沒有。就像一個很聰明的天才,但是不能把自己知道的都說出來,經過這么幾年的發展,它能夠聽懂也能說出自己知道的東西了,所以能迅速地在各個領域展現出它快速的學習能力和強大的開發能力。”何曉冬表示。
何曉冬指出,雖然ChatGPT并不是每一個細節、每一個專有領域都能夠做得盡善盡美,但它卻能夠接得住人類的大多數問題,它的通用性讓人感到非常地驚艷,這也讓大家覺得這個可能就是GAI的一個最原始雛形。
當然,何曉冬也指出,通用人工智能的發展還有很長的路要走。比如,ChatGPT還是以單模態文字為主,它雖然有畫圖的能力,但這個能力往往是通過調用其他模塊實現的,并未真正的實現多模態智能涌現。
2018年,何曉冬便開始研究多模態技術,他寫作的多模態研究論文也在業界引發近4600次引用。何曉冬指出,“通過用一個語言模型去調動另外一個圖文生成模型,確實可以生成圖像,但這只在功能上實現多模態,事實上真正意義上多模態是如何把視覺信號、視覺信息跟語言和語義信息進行深度融合。”
包括GPT大模型在內,其實所有的涌現都是在建造一個知識結構,把所有的事物的知識通過文字、語義的形式形成一個知識網絡,然后讓它能夠對各種各樣的提問給一個比較合理的回答。“理論上視覺信息中每個物體和物體之間的關系動作,甚至包括顏色、姿態、空間關系以及時間關系,都蘊含著大量的知識。但目前的知識網絡還是在文字層面,通過調用一個簡單的API實現的多模態,并沒有真正實現語言信息和視覺信息的融合,所以從智能涌現角度來說,現在還沒有達到這個程度。”何曉冬表示。
何曉冬預測,也許明年或下一代的GPT大模型就能夠做到。多模態的智能涌現一旦突破了,將會有一個很驚艷的效果。“自然語言自然是有語義的,但其實視覺也有語義,從視覺最底層的像素,再往上構造成物體,再往上就變成語義,然后再往上就是整體的融合。我感覺是如果能達到那一步應該會有很多的想象空間,可能真的能夠把整個宇宙數字化了。”
產業化難點是與場景結合
從數字智能,到具身智能乃至于實體世界的智能,大模型帶來的可能性令各界滿懷憧憬,但在具體的落地過程中,大模型如何與具體的產業數據、場景特性和文化相結合起來,往往也困擾著諸多企業。
在何曉冬看來,如今的大模型,與當年的搜索引擎技術是相似的。搜索引擎出來后,也存在著通用和垂直之說,諸如谷歌、百度等通用搜索,但其實在各類垂直的頭部App內,其實也都有自己的搜索引擎,包括京東、淘寶、美團等。在這些平臺上,當你希望搜索與這些平臺屬性高度相關的產品或服務時,往往能比通用搜索取得更好的效果。
“從技術的角度而言,一個技術必須結合場景才能做的最好。大模型不僅僅是一個界面,它還會涉及許多非常專業決策,需要將各類數據、知識打通結合才能真正發揮價值,所以只有把這種技術跟具體的場景深度結合,才能更好地提供服務。”何曉冬表示。
當前階段,如果從應用角度出發的話,何曉冬更看好垂直大模式的發展。一說到垂直模型,大家就會想到以前根據一個場景訓練標配數據訓練模型的情況。事實上,大模型時代的垂直大模型,無論是模型參數還是需要訓練的數據,都是很大的,多數在千億至萬億參數之間。
在何曉冬看來,一個產業大模型或垂直大模型,除了有通用的知識能力外,還應該有很強的產業專屬的數據知識和推理能力。“某種意義上,我認為現在是你得先有通用數據,加上產業相關垂直數據,使得你的大模型能夠直接構造一個通用+產業的知識網絡,通用和垂直不是互斥的。”何曉冬表示。
相比垂直模型,京東更傾向于把自己的大模型技術成為“產業大模型”,而這樣做的目的,便是為了防止一提到垂直模型,大家往往便會把它定義為一個小且垂直的模型。
在何曉冬看來,大模型應該產業化才能產生價值,而且在落地產業的過程中必然會遇到很多問題。只有在落地的過程中不斷地結合具體場景的數據、業務需求不斷打磨,才能使得模型不斷地進一步強化、變得經濟可控,產生真正的價值。
企業CTO如何擁抱大模型變革?
大模型打開了走向通用人工智能的技術實現路徑,也帶來了人工智能大工業化發展的新機遇。面對技術帶來的顛覆式產業變革,作為產業技術的負責人,CTO需要著眼全局,在急速變革的數智化時代抓住技術帶來的新機會,才能作出關鍵的技術與管理決策。
在何曉冬看來,大模型時代,有兩類應用將存在新的機會。第一,因大模型出現而帶來的全新應用。例如,智能助手,之前雖然大家都在提千人千面的智能助手,但在對話交互方面,卻依然存在局限。第二,已有APP的重新升級改造,諸如獲取信息、娛樂購物等人類的需求千古不變,只是每一次技術的出現,這些需求都可以被重新滿足一遍。
面對大模型技術帶來的全新機會,何曉冬結合自己在京東從事技術管理的實踐經驗,總結了“企業CTO擁抱大模型產業”從技術探索到落地的“五步走”策略:
第一步,技術探索。標志性事件可能是寫幾篇能夠被頂級會議接受的論文,甚至可能還會有很大的學術影響力,這是探索的第一步,也是很重要的一步。
第二步,要形成一個穩定可用的能力。盡可能地將論文API或者模塊化,成為可以被其他部門調動的能力,能夠穩定地按一個特定的預期質量輸出結果,需要有一定的工程投入了。
第三步,對核心業務形成支撐。最好能找到一個關鍵的業務,并對這個業務形成支撐。比如京東最新的人機對話技術,會在京東的智能客服上應用,因為京東智能客服是一個非常關鍵的業務,是整個電商環節里面不可缺少的一環,每天有大量的流量,有大量流量、用戶反饋,使得產品的應用情況就能更好地打磨和升級改造。
第四步,變成一個獨立的產品。把它做成一個標準化的產品,這樣才能對更多的客戶進行賦能和推廣。
第五步,形成商業化落地。產品最后走上市場商業化的時候,總會遇到各種各樣新的需求、反饋或者意見,甚至于面臨用戶是否愿意買單的情況。用戶不會為技術買單,而是為產品價值買單,只有找到最有商業價值的地方,深度地打磨并走向商業化,才能夠真正成功。
在何曉冬看來,企業 CTO乃至于核心高管,應當具備的素質便是技術的前瞻意識和創新意識,這是企業技術高管的基本素質。在此之外,在如何做業務管理時要懂得從價值出發,在保持對未來的觀望時,也要兼顧好當下發展需要。