“數(shù)據(jù)云操作系統(tǒng)”是新一代的企業(yè)級數(shù)據(jù)基礎(chǔ)設(shè)施,向下封裝復(fù)雜性,向上提供易用性,幫助企業(yè)應(yīng)對多云、多引擎、多主體、多應(yīng)用等多變挑戰(zhàn)。
而當(dāng)大模型浪潮來襲,數(shù)據(jù)云操作系統(tǒng)如何幫助企業(yè)構(gòu)建數(shù)據(jù)和AI能力,抓住用技術(shù)驅(qū)動革新的機(jī)會?開發(fā)者們對數(shù)據(jù)云操作系統(tǒng)又有怎樣的新需求和期待?
在《數(shù)據(jù)云場景指南》發(fā)布會的圓桌環(huán)節(jié),我們同樣把上述問題拋給了平臺建設(shè)者、數(shù)據(jù)開發(fā)者和應(yīng)用開發(fā)者。
他們說:
· 平臺 for AI,共享一套基礎(chǔ)設(shè)施,同時保障數(shù)據(jù)安全和一致性;AI for 平臺,用AI為運(yùn)維、安全等數(shù)據(jù)場景提效。
· 數(shù)據(jù)不能出境,標(biāo)準(zhǔn)可以共享,算法可以“漫游”。
· 分析云會打造應(yīng)用市場,現(xiàn)有產(chǎn)品是“原生應(yīng)用”。
· 數(shù)據(jù)云操作系統(tǒng)要提升易用性,把封裝好的數(shù)據(jù)、算法以服務(wù)的形式提供給上層應(yīng)用。
本期嘉賓
· 地雷:奇點(diǎn)云CTO,近20年數(shù)據(jù)領(lǐng)域研發(fā)和產(chǎn)品經(jīng)驗,原MaxCompute大數(shù)據(jù)引擎和算法平臺初代PD之一。
· 葉玎玎:GrowingIO聯(lián)合創(chuàng)始人,國內(nèi)最早一批增長黑客踐行者,網(wǎng)易用戶搜索引擎核心開發(fā)者,XRuby Core Committer。
· 證道:奇點(diǎn)云資深數(shù)據(jù)架構(gòu)專家,18年數(shù)據(jù)行業(yè)從業(yè)經(jīng)驗,9年老甲方、9年老乙方,完整經(jīng)歷大數(shù)據(jù)技術(shù)的迭代演進(jìn)。
· 何夕:奇點(diǎn)云資深戰(zhàn)略咨詢專家,浙江大學(xué)社會碩士生導(dǎo)師,本期圓桌主持人。
何夕:今年數(shù)據(jù)科技話題幾乎離不開大模型和人工智能。首先,大模型是data-centric(以數(shù)據(jù)為中心)的AI,對優(yōu)質(zhì)數(shù)據(jù)和大數(shù)據(jù)平臺依賴很高,同時,我們也看到了各種算法模型的落地應(yīng)用,例如流失預(yù)警、銷量預(yù)測、商品的調(diào)補(bǔ)貨等等。從構(gòu)建數(shù)據(jù)和AI能力的角度,各位對數(shù)據(jù)云操作系統(tǒng)有怎樣的期待?
地雷:在《流浪地球2》上映的時候,有一個畫面我當(dāng)時很激動,背后是中科院軟件所和計算所的專家?guī)兔Σ邉澓蛯懗鰜淼摹?/p>
當(dāng)時要恢復(fù)月球里基地的設(shè)備,但是人力搞不定了,所以就把MOSS接進(jìn)去,要求把生產(chǎn)恢復(fù)起來。MOSS說,好的,我開始了,先進(jìn)行掃描,看有哪些系統(tǒng)和硬件,然后寫一個操作系統(tǒng)。寫完以后,MOSS說,我開始寫應(yīng)用。
大家可以發(fā)現(xiàn)這個臺詞寫得很專業(yè),它不是一上來就恢復(fù)生產(chǎn)的,而是先掃描底層,寫操作系統(tǒng)把底層通用的東西搞定,再開始寫不同的應(yīng)用。接下去,第一個應(yīng)用才說“開始3D打印”、開始生產(chǎn)等等的具體動作。
只是幾句臺詞,但它很真實(shí)地展示了實(shí)際操作系統(tǒng)和應(yīng)用的層次。
雖然這是一部科幻片,我同樣希望未來有一天,我們能基于操作系統(tǒng),很快地造出應(yīng)用,來應(yīng)對復(fù)雜的場景需要。
地雷:回到話題本身,我們常說要分成“AI for 平臺”和“平臺 for AI”這樣兩個維度來看。
首先“平臺 for AI”,客戶今年問得比較多的是:你的數(shù)據(jù)云操作系統(tǒng)能不能生產(chǎn)算法,甚至跑大模型?答案是肯定的。SimbaML(算法工廠)這個產(chǎn)品的底層就是SimbaOS Kernel(數(shù)據(jù)云操作系統(tǒng)內(nèi)核),來完成算法應(yīng)用全生命周期的工作,包括MLOps中的開發(fā)、訓(xùn)練、部署等等。這其中最關(guān)鍵的好處在于,它和業(yè)務(wù)分析共享同一套基礎(chǔ)設(shè)施(數(shù)據(jù)云操作系統(tǒng)),而不是算法和業(yè)務(wù)分2個庫,數(shù)據(jù)的安全性和一致性都能夠得到保障。
另外,“AI for 平臺”,也就是說數(shù)據(jù)云操作系統(tǒng)本身就應(yīng)該具備一些AI能力,來幫助很多數(shù)據(jù)場景提效,譬如智能的運(yùn)維故障處理、異常行為監(jiān)控等等。去年我們的數(shù)據(jù)安全團(tuán)隊拿下全國第一的智能算法,就采用了GPT同源的Transformer模型。
證道:我對“平臺for AI”做個補(bǔ)充。因為有個很現(xiàn)實(shí)的問題,各個國家、地區(qū)都有對數(shù)據(jù)的保護(hù)要求,敏感數(shù)據(jù)是不允許跨境的。那對于全球化的企業(yè)來說,如何在安全合規(guī)的前提下,最大化使用數(shù)據(jù)資產(chǎn)?
我認(rèn)為數(shù)據(jù)云操作系統(tǒng)要幫助企業(yè)做到3個“跨越”:
第一,管理、標(biāo)準(zhǔn)、算法可以跨境共享、應(yīng)用。例如數(shù)據(jù)資產(chǎn)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全的管理體系,建模、開發(fā)、任務(wù)、調(diào)度的標(biāo)準(zhǔn),可以推到全球各個國家和地區(qū)去應(yīng)用。數(shù)據(jù)不可以出境,但算法不涉及到具體的數(shù)據(jù),因此可以“漫游”,可以去全球各地“游學(xué)”,把自己訓(xùn)練地更好。
第二,可以跨不同的業(yè)態(tài)和不同的底層資源。例如,跨國公司在不同的國家、地區(qū)使用不同的云資源,哪怕不出境,國內(nèi)有一些企業(yè)也有合規(guī)的要求,例如金融業(yè)務(wù)要求存在自己的IDC機(jī)房,其他業(yè)務(wù)可以存在公有云。借助數(shù)據(jù)云操作系統(tǒng),集團(tuán)要能看到整體的數(shù)據(jù)資產(chǎn),具體到各業(yè)務(wù)線,也可以根據(jù)情況自行做一些調(diào)整。
第三,還可以跨引擎。比如有一些任務(wù)早些年用Hive寫的,后面需要改成Impala+Kudu,后面還會有一部分改成Flink或ClickHouse。因此數(shù)據(jù)云操作系統(tǒng)或者說大數(shù)據(jù)基礎(chǔ)設(shè)施是一定要支持多引擎的,而且上述三種“跨越”可以疊加發(fā)生。
何夕:作為數(shù)據(jù)云操作系統(tǒng)的“客戶”,數(shù)據(jù)應(yīng)用的開發(fā)者玎玎怎么看,或者說對數(shù)據(jù)云操作系統(tǒng)有哪些進(jìn)階的要求?
葉玎玎:一個操作系統(tǒng)要做好,它作為Infrastructure(基礎(chǔ)設(shè)施),要讓上層的開發(fā)者變得更容易。所以我作為開發(fā)者,會經(jīng)常去“折騰”這個SimbaOS Kernel(數(shù)據(jù)云操作系統(tǒng)內(nèi)核),研究怎么用得更好;另一方面,也會和操作系統(tǒng)的建設(shè)方(即數(shù)據(jù)云團(tuán)隊)一起共創(chuàng)、提需求,提供更多應(yīng)用方的真實(shí)感受。這是我們一直未來也會繼續(xù)做的事情。
那從分析云的視角看,我覺得未來分析云不會只是現(xiàn)有自研的應(yīng)用產(chǎn)品,而是會成為一個“應(yīng)用市場”,我們現(xiàn)在在做的產(chǎn)品(增長分析、客戶數(shù)據(jù)平臺等)是其中的原生應(yīng)用,接下來還會開發(fā)新的產(chǎn)品,也可能引進(jìn)好的數(shù)據(jù)應(yīng)用。
在應(yīng)用市場的邏輯里,你其實(shí)無法強(qiáng)制要求開發(fā)者必須用某個數(shù)據(jù)庫,用某種引擎。在對底層各種各樣復(fù)雜的要求下,我們作為應(yīng)用市場,應(yīng)該如何更好地給內(nèi)部、外部的開發(fā)者提供服務(wù)?
目前我們的做法是,把偏底層的技術(shù)需求下沉到操作系統(tǒng)中,由操作系統(tǒng)處理以后,提供封裝好的數(shù)據(jù)服務(wù)/算法服務(wù),返回給上層應(yīng)用。這其實(shí)在分析云的實(shí)踐中已經(jīng)證實(shí),確實(shí)有很大的便捷性。
因此在未來,我們會重點(diǎn)探索如何把數(shù)據(jù)、算法變成服務(wù),然后通過應(yīng)用簡單地發(fā)揮數(shù)據(jù)價值,利用AI讓價值發(fā)揮進(jìn)一步提效,讓客戶企業(yè)的內(nèi)部團(tuán)隊能更專注在業(yè)務(wù)的數(shù)據(jù)應(yīng)用上,讓業(yè)內(nèi)的數(shù)據(jù)應(yīng)用開發(fā)者也更專注在應(yīng)用本身的研發(fā)和創(chuàng)新。
地雷:沒錯。Snowflake、Databricks等數(shù)據(jù)云的領(lǐng)軍企業(yè)都分層建設(shè)了自己的“操作系統(tǒng)”,并針對數(shù)據(jù)治理、BI分析、機(jī)器學(xué)習(xí)等各個場景構(gòu)建了對應(yīng)的App生態(tài)。現(xiàn)在對于奇點(diǎn)云的數(shù)據(jù)云操作系統(tǒng)來說,GrowingIO的SaaS和OP產(chǎn)品也都是我們的“大客戶”,不斷打磨數(shù)據(jù)云操作系統(tǒng)的能力。同時也歡迎更多的開發(fā)者——無論是數(shù)據(jù)開發(fā)、應(yīng)用開發(fā)還是算法工程師,給我們的數(shù)據(jù)云操作系統(tǒng)提需求,讓上層長出更好的應(yīng)用生態(tài)。