近日,中國通信標(biāo)準(zhǔn)化協(xié)會(huì)大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會(huì)(CCSA TC601)牽頭,聯(lián)合行業(yè)專家共同編制的《湖倉一體技術(shù)與產(chǎn)業(yè)研究報(bào)告(2023)》(下文簡稱“報(bào)告”)發(fā)布,奇點(diǎn)云(杭州比智科技有限公司)深度參編。
報(bào)告聚焦于湖倉一體技術(shù),詳細(xì)梳理了數(shù)據(jù)平臺(tái)的發(fā)展歷程、數(shù)據(jù)湖與數(shù)據(jù)倉庫的特性對(duì)比,介紹了湖倉一體的基本能力與實(shí)踐路徑,并對(duì)湖倉一體未來發(fā)展進(jìn)行了展望與研判。
數(shù)據(jù)倉庫與數(shù)據(jù)湖是目前數(shù)據(jù)平臺(tái)領(lǐng)域最常見的兩種架構(gòu):
數(shù)據(jù)倉庫規(guī)范性強(qiáng),可針對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行集中式存儲(chǔ)和計(jì)算,但對(duì)處理日益增長的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)有局限性;
數(shù)據(jù)湖能靈活支持多種類型數(shù)據(jù)存取,讀取型(schema on read)的數(shù)據(jù)分析形式有效提升了分析效率,但一致性、隔離性、數(shù)據(jù)質(zhì)量為弱項(xiàng),常出現(xiàn)因缺乏治理而退化為“數(shù)據(jù)沼澤”的情況。
可見,面臨不同類型的數(shù)據(jù)與處理需求,數(shù)據(jù)倉庫和數(shù)據(jù)湖各有專攻。而要想綜合二者的優(yōu)勢,并非“數(shù)據(jù)倉庫+數(shù)據(jù)湖”那么簡單。
報(bào)告指出,“數(shù)據(jù)倉庫+數(shù)據(jù)湖”的混合架構(gòu)能滿足結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的高效處理需求,但存在四大弊端:
兩種技術(shù)棧都有數(shù)據(jù)冗余,存儲(chǔ)成本增加;
雙系統(tǒng)間額外的ETL(抽取、轉(zhuǎn)化、加載)流程導(dǎo)致時(shí)效性差;
遷移過程中易出現(xiàn)數(shù)據(jù)不一致問題,增加數(shù)據(jù)校驗(yàn)成本;
兩種技術(shù)棧混合部署使得數(shù)據(jù)架構(gòu)復(fù)雜,平臺(tái)開發(fā)、運(yùn)維的難度大,成本高。
“湖+倉”混合架構(gòu)圖(圖源:CCSA TC601)
“湖倉一體”技術(shù)應(yīng)運(yùn)而生。它引入了數(shù)倉的治理能力,解決數(shù)據(jù)湖的數(shù)據(jù)治理難題;同時(shí),融合高效建倉、靈活建湖兩大優(yōu)勢,提升數(shù)據(jù)管理效率和靈活性。
依托湖倉一體技術(shù),能讓數(shù)據(jù)平臺(tái)底層支持多數(shù)據(jù)類型統(tǒng)一存儲(chǔ),實(shí)現(xiàn)數(shù)據(jù)在湖、倉之間無縫調(diào)度和管理,在上層通過統(tǒng)一接口進(jìn)行訪問查詢和分析。
湖倉一體架構(gòu)模塊圖(圖源:CCSA TC601)
2021年,奇點(diǎn)云發(fā)布了基于DataSimba的湖倉一體技術(shù)方案:打通數(shù)據(jù)倉庫和數(shù)據(jù)湖兩套技術(shù)棧,依托統(tǒng)一的數(shù)據(jù)云平臺(tái)(DataSimba)融合二者優(yōu)勢,讓數(shù)據(jù)治理更便利,數(shù)據(jù)研發(fā)更高效,企業(yè)能更有性價(jià)比地存儲(chǔ)和使用海量數(shù)據(jù)。
支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等多數(shù)據(jù)種類,支持多個(gè)計(jì)算引擎、存算引擎、數(shù)據(jù)源及第三方AI算法;
使數(shù)據(jù)資產(chǎn)更易維護(hù)管理、更易挖掘分析,使數(shù)據(jù)存儲(chǔ)成本降低30%,穩(wěn)定性提升1倍,運(yùn)維成本降低40%。
同年,“湖倉一體”首次被Gartner寫入數(shù)據(jù)管理領(lǐng)域成熟度模型報(bào)告。至今,日益增長的數(shù)據(jù)量和分析需求讓湖倉一體技術(shù)仍是熱度不減,備受關(guān)注。
為進(jìn)一步規(guī)范湖倉一體數(shù)據(jù)平臺(tái)技術(shù)體系,中國信通院云計(jì)算與大數(shù)據(jù)研究所依托中國通信標(biāo)準(zhǔn)化協(xié)會(huì)大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會(huì) (CCSA TC601),聯(lián)合多個(gè)電信、金融應(yīng)用單位及包括奇點(diǎn)云(杭州比智科技有限公司)在內(nèi)的多家資深企業(yè),共同編制了《湖倉一體數(shù)據(jù)平臺(tái)技術(shù)要求》,深度剖析必備技術(shù)能力,為選型與實(shí)踐提供參考。
湖上建倉or倉外掛湖?
數(shù)據(jù)集成、湖倉存儲(chǔ)、湖倉計(jì)算、湖倉數(shù)據(jù)治理等五大能力域分別有何要求?
查閱《湖倉一體技術(shù)與產(chǎn)業(yè)研究報(bào)告(2023)》即可了解。
*上文中關(guān)于《湖倉一體技術(shù)與產(chǎn)業(yè)研究報(bào)告(2023)》的圖片及觀點(diǎn)來源于CCSA TC601 大數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)推進(jìn)委員會(huì)。