數(shù)字經(jīng)濟在國民經(jīng)濟社會發(fā)展的重要性日漸凸顯。“數(shù)字化”一詞多次在政府工作報告中被提到,“十四五”更是明確了“加快數(shù)字化發(fā)展,建設(shè)數(shù)字中國”的遠(yuǎn)景目標(biāo),突出了數(shù)字經(jīng)濟的戰(zhàn)略性地位。作為推動數(shù)字經(jīng)濟發(fā)展的中堅力量,企業(yè)的數(shù)字化轉(zhuǎn)型需求也在不斷增長,與此有關(guān)的云計算、大數(shù)據(jù)和人工智能為代表的新一代信息技術(shù)也在不斷創(chuàng)新迭代。
何謂數(shù)字化轉(zhuǎn)型?
企業(yè)數(shù)字化轉(zhuǎn)型包括兩個方面,一是客戶體驗的數(shù)字化,即以客戶為中心,更接近、滿足、贏得和持續(xù)贏得客戶;二是運營管理數(shù)字化,及定制產(chǎn)出、縮短渠道、柔性供應(yīng)、敏捷服務(wù)、集成布局。其特點是以云、大、物、智、移等技術(shù)結(jié)合運用新技術(shù)為業(yè)務(wù)提供創(chuàng)新的價值,業(yè)務(wù)和管理的全過程數(shù)字化為核心。
2021年以來,數(shù)字化轉(zhuǎn)型已經(jīng)成為國家戰(zhàn)略。十四五規(guī)劃提出,迎接數(shù)字時代,激活數(shù)據(jù)要素潛能,推進網(wǎng)絡(luò)強國建設(shè),加快建設(shè)數(shù)字經(jīng)濟、數(shù)字社會、數(shù)字政府,以數(shù)字化轉(zhuǎn)型整體驅(qū)動生產(chǎn)方式、生活方式和治理方式變革。根據(jù)規(guī)劃,企業(yè)數(shù)字化轉(zhuǎn)型必然驅(qū)動“四化”企業(yè)成為市場強者:
1.智能化業(yè)務(wù)決策,精準(zhǔn)實時把握客戶需求、合理化資源配置;
2.一體化運營管理,部門橫縱端到端協(xié)同,及時高效解決運營問題;
3.生態(tài)化價值合作,連接和整合價值鏈,共享共贏發(fā)展;
4.敏捷化變革創(chuàng)新,技術(shù)契合業(yè)務(wù)能力和水平,動態(tài)引領(lǐng)市場。
數(shù)字化轉(zhuǎn)型歷經(jīng)了從 “資源自動化”到“應(yīng)用多樣化”的轉(zhuǎn)變。隨著數(shù)字化的普及,數(shù)字社會的復(fù)雜度越來越高,企業(yè)越來越需要低門檻、高便利性的數(shù)字化工具。未來,還應(yīng)進一步鼓勵和支持互聯(lián)網(wǎng)、云計算等平臺,積極發(fā)展云原生和低代碼開發(fā)等新興技術(shù)方法,降低技術(shù)和業(yè)務(wù)的耦合性,讓企業(yè)尤其是廣大的中小企業(yè)一定程度上避免底層復(fù)雜的技術(shù)開發(fā),專注于商業(yè)本身,快速、靈活地部署應(yīng)用。
大數(shù)據(jù)技術(shù)發(fā)展
大數(shù)據(jù)總體上可以劃分為以下四個階段:數(shù)據(jù)庫時代、探索期、發(fā)展期、普惠期,目前我們正處于大數(shù)據(jù)的普惠期,在這個時期,大數(shù)據(jù)應(yīng)用滲透到各行各業(yè),大數(shù)據(jù)價值不斷凸顯,數(shù)據(jù)驅(qū)動決策和社會智能化程度大幅提高,大數(shù)據(jù)產(chǎn)業(yè)迎來快速發(fā)展和大規(guī)模應(yīng)用實施。
隨著大數(shù)據(jù)發(fā)展,也衍生出了一系列的大數(shù)據(jù)架構(gòu),從數(shù)據(jù)庫、數(shù)據(jù)倉庫,到數(shù)據(jù)平臺,再到數(shù)據(jù)湖、湖倉一體。
(1)數(shù)據(jù)倉庫、大數(shù)據(jù)
早期系統(tǒng)采用數(shù)據(jù)庫來存放管理數(shù)據(jù),隨著大數(shù)據(jù)技術(shù)的興起,設(shè)計了一套適合結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)存儲管理系統(tǒng),即數(shù)據(jù)倉庫。但是許多現(xiàn)代企業(yè)必須處理非結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)以及具有高多樣性、高速度和高容量的數(shù)據(jù)。數(shù)據(jù)倉庫不適用于許多此類場景,并且成本效益并非最佳。
直到Hadoop的出現(xiàn),有了處理大規(guī)模數(shù)據(jù)的技術(shù)和能力,大數(shù)據(jù)在這一刻才真正的成為我們口中所說的“大數(shù)據(jù)”。Hadoop 開啟大數(shù)據(jù)時代后,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫就從時代舞臺的中心退居了幕后。等到非關(guān)系型數(shù)據(jù)庫誕生后,人們甚至更激進地提出了“NoSQL”運動,試圖拋棄 SQL 及其關(guān)系型數(shù)據(jù)庫,但是隨著大數(shù)據(jù)熱潮的褪去,非關(guān)系型數(shù)據(jù)庫的缺陷漸漸為人所知,人們開始重新審視關(guān)系型數(shù)據(jù)庫,并認(rèn)為“NoSQL”其實是“Not Only SQL”,而不是“No SQL”。
(2)數(shù)據(jù)湖、湖倉一體
隨著當(dāng)前大量信息化發(fā)展和電子設(shè)備產(chǎn)品普及,產(chǎn)生大量的非結(jié)構(gòu)化數(shù)據(jù),所以設(shè)計了一個比數(shù)據(jù)倉庫還要大的系統(tǒng),可以把非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)共同存儲和做一些處理,這個系統(tǒng)叫做數(shù)據(jù)湖。數(shù)據(jù)倉庫的成長性很好,而數(shù)據(jù)湖更靈活。數(shù)據(jù)倉庫支持的數(shù)據(jù)結(jié)構(gòu)種類比較單一,數(shù)據(jù)湖的種類比較豐富,可以包羅萬象。數(shù)據(jù)倉庫更加適合成熟的數(shù)據(jù)當(dāng)中的分析和處理,數(shù)據(jù)湖更加適合在異構(gòu)數(shù)據(jù)上的價值挖掘。
數(shù)據(jù)湖雖然適合存儲數(shù)據(jù),但缺少一些關(guān)鍵功能:它們不支持事務(wù)處理,不保證數(shù)據(jù)質(zhì)量,并且缺乏一致性/隔離性,從而幾乎無法實現(xiàn)混合追加和讀取數(shù)據(jù),以及完成批處理和流式作業(yè)。由于這些原因,數(shù)據(jù)湖的許多功能尚未實現(xiàn),并且在很多時候喪失了數(shù)據(jù)湖的優(yōu)勢。
因此“湖倉一體”的概念應(yīng)運而生,它打破了數(shù)據(jù)倉庫和數(shù)據(jù)湖之間的壁壘,使得割裂的數(shù)據(jù)融合統(tǒng)一,減少了數(shù)據(jù)分析中的搬遷,實現(xiàn)了統(tǒng)一的數(shù)據(jù)管理,有利于發(fā)現(xiàn)更多數(shù)據(jù)價值。
湖倉一體是一種新型開放式架構(gòu),將數(shù)據(jù)湖和數(shù)據(jù)倉庫的優(yōu)勢充分結(jié)合,它構(gòu)建在數(shù)據(jù)湖低成本的數(shù)據(jù)存儲架構(gòu)之上,又繼承了數(shù)據(jù)倉庫的數(shù)據(jù)處理和管理功能。而數(shù)據(jù)倉庫和數(shù)據(jù)湖的融合有兩個方向,第一個融合方向是在數(shù)據(jù)湖基礎(chǔ)上增加數(shù)據(jù)倉庫能力,第一種模式目前業(yè)界已經(jīng)涌現(xiàn)了一些Lakehouse產(chǎn)品,如Netflix開源Iceberg、Uber開源Hudi、Databricks的Delta Lake;第二個融合方向是數(shù)據(jù)湖和數(shù)據(jù)倉庫協(xié)同起來,向湖倉一體的融合分析架構(gòu)發(fā)展,即邏輯數(shù)據(jù)倉庫LDW,也就是國雙的新產(chǎn)品“國雙GDP數(shù)智平臺”。湖倉一體可以認(rèn)為是邏輯數(shù)據(jù)倉庫架構(gòu)理念下針對Hadoop數(shù)據(jù)湖和MPPDB數(shù)據(jù)倉庫的融合架構(gòu)。數(shù)據(jù)對用戶完全實現(xiàn)虛擬化,以邏輯統(tǒng)一的數(shù)據(jù)系統(tǒng)為企業(yè)提供數(shù)據(jù)分析服務(wù)。平臺層面,Hadoop與MPP具備數(shù)據(jù)共用和跨庫分析能力,通過互聯(lián)互通、計算下推、協(xié)同計算,實現(xiàn)數(shù)據(jù)在多個數(shù)據(jù)平臺之間透明流動。
大數(shù)據(jù)結(jié)構(gòu)發(fā)展的同時,大數(shù)據(jù)領(lǐng)域相關(guān)的技術(shù)也在不斷涌現(xiàn),它們成為大數(shù)據(jù)存儲、計算的有力武器。
存算分離
2004-2006年間,Google陸續(xù)發(fā)表了Google File System、MapReduce和BigTable三篇革命性技術(shù)的文章,奠定了分布式系統(tǒng)理論基礎(chǔ)。隨后以這三項技術(shù)為核心的開源框架如雨后春筍般涌現(xiàn)出來,Apache基金會開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop便是其中之一。由于Hadoop能夠在開發(fā)者不了解分布式底層細(xì)節(jié)的情況下,利用集群的計算和存儲能力,對大量數(shù)據(jù)進行可靠、高效、可伸縮的分布式高速運算,成為了大數(shù)據(jù)分析時代驅(qū)動數(shù)據(jù)價值挖掘和變現(xiàn)炙手可熱的技術(shù)之一。而在Hadoop三代版本的演進中證明了存算分離已成為大數(shù)據(jù)建設(shè)的必然趨勢。
存算分離針對存算一體的弊端進行優(yōu)化,為企業(yè)控制成本和提升數(shù)據(jù)運行的效率提供了新的思路,帶來了四大價值:
1.可靠性提升:外置共享存儲可靠性結(jié)合云原生故障隔離和遷移能力,解決一體化方案可靠性短板,并為降低資源冗余提供基礎(chǔ);
2.資源優(yōu)化:解決數(shù)據(jù)快速移動,實現(xiàn)計算、存儲彈性擴展,按需分配,減少因可靠性、運維能力不足造成的硬件冗余;
3.能力復(fù)用:使用共享存儲成熟的備份恢復(fù)、SSD介質(zhì)延壽、亞健康等能力,快速提升數(shù)據(jù)庫整體解決方案能力,節(jié)約開發(fā)成本;
4.架構(gòu)先進:基于開放生態(tài)存儲底座,可快速實現(xiàn)云原生數(shù)據(jù)庫能力,不影響上層應(yīng)用,實現(xiàn)平滑演進。
隨著5G、分布式技術(shù)、云計算的不斷發(fā)展,及各行業(yè)數(shù)字化轉(zhuǎn)型的不斷深入,數(shù)據(jù)庫云化、數(shù)據(jù)庫云原生架構(gòu)已成為趨勢,計算、存儲分離,采用共享存儲的方式是數(shù)字化轉(zhuǎn)型企業(yè)共同的選擇。
流批一體
自 Google Dataflow 模型被提出以來,流批一體就成為分布式計算引擎最為主流的發(fā)展趨勢。流批一體意味著計算引擎同時具備流計算的低延遲和批計算的高吞吐高穩(wěn)定性,提供統(tǒng)一編程接口開發(fā)兩種場景的應(yīng)用并保證它們的底層執(zhí)行邏輯是一致的。對用戶來說流批一體很大程度上減少了開發(fā)維護的成本,但同時這對計算引擎來說是一個很大的挑戰(zhàn)。
作為 Dataflow 模型的最早采用者之一,Apache Flink 在流批一體特性的完成度上在開源項目中是十分領(lǐng)先的。Flink 遵循 Dataflow 模型的理念: 批處理是流處理的特例。不過出于批處理場景的執(zhí)行效率、資源需求和復(fù)雜度各方面的考慮,在 Flink 設(shè)計之初流處理應(yīng)用和批處理應(yīng)用盡管底層都是流處理,但在編程 API 上是分開的。這允許 Flink 在執(zhí)行層面仍沿用批處理的優(yōu)化技術(shù),并簡化掉架構(gòu)移除掉不需要的 watermark、checkpoint 等特性。
在大數(shù)據(jù)場景下經(jīng)常需要數(shù)據(jù)同步或者數(shù)據(jù)集成,也就是將數(shù)據(jù)庫中的數(shù)據(jù)同步到大數(shù)據(jù)的數(shù)倉或者其他存儲中。全量的同步和增量的同步實際上是兩套技術(shù),需要定期將全量同步的數(shù)據(jù)跟增量同步數(shù)據(jù)做 merge,不斷的迭代來把數(shù)據(jù)庫的數(shù)據(jù)同步到數(shù)據(jù)倉庫中。
基于 Flink 流批一體,整個數(shù)據(jù)集成的架構(gòu)將不同。因為 Flink SQL 也支持?jǐn)?shù)據(jù)庫(像 MySQL 和 PG)的 CDC 語義,所以可以用 Flink SQL 一鍵同步數(shù)據(jù)庫的數(shù)據(jù)到 Hive、ClickHouse、TiDB 等開源的數(shù)據(jù)庫或開源的 KV 存儲中。在 Flink 流批一體架構(gòu)的基礎(chǔ)上,Flink 的 connector 也是流批混合的,它可以先讀取數(shù)據(jù)庫全量數(shù)據(jù)同步到數(shù)倉中,然后自動切換到增量模式,通過 CDC 讀 Binlog 進行增量和全量的同步,Flink 內(nèi)部都可以自動的去協(xié)調(diào)好,這是流批一體的價值。
大數(shù)據(jù)應(yīng)用
大數(shù)據(jù)計算發(fā)展至今,已經(jīng)形成了一個百花齊放的大數(shù)據(jù)生態(tài),通用計算、定制開發(fā),批量處理、實時計算,關(guān)系查詢、圖遍歷以及機器學(xué)習(xí)等等都可以找到各種對應(yīng)的計算引擎來協(xié)助我們處理這些任務(wù)。
大數(shù)據(jù)無處不在,包括金融、汽車、餐飲、電信、能源和娛樂等在內(nèi)的社會各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)的印跡。
國雙自研的大數(shù)據(jù)平臺也在工業(yè)、能源、安全、司法、財稅、交通等上百個數(shù)字化、智能化轉(zhuǎn)型的項目實踐中得到檢驗。
(1)某大型能源集團大數(shù)據(jù)平臺項目
本項目是對某大型能源集團公司“十三五”信息技術(shù)總體規(guī)劃中的綜合管理類項目,構(gòu)建了生產(chǎn)經(jīng)營數(shù)據(jù)匯聚、共享和應(yīng)用的云化服務(wù)平臺,具有集團級數(shù)據(jù),具備大數(shù)據(jù)計算、數(shù)據(jù)挖掘、敏捷分析、可視化等能力,遵循平臺統(tǒng)一,應(yīng)用自主的原則為集團各層級提供數(shù)據(jù)、應(yīng)用、工具的共享服務(wù),各類數(shù)據(jù)分析應(yīng)用都基于數(shù)據(jù)倉庫和大數(shù)據(jù)平臺進行實現(xiàn)。
平臺為各個應(yīng)用提供了穩(wěn)定高效的數(shù)據(jù),發(fā)揮了大數(shù)據(jù)分析平臺的應(yīng)用價值。目前已采集196套數(shù)據(jù)庫系統(tǒng)和所需的企業(yè)外部數(shù)據(jù),支持上萬個數(shù)據(jù)周期處理作業(yè)流,結(jié)構(gòu)化數(shù)據(jù)量超過2PB,非結(jié)構(gòu)化數(shù)據(jù)近1PB,形成21個一級主題域、70個二級主題域、近500個三級主題和3000多個業(yè)務(wù)實體的數(shù)據(jù)資源目錄。
項目完成了Zeta、敏捷BI、管理駕駛艙、云平臺、數(shù)據(jù)挖掘工具箱、平臺監(jiān)控、數(shù)據(jù)監(jiān)控、應(yīng)用監(jiān)控、8套安全產(chǎn)品及需求定制開發(fā),助力企業(yè)完成信息化、數(shù)字化的目標(biāo)。
(2)GDP產(chǎn)品誕生
大數(shù)據(jù)產(chǎn)品百花齊放,國雙作為中國領(lǐng)先的企業(yè)級大數(shù)據(jù)和人工智能平臺軟件廠商也不落其后。2008年,國雙推出了第一個數(shù)據(jù)智能產(chǎn)品WD,自2009年以來,基于大數(shù)據(jù)平臺發(fā)布了一系列產(chǎn)品和解決方案,2019年,Zeta大數(shù)據(jù)平臺產(chǎn)品也正式投入使用。
2022年,Zeta改版升級成為國雙大數(shù)據(jù)平臺(Gridsum Data Platform)。GDP是一款為企業(yè)、行業(yè)提供高性能、敏捷、智能化的大數(shù)據(jù)平臺,以“數(shù)據(jù)驅(qū)動”為核心,在企業(yè)數(shù)字化轉(zhuǎn)型過程中,通過“數(shù)據(jù)智能化,協(xié)同一體化、應(yīng)用場景化、創(chuàng)新敏捷化、模式生態(tài)化”持續(xù)構(gòu)建企業(yè)的核心數(shù)據(jù)能力,支持企業(yè)快速、高效、低成本進行業(yè)務(wù)創(chuàng)新和增強的企業(yè)架構(gòu)。
后續(xù)我們將推出系列文章詳細(xì)為大家介紹國雙GDP大數(shù)據(jù)平臺的設(shè)計思想與特點,敬請期待。