這幾年的數(shù)據(jù)領(lǐng)域出現(xiàn)好多的概念,例如:人工智能、物聯(lián)網(wǎng)、邊緣計算、數(shù)據(jù)治理、數(shù)據(jù)湖、數(shù)據(jù)中臺……可謂是“百花齊放”!一時間大家都在提新概念,但卻不是所有人都清楚到底意味著什么。
“人家都數(shù)據(jù)中臺了,你還在做數(shù)據(jù)報表”
“人家都數(shù)據(jù)湖了,你還在搞數(shù)據(jù)倉庫”“
阿里“拆中臺”了,中臺難道不香了”
……
到底為什么要做數(shù)據(jù)湖/數(shù)據(jù)中臺,有什么價值呢?孰優(yōu)孰劣?究竟我的公司是不是也要做數(shù)據(jù)中臺/數(shù)據(jù)湖嗎,這是隨之而來的問題。
事物總是在不斷演化的,唯一不變的就是變化。今天就和大家展開討論數(shù)據(jù)倉庫、數(shù)據(jù)湖和數(shù)據(jù)中臺這幾個概念之間的藕斷絲連。
01數(shù)據(jù)倉庫
1988年,為解決企業(yè)的數(shù)據(jù)集成問題,IBM的兩位研究員創(chuàng)造性地提出了一個新的術(shù)語:數(shù)據(jù)倉庫(Data Warehouse)。到了1992年,后來被譽為“數(shù)據(jù)倉庫之父”的比爾·恩門給出了數(shù)據(jù)倉庫的定義,二十多年后的今天他的定義依然沒有被時代淘汰。我們來看看他是怎么定義的:
數(shù)據(jù)倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理中的決策制定。
對于數(shù)據(jù)倉庫的概念我們可以從兩個層次予以理解:
- 首先,數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;
- 其次,數(shù)據(jù)倉庫是對多個異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。
簡單的理解,其實就是為了進行OLAP,把分布在各個散落獨立的數(shù)據(jù)庫孤島整合在了一個數(shù)據(jù)結(jié)構(gòu)里面,稱之為數(shù)據(jù)倉庫。

△數(shù)據(jù)倉庫邏輯架構(gòu)
原來各個數(shù)據(jù)孤島中的數(shù)據(jù),可能會在物理位置(比如沃爾瑪在各個州可能都有自己的數(shù)據(jù)中心)、存儲格式(比如月份是數(shù)值類型,但天氣可能是字符類型)、商業(yè)平臺(不同數(shù)據(jù)庫可能用的是Oracle數(shù)據(jù)庫,有的是微軟SQL Server數(shù)據(jù)庫)、編寫的語言(JAVA或者Scale等)等等各個方面完全不同,數(shù)據(jù)倉庫要做的工作就是將他們按照所需要的格式提取出來,再進行必要的轉(zhuǎn)換(統(tǒng)一數(shù)據(jù)格式)、清洗(去掉無效或者不需要的數(shù)據(jù))等,最后裝載進數(shù)據(jù)倉庫。
自從數(shù)據(jù)倉庫出現(xiàn)之后,信息產(chǎn)業(yè)就開始從以關(guān)系型數(shù)據(jù)庫為基礎(chǔ)的運營式系統(tǒng)慢慢向決策支持系統(tǒng)發(fā)展。這個決策支持系統(tǒng),其實就是我們現(xiàn)在說的商務(wù)智能即BI。可以這么說,數(shù)據(jù)倉庫為OLAP解決了數(shù)據(jù)來源問題,數(shù)據(jù)倉庫和OLAP互相促進發(fā)展,進一步驅(qū)動了商務(wù)智能的成熟。
數(shù)據(jù)倉庫是一個功能概念,是將企業(yè)的各業(yè)務(wù)系統(tǒng)產(chǎn)生的基礎(chǔ)數(shù)據(jù),通過維度建模的方式,將業(yè)務(wù)數(shù)據(jù)劃分為多個主題(集市)統(tǒng)一存儲,統(tǒng)一管理。
應(yīng)用場景:一般都是作為商業(yè)智能系統(tǒng)、數(shù)據(jù)儀表盤等可視化報表服務(wù)的數(shù)據(jù)源。
02數(shù)據(jù)集市
數(shù)據(jù)倉庫之父比爾·恩門說過一句話叫“IT經(jīng)理們面對最重要的問題就是到底先建立數(shù)據(jù)倉庫還是先建立數(shù)據(jù)集市”,足以說明搞清楚這兩者之間的關(guān)系是十分重要而迫切的。通常在考慮建立數(shù)據(jù)倉庫之前,會涉及到如下一些問題:
- 采取自上而下還是自下而上的設(shè)計方法
- 企業(yè)范圍還是部門范圍
- 先建立數(shù)據(jù)倉庫還是數(shù)據(jù)集市
- 建立領(lǐng)航系統(tǒng)還是直接實施
- 數(shù)據(jù)集市是否相互獨立
數(shù)據(jù)集市可以理解為是一種"小型數(shù)據(jù)倉庫",它只包含單個主題,且關(guān)注范圍也非全局。數(shù)據(jù)集市可以分為兩種:
- 一種是獨立數(shù)據(jù)集市,這類數(shù)據(jù)集市有自己的源數(shù)據(jù)庫和ETL架構(gòu);
- 另一種是非獨立數(shù)據(jù)集市,這種數(shù)據(jù)集市沒有自己的源系統(tǒng),它的數(shù)據(jù)來自數(shù)據(jù)倉庫。當用戶或者應(yīng)用程序不需要/不必要/不允許用到整個數(shù)據(jù)倉庫的數(shù)據(jù)時,非獨立數(shù)據(jù)集市就可以簡單為用戶提供一個數(shù)據(jù)倉庫的子集。
數(shù)據(jù)集市是一個結(jié)構(gòu)概念,它是企業(yè)級數(shù)據(jù)倉庫的一個子集,主要面向部門級業(yè)務(wù),并且只面向某個特定的主題。
應(yīng)用場景:數(shù)據(jù)集市是數(shù)倉之上更聚焦的業(yè)務(wù)主題合集,更偏向于應(yīng)對業(yè)務(wù)數(shù)據(jù)快速高效應(yīng)用的需求,一般用于商業(yè)智能系統(tǒng)中探索式和交互式數(shù)據(jù)分析應(yīng)用
03數(shù)據(jù)湖
2010年,Pentaho首席技術(shù)官James Dixon創(chuàng)造了“數(shù)據(jù)湖”一詞。他把數(shù)據(jù)集市描述成一瓶清洗過的、包裝過的和結(jié)構(gòu)化易于使用的水。而數(shù)據(jù)湖更像是在自然狀態(tài)下的水,數(shù)據(jù)流從源系統(tǒng)流向這個湖。用戶可以在數(shù)據(jù)湖里校驗,取樣或完全地使用數(shù)據(jù)。
這個也是一個不精確的定義。數(shù)據(jù)湖還有以下特點:
- 從源系統(tǒng)導入所有的數(shù)據(jù),沒有數(shù)據(jù)流失。
- 數(shù)據(jù)存儲時沒有經(jīng)過轉(zhuǎn)換或只是簡單的處理。
- 數(shù)據(jù)轉(zhuǎn)換和定義schema 用于滿足分析需求。

數(shù)據(jù)湖能給企業(yè)帶來多種能力,例如,能實現(xiàn)數(shù)據(jù)的集中式管理,在此之上,企業(yè)能挖掘出很多之前所不具備的能力。
另外,數(shù)據(jù)湖結(jié)合先進的數(shù)據(jù)科學與機器學習技術(shù),能幫助企業(yè)構(gòu)建更多優(yōu)化后的運營模型,也能為企業(yè)提供其他能力,如預(yù)測分析、推薦模型等,這些模型能刺激企業(yè)能力的后續(xù)增長。

△數(shù)據(jù)湖示意圖
數(shù)據(jù)湖是一種數(shù)據(jù)存儲理念,存儲企業(yè)各種各樣的原始數(shù)據(jù)的大型倉庫,包括結(jié)構(gòu)化、非結(jié)構(gòu)、二進制圖像、音頻、視頻等等。
應(yīng)用場景:以大數(shù)據(jù)技術(shù)為基礎(chǔ)有多樣化數(shù)據(jù)結(jié)構(gòu)海量大數(shù)據(jù)存儲需求,也可作為數(shù)據(jù)倉庫或者數(shù)據(jù)集市的數(shù)據(jù)源。
04數(shù)據(jù)中臺
數(shù)據(jù)中臺是指通過企業(yè)內(nèi)外部多源異構(gòu)的數(shù)據(jù)采集、治理、建模、分析,應(yīng)用,使數(shù)據(jù)對內(nèi)優(yōu)化管理提高業(yè)務(wù),對外可以數(shù)據(jù)合作價值釋放,成為企業(yè)數(shù)據(jù)資產(chǎn)管理中樞。數(shù)據(jù)中臺建立后,會形成數(shù)據(jù)API,為企業(yè)和客戶提供高效各種數(shù)據(jù)服務(wù)。

△數(shù)據(jù)中臺架構(gòu)圖
數(shù)據(jù)中臺整體技術(shù)架構(gòu)上采用云計算架構(gòu)模式,將數(shù)據(jù)資源、計算資源、存儲資源充分云化,并通過多租戶技術(shù)進行資源打包整合,并進行開放,為用戶提供“一站式”數(shù)據(jù)服務(wù)。
利用大數(shù)據(jù)技術(shù),對海量數(shù)據(jù)進行統(tǒng)一采集、計算、存儲,并使用統(tǒng)一的數(shù)據(jù)規(guī)范進行管理,將企業(yè)內(nèi)部所有數(shù)據(jù)統(tǒng)一處理形成標準化數(shù)據(jù),挖掘出對企業(yè)最有價值的數(shù)據(jù),構(gòu)建企業(yè)數(shù)據(jù)資產(chǎn)庫,提供一致的、高可用大數(shù)據(jù)服務(wù)。
數(shù)據(jù)中臺不是一套軟件,也不是一個信息系統(tǒng),而是一系列數(shù)據(jù)組件的集合,企業(yè)基于自身的信息化建設(shè)基礎(chǔ)、數(shù)據(jù)基礎(chǔ)以及業(yè)務(wù)特點對數(shù)據(jù)中臺的能力進行定義,基于能力定義利用數(shù)據(jù)組件搭建自己的數(shù)據(jù)中臺。
數(shù)據(jù)中臺是一個邏輯概念,為業(yè)務(wù)提供服務(wù)的主要方式是數(shù)據(jù)API,它包括了數(shù)據(jù)倉庫,大數(shù)據(jù)、數(shù)據(jù)治理領(lǐng)域的內(nèi)容。
應(yīng)用場景:是將數(shù)據(jù)服務(wù)化提供給業(yè)務(wù)系統(tǒng),目的是將數(shù)據(jù)能力滲透到業(yè)務(wù)各個環(huán)節(jié),不限于決策分析。
05各種概念對比
ODS VS 數(shù)據(jù)倉庫 VS 數(shù)據(jù)集市
操作型數(shù)據(jù)庫(ODS)、數(shù)據(jù)倉庫(DW或EDW)、數(shù)據(jù)集市(DM)是目前標準數(shù)倉結(jié)構(gòu)的三個核心組件。

ODS用作所有原始數(shù)據(jù)的臨時存儲區(qū)域,這些數(shù)據(jù)即將進入數(shù)據(jù)倉庫進行數(shù)據(jù)處理。我們可以將其想象成倉庫裝卸碼頭,貨物在此處交付、檢查和驗證。在ODS中,數(shù)據(jù)在進入倉庫前可以被清理、檢查(因為冗余目的),也可檢查是否符合業(yè)務(wù)規(guī)則。在ODS中,我們可以對數(shù)據(jù)進行查詢,但是數(shù)據(jù)是臨時的,因此它僅提供簡單信息查詢,例如正在進行的客戶訂單狀態(tài)。
數(shù)據(jù)集市通常是數(shù)據(jù)倉庫的子集;它的數(shù)據(jù)通常來自數(shù)據(jù)倉庫,盡管還可以來自其他來源。數(shù)據(jù)集市的數(shù)據(jù)專門針對特定的用戶(例如銷售團隊),以便他們能夠快速找到所需的數(shù)據(jù)。通常,數(shù)據(jù)保存在那里用于特定用途,例如財務(wù)分析。
數(shù)據(jù)集市也比數(shù)據(jù)倉庫小得多,它們可以容納數(shù)十千兆字節(jié),相比之下,數(shù)據(jù)倉庫可以存儲數(shù)百千兆字節(jié)到PB級數(shù)據(jù),并可用于數(shù)據(jù)處理。數(shù)據(jù)集市可從現(xiàn)有數(shù)據(jù)倉庫或其他數(shù)據(jù)源系統(tǒng)構(gòu)建,你只需設(shè)計和構(gòu)建數(shù)據(jù)庫表,使用相關(guān)數(shù)據(jù)填充數(shù)據(jù)庫表并決定誰可以訪問數(shù)據(jù)集即可。
數(shù)據(jù)倉庫 VS 數(shù)據(jù)湖
數(shù)據(jù)倉庫與數(shù)據(jù)湖從存儲對象上來講,主要區(qū)別在于:
- 數(shù)據(jù)倉庫則用于存儲來自多個來源的結(jié)構(gòu)化數(shù)據(jù)。
- 數(shù)據(jù)湖的不同之處在于它可存儲非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)。

數(shù)據(jù)倉庫 VS 數(shù)據(jù)湖 VS 數(shù)據(jù)中臺
大數(shù)據(jù)時代,數(shù)據(jù)量越來越多,數(shù)據(jù)形式日益復雜,而以數(shù)據(jù)倉庫為代表的、現(xiàn)有的數(shù)據(jù)存儲和處理技術(shù)無法滿足海量、多樣的數(shù)據(jù)處理需求的背景下產(chǎn)生的。“數(shù)據(jù)湖”是將復雜的事物具象化,偏技術(shù)一些,以一個形象的名字,反應(yīng)了它在大數(shù)據(jù)存儲和大數(shù)據(jù)處理方面的優(yōu)勢和能力。
數(shù)據(jù)湖作為一個集中的存儲庫,可以在其中存儲任何形式(結(jié)構(gòu)化和非結(jié)構(gòu)化)、任意規(guī)模的數(shù)據(jù)。在數(shù)據(jù)湖中,可以不對存儲的數(shù)據(jù)進行結(jié)構(gòu)化,只有在使用數(shù)據(jù)的時候,再利用數(shù)據(jù)湖強大的大數(shù)據(jù)查詢、處理、分析等組件對數(shù)據(jù)進行處理和應(yīng)用。因此,數(shù)據(jù)湖具備運行不同類型數(shù)據(jù)分析的能力。
數(shù)據(jù)中臺從技術(shù)的層面承接了數(shù)據(jù)湖的技術(shù),通過數(shù)據(jù)技術(shù),對海量、多源、多樣的數(shù)據(jù)進行采集、處理、存儲、計算,同時統(tǒng)一標準和口徑,把數(shù)據(jù)統(tǒng)一之后,以標準形式存儲,形成大數(shù)據(jù)資產(chǎn)層,以滿足前臺數(shù)據(jù)分析和應(yīng)用的需求。數(shù)據(jù)中臺更強調(diào)應(yīng)用,離業(yè)務(wù)更近,強調(diào)服務(wù)于前臺的能力,實現(xiàn)邏輯、算法、標簽、模型、數(shù)據(jù)資產(chǎn)的沉淀和復用,能更快速的相應(yīng)業(yè)務(wù)和應(yīng)用開發(fā)的需求,可追溯,更精準。

06總結(jié)
根據(jù)以上數(shù)據(jù)倉庫、數(shù)據(jù)湖和數(shù)據(jù)中臺的概念論述和對比,我們進行如下總結(jié):
1、數(shù)據(jù)倉庫是通過ETL技術(shù)把原始數(shù)據(jù)進一步加工處理,提高數(shù)據(jù)數(shù)據(jù)質(zhì)量,統(tǒng)一數(shù)據(jù)標準,然后把數(shù)據(jù)再進行分類,就是主題的維度建模過程,將數(shù)據(jù)統(tǒng)一存儲與管理,為了滿足決策分析型需求。
2、數(shù)據(jù)湖就好比一個大型倉庫,什么格式的數(shù)據(jù)都存儲,但只存原始數(shù)據(jù)。
3、數(shù)據(jù)中臺是將經(jīng)過數(shù)據(jù)治理的數(shù)據(jù)倉庫或大數(shù)據(jù)平臺中的數(shù)據(jù),通過接口的方式直接服務(wù)于應(yīng)用系統(tǒng)。
那么所有這些企業(yè)都必須做嗎?
對企業(yè)來說,選擇哪種平臺?答案是沒有最好,只有最合適,盤點下自己企業(yè)數(shù)據(jù)資產(chǎn)情況、數(shù)據(jù)服務(wù)的需求情況、數(shù)據(jù)治理的能力情況,再根據(jù)成熟度能力模型評估,正確定位自己。
無論是建立數(shù)據(jù)倉庫還是數(shù)據(jù)中臺都是以業(yè)務(wù)目標為主,切莫盲目跟風,沒有最好的技術(shù),只有最合適的平臺。當然,不論是建設(shè)哪個平臺,億信華辰都可以為您提供專業(yè)的產(chǎn)品方案服務(wù)。15年來,我們致力于為政企用戶提供從數(shù)據(jù)采集、存儲、治理、分析到智能應(yīng)用的智能數(shù)據(jù)全生命周期管理方案,幫助企業(yè)實現(xiàn)數(shù)據(jù)驅(qū)動、數(shù)據(jù)智能。