日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會(huì)員:747

(馬蜂窩技術(shù)原創(chuàng)內(nèi)容,公眾號(hào)ID:mfwtech)

一、馬蜂窩數(shù)據(jù)倉庫與數(shù)據(jù)中臺(tái)

最近幾年,數(shù)據(jù)中臺(tái)概念的熱度一直不減。2018 年起,馬蜂窩也開始了自己的數(shù)據(jù)中臺(tái)探索之路。

數(shù)據(jù)中臺(tái)到底是什么?要不要建?和數(shù)據(jù)倉庫有什么本質(zhì)的區(qū)別?相信很多企業(yè)都在關(guān)注這些問題。

我認(rèn)為數(shù)據(jù)中臺(tái)的概念非常接近傳統(tǒng)數(shù)據(jù)倉庫+大數(shù)據(jù)平臺(tái)的結(jié)合體。它是在企業(yè)的數(shù)據(jù)建設(shè)經(jīng)歷了數(shù)據(jù)中心、數(shù)據(jù)倉庫等積累之后,借助平臺(tái)化的思路,將數(shù)據(jù)更好地進(jìn)行整合與統(tǒng)一,以組件化的方式實(shí)現(xiàn)靈活的數(shù)據(jù)加工與應(yīng)用,以更清晰的數(shù)據(jù)職能組織應(yīng)對(duì)業(yè)務(wù)的快速變化,以服務(wù)的方式更好地釋放數(shù)據(jù)價(jià)值的一種方式。

所以,數(shù)據(jù)中臺(tái)更多的是體現(xiàn)一種管理思路和架構(gòu)組織上的變革。在這樣的思想下,我們結(jié)合自身業(yè)務(wù)特點(diǎn)建設(shè)了馬蜂窩的數(shù)據(jù)中臺(tái),核心架構(gòu)如下:

馬蜂窩數(shù)據(jù)倉庫的架構(gòu)、模型與應(yīng)用實(shí)踐

 

在中臺(tái)建設(shè)之前,馬蜂窩已經(jīng)建立了自己的大數(shù)據(jù)平臺(tái),并積累了一些通用、組件化的工具,這些可以支撐數(shù)據(jù)中臺(tái)的快速搭建。作為中臺(tái)的另一大核心部分,馬蜂窩數(shù)據(jù)倉庫主要承擔(dān)數(shù)據(jù)統(tǒng)一化建設(shè)的工作,包括統(tǒng)一數(shù)據(jù)模型,統(tǒng)一指標(biāo)體系等。下面介紹馬蜂窩在數(shù)據(jù)倉庫建設(shè)方面的具體實(shí)踐。

二、數(shù)據(jù)倉庫核心架構(gòu)

馬蜂窩數(shù)據(jù)倉庫遵循標(biāo)準(zhǔn)的三層架構(gòu),對(duì)數(shù)據(jù)分層的定位主要采取維度模型設(shè)計(jì),不會(huì)對(duì)數(shù)據(jù)進(jìn)行抽象打散處理,更多注重業(yè)務(wù)過程數(shù)據(jù)整合?,F(xiàn)有數(shù)倉主要以離線為主,整體架構(gòu)如下:


馬蜂窩數(shù)據(jù)倉庫的架構(gòu)、模型與應(yīng)用實(shí)踐

 

如圖所示,共分為 3 層:業(yè)務(wù)數(shù)據(jù)層、公共數(shù)據(jù)層與應(yīng)用數(shù)據(jù)層,每層定位、目標(biāo)以及建設(shè)原則各不相同。

(1)業(yè)****務(wù)數(shù)據(jù)層:包含 STG(數(shù)據(jù)緩沖層)與 ODS(操作數(shù)據(jù)層)兩層,這兩層數(shù)據(jù)結(jié)構(gòu)與業(yè)務(wù)數(shù)據(jù)幾乎一致。

  • STG:也叫數(shù)據(jù)準(zhǔn)備區(qū),定位是緩存來自 DB 抽取、消息、日志解析落地的臨時(shí)數(shù)據(jù),結(jié)構(gòu)與業(yè)務(wù)系統(tǒng)保持一致;負(fù)責(zé)對(duì)垃圾數(shù)據(jù)、不規(guī)范數(shù)據(jù)進(jìn)行清洗轉(zhuǎn)換;該層只為 ODS 層服務(wù);
  • ODS:操作數(shù)據(jù)層定位于業(yè)務(wù)明細(xì)數(shù)據(jù)保留區(qū),負(fù)責(zé)保留數(shù)據(jù)接入時(shí)點(diǎn)后歷史變更數(shù)據(jù),數(shù)據(jù)原則上全量保留。模型設(shè)計(jì)依據(jù)業(yè)務(wù)表數(shù)據(jù)變更特性采取拉鏈、流水表兩種形式。

(2)公共數(shù)據(jù)層:細(xì)分為 DWD(明細(xì)數(shù)據(jù)層)、DWS(匯總數(shù)據(jù)層)、DIM(公共維度層) 三層,主要用于加工存放整合后的明細(xì)業(yè)務(wù)過程數(shù)據(jù),以及經(jīng)過輕度或重度匯總粒度公共維度指標(biāo)數(shù)據(jù)。公共數(shù)據(jù)層作為倉庫核心層,定位于業(yè)務(wù)視角,提煉出對(duì)數(shù)據(jù)倉庫具有共性的數(shù)據(jù)訪問、統(tǒng)計(jì)需求,從而構(gòu)建面向支持應(yīng)用、提供共享數(shù)據(jù)訪問服務(wù)的公共數(shù)據(jù)。

  • DWD:這一層是整合后的業(yè)務(wù)過程明細(xì)數(shù)據(jù),負(fù)責(zé)各業(yè)務(wù)場景垂直與水平數(shù)據(jù)整合、常用公共維度冗余加工,以及明細(xì)業(yè)務(wù)標(biāo)簽信息加工;
  • DWS:匯總數(shù)據(jù)層按照主題對(duì)共性維度指標(biāo)數(shù)據(jù)進(jìn)行輕度、高度聚合;
  • DIM:對(duì)維度進(jìn)行統(tǒng)一標(biāo)準(zhǔn)化定義,實(shí)現(xiàn)維度信息共享。

(3)應(yīng)用數(shù)據(jù)層:DWA 層,主要用于各產(chǎn)品或各業(yè)務(wù)條線個(gè)性化的數(shù)據(jù)加工,例如商業(yè)化產(chǎn)品數(shù)據(jù)、搜索推薦,風(fēng)控等。

三、數(shù)據(jù)模型設(shè)計(jì)

3.1 方法選擇

數(shù)據(jù)模型是對(duì)現(xiàn)實(shí)世界數(shù)據(jù)特征的抽象,數(shù)據(jù)模型的設(shè)計(jì)方法就是對(duì)數(shù)據(jù)進(jìn)行歸納和概括的方法。目前業(yè)界主要的模型設(shè)計(jì)方法論有兩種,一是數(shù)據(jù)倉庫之父 Bill Inmon 提出的范式建模方法,又叫 ER 建模,主張站在企業(yè)角度自上而下進(jìn)行數(shù)據(jù)模型構(gòu)建;二是 Ralph Kimball 大師倡導(dǎo)的維度建模方法,主張從業(yè)務(wù)需求出發(fā)自下而上構(gòu)建數(shù)據(jù)模型。

大數(shù)據(jù)環(huán)境下,業(yè)務(wù)系統(tǒng)數(shù)據(jù)體系龐雜,數(shù)據(jù)結(jié)構(gòu)多樣、變更頻繁,并且需要快速響應(yīng)各種復(fù)雜的業(yè)務(wù)需求,以上兩種傳統(tǒng)的理論都已無法滿足互聯(lián)網(wǎng)數(shù)倉需求。在此背景下,馬蜂窩數(shù)據(jù)倉庫采取了「以需求驅(qū)動(dòng)為主、數(shù)據(jù)驅(qū)動(dòng)為輔」的混合模型設(shè)計(jì)方式,來根據(jù)不同的數(shù)據(jù)層次選擇模型。主要從以下四個(gè)方面綜合考慮:

1. 面向主題:采用范式模型理論中的主題劃分方法對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行分類。

**2. 一致性保證:**采用維度模型理論中的總線結(jié)構(gòu)思想,建立統(tǒng)一的一致性維度表和一致性事實(shí)表來保證一致性。

3. 數(shù)據(jù)質(zhì)量保證:無論范式建模還是維度建模都非常重視數(shù)據(jù)質(zhì)量問題,綜合使用兩個(gè)理論中的方法保證數(shù)據(jù)質(zhì)量。

4. 效率保證:合理采取維度退化、變化維、增加冗余等方法,保證數(shù)據(jù)的計(jì)算和查詢效率。



馬蜂窩數(shù)據(jù)倉庫的架構(gòu)、模型與應(yīng)用實(shí)踐

 

其中,ODS 選擇保持貼源的范式模型,不做進(jìn)一步模型抽象,只是從節(jié)省存儲(chǔ)角度考慮,對(duì)該層采取拉鏈處理。DWD 與 DWS 基于對(duì)構(gòu)建成本、性能,易用性角度的考慮,主要采取維度模型和一些寬表模型。寬表模型的本質(zhì)是基于維度模型的擴(kuò)展,對(duì)整個(gè)業(yè)務(wù)以及全節(jié)點(diǎn)信息進(jìn)行垂直與水平方式整合;同時(shí)采用退化維度的方式,將不同維度的度量放入數(shù)據(jù)表的不同列中,實(shí)現(xiàn)業(yè)務(wù)全流程視圖的構(gòu)建,來提升寬表模型的易用性、查詢效率,且易于模型的擴(kuò)展。

  • 水平整合:水平整合就是將同一業(yè)務(wù)多數(shù)據(jù)源的數(shù)據(jù)整合到一個(gè)模型中,如果多數(shù)據(jù)源業(yè)務(wù)數(shù)據(jù)存在交集,則需要按照預(yù)設(shè)的業(yè)務(wù)規(guī)則選取一份保留,避免整合后的業(yè)務(wù)數(shù)據(jù)交叉。例如商品數(shù)據(jù)如果未進(jìn)行主數(shù)據(jù)管理,不同業(yè)務(wù)線的商品信息就會(huì)散落在各業(yè)務(wù)系統(tǒng)表中,無法滿足企業(yè)級(jí)的數(shù)據(jù)分析需求,這時(shí)就需要將這些商品數(shù)據(jù)按照業(yè)務(wù)主題進(jìn)行水平整合。
  • 垂直整合:一次完整的業(yè)務(wù)流轉(zhuǎn)通常要經(jīng)歷多個(gè)環(huán)節(jié),各節(jié)點(diǎn)信息產(chǎn)生的時(shí)點(diǎn)不同、儲(chǔ)存的數(shù)據(jù)表不同。垂直整合就是將同一業(yè)務(wù)中各關(guān)鍵節(jié)點(diǎn)信息整合至業(yè)務(wù)全流程寬表模型中。馬蜂窩訂單交易模型的構(gòu)建就采用了這種方式,下文將進(jìn)行詳細(xì)介紹。

3.2 設(shè)計(jì)目標(biāo)

馬蜂窩數(shù)據(jù)倉庫在模型設(shè)計(jì)上以準(zhǔn)確性、易用性、及時(shí)性為設(shè)計(jì)目標(biāo),以滿足業(yè)務(wù)人員對(duì)數(shù)據(jù)的多樣需求。

  • 準(zhǔn)確性:數(shù)據(jù)質(zhì)量管控要在建模過程中落地,為數(shù)據(jù)準(zhǔn)確性保駕護(hù)航。
  • 易用性:兼顧模型的可擴(kuò)展性和可理解性。
  • 及時(shí)性:充分考慮模型的使用效率,提供方便快捷的數(shù)據(jù)查詢和數(shù)據(jù)計(jì)算服務(wù)。

3.3 設(shè)計(jì)流程

馬蜂窩數(shù)倉模型設(shè)計(jì)的整體流程涉及需求調(diào)研、模型設(shè)計(jì)、開發(fā)測試、模型上線四個(gè)主要環(huán)節(jié),且規(guī)范設(shè)計(jì)了每個(gè)階段的輸出與輸入文檔。

馬蜂窩數(shù)據(jù)倉庫的架構(gòu)、模型與應(yīng)用實(shí)踐

 

  1. 需求調(diào)研:收集和理解業(yè)務(wù)方需求,就特定需求的口徑達(dá)成統(tǒng)一,在對(duì)需求中涉及到的業(yè)務(wù)系統(tǒng)或系統(tǒng)模塊所承擔(dān)的功能進(jìn)行梳理后進(jìn)行表字段級(jí)分析,并對(duì)數(shù)據(jù)進(jìn)行驗(yàn)證,確?,F(xiàn)有數(shù)據(jù)能夠支持業(yè)務(wù)需求。
  2. 模型設(shè)計(jì):根據(jù)需求和業(yè)務(wù)調(diào)研結(jié)果對(duì)模型進(jìn)行初步歸類,選擇合適的主題域進(jìn)行模型存放;確定主題后進(jìn)入數(shù)據(jù)模型的設(shè)計(jì)階段,邏輯模型設(shè)計(jì)過程要考慮總線結(jié)構(gòu)構(gòu)建、模型規(guī)范定義等關(guān)鍵問題;物理模型設(shè)計(jì)以邏輯模型為基礎(chǔ),兼顧存儲(chǔ)性能等因素對(duì)邏輯模型做的物理化的過程,是邏輯模型的最終物理實(shí)現(xiàn).物理模型在一般情況下與邏輯模型保持一致,模型設(shè)計(jì)完成后需要進(jìn)入評(píng)審與 MApping 設(shè)計(jì)。
  3. 模型開發(fā):就是對(duì)模型計(jì)算腳本的代碼實(shí)現(xiàn)過程,其中包含了數(shù)據(jù)映射、腳本實(shí)現(xiàn)、測試驗(yàn)證等開發(fā)過程。單元測試完成后需要通知業(yè)務(wù)方一起對(duì)模型數(shù)據(jù)進(jìn)行業(yè)務(wù)驗(yàn)證,對(duì)驗(yàn)證問題做收集,返回驗(yàn)證模型設(shè)計(jì)的合理性。
  4. 模型上線:完成驗(yàn)證后的模型就可以在線上生產(chǎn)環(huán)境進(jìn)行部署。上線后需要為模型配置監(jiān)控,及時(shí)掌握為業(yè)務(wù)提供數(shù)據(jù)服務(wù)的狀況。我們還將模型的實(shí)體和屬性說明文檔發(fā)布給倉庫數(shù)據(jù)的使用者,使模型得到更好地應(yīng)用。

3.4 主題分類

基于對(duì)目前各個(gè)部門和業(yè)務(wù)系統(tǒng)的梳理,馬蜂窩數(shù)據(jù)倉庫共設(shè)計(jì)了 4 個(gè)大數(shù)據(jù)域(交易、流量、內(nèi)容、參與人),細(xì)分為 11 個(gè)主題:


馬蜂窩數(shù)據(jù)倉庫的架構(gòu)、模型與應(yīng)用實(shí)踐

 

以馬蜂窩訂單交易模型的建設(shè)為例,基于業(yè)務(wù)生產(chǎn)總線的設(shè)計(jì)是常見的模式,即首先調(diào)研訂單交易的完整過程,定位過程中的關(guān)鍵節(jié)點(diǎn),確認(rèn)各節(jié)點(diǎn)上發(fā)生的核心事實(shí)信息。模型是數(shù)據(jù)的載體,我們要做的就是通過模型(或者說模型體系)歸納生產(chǎn)總線中各個(gè)節(jié)點(diǎn)發(fā)生的事實(shí)信息。

訂單生產(chǎn)總線:

馬蜂窩數(shù)據(jù)倉庫的架構(gòu)、模型與應(yīng)用實(shí)踐

 

如上圖所示,我們需要提煉各節(jié)點(diǎn)的核心信息,為了避免遺漏關(guān)鍵信息,一般情況下抽象認(rèn)為節(jié)點(diǎn)的參與人、發(fā)生時(shí)間、發(fā)生事件、發(fā)生協(xié)議屬于節(jié)點(diǎn)的核心信息,需要重點(diǎn)獲取。以下單節(jié)點(diǎn)為例,參與人包括下單用戶、服務(wù)商家、平臺(tái)運(yùn)營人員等;發(fā)生時(shí)間包括用戶的下單時(shí)間、商家的確認(rèn)時(shí)間等;發(fā)生的事件即用戶購買了商品,需要記錄圍繞這一事件產(chǎn)生的相關(guān)信息;發(fā)生協(xié)議即產(chǎn)生的訂單,訂單金額、約定內(nèi)容等都是我們需要記錄的協(xié)議信息。

在這樣的思路下,總線架構(gòu)可以在模型中不斷添加各個(gè)節(jié)點(diǎn)的核心信息,使模型支撐的應(yīng)用范圍逐步擴(kuò)展、趨于完善。因此,對(duì)業(yè)務(wù)流程的理解程度將直接影響產(chǎn)出模型的質(zhì)量。

涉及的業(yè)務(wù)節(jié)點(diǎn)越多,業(yè)務(wù)流程也就越復(fù)雜。從數(shù)據(jù)的角度看,這些業(yè)務(wù)過程會(huì)產(chǎn)生兩種基本的場景形態(tài),即數(shù)據(jù)的拆分和匯聚。隨著流程的推進(jìn),前一節(jié)點(diǎn)的原子業(yè)務(wù)單位在新節(jié)點(diǎn)中可能需要拆分出更多信息,或者參與到新節(jié)點(diǎn)的多向流程。同樣,也可能發(fā)生數(shù)據(jù)的匯聚。以某個(gè)訂單為例,下單節(jié)點(diǎn)數(shù)據(jù)是訂單粒度的,而到支付節(jié)點(diǎn)就發(fā)生了數(shù)據(jù)拆分。數(shù)據(jù)的拆分、匯聚伴隨著總線的各節(jié)點(diǎn),可能會(huì)一直發(fā)散下去。

馬蜂窩數(shù)據(jù)倉庫的架構(gòu)、模型與應(yīng)用實(shí)踐

 

鑒于上述情況,在模型實(shí)現(xiàn)過程中,我們不能把各節(jié)點(diǎn)不同粒度的數(shù)據(jù)信息都堆砌在一起,那樣會(huì)產(chǎn)生大量的冗余信息,也會(huì)使模型本身的定位不清晰,影響使用。因此,需要輸出不同粒度的模型來滿足各類應(yīng)用需求。例如既會(huì)存在訂單粒度的數(shù)據(jù)模型,也會(huì)存在分析各個(gè)訂單在不同時(shí)間節(jié)點(diǎn)狀態(tài)信息的數(shù)據(jù)模型。

馬蜂窩數(shù)據(jù)倉庫的架構(gòu)、模型與應(yīng)用實(shí)踐

 


馬蜂窩數(shù)據(jù)倉庫的架構(gòu)、模型與應(yīng)用實(shí)踐

 

基于維度建模的思路,在模型整合生產(chǎn)總線各節(jié)點(diǎn)核心信息之后,會(huì)根據(jù)這些節(jié)點(diǎn)信息進(jìn)一步擴(kuò)展常用的分析維度,以減少應(yīng)用層面頻繁關(guān)聯(lián)相關(guān)分析維度帶來的資源消耗,模型會(huì)反范式冗余相關(guān)維度信息,以獲取應(yīng)用層的使用便捷。最終建立一個(gè)整合旅游、交通、酒店等各業(yè)務(wù)線與各業(yè)務(wù)節(jié)點(diǎn)信息的馬蜂窩全流程訂單模型。

四、數(shù)據(jù)倉庫工具鏈建設(shè)

為提升數(shù)據(jù)生產(chǎn)力,馬蜂窩數(shù)據(jù)倉庫建立了一套工具鏈,來實(shí)現(xiàn)采集、研發(fā)、管理流程的自動(dòng)化?,F(xiàn)階段比較重要的有以下三大工具:

1. 數(shù)據(jù)同步工具

同步工具主要解決兩個(gè)問題:

  • 從源系統(tǒng)同步數(shù)據(jù)到數(shù)據(jù)倉庫
  • 將數(shù)據(jù)倉庫的數(shù)據(jù)同步至其他環(huán)境

下面重點(diǎn)介紹從源系統(tǒng)同步數(shù)據(jù)到數(shù)據(jù)倉庫。

馬蜂窩的數(shù)據(jù)同步設(shè)計(jì)支撐靈活的數(shù)據(jù)接入方式,可以選擇抽取方式以及加工方式。抽取方式主要包括增量抽取或者全量抽取,加工方式面向數(shù)據(jù)的存儲(chǔ)方式,是需要對(duì)數(shù)據(jù)進(jìn)行拉鏈?zhǔn)奖4?,或者以流水日志的方式進(jìn)行存儲(chǔ)。

接入時(shí),只需要填寫數(shù)據(jù)表信息配置以及具體的字段配置信息,數(shù)據(jù)就可以自動(dòng)接入到數(shù)據(jù)倉庫,形成數(shù)倉的 ODS 層數(shù)據(jù)模型,如下:

馬蜂窩數(shù)據(jù)倉庫的架構(gòu)、模型與應(yīng)用實(shí)踐

 


馬蜂窩數(shù)據(jù)倉庫的架構(gòu)、模型與應(yīng)用實(shí)踐

 

2. 任務(wù)調(diào)度平臺(tái)

我們使用 Airflow 配合自研的任務(wù)調(diào)度系統(tǒng),不僅能支持常規(guī)的任務(wù)調(diào)度,還可以支持任務(wù)調(diào)度系統(tǒng)各類數(shù)據(jù)重跑,歷史補(bǔ)數(shù)等需求。

別小看數(shù)據(jù)重跑、歷史補(bǔ)數(shù),這兩項(xiàng)功能是在選擇調(diào)度工具中重要的參考項(xiàng)。做數(shù)據(jù)的人都清楚,在實(shí)際數(shù)據(jù)處理過程中會(huì)面臨諸多的數(shù)據(jù)口徑變化、數(shù)據(jù)異常等,需要進(jìn)行數(shù)據(jù)重跑、刷新、補(bǔ)數(shù)等操作。

我們設(shè)計(jì)的「一鍵重跑」功能,可以將相關(guān)任務(wù)依賴的后置任務(wù)全部帶出,并支持選擇性地刪除或虛擬執(zhí)行任意節(jié)點(diǎn)的任務(wù):

  • 如果選擇刪除,這該任務(wù)之后所依賴的任務(wù)均不執(zhí)行
  • 如果選擇虛擬執(zhí)行,則會(huì)忽略(空跑)掉該任務(wù),后置的所有依賴任務(wù)還是會(huì)正常執(zhí)行。

如下是基于某一個(gè)任務(wù)重跑下游所有任務(wù)所列出的關(guān)系圖,選中具體的執(zhí)行節(jié)點(diǎn),就可以執(zhí)行忽略或者刪除。

3. 元數(shù)據(jù)管理工具

元數(shù)據(jù)范疇包括技術(shù)元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù)、管理元數(shù)據(jù),在概念上不做過多闡述了。元數(shù)據(jù)管理在數(shù)據(jù)建設(shè)起著舉足輕重的作用,這部分在數(shù)倉應(yīng)用中主要有 2 個(gè)點(diǎn):

(1)血緣管理

血緣管理可以追溯數(shù)據(jù)加工整體鏈路,解析表的來龍去脈,用于支撐各類場景,如:

  • 支持上游變更對(duì)下游影響的分析與調(diào)整
  • 監(jiān)控各節(jié)點(diǎn)、各鏈路任務(wù)運(yùn)行成本,效率
  • 監(jiān)控?cái)?shù)據(jù)模型的依賴數(shù)量,確認(rèn)哪些是重點(diǎn)模型

如下是某一個(gè)數(shù)據(jù)模型中的血緣圖,上下游以不同顏色進(jìn)行呈現(xiàn):

馬蜂窩數(shù)據(jù)倉庫的架構(gòu)、模型與應(yīng)用實(shí)踐

 

(2)數(shù)據(jù)知識(shí)管理

通過對(duì)技術(shù)、業(yè)務(wù)元數(shù)據(jù)進(jìn)行清晰、詳盡地描述,形成數(shù)據(jù)知識(shí),給數(shù)據(jù)人員提供更好的使用向?qū)?。我們的?shù)據(jù)知識(shí)主要包括實(shí)體說明與屬性說明,具體如下:

馬蜂窩數(shù)據(jù)倉庫的架構(gòu)、模型與應(yīng)用實(shí)踐

馬蜂窩數(shù)據(jù)倉庫的架構(gòu)、模型與應(yīng)用實(shí)踐

 

當(dāng)然,數(shù)倉工具鏈條中還有非常多工具,例如自動(dòng)化建模工具,數(shù)據(jù)質(zhì)量管理工具,數(shù)據(jù)開發(fā)工具等,都已經(jīng)得到了很好地實(shí)現(xiàn)。

五、數(shù)倉應(yīng)用——指標(biāo)平臺(tái)

有了合理的數(shù)倉架構(gòu)、工具鏈條支撐數(shù)據(jù)研發(fā),接下來,就要考慮如何把產(chǎn)出的數(shù)據(jù)對(duì)外賦能。下面以馬蜂窩數(shù)據(jù)應(yīng)用利器-指標(biāo)平臺(tái),進(jìn)行簡單介紹。

幾乎所有的企業(yè)都會(huì)構(gòu)建自己的指標(biāo)平臺(tái),每個(gè)企業(yè)建立的標(biāo)準(zhǔn)都不一樣。在這個(gè)過程中會(huì)遇到指標(biāo)繁多、定義不清楚、查詢緩慢等問題。為盡量避免這些問題,指標(biāo)平臺(tái)在設(shè)計(jì)時(shí)需要遵循幾大原則:

  1. 指標(biāo)定義標(biāo)準(zhǔn),清晰,容易理解,且不存在二義性,分類明確
  2. 指標(biāo)生產(chǎn)過程簡單、透明、可配置化
  3. 指標(biāo)查詢效率需要滿足快速響應(yīng)
  4. 指標(biāo)權(quán)限管理靈活可控

基于以上原則,馬蜂窩的指標(biāo)平臺(tái)按照精細(xì)化的設(shè)計(jì)進(jìn)行打造,指標(biāo)平臺(tái)組成架構(gòu)如下圖:

馬蜂窩數(shù)據(jù)倉庫的架構(gòu)、模型與應(yīng)用實(shí)踐

 

其中:

  1. 數(shù)據(jù)倉庫是指標(biāo)數(shù)據(jù)的來源,所有指標(biāo)目前都是通過數(shù)據(jù)倉庫統(tǒng)一加工的
  2. 指標(biāo)管理包括指標(biāo)創(chuàng)建與指標(biāo)元數(shù)據(jù)管理:數(shù)倉負(fù)責(zé)生產(chǎn)并創(chuàng)建最核心、最基礎(chǔ)的指標(biāo);其他人員可以基于這些指標(biāo),按照規(guī)則進(jìn)行指標(biāo)的派生;元數(shù)據(jù)管理記錄指標(biāo)的具體來源路徑,說明指標(biāo)的數(shù)據(jù)來源是數(shù)倉表,或者是 Kylin,MySQL 或 ES
  3. 指標(biāo)字典對(duì)外呈現(xiàn)指標(biāo)的定義、口徑、說明等,保證指標(biāo)的透明化及可解釋性
  4. 數(shù)據(jù)服務(wù)接受指標(biāo)的查詢請求,針對(duì)不同場景判斷查詢的成本,選擇最優(yōu)鏈路進(jìn)行指標(biāo)查詢,并返回指標(biāo)查詢的結(jié)果
  5. 多維查詢將可以提供查詢服務(wù)的指標(biāo)與維度通過界面呈現(xiàn),用戶可以基于維度選擇指標(biāo)或基于指標(biāo)選擇維度,查詢具體需要的數(shù)據(jù)
  6. 權(quán)限管理貫徹始終,可以支持表級(jí)、指標(biāo)級(jí)、維值級(jí)別的權(quán)限管理

六、總結(jié)

企業(yè)的數(shù)據(jù)建設(shè)需要經(jīng)歷幾個(gè)大的步驟:

  • 第一步,業(yè)務(wù)數(shù)據(jù)化:顧名思義,一切業(yè)務(wù)都能通過數(shù)據(jù)反映,主要指的是將傳統(tǒng)線下流程線上化;
  • 第二步,數(shù)據(jù)智能化:光有數(shù)據(jù)還不行,還需要足夠的智能,如何通過智能化的數(shù)據(jù)支撐運(yùn)營、營銷及各類業(yè)務(wù),這是數(shù)據(jù)中臺(tái)當(dāng)前解決的主要問題;
  • 第三步,數(shù)據(jù)業(yè)務(wù)化:也就是我們常說的數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù),數(shù)據(jù)不能只是數(shù)據(jù),數(shù)據(jù)價(jià)值最大化在于可以驅(qū)動(dòng)新的業(yè)務(wù)創(chuàng)新,帶動(dòng)企業(yè)增長。

目前大部企業(yè)目前都停留在第二個(gè)階段,因?yàn)檫@一步需要足夠夯實(shí),才能為第三步打好基礎(chǔ),這也是為什么各大企業(yè)要投入很大成本到大數(shù)據(jù)平臺(tái)、數(shù)據(jù)倉庫乃至數(shù)據(jù)中臺(tái)的建設(shè)中。

馬蜂窩數(shù)據(jù)中臺(tái)的建設(shè)才剛剛起步。我們認(rèn)為,理想的數(shù)據(jù)中臺(tái)需要具備數(shù)據(jù)標(biāo)準(zhǔn)化、工具組件化、組織清晰化這三個(gè)核心前提。為了向這一目標(biāo)邁進(jìn),我們將建立統(tǒng)一、標(biāo)準(zhǔn)化的數(shù)據(jù)倉庫作為當(dāng)下數(shù)據(jù)中臺(tái)的重點(diǎn)工作之一。

數(shù)據(jù)來源于業(yè)務(wù),最終也將應(yīng)用于業(yè)務(wù)。只有對(duì)數(shù)據(jù)足夠重視,與業(yè)務(wù)充分銜接,才能實(shí)現(xiàn)數(shù)據(jù)價(jià)值的最大化。在馬蜂窩,從管理層,到公司研發(fā)、產(chǎn)品、運(yùn)營、銷售等各角色,對(duì)數(shù)據(jù)非常重視,數(shù)據(jù)產(chǎn)品的使用人數(shù)占公司員工比例高達(dá) 75%。

大量用戶的使用,驅(qū)動(dòng)著我們在數(shù)據(jù)中臺(tái)建設(shè)的路上不斷前進(jìn)。如何將新興技術(shù)能力應(yīng)用到數(shù)據(jù)倉庫的建設(shè),如何以有限的成本高效解決企業(yè)在數(shù)據(jù)建設(shè)中面臨的問題,將是馬蜂窩數(shù)倉建設(shè)一直的思考。

本文作者:顏博,馬蜂窩數(shù)據(jù)倉庫研發(fā)負(fù)責(zé)人。

分享到:
標(biāo)簽:馬蜂窩 數(shù)據(jù)倉庫
用戶無頭像

網(wǎng)友整理

注冊時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會(huì)員

趕快注冊賬號(hào),推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評(píng)定2018-06-03

通用課目體育訓(xùn)練成績評(píng)定