數據被視為當前數字經濟創新發展的“石油”,而“石油”的開采和冶煉是一個技術含量極高的工程,數據治理就是其中關鍵的一環。在近日舉辦的DataFunSummit2022:數據治理在線峰會上,網易數帆與客戶東北證券的專家聯袂分享了數據治理最新實踐與思考。
網易數帆:長效治理,需要數據治理2.0
網易數帆大數據產品技術負責人郭憶分享了數據治理2.0 的思考與實踐。郭憶表示,數據治理是我們把數據推向業務的基石,因為企業在業務人員使用數據的過程中, 面臨找不到、看不懂、信不過、管不過以及數據開發效率低、質量差等問題。
然而,傳統數據治理1.0的元數據管理、數據標準和數據質量三大件,以及當前金融行業衍生的數據資產化、數據分類分級、數據流通、數據消費等,存在包括數據開發與數據治理脫節、缺少對不同平臺的統一管理、忽視數據開發過程中的效率及質量問題、未解決煙囪式數據開發、對數據價值和成本的評估不足、數據治理過程缺少量化的手段以及數據治理的過程缺少持續反饋的閉環等問題,這使得企業數據和組織生產力的提升之間仍然存在巨大的差距。
為了解決此問題,網易數帆將傳統數據治理的方法融入數據開發的全生命周期中,基于DataOps全生命周期數據開發底座,采用數據中臺架構,結合網易特色的基于ROI的數據資產化實踐,形成了數據治理2.0的方法論。
數據治理2.0具有開發與治理一體化、邏輯數據湖、采用DataOps的數據開發底座、數據中臺架構解決煙囪式數據開發、基于ROI的數據資產沉淀等五大核心亮點,站在現代數據技術棧的巨人肩膀之上,完美解決了數據治理1.0遺留的問題。
其中,數據開發與治理一體化是數據治理2.0 的核心。郭憶認為,數據治理1.0 重點解決存量數據的問題,對于新增數據沒有辦法做到有效治理,而通過數據開發和治理一體化,我們可以建立數據治理長效解決方案,對增量數據實施有效的治理——增量數據往往對企業的分析價值更大,在數字化的背景下尤其如此。
數據開發與治理一體化下,流程變為先設計再開發,設計包括了標準制定的過程(即數據標準化)和數據建模兩個過程。由于數據標準關聯了數據質量的稽核規則,在先定標再建模后開發的流程中,稽核規則可以自動應用到標準模型產出任務上,不再需要數據開發人員人工添加稽核規則。這在從源頭保證數據質量的同時,也降低了數據開發的難度。
東北證券:金融數據治理要打“組合拳”
東北證券是網易數帆的深度客戶,使用了網易數帆有數產品的全平臺工具,從DataOps全鏈路數據開發平臺、數據中臺、數據治理,可視化分析BI到機器學習平臺,構建了一站式數據智能分析體系。
在本次峰會上,東北證券數據治理負責人李燕分享了金融數據治理實踐與思考,重點介紹了數據治理管理域間組合與協同。
01、金融數據治理需要管理域協同
東北證券數據治理的愿景,是“沉淀優質數據資產,激活數據要素潛能,支撐公司數字化轉型”。在數字化轉型的背景下,金融行業業務參與方較多,各類機構和參與者都面臨轉型,且要求各不相同。其中既包括金融機構和各位市場主體,也包括監管部門和各類交易所、協會等機構,如何將各參與方協同起來,共同打造治理的基礎,這是金融行業數據治理面臨的一個痛點和難點。
李燕認為,數據治理各個管理域之間存在協同的力量,單個模塊建設效果不佳,核心原因是各個模塊能力的組合存在不足。她表示,我們需要根據企業實際情況去選擇模塊,并把這些模塊打造成一種能產生組合力、協同的數據治理工具。以東北證券治理體系為例,需要建設一個集模型設計、元數據管理、研發實施、質量監控、安全管理、數據服務等數據全生命周期的實現流程端到端的一體化管控平臺。
數據標準是整個平臺管理域間協同的一個核心,包括基礎數據標準、指標數據標準和標簽數據標準。標準落標在于元數據,包括業務元數據、技術元數據和管理元數據等,兩者之間的關聯需要一個鏈接的過程。數據標準落標的核心保障是數據質量,后者負責標準落標檢查,檢測規則被寫到每一個字段、每一條元數據上。增量數據從源頭符合標準的保證,則是的數據模型,包括概念模型、邏輯模型和物理模型等,同時數據標準也作為輸出為數據模型提供基礎支持。數據標準的一個核心理念是分類分級,其規則輸出給數據安全,并由元數據來承載這些等級。
02、數據治理管理域落地的核心點
李燕強調,數據治理管理域落地的核心點,包括元數據、數據標準、數據質量、數據安全、數據應用與服務等。
元數據的目標是建立元數據倉庫、元數據產品化,它是管理域間的核心抓手,需要業務和技術協同完成。
數據標準的目標是進行統一數據語言,統一約束。只做數據標準,把口徑厘清,把一些關鍵的語言統一出來,固然能產生價值,但如果把數據標準、數據質量的關聯關系同時打通,共同協作去做的話,所能發揮的價值將遠遠大于只做數據標準。
數據質量保證能為數據分析業務提供高質量的數據,保證數據有效性,落地的核心點,一是建立數據質量評分卡;二是從業務端、系統端進行源頭的治理,而不僅僅是數倉內處理完的數據;三是數據質量的分級處置,根據不同的數據問題,不同的數據的重要性,預設不同數據處置方案;四是認責機制,保證質量問題的發現、追蹤和解決,這也是整個數據治理工作要解決的一個關鍵問題。
數據模型的目標,是提供數據使用的交換效率和業務的可理解性,對于證券行業核心是SDOM模型的本地化。
數據安全目標是有效保護,合法利用,釋放數據流動性和產業價值,核心工作包括數據的分類分級,數據的權限審批,數據的隔離和數據脫敏。
最后的數據應用與服務應當緊扣業務價值,換言之,需要進行數據資源的資產化,并通過數據資產支撐更多的業務場景。
03、數據治理如何“破圈”
如何讓數據治理“破圈”,提高業務的參與度,避免成為IT人的自嗨?李燕認為需要從企業角度思考兩點,首先是數據資產如何發揮價值,其次要把數據服務的應用和數據治理結合起來。
“治理不是最終目的,只有良好的資產為數據分析、數據挖掘帶來價值,才能形成正向的反饋。所以它一定是一套組合拳。”李燕說。
小結
隨著行業數字化轉型不斷深入,數據資產化及治理的價值受到了更多企業的關注。于金融企業而言,監管的需求加重了數據治理的意義。兩位專家的分享表明,僅僅依靠事后的治理,已經不足以支撐當前金融企業使用數據、推進數字化轉型,數據治理正在深入到數據的產生過程中。數據治理2.0方法論的提出,網易數帆技術體系的建設,以及東北證券的探索,為金融行業數據治理的升級帶來了可靠的理論依據、基礎平臺和實踐樣板。