近日,奇點云的數(shù)據(jù)云全系產(chǎn)品發(fā)布新一季更新。本文著重分享數(shù)據(jù)存算引擎DataKun、數(shù)據(jù)安全引擎DataBlack、指標(biāo)工廠SimbaMetric、標(biāo)簽工廠SimbaTag的最新進展。
摘要:
· 數(shù)據(jù)存算引擎DataKunR2.0發(fā)布,在安全穩(wěn)定、智能運維、自主可控等層面均有優(yōu)化,實現(xiàn)360°可觀測。
· 數(shù)據(jù)安全引擎DataBlackR2.0發(fā)布,成為獨立版本,支持全域數(shù)據(jù)安全,內(nèi)置開箱即用的行業(yè)模板,更有“冠軍算法”加持。
· SimbaMetric(指標(biāo)工廠)、SimbaTag(標(biāo)簽工廠)成為獨立版本,可搭載于企業(yè)現(xiàn)有數(shù)據(jù)平臺之上,為標(biāo)簽管理、指標(biāo)管理提效。
DataKun R2.0
智能運維,自主可控
數(shù)據(jù)存算引擎DataKun,提供企業(yè)級的大數(shù)據(jù)集群智能運維能力。延續(xù)“安全穩(wěn)定”、“智能運維”、“云原生”、“自主可控”四大特性,DataKun R2.0持續(xù)優(yōu)化進階:
360°可觀測,告別傳統(tǒng)人肉運維
圍繞大數(shù)據(jù)運維全生命周期,DataKun從系統(tǒng)層、服務(wù)層、業(yè)務(wù)層實現(xiàn)360°可觀測,并通過智能運維模型,自動化監(jiān)測、分析和優(yōu)化系統(tǒng)行為,改變了傳統(tǒng)“人肉運維”的方式。
R2.0相關(guān)升級主要體現(xiàn)在以下三個方面:
1.“健康檢查”
DataKun“健康檢查”功能,通過一系列檢查及驗證,幫助運維工程師及時發(fā)現(xiàn)常見的配置問題,更新系統(tǒng)參數(shù),減少由于錯誤配置引起的潛在故障和性能問題。
本次更新完善了檢查與更新NTP的設(shè)置,以確保時間同步;完善了檢查與優(yōu)化磁盤的設(shè)置,以確保存儲性能更優(yōu)。
2.“Service Advisor”
“Service Advisor”(服務(wù)顧問)功能,旨在通過分析集群組件的配置和狀態(tài),檢查可能存在的問題,并提供優(yōu)化建議。例如,按照集群規(guī)模,動態(tài)推薦各組件的CPU和內(nèi)存值,幫助用戶改善集群的性能和資源利用率,解決Container并發(fā)度不足導(dǎo)致任務(wù)運行排隊嚴(yán)重、效率太低等問題。
本次更新中,Service Advisor基于過往服務(wù)客戶的最佳實踐,優(yōu)化了HDFS、Ranger、HBase、ClickHouse等組件的配置推薦算法。
3.“集群監(jiān)控”
“集群監(jiān)控”功能相當(dāng)于大數(shù)據(jù)集群的“天眼”。DataKun R2.0迭代了基礎(chǔ)監(jiān)控數(shù)據(jù)指標(biāo)體系,建設(shè)了完善的監(jiān)控看板與易用的診斷工具,覆蓋系統(tǒng)、服務(wù)、業(yè)務(wù)三個層面,幫助及時發(fā)現(xiàn)硬件故障、資源瓶頸、任務(wù)執(zhí)行異常等問題。
全量壓測,安全穩(wěn)定
作為數(shù)據(jù)存算引擎,DataKun需確保長期運行過程中,始終具備高可用、高性能,且滿足安全、穩(wěn)定、合規(guī)的要求。
1.核心組件全量壓測,充分保障穩(wěn)定
本輪更新,DataKun的核心組件完成全量壓測,包括YARN、HDFS、Hive、Spark等在內(nèi)的所有核心組件穩(wěn)定性及性能均得到了充分驗證。
結(jié)合壓測結(jié)果數(shù)據(jù),我們進一步對組件進行配置調(diào)優(yōu),提升了集群的整體吞吐能力。
2、持續(xù)關(guān)注開源組件安全,第一時間修復(fù)相關(guān)漏洞
DataKun持續(xù)關(guān)注開源社區(qū)動態(tài),及時更新并進行專業(yè)的兼容性驗證測試,以規(guī)避因開源組件漏洞而造成的拒絕服務(wù)攻擊、遠(yuǎn)程代碼執(zhí)行及安全繞過等問題。
本輪迭代,截至2023年6月Hadoop和Hive中發(fā)現(xiàn)的高危漏洞,均已在DataKun R2.0修復(fù)完畢。
自主可控,增加國內(nèi)研發(fā)軟硬件環(huán)境適配
DataKun持續(xù)適配國內(nèi)研發(fā)軟硬件環(huán)境,R2.0現(xiàn)已支持兼容KunPeng(ARM架構(gòu))Kylin V10、X86 Kylin V10。
此外,DataKun R2.0提供更成熟、標(biāo)準(zhǔn)化的配套遷移服務(wù),支持從CDH及云上EMR遷移至DataKun,進一步保障企業(yè)客戶自主可控。
DataBlack R2.0
獨立版本,支持全域數(shù)據(jù)安全
數(shù)據(jù)安全引擎DataBlack以數(shù)據(jù)為中心,具備敏感數(shù)據(jù)自動化發(fā)現(xiàn)、數(shù)據(jù)脫敏和加密、權(quán)限管理、風(fēng)險識別和監(jiān)控、數(shù)據(jù)審計等五大核心功能,助力客戶完成企業(yè)級的數(shù)據(jù)全生命周期安全管控及保護。
DataBlack R2.0帶來以下關(guān)鍵更新:
獨立版本,支持全域全場景數(shù)據(jù)安全
自R2.0起,DataBlack正式作為獨立產(chǎn)品單獨售賣(而不再只作為數(shù)據(jù)云平臺DataSimba的增購項)。
“自立門戶”的DataBlack不僅能保障數(shù)據(jù)云平臺DataSimba、數(shù)據(jù)存算引擎DataKun內(nèi)的數(shù)據(jù)資產(chǎn)安全,也支持對接分析云(例如CDP、UBA)等多類數(shù)據(jù)應(yīng)用產(chǎn)品,提供一站式的數(shù)據(jù)安全管理能力,幫助企業(yè)高效滿足《個人信息保護法》《數(shù)據(jù)安全法》《網(wǎng)絡(luò)安全法》等安全合規(guī)要求。
DataBlack R2.0產(chǎn)品架構(gòu)升級,獨立支持全域數(shù)據(jù)安全
以增長分析(UBA)為例,利用DataBlack完成敏感數(shù)據(jù)識別后,企業(yè)用戶可以對UBA內(nèi)Event、User、Item三張表中存在安全風(fēng)險的敏感信息進行統(tǒng)一管理,也可以下載風(fēng)險明細(xì),滿足審計要求。
面對數(shù)據(jù)應(yīng)用日益多樣而安全合規(guī)缺失的現(xiàn)狀,企業(yè)的數(shù)據(jù)安全管理部門可以借助DataBlack,對全域數(shù)據(jù)采取一致的數(shù)據(jù)安全策略與流程應(yīng)用,給用戶授予對應(yīng)應(yīng)用的安全角色、配置安全能力,從而真正提高數(shù)據(jù)安全管控效率。
內(nèi)置行業(yè)模板,開箱即用
根據(jù)各行業(yè)規(guī)范要求和業(yè)務(wù)特性,DataBlack R2.0內(nèi)置了數(shù)據(jù)安全分類分級行業(yè)模版,開箱即用,幫助企業(yè)高效管理敏感數(shù)據(jù),自動生成分級分類全景圖。
目前,內(nèi)置模板包括以下三類:
1.分類分級標(biāo)準(zhǔn)模板:基于《個人信息保護法》等國家安全法律法規(guī),內(nèi)置37類敏感數(shù)據(jù)類別及對應(yīng)的敏感級別,幫助企業(yè)快速完成敏感數(shù)據(jù)分類、查詢狀態(tài)。
2.金融數(shù)據(jù)安全分類分級模板:依據(jù)《金融數(shù)據(jù)安全 數(shù)據(jù)安全分級指南》(JR/T 0197—2020),側(cè)重個人金融信息保護和金融重要數(shù)據(jù)保護。
3.智聯(lián)網(wǎng)汽車數(shù)據(jù)分類分級模板:依據(jù)“數(shù)據(jù)安全推進計劃”出臺的《智能網(wǎng)聯(lián)汽車數(shù)據(jù)分類分級指南》,側(cè)重智能網(wǎng)聯(lián)汽車的個人敏感信息和汽車重要數(shù)據(jù)保護。
“冠軍算法”加持智能安全
曾斬獲全國數(shù)據(jù)安全賽事冠軍的“異常攻擊事件檢測模型”現(xiàn)已融入DataBlack R2.0!
“異常攻擊事件檢測模型”是一種兼顧“攻擊事件分類識別”和“基線行為預(yù)測”的多任務(wù)深度學(xué)習(xí)模型,不僅能檢測攻擊事件發(fā)生的時間段、攻擊事件類型,還能解析攻擊事件的獨特表現(xiàn)。
通過該模型所屬的“風(fēng)險智能識別”功能,企業(yè)可以監(jiān)控對應(yīng)平臺內(nèi)用戶的操作行為,自動化檢測異常操作,識別離職員工賬號違規(guī)使用、員工下載敏感數(shù)據(jù)導(dǎo)致泄露、低權(quán)限賬號訪問敏感重要數(shù)據(jù)等安全風(fēng)險問題。
SimbaMetric R2.0
指標(biāo)管理與開發(fā)的效率工具
SimbaMetric(指標(biāo)工廠)是針對指標(biāo)統(tǒng)一管理與開發(fā)的效率工具,為企業(yè)提供一套完整的指標(biāo)管理與開發(fā)體系。
具體而言,SimbaMetric能全面滿足指標(biāo)的業(yè)務(wù)需求、技術(shù)需求以及管理需求,提供指標(biāo)從“提出”、“定義”、“設(shè)計”、“開發(fā)”、“使用”、“修改”到“下線”等全生命周期的管理功能,為經(jīng)營分析、風(fēng)險管理、領(lǐng)導(dǎo)決策等提供管理規(guī)范、指標(biāo)統(tǒng)一、數(shù)據(jù)易用的產(chǎn)品功能保障。
作為Simba Toolkits(數(shù)據(jù)服務(wù)工具箱)中的一員,SimbaMetric現(xiàn)已進階為獨立版本,不僅支持搭配數(shù)據(jù)云平臺DataSimba增購,也支持單獨購買,滿足更多客戶所需。
SimbaMetric R2.0的能力包括:
1、嚴(yán)謹(jǐn)?shù)姆謱臃钟蛟O(shè)計,更清晰。在指標(biāo)開發(fā)的過程中,SimbaMetric支持用戶嚴(yán)格遵循數(shù)倉分層分域的架構(gòu)設(shè)計,讓數(shù)據(jù)結(jié)構(gòu)清晰化、條理化,減少指標(biāo)的重復(fù)開發(fā)。
2、指標(biāo)建模的方式讓指標(biāo)業(yè)務(wù)更“落地”。SimbaMetric以“統(tǒng)計粒度+派生指標(biāo)”形成邏輯表的業(yè)務(wù)維度和度量字段,使得維度建模的過程與業(yè)務(wù)緊密結(jié)合。例如,渠道維度的訂單分析數(shù)據(jù),應(yīng)圍繞“渠道”的統(tǒng)計粒度和“訂單”相關(guān)的派生指標(biāo)進行開發(fā)。
3、管理數(shù)據(jù)標(biāo)準(zhǔn),更強調(diào)應(yīng)用數(shù)據(jù)標(biāo)準(zhǔn)。在數(shù)據(jù)治理的場景中,SimbaMetric基于數(shù)據(jù)標(biāo)準(zhǔn)場景實現(xiàn)了對數(shù)據(jù)規(guī)范的管理,如標(biāo)準(zhǔn)的定義、標(biāo)準(zhǔn)值的定義和條件約束,并通過這套規(guī)范執(zhí)行、檢測、維護數(shù)據(jù)的標(biāo)準(zhǔn)化。
4、豐富的行業(yè)模板庫,一鍵引用。我們將眾多行業(yè)的實踐經(jīng)驗沉淀至高級版模板庫功能中,可以在項目中一鍵引用行業(yè)模板并創(chuàng)建,包括但不限于泛零售行業(yè)的詞根、數(shù)據(jù)標(biāo)準(zhǔn)、主題域、業(yè)務(wù)過程等等多個模板。
SimbaTag R2.0
標(biāo)簽開發(fā)與管理分析的效率工具
與SimbaMetric同期“獨立”的,還有SimbaTag(標(biāo)簽工廠)。
SimbaTag是面向業(yè)務(wù)標(biāo)簽開發(fā)、管理、分析的生產(chǎn)力工具型應(yīng)用。
聚焦大數(shù)據(jù)治理環(huán)節(jié)中高頻的標(biāo)簽開發(fā)場景,SimbaTag提煉OEET方法論(Object對象-Entity實體-Event事件-Tag標(biāo)簽),可完成標(biāo)簽體系從業(yè)務(wù)定義到數(shù)據(jù)模型構(gòu)建、標(biāo)簽開發(fā)的落地全過程,并針對形成的標(biāo)簽資產(chǎn)進行統(tǒng)一的資產(chǎn)管理,提供數(shù)據(jù)服務(wù)API及數(shù)據(jù)訂閱服務(wù)。
下游業(yè)務(wù)系統(tǒng)(例如CDP,客戶數(shù)據(jù)平臺)可通過調(diào)用SimbaTag提供的Open API接口,靈活調(diào)整標(biāo)簽開發(fā)模板,迭代衍生標(biāo)簽,沉淀出新的標(biāo)簽資產(chǎn),形成“標(biāo)簽生產(chǎn)-管理-服務(wù)-回流”的標(biāo)簽運營生態(tài)。
與此前的版本相比,SimbaTag R2.0有以下產(chǎn)品優(yōu)勢:
操作配置可視化:可拖拽式構(gòu)建對象寬表模型,并將字段批量配置為對象屬性;
輸出表結(jié)構(gòu)穩(wěn)定:標(biāo)簽輸出表采用高表結(jié)構(gòu),便于下游系統(tǒng)查詢及調(diào)用;
標(biāo)簽管理接口開放:支持下游系統(tǒng)調(diào)用OpenAPI接口進行標(biāo)簽克隆,快速生成衍生標(biāo)簽。
寫在最后:為什么選擇讓它們“自立門戶”?
繼數(shù)據(jù)存算引擎DataKun后,數(shù)據(jù)安全引擎DataBlack、指標(biāo)工廠SimbaMetric、標(biāo)簽工廠SimbaTag陸續(xù)升級為獨立版本。
也就是說,上述產(chǎn)品可以單獨售賣,而不再只作為數(shù)據(jù)云平臺DataSimba的增購項。已有數(shù)倉/數(shù)據(jù)平臺的企業(yè)可以根據(jù)自身的技術(shù)棧規(guī)劃,按需選購。
相較搭配購買,單獨購買獨立版本往往更為“輕量”,組合更為靈活。而實踐過后,有許多企業(yè)會發(fā)現(xiàn)各類數(shù)據(jù)產(chǎn)品工具自成一套,組裝時不得不重復(fù)建設(shè),架構(gòu)變得冗雜。
因此,與市面上產(chǎn)品不同的是,上述產(chǎn)品的獨立版本均內(nèi)置了Simba OS(數(shù)據(jù)云操作系統(tǒng)內(nèi)核),負(fù)責(zé)對DataBlack、SimbaMetric、SimbaTag等產(chǎn)品提供數(shù)據(jù)的存算、權(quán)限體系等標(biāo)準(zhǔn)能力。
Simba OS采用對象體系的設(shè)計,因此上述產(chǎn)品的獨立版本均可繼承對象的屬性和行為,例如繼承“支持60多種數(shù)據(jù)源”、“具備完善的監(jiān)控告警運維能力”等。在保持輕量、靈活等優(yōu)勢的同時,無需為多引擎、多依賴、多云、海量多源異構(gòu)數(shù)據(jù)等帶來的復(fù)雜性以及多產(chǎn)品體系打通等問題操心。
期待成為您的理想選擇!