大數(shù)據與云計算之間有著千絲萬縷、相互推動的關系。當前大數(shù)據時代已經來臨,海量數(shù)據應用的背后是云計算在做支撐,二者之間實現(xiàn)高效銜接能夠為海量數(shù)據的價值釋放奠定良好基礎,賦能業(yè)務創(chuàng)新。
“云原生大數(shù)據”便是以上形式的技術投影。云原生首次由 Pivotal 公司的 Matt Stine 在2013年提出。云原生(CloudNative)是一個組合詞,Cloud+Native。Cloud 表示應用程序位于云中,而不是傳統(tǒng)的數(shù)據中心;Native 表示應用程序從設計之初即考慮到云的環(huán)境,原生為云而設計,充分利用和發(fā)揮云平臺的彈性+分布式優(yōu)勢。云原生大數(shù)據即是大數(shù)據在設計之初,就充分考慮如何利用云的優(yōu)勢,最大限度釋放數(shù)據價值。
品高股份早在 2008 年開始自主研發(fā),2010 年 2 月就獲得了私有云操作系統(tǒng)商用版本著作權,是一家具有深厚云基因的公司。2015 年,品高股份在面臨某省級公安多警種、省市區(qū)多層級的復雜數(shù)據生態(tài)問題時,對大數(shù)據平臺的研發(fā)有了一定的思考。結合多年的云計算自主研發(fā)經驗、實踐經驗和敏銳的技術趨勢研判,品高股份認為,大數(shù)據要有效釋放價值,需要解決跨層級跨行業(yè)跨領域的數(shù)據互聯(lián)互通問題,構筑成熟的數(shù)據管理能力,同時結合云計算的優(yōu)勢,為數(shù)據管理和運用提供支撐。2016 年,品高云數(shù)據湖從云中應運而生。
品高云數(shù)據湖管理平臺的云原生主要體現(xiàn)在以下幾個方面:采用存算分離架構,通過云原生的存儲加速數(shù)據訪問,通過云原生的計算智能調度資源,通過云原生的網絡保障數(shù)據安全。
*品高云數(shù)據湖管理平臺(BingoInsight)是國內首批企業(yè)級的私有云數(shù)據湖之一,是新一代的數(shù)據匯聚、共享、交換、開放平臺。
云原生大數(shù)據,加速釋放數(shù)據價值
從share Nothing到share Storage
品高云數(shù)據湖采用存算分離架構,使用基于 S3 標準協(xié)議的云原生對象存儲承載大規(guī)模數(shù)據存儲,計算層無狀態(tài)。相較基于 Hadoop 架構的數(shù)據湖,品高云數(shù)據湖存儲計算分別可按需擴展,具有無縫對接 Hadoop/Spark/MPP 等異構計算引擎、計算資源可回收、彈性計算、更低成本等優(yōu)勢。
借助云技術加速數(shù)據存儲訪問
- 數(shù)據路由加速
基于 SDN 軟件定義網絡技術在網絡層解決數(shù)據智能路由,數(shù)據訪問時可就近落盤訪問,縮短 I/O 路徑,減少上行的數(shù)據復制包,解決了存算分離架構下的 I/O 延時及性能損耗等問題。
- 分布式內存加速
通過分布式內存技術,自動緩存訪問熱點數(shù)據,大幅提高訪問速度。
- 高性能并發(fā)加速
基于底層云平臺 DPDK + SDN 架構,將計算節(jié)點的數(shù)據轉發(fā)層進行多核并行的架構改造,提升整體云數(shù)據湖大數(shù)據計算集群網絡轉發(fā)性能,同時提供兼容 POSIX 標準封裝 Socket 網絡開發(fā)組件,對負載均衡、數(shù)據緩存等服務進行優(yōu)化改造,實現(xiàn)關鍵網絡服務的性能提升,在云中提供的純軟件負載均衡服務每秒請求數(shù)可達 150 萬,最大并發(fā)連接數(shù)可達 500 萬。
云技術助力開放性、輕量級數(shù)據計算
- 多范式開放性計算
品高云數(shù)據湖存儲使用標準 S3 協(xié)議,可無縫對接離線計算、實時流計算、交互式分析、AI 計算等多范式計算引擎,支持外部表直連訪問,外部表支持映射不同的分區(qū)文件,靈活滿足不同數(shù)據處理需求,提升數(shù)據共享的使用效率,構建“一份數(shù)據,多種計算”,跨部門、跨層級復雜生態(tài)的異構計算引擎可快速對接,同時在新計算技術引進或者更替時無需遷移數(shù)據。
- 輕量級函數(shù)計算
品高云數(shù)據湖基于輕量級、多編程語言上下文環(huán)境保證的容器沙盒,實現(xiàn)兼容 AWS 標準的多租戶 Lambda 云函數(shù),以數(shù)據湖多維感知的全鏈路事件驅動,構建云數(shù)據湖的內生數(shù)據計算處理引擎。支持數(shù)據定義 DDL 、數(shù)據管理 DML 等事件,如數(shù)據寫入事件、數(shù)據更新事件、數(shù)據刪除事件等,用戶可根據業(yè)務場景訂閱并設置規(guī)則觸發(fā)云函數(shù),數(shù)據湖內置常見圖像識別、OCR 識別、實體提取等函數(shù),同時支持用戶上傳自定義函數(shù),支持 java、c/c++、python 等編程語言,實現(xiàn)敏捷化、輕量級數(shù)據處理。
云原生混合調度,屏蔽底層資源差異,合理化分配資源
- 異構資源統(tǒng)一管理調度,以最佳資源配置提供服務
針對大數(shù)據異構計算資源調度高效能交付場景,根據大數(shù)據異構計算引擎的資源需求差異化特性,品高云研究異構資源的統(tǒng)一管控與調度技術,根據物理區(qū)域、業(yè)務區(qū)域、安全區(qū)域劃分數(shù)據計算可用區(qū),在同一可用區(qū)內,服務支持運行在虛擬機、容器、裸金屬等不同資源形態(tài),支持 GPU、NPU、FPGA 等加速設備資源化交付。在預設的異構大數(shù)據計算引擎場景中,可優(yōu)先提供最佳的資源配置。
- 多芯協(xié)同調度
國內各芯片廠商發(fā)展百花齊放,各芯片所擅長領域亦各有千秋。在此背景下,各集團型企業(yè)和單位可能存在多種芯片同時提供服務,甚至可能存在集團企業(yè)和其下屬子公司所使用的芯片不同的情況。品高云數(shù)據湖通過屏蔽底層異構計算引擎差異,根據客戶使用場景調度合適的芯片提供計算服務,不同廠商芯片協(xié)同向上支撐應用,避免了技術鎖定和產能不足等潛在業(yè)務風險。
- 彈性伸縮以高效利用資源
借助存算分離架構,計算實現(xiàn)無狀態(tài),數(shù)據計算可根據用戶自定義業(yè)務規(guī)則自動伸縮,支持多租戶計算資源隔離和動態(tài)調度。
通過SDN保障數(shù)據安全
品高云數(shù)據湖引入數(shù)據沙箱機制,將代碼與代碼運行所需要的數(shù)據和環(huán)境變量解耦,根據代碼的運行環(huán)境,自動關聯(lián)所需要的數(shù)據和環(huán)境變量。并通過 SDN 隔離敏感數(shù)據,在云網絡層面判斷訪問的客戶端 IP、訪問協(xié)議、訪問端口是否有可訪問權限;對于高敏感度數(shù)據,可用子網絡再次進行隔離,多方面多層級保障數(shù)據安全。
新技術協(xié)同共融共生
通過云計算與大數(shù)據的融合,可以發(fā)揮出指數(shù)增長的價值優(yōu)勢。未來,各技術交叉融合必然是大勢所趨,我們將始終保持開放中立的態(tài)度,以推動產業(yè)發(fā)展為目標,積極探索創(chuàng)新融合,為行業(yè)客戶發(fā)展賦能。