發現新冠病毒的傳播路徑?用圖數據庫!
識別金融欺詐,實現風控處理?用圖數據庫!
個性化商品推薦,給買家更好的購物體驗?用圖數據庫!
“圖”,為什么這么熱?
圖數據庫,其實并不是什么新鮮事物。隨著大數據分析、人工智能等技術的快速普及,它已經開始“飛入尋常百姓家”,在社交推薦、風控領域、健康和醫療,乃至區塊鏈、公共安全等領域有了諸多成功的落地應用。
近兩三年,圖數據庫市場一直處于持續升溫狀態。在先行一步的國外市場,以Amazon Neptune、Microsoft Cosmos等為代表的傳統大廠,以及以Neo4j、TigerGraph等為代表的新興勢力,還有諸如JanusGraph、Dgraph、Redis Graph等開源產品,交相輝映。在國內,圖數據庫市場也是一派熱鬧景象,大廠有百度HugeGraph、華為GES、騰訊TGDB、阿里GDB、螞蟻GeaBase、字節跳動ByteGraph等,還有星環科技StellarDB、創鄰科技GalaxyBase、歐若數網NebulaGraph等也是各具特色,整個市場競爭日趨激烈。
圖數據庫市場的興盛,從宏觀的趨勢和政策層面看,與全球數字化轉型步伐的加快、大數據應用蔚然成風,以及中國已將大數據作為一項核心戰略密切相關。尤其是在數據作為一種新型生產要素,寫入2020年4月10日發布的《中共中央國務院關于構建更加完善的要素市場化配置體制機制的意見》中,加快培育和完善數據要素市場,實現數據驅動,成了當前最緊迫的任務。從微觀的企業應用層面看,越來越多的企業認識到,數據是企業的戰略資產,數據的分析、數據價值的挖掘成了決定企業未來成敗的關鍵。
當前,圖數據庫技術已趨于成熟,并且逐步進入了場景化落地階段。圖數據庫主要用于圖數據的存儲和聯機事務查詢,具備實時性。雖然圖數據庫可以存儲海量數據,但并不適合直接用來進行海量數據的分析計算。圖數據庫無法解決圖計算領域的所有問題,它是知識圖譜的基石。而知識圖譜的構建和應用,還要結合不同的圖計算技術。目前,知識圖譜已在搜索推薦、知識問答、投研分析等領域得到了廣泛使用。知識圖譜基于自然語言處理模型,將文本數據進行提煉抽取后,存儲為圖數據,如此一來,更易于做實體、關聯和圖信息的查詢與分析,以及知識的統一管理。
雖然人們對于圖數據庫、知識圖譜等概念和技術不再陌生,但先進技術的大規模應用總有一個過程。從整體來看,圖數據技術在行業應用中落地還有一定難度,究其原因:第一,行業用戶對圖的概念還不夠熟悉,在技術選型時缺乏動力和“主心骨”;第二,復雜的圖應用靈活度較高,需要參與人員具有較豐富的算法和數據建模經驗,而這正是很多用戶所欠缺的;第三,在面對不同的業務場景時,用戶可能要做大量的業務場景梳理、數據清洗、標注、NLP模型訓練工作,有時還要做很多定制化的工作,復雜度和成本相對較高,從而造成了應用的障礙。
俗話說,工欲善其事,必先利其器。面對應用的挑戰,行業用戶更迫切需要一個能力全面的圖數據解決方案。首先,它必須具有強大的圖查詢能力,支持快速返回點邊、路徑和子圖查詢;其次要具有強大的圖分析能力,支持運行傳統圖算法;再次,還要具備可視化能力,支持展示圖查詢結果;最后,生態開放的能力也是不可或缺的,要支持多數據源接入和導出。
目前,在圖數據庫市場上,產品種類繁多,各廠商也是八仙過海,各顯神通。行業用戶在選擇時,一定要結合自己的業務需求,選擇一個功能強大、簡單易用且全面的解決方案。
從金融行業看“圖”如何落地?
金融行業是圖數據庫應用的先鋒行業,不僅從大型國有銀行到股份制銀行都普遍使用了企業級分布式圖數據庫和知識圖譜平臺,而且從2021年開始,一些中小型的金融機構也在積極探索和嘗試圖應用的商業化路徑。究其原因,一方面,隨著圖數據技術越來越成熟,圖應用的投入成本逐步走低;另一方面,從客戶的業務需求來看,處理復雜關聯關系的需求日趨旺盛,不斷創新的圖數據技術、分析手段,可以給客戶帶來明顯的業務價值和收益,同時還可以有效解決最為迫切的監管與風控需求。
從應用需求的變化和發展來看,國內金融行業知識圖譜最早是從監管和大銀行發展起來的風險圖譜,如反洗錢、反欺詐圖譜應用。這一類圖最初是同構圖,整個圖譜Schema可以簡化抽象成只包含一類實體和一類關系,處理起來相對簡單。近些年來,隨著技術進步和應用場景的不斷拓展,包含多種實體或關系的異構圖數據源漸成主流,包括工商數據、司法數據、供應鏈數據、產業鏈數據、價值鏈數據、擔保鏈數據,甚至是社交網絡數據等。基于此,未來兩三年,知識圖譜的主戰場將集中在異構知識圖譜上。
從成本上看,知識圖譜的應用除包括圖數據源采購的費用以外,圖數據庫、知識圖譜PaaS和圖挖掘應用是主要的成本構成。也正因為如此,以前,只有大型金融機構才有資金和技術實力投入預研性質的開發或者方案選型。未來,隨著能夠提供全棧知識圖譜解決方案的廠商逐快速崛起,圖應用的商業化落地成本將隨之有效降低,圖應用有可能在金融全行業中落地開花。
圖數據庫與傳統關系型數據庫最大的不同之處在于關系發現和關系查詢。傳統關系型數據庫需要多表關聯,以及跨表查詢才能實現關系的計算。在復雜的圖查詢場景中,傳統關系型數據庫可能會出現嚴重的性能瓶頸,甚至出現算不出來的現象。而分布式圖數據庫可以支持超大規模萬億點邊計算存儲場景,基于原生圖存儲技術,充分利用圖拓撲結構和數據索引,實現圖上模式挖掘和圖范式查找,效率、準確性等都得到大幅度提升。
千億級大圖的查詢是一個業界公認的難點,而從另一個角度說,也是最好的突破口。當初,星環科技堅定地進入圖數據庫領域,也是希望發揮自身的技術優勢,在圖數據庫領域闖出屬于自己的一片天地。星環科技從來不打無準備之仗,其底氣在于,在異構知識圖譜領域已經擁有大量技術儲備,并且面向未來3~5年的技術發展,進行了充分準備。事實勝于雄辯,星環科技自研的分布式圖數據庫StellarDB不僅能夠支持萬億邊規模的圖數據存儲,而且具有查詢速度快、分析能力強、穩定性高等特點,可以支持豐富的圖分析算法,性能表現十分優異。
隨著StellarDB快速落地上線,客戶不僅可以穩定地為上層業務提供查詢業務,同時還可降低集群節點數量,以及數據導入成本。StellarDB具備完整的企業級功能,如用戶認證、權限管理、數據熱備份、資源控制等,具備高性能的圖查詢能力,包含近20種常見圖算法。StellarDB與大數據系統緊密融合,可配合Hadoop、Spark、Kafka等大數據系統構建復雜應用。StellarDB支持SQL操作和圖數據查詢,可處理結構化數據和圖數據。
星環科技以領先的圖數據技術,為用戶打通了從底層的關系型數據庫、大數據平臺,到中層的圖數據庫,再到上層知識圖譜應用的全棧產品通路,實現了從最底層獨立的“點”分析到關系的“線”分析,再到事件的“面”分析,最終形成行業全面的“體”分析的全棧智能分析賦能。星環科技從點到面再到體的一站式分析工具,可以為用戶節省大量開發成本和基礎算力,并顯著提升分析性能。
如今,星環科技StellarDB已經在金融等眾多行業得到了廣泛部署。比如,星環科技幫助監管和頭部金融機構打造了多個監管、集團派系知識圖譜,以及對公知識圖譜、零售知識圖譜等。
國產“圖”,底氣何來?
最近一兩年,國內的用戶越來越傾向于選擇國內廠商自主研發的企業級分布式圖數據庫和知識圖譜平臺。究其原因,可以歸納為以下兩個方面。
首先,中國的圖數據庫廠商在技術上并不遜于國外廠商,在某些技術細分領域甚至還超過了國外同類廠商。都說中國是天生的“大數據之國”,客戶眾多、數據量龐大、業務場景繁復,尤其是在金融、社交等領域,時常會遇到超大規模數據計算的場景,圖計算的網絡規模不是普通圖數據庫所能承載和解決的。中國的圖數據庫廠商從一開始就要面對諸如超大規模、超高復雜性等的挑戰,其解決方案百煉成鋼,能夠更好地滿足中國客戶的特殊需求。以星環科技為例,它立足自主研發,可以支持萬億點邊圖計算場景,也因此贏得了眾多中國行業客戶的青睞。
星環科技的差異化優勢突出體現在,能夠提供端到端的圖數據解決方案,包括基礎的大數據平臺,以及可以高效運行的圖數據庫、知識圖譜等產品。星環科技是同時具備圖數據庫(StellarDB)、知識圖譜平臺(Sophon KG)、圖挖掘應用開發能力的企業,其全棧能力可以助力企業用戶快速構建知識圖譜應用,有效降低圖應用的門檻。
其次,出于行業監管與合規的要求,自主可控的國產化產品可以避免用戶在技術應用上被“卡脖子”,擁有更多的選擇,確保安全、可靠、可用。
“圖”的未來
未來,圖數據庫應用將走向何方?
從技術上看,多模態異構圖將是市場熱點,而知識圖譜與自然語言處理的深度融合發展則是必然趨勢。另外,時序圖、空間圖應用,圖神經網絡也是未來的主要方向。
從應用的角度看,未來圖應用更需要完整的方法論和解決方案。其真正價值將體現在,利用圖的方法論圍繞諸如金融風控、金融投研等領域的知識圖譜,構建整體解決方案。從應用趨勢來看,偏SaaS級的端到端解決方案能夠有效消除用戶的應用痛點。對于圖數據庫廠商來說,擁有基于業務場景的know-how,也就是行業解決方案,才是在知識圖譜領域實現破局的法寶。
可以預見,用戶會越來越傾向于選擇端到端的整體解決方案,而無需分別購買圖數據庫、圖平臺和建模服務,更無需擔心底層圖數據庫、中層圖建模平臺和上層圖挖掘應用。對于圖應用來說,大型機構會有非常多的定制化需要,而中小型機構則偏好標準化的解決方案。星環科技就是這樣一家針對知識挖掘應用,擁有從底層到頂層完整解決方案的廠商,能夠賦予用戶構建完整的圖應用生態的能力。