日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

UML對系統(tǒng)架構(gòu)的定義是:系統(tǒng)的組織結(jié)構(gòu),包括系統(tǒng)分解的組成部分,它們的關(guān)聯(lián)性,交互,機制和指導(dǎo)原則,例如對系統(tǒng)群就是定義各子系統(tǒng)的功能和職責(zé),如貸款系統(tǒng)群可能分為進件申請、核額、交易賬務(wù)、貸后管理、管理臺等子系統(tǒng),對于系統(tǒng)就是定義各模塊的功能和層次,例如管理臺包括權(quán)限管理、用戶管理、交易管理、逾期管理、統(tǒng)計分析等功能。

技術(shù)架構(gòu)是指從技術(shù)實現(xiàn)層面描述系統(tǒng),主要是根據(jù)系統(tǒng)架構(gòu)組成部分確定每層使用什么技術(shù)框架,例如中間件、WebService等。

那對于數(shù)據(jù)倉庫系統(tǒng)群具體可以分為哪些部分以及他們的具體實現(xiàn)技術(shù)如何呢?以下是銀行數(shù)據(jù)倉庫的系統(tǒng)功能圖:

銀行數(shù)據(jù)倉庫的系統(tǒng)架構(gòu)是什么?看這篇足矣

 

1、數(shù)據(jù)源:

主要是指行內(nèi)交易系統(tǒng)、外部采購或合作的第三方數(shù)據(jù)等3類、包括結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化的數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)主要是存儲在各個行內(nèi)系統(tǒng)數(shù)據(jù)庫中的表數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)包括圖片、語音、文檔等類型的數(shù)據(jù)。

2、數(shù)據(jù)采集:

銀行數(shù)據(jù)倉庫的系統(tǒng)架構(gòu)是什么?看這篇足矣

 

即如何將數(shù)據(jù)從數(shù)據(jù)源獲取到數(shù)據(jù)倉庫中,就是我們常說的ETL隨著數(shù)據(jù)倉庫功能的發(fā)展這部分不僅僅包括批量數(shù)據(jù)獲取還包括實時數(shù)據(jù)流以及數(shù)據(jù)庫數(shù)據(jù)實時采集:

(1)批量采集:主要包括從數(shù)據(jù)源獲取大批量的數(shù)據(jù),這是銀行數(shù)據(jù)倉庫主要的數(shù)據(jù)采集方式,批量采集的采集數(shù)據(jù)頻率較低,一般是每日凌晨獲取上一天的數(shù)據(jù),有些場景也可以每小時采集一次,由于采集的數(shù)據(jù)量一般較大,對數(shù)據(jù)源也有IO的影響,因此不建議采集頻率太高。

在技術(shù)實現(xiàn)中,批量采集工具需要能支持多種數(shù)據(jù)源的采集和加載,批量采集可選擇的工具較多,可以采用商業(yè)化軟件如IBM的DATASTAGE以及INFORMATICA公司的INFORMATICA,也可以采用開源的SQOOP和KETTLE。也可以采用各關(guān)系型數(shù)據(jù)庫以及HADOOP自帶的文件導(dǎo)出和導(dǎo)入功能。

(2)實時采集:指實時同步源系統(tǒng)的數(shù)據(jù)庫數(shù)據(jù)到數(shù)據(jù)倉庫,這樣可以在數(shù)據(jù)倉庫中實時分析數(shù)據(jù)。實時采集通過專門的工具監(jiān)控源系統(tǒng)數(shù)據(jù)庫日志進行數(shù)據(jù)同步,數(shù)據(jù)源系統(tǒng)無需改造,這種采集方式針對數(shù)據(jù)統(tǒng)計時效性非常高的場景。

在技術(shù)實現(xiàn)中,實時采集工具需要支持從多種類型數(shù)據(jù)源到多種類型目標(biāo)數(shù)據(jù)庫的實時同步,這塊商業(yè)化軟件比較成熟,如ORACLE的GOLDENGATE、IBM的InfoSphere Change Data Capture等軟件。開源軟件中kettle也支持?jǐn)?shù)據(jù)庫實時同步,但需要在源表增加時間戳字段。

(3)數(shù)據(jù)流采集:即通過Queue的方式從數(shù)據(jù)源系統(tǒng)獲得數(shù)據(jù)流消息,數(shù)據(jù)倉庫實時獲取Queue中的消息進行實時數(shù)據(jù)流計算。這種數(shù)據(jù)采集方式也是面向統(tǒng)計時效非常高的場景,需要數(shù)據(jù)源系統(tǒng)增加實時發(fā)送消息的功能。

在技術(shù)實現(xiàn)中,由于數(shù)據(jù)流計算在互聯(lián)網(wǎng)公司使用廣泛,涌現(xiàn)出許多優(yōu)秀的開源軟件,如開源的KAFKA、ROCKETQUEUE等QUEUE工具,可以支持實時監(jiān)控文件、數(shù)據(jù)庫的變化并將變化數(shù)據(jù)發(fā)送到QUEUE中的開源軟件FLUME。對于MySQL也可以通過BINLOG和SHYIKO監(jiān)控MYSQL日志,將數(shù)據(jù)變化發(fā)送到QUEUE中,那在商業(yè)化軟件中IBM的MQ是各銀行經(jīng)常使用的中間件。

3、數(shù)據(jù)存儲/計算:

數(shù)據(jù)存儲計算是數(shù)據(jù)倉庫的主要功能。數(shù)據(jù)存儲主要指結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的按格式存儲,計算指基于存儲的數(shù)據(jù)進行關(guān)聯(lián)、匯總、數(shù)值計算等批量處理、實時流計算和復(fù)雜的機器學(xué)習(xí)。

實時流計算主要指對大規(guī)模流動數(shù)據(jù)在不斷變化的過程中實時地進行分析,比如實時展示目前銀行所有轉(zhuǎn)賬的筆數(shù)和匯總金額。需要將每筆轉(zhuǎn)賬進行不斷計算。目前在銀行中應(yīng)用場景還較少,但隨著互聯(lián)網(wǎng)渠道的發(fā)展后續(xù)也將出現(xiàn)更多的應(yīng)用場景。

由于數(shù)據(jù)倉庫是銀行的數(shù)據(jù)樞紐,銀行的所有業(yè)務(wù)數(shù)據(jù)都會在數(shù)據(jù)倉庫保留,因此數(shù)據(jù)量較大,一般小銀行數(shù)據(jù)量在TB級,股份制銀行大概在PB級,國有大銀行在ZB級。因此存儲和計算的的可擴展性、性能都很重要。那在目前銀行中數(shù)據(jù)倉庫的存儲和計算一般采用MPP數(shù)據(jù)庫(大規(guī)模并行數(shù)據(jù)庫)和HADOOP相結(jié)合的技術(shù)方案。

銀行數(shù)據(jù)倉庫的系統(tǒng)架構(gòu)是什么?看這篇足矣

 

(1)MPP數(shù)據(jù)庫:主要是面向結(jié)構(gòu)化數(shù)據(jù)存儲、批量計算和機器學(xué)習(xí)。在HADOOP出現(xiàn)前,商用的MPP數(shù)據(jù)庫是數(shù)據(jù)倉庫的主流技術(shù)平臺,它使用簡單,同時具有超大規(guī)模計算能力和良好的計算性能、擴展性。如TERADATA公司的TERADATA數(shù)據(jù)庫、ORACLE公司的ORACLE一體機、IBM的NETEZZA一體機。其中TERADATA公司的TERADATA數(shù)據(jù)庫在早期是一枝獨秀,我國國有大銀行的數(shù)據(jù)倉庫最早建立時大部分都采用了TERADATA數(shù)據(jù)庫。近年來ORACLE的EXADATA市場占有率也逐步提升,開源的MPP數(shù)據(jù)庫最有名的是由商業(yè)轉(zhuǎn)為開源GREENPLUM,目前騰訊云的TIBASE、阿里云的HybridDB for PostgreSQL都是基于GREENPLUM優(yōu)化的。

(2)HADOOP平臺:HADOOP平臺支持結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲和計算。由于MPP數(shù)據(jù)庫價格高,且擴展性也有一定局限。很難滿足互聯(lián)網(wǎng)公司超大數(shù)據(jù)量及非結(jié)構(gòu)化數(shù)據(jù)的計算需求,因此HADOOP軟件生態(tài)體系應(yīng)運而生并發(fā)展越來越成熟,成為互聯(lián)網(wǎng)公司大數(shù)據(jù)處理的標(biāo)配平臺。2015年左右,隨著HADOOP平臺的完善及商用(商用版本如華為、星環(huán)科技;開源版本如CLOUDERA、Hortonworks),銀行也逐步使用HADOOP平臺和MPP數(shù)據(jù)一起作為數(shù)據(jù)倉庫的存儲和計算平臺。其中批量計算一般使用HIVE和SPARK,流計算一般使用STORM和SPARKSTREAMING,機器學(xué)習(xí)可以采用HADOOP生態(tài)的SPARKMLLIB、MAHOUT,也可以使用TENSORFLOW、SAS、R等支持HADOOP平臺專門的機器學(xué)習(xí)工具,目前許多公司在研發(fā)推出的人工智能平臺(機器學(xué)習(xí)建模平臺)也都把HADOOP平臺作為數(shù)據(jù)存儲和計算平臺,如第四范式、星環(huán)科技等。

銀行數(shù)據(jù)倉庫的系統(tǒng)架構(gòu)是什么?看這篇足矣

 

4、數(shù)據(jù)服務(wù):

數(shù)據(jù)服務(wù)主要指如何為銀行其它系統(tǒng)提供數(shù)據(jù)服務(wù),隨著數(shù)據(jù)倉庫體系的發(fā)展,數(shù)據(jù)倉庫不僅僅能按批量的方式提供數(shù)據(jù)計算結(jié)果,還可以實時提供數(shù)據(jù)服務(wù)。

(1)批量接口:按約定的接口方式將數(shù)據(jù)批量提供給數(shù)據(jù)應(yīng)用系統(tǒng),一般每天1次,可以按文件的方式放到約定的服務(wù)器,也可以通過數(shù)據(jù)采集部分提到的ETL工具直接將數(shù)據(jù)同步到應(yīng)用系統(tǒng)的數(shù)據(jù)庫中。

(2)在線查詢:提供實時查詢的接口,并發(fā)布到銀行交易總線,由其他業(yè)務(wù)系統(tǒng)或數(shù)據(jù)系統(tǒng)實時調(diào)用,比如銀行的每年的賬單總結(jié)(類似支付寶每年賬單)一般由數(shù)據(jù)倉庫根據(jù)每個客戶1年的交易流水,統(tǒng)計出轉(zhuǎn)賬、消費、收入等數(shù)據(jù)并提供給渠道系統(tǒng)如手機銀行、網(wǎng)上銀行進行展示。那在技術(shù)實現(xiàn)方面,接口服務(wù)開發(fā)一般按各行的開發(fā)規(guī)范來實現(xiàn),如web service或http+xml,大部分銀行使用JAVA進行開發(fā),如果接口TPS不高,一般的MPP數(shù)據(jù)庫也足夠支持,無需進行數(shù)據(jù)移動,如果TPS比較高,可以將數(shù)據(jù)加工結(jié)果放到HADOOP HBASE進行數(shù)據(jù)存儲和查詢。

(3)實時同步:實時同步主要是實時數(shù)據(jù)流計算后將結(jié)果實時同步給數(shù)據(jù)使用系統(tǒng),同時將結(jié)果發(fā)布到QUEUE中,由目標(biāo)系統(tǒng)進行訂閱,實時獲取。

銀行數(shù)據(jù)倉庫的系統(tǒng)架構(gòu)是什么?看這篇足矣

 

5、數(shù)據(jù)應(yīng)用:

數(shù)據(jù)應(yīng)用主要是將數(shù)據(jù)通過數(shù)據(jù)服務(wù)提供給各應(yīng)用系統(tǒng),由各系統(tǒng)進行數(shù)據(jù)分析和成果展示。那主要有以下幾類:

(1)數(shù)據(jù)應(yīng)用系統(tǒng):主要指使用數(shù)據(jù)的系統(tǒng),在銀行包括客戶關(guān)系管理、管理會計、績效管理、新資本協(xié)議系統(tǒng)群等數(shù)據(jù)系統(tǒng),也包括核心、貸款等交易系統(tǒng)。

(2)報表平臺:報表平臺能將數(shù)據(jù)快速展示成圖表、能通過建立數(shù)據(jù)立方體(CUBE)提供數(shù)據(jù)鉆?。ㄏ蛏匣蛳蛳伦儞Q數(shù)據(jù)分析維度)功能,方便業(yè)務(wù)人員快速查詢和分析數(shù)據(jù)。那報表工具目前商用的比較成熟,展示也更美觀,常見的有Finereport、TABLEAU等,開源的報表工具功能較弱,常用的有birt、ireport、jasperreport、KYLIN(基于hadoop建立CUBE)等。

(3)分析探索:有的銀行也叫數(shù)據(jù)實驗室或分析集市,主要指提供給業(yè)務(wù)人員自行分析的平臺,銀行業(yè)務(wù)部門的分析人員經(jīng)常使用SQL自行分析數(shù)據(jù),也會使用SAS或R、Python進行數(shù)據(jù)挖掘,隨著AI技術(shù)的深入,也逐步在嘗試TENSORFLOW等深度學(xué)習(xí)的工具來分析銀行數(shù)據(jù)。由于數(shù)據(jù)分析工作時間不固定,且消耗計算資源較大,因此一般都是單獨給業(yè)務(wù)人員搭建一套或多套的分析環(huán)境,每套環(huán)境包括HADOOP或數(shù)據(jù)庫作為數(shù)據(jù)存儲,SAS、R、TENSORFLOW等作為分析引擎。同時還需要定期(一般T+1)更新分析環(huán)境的數(shù)據(jù),提高數(shù)據(jù)分析的及時性。

銀行數(shù)據(jù)倉庫的系統(tǒng)架構(gòu)是什么?看這篇足矣

分享到:
標(biāo)簽:數(shù)據(jù)倉庫
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運動步數(shù)有氧達人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定