一、災(zāi)備的定義
1.1 什么是災(zāi)備?
災(zāi)備指的是用現(xiàn)有的科學(xué)技術(shù)手段和方法,提前建立起可靠的應(yīng)急方式,來應(yīng)對突發(fā)事件的發(fā)生。
災(zāi)備包括容災(zāi)系統(tǒng)和備份系統(tǒng)。
1.2 備份和容災(zāi)的概念
1.2.1 備份
備份:保障數(shù)據(jù)的安全性,備份指的是將全部或部分?jǐn)?shù)據(jù)集合從生產(chǎn)主機硬盤或陣列中保存到其他的存儲介質(zhì)的過程。
1.2.2 容災(zāi)
容災(zāi):保障業(yè)務(wù)的連續(xù)性,容災(zāi)指的是在較遠(yuǎn)的異地建立兩套或者多套相同的、包含完整基礎(chǔ)設(shè)施(計算、網(wǎng)絡(luò)、存儲、電力制冷等)的IT系統(tǒng),通過網(wǎng)絡(luò)的方式實現(xiàn)數(shù)據(jù)的傳輸,當(dāng)主數(shù)據(jù)中心發(fā)生故障,可以利用備數(shù)據(jù)中心快速恢復(fù)業(yè)務(wù)。
1.2.3 兩者區(qū)別
保護(hù)對象:備份保護(hù)的是數(shù)據(jù),容災(zāi)保護(hù)的是業(yè)務(wù)連續(xù)性。
實現(xiàn)方式:備份采用備份軟件技術(shù)實現(xiàn),而容災(zāi)通過復(fù)制或者鏡像軟件實現(xiàn)。
時間周期:數(shù)據(jù)保護(hù)的周期不一致,復(fù)制或者鏡像的時間周期更短。
補充:歸檔使用的是備份。
1.2.4 兩者關(guān)系
只有備份:
如果只有備份,業(yè)務(wù)無法快速恢復(fù),數(shù)據(jù)恢復(fù)需要時間,這段時間對某些行業(yè)帶來的損失是無法估量的。另外,備份一般是周期性執(zhí)行的,一旦發(fā)生數(shù)據(jù)丟失,從恢復(fù)復(fù)時間到上次備份時間之間的數(shù)據(jù)就會丟失。
只有容災(zāi):
如果只有容災(zāi),業(yè)務(wù)可以快速恢復(fù),數(shù)據(jù)也可以被保護(hù),但是生產(chǎn)段有錯誤的操作,或者系統(tǒng)升級失敗之類的,也會被同步到容災(zāi)端,從而造成業(yè)務(wù)的中斷。
1.3 災(zāi)備提供的保護(hù)

二、災(zāi)備的作用
2.1 存在的問題
2.1.1 數(shù)據(jù)中心存在的問題
- 病毒、操作系統(tǒng)漏洞
- 人為的誤操作
- 恐怖襲擊
- 電力故障
- 硬件故障
- 自然災(zāi)害(地震、洪水、臺風(fēng))
2.1.2 沒有災(zāi)備會怎么樣?
- 業(yè)務(wù)中斷
- 數(shù)據(jù)丟失
- 客戶投訴
- 業(yè)務(wù)下滑
- 經(jīng)濟(jì)賠償
- 公司倒閉
(數(shù)據(jù)是無價的,丟了的話問題很大哇!)
2.2 備份的作用
2.2.1 存儲層面,配置備份的五大部分:
- 備份子客戶端
- 備份任務(wù)執(zhí)行載體
- 存儲策略
- 備份介質(zhì)
- 重刪策略
- 保留策略
- 寫IO數(shù)
- 備份內(nèi)容
- 所需備份的內(nèi)容
- 過濾不需備份的內(nèi)容
- 備份策略
- 重刪策略
- 備份類型
- 備份計劃
- 性能優(yōu)化
- 客戶端對數(shù)據(jù)的讀流數(shù)
2.2.2 云計算層面
云服務(wù)器備份服務(wù)(CSBS):Cloud Server Backup Service,為云服務(wù)器提供整機備份功能,支持基于多云硬盤一致性快照技術(shù)的本地備份,以及對備份數(shù)據(jù)的遠(yuǎn)程復(fù)制,并支持利用備份數(shù)據(jù)恢復(fù)云服務(wù)器數(shù)據(jù),最大限度保障用戶數(shù)據(jù)的安全性和正確性,確保業(yè)務(wù)安全。
云硬盤備份服務(wù)(VBS):Volume Backup Service,基于云硬盤的備份服務(wù)。用戶可為云硬盤創(chuàng)建備份,利用備份數(shù)據(jù)回滾云硬盤,以最大限度保證用戶數(shù)據(jù)正確性和安全性。
2.2.3 復(fù)制類型

同步復(fù)制:實時同步進(jìn)行復(fù)制。
異步復(fù)制:異步復(fù)制數(shù)據(jù),數(shù)據(jù)一致性有待商榷。
2.3 容災(zāi)的作用
2.3.1 容災(zāi)的應(yīng)用場景
- 本地高可用容災(zāi)(HA)
- 主備容災(zāi)(AS)
- 雙活數(shù)據(jù)中心(AA)
- 兩地三中心(3DC)
2.3.2 容災(zāi)解決方案全景圖
本地生產(chǎn)中心:
- 本地高可用解決方案
同城容災(zāi)方案(<100km):
- 雙活數(shù)據(jù)中心解決方案
- 主備容災(zāi)解決方案
異地容災(zāi)方案(>100km):
- 兩地三中心容災(zāi)解決方案
- 主備容災(zāi)解決方案
2.3.3 本地高可用方案
優(yōu)點:
- 業(yè)務(wù)0中斷
- 數(shù)據(jù)0丟失
- 業(yè)務(wù)級高可靠。
本地高可用:本地高可用通常為近距離的同一個機房內(nèi),使用實時鏡像和同步復(fù)制的方案,由于帶寬和距離很近,通常要求RPO=0。
2.3.4 主備容災(zāi)方案
優(yōu)點:
- RPO≈0
- TCO低,存儲高中低端互通,異構(gòu)、利舊。
- 全局拓?fù)洹⒓懈婢?/li>
- 自動化,一鍵式容災(zāi)演練、恢復(fù)
關(guān)鍵技術(shù):HyperReplication
2.3.5 雙活數(shù)據(jù)中心容災(zāi)方案

優(yōu)點:
- 6層雙活架構(gòu)。
- 業(yè)務(wù)0中斷,數(shù)據(jù)0丟失。
關(guān)鍵技術(shù):HyperMetro
2.3.6 兩地三中心方案(級聯(lián)/并行)

組網(wǎng)類型 |
優(yōu)勢 |
不足 |
級聯(lián)組網(wǎng) |
對生產(chǎn)中心性能影響小。 |
當(dāng)發(fā)生區(qū)域性災(zāi)難時,如果同城災(zāi)備中心完全受損,系統(tǒng)RPO將較大(因為異步復(fù)制)。 |
并聯(lián)組網(wǎng) |
當(dāng)發(fā)生區(qū)域性災(zāi)難時,能有效避免級聯(lián)組網(wǎng)的不足。 |
對生產(chǎn)中心的性能要求較高。 |
三、災(zāi)備的衡量
3.1 備份類型

補充:
備份窗口:它指用戶正常使用業(yè)務(wù)系統(tǒng)不受影響的情況下,能夠?qū)I(yè)務(wù)系統(tǒng)中的業(yè)務(wù)數(shù)據(jù)進(jìn)行數(shù)據(jù)備份的時間間隔,或者說是用于備份的時間段。
3.1.1 完全備份
完全備份:又叫全量備份,對某一時間點上的所有數(shù)據(jù)的一個完全拷貝。備份發(fā)起后變更的數(shù)據(jù)將在下一次進(jìn)行備份,又稱為全量備份。
- 優(yōu)點:能夠基于上一次的完全備份恢復(fù)數(shù)據(jù),恢復(fù)窗口小。
- 缺點:占用空間大,備份時間長,備份窗口大。
3.1.2 累計增量式備份
累積增量式備份:以上一次完全備份為基準(zhǔn)進(jìn)行備份,若之前從未進(jìn)行過備份,則備份所有數(shù)據(jù)。
- 優(yōu)點:相對完全備份來說,可以節(jié)約一個完全備份的存儲空間,備份窗口較小,恢復(fù)窗口較小。
- 缺點:恢復(fù)時必須依賴上一次完全備份和本次的累計增量式備份才能完全恢復(fù)數(shù)據(jù),回復(fù)時間較差異增量式備份較短。
3.1.3 差異增量式備份
差異增量式備份:以上一次備份為基準(zhǔn)進(jìn)行備份,若之前從未進(jìn)行過備份,則備份所有文件。
- 優(yōu)點:能夠最大限度地節(jié)省存儲空間,備份窗口小。
- 缺點:數(shù)據(jù)恢復(fù)時必須以來上一次完全備份和每一次的差異增量式備份才能對數(shù)據(jù)進(jìn)行完整恢復(fù),恢復(fù)時數(shù)據(jù)重構(gòu)較慢,恢復(fù)時間較長。
3.1.4 備份策略原則
- 結(jié)合完全備份使用,但不要在同一個策略中結(jié)合使用累計增量式備份和差異增量式備份。
- 通常應(yīng)用環(huán)境對備份空間和備份窗口的要求較高,因此更多的結(jié)合使用完全備份和差異增量式備份。
3.2 災(zāi)備的指標(biāo)
3.2.1 恢復(fù)點目標(biāo)(RPO)
恢復(fù)點目標(biāo)(RPO):當(dāng)業(yè)務(wù)發(fā)生故障時,可以容忍數(shù)據(jù)丟失的數(shù)量,單位為時間。
舉例:8點進(jìn)行備份,9點丟數(shù)據(jù),RPO=1小時,丟了一個小時的數(shù)據(jù)。
3.2.2 恢復(fù)時間目標(biāo)(RTO)
恢復(fù)時間目標(biāo)(RTO):當(dāng)業(yè)務(wù)發(fā)生故障時,可以容忍業(yè)務(wù)中斷的時間,單位為時間。
舉例:比如災(zāi)難發(fā)生后半天內(nèi)需要恢復(fù)數(shù)據(jù),那么RTO就是12小時。
3.2.3 綜合標(biāo)準(zhǔn)
災(zāi)難恢復(fù)能力等級 |
RTO(恢復(fù)時間目標(biāo)) |
RPO(恢復(fù)點目標(biāo)) |
1 |
2天以上 |
1天至7天 |
2 |
24小時以內(nèi) |
1天至7天 |
3 |
12小時以上 |
數(shù)小時至1天 |
4 |
數(shù)小時至2天 |
數(shù)小時至1天 |
5 |
數(shù)分鐘至兩天 |
0至30分鐘 |
6 |
數(shù)分鐘 |
0 |
RTO/RPO 與災(zāi)難恢復(fù)能力等級關(guān)系(GB/T 20988-2007)
四、災(zāi)備的實現(xiàn)
4.1 備份的方式
這個在備份組網(wǎng)那一塊再詳細(xì)補充...
這里參考:圖解三種備份方式(LAN,LAN free,Server free)_star&storage的技術(shù)博客_51CTO博客
4.1.1 LAN-Base
LAN-Base,這種方式很簡單,直接在生產(chǎn)服務(wù)器上安裝備份代理,部署一臺備份服務(wù)器,這樣即可完成備份,不過這種方式不適合數(shù)據(jù)量非常大的環(huán)境。因為如果備份數(shù)據(jù)量非常大,會占用以太網(wǎng)的帶寬,雖然說備份操作一般在晚上進(jìn)行。但是這種方式還是不適合大數(shù)據(jù)量的情況。因此有了LAN-Free備份。
4.1.2 LAN-Free
LAN-Free,顧名思義,即釋放了LAN的壓力。如上圖所示,數(shù)據(jù)流直接從File server經(jīng)過FC switch備份到Tape,而不經(jīng)過Lan,這樣就不會占用主網(wǎng)絡(luò)的帶寬。但是數(shù)據(jù)仍然會通過文件服務(wù)器的本地磁盤--內(nèi)存—FC switch這步,因此仍然會消耗File server的資源。因此有了下面的Server Free備份來盡可能的減少生產(chǎn)服務(wù)器的壓力。
4.1.3 Server-Free
Server-Free,即備份時數(shù)據(jù)不流經(jīng)服務(wù)器的總線和內(nèi)存,如上圖,文件服務(wù)器使用SAN的File Server Storage空間,現(xiàn)在需要備份文件服務(wù)器,則只需將File Server Storage的數(shù)據(jù)直接備份到Tape。此時文件服務(wù)器只需要發(fā)出SCSI擴(kuò)展復(fù)制命令,剩下的事情就是File Server Storage和Tape之間的事情了,這樣就減輕了文件服務(wù)器的很多壓力,使它可以專注于對外提供文件服務(wù),而不需要再消耗大量CPU、內(nèi)存、IO在備份的事情上了。
或者還有一種方式即NDMP,Network Data Management Protocol,網(wǎng)絡(luò)數(shù)據(jù)管理協(xié)議。它是一種支持智能數(shù)據(jù)存儲設(shè)備、磁帶庫設(shè)備及備份應(yīng)用程序之間互相通信以完成備份過程的通信協(xié)議。服務(wù)器只要向支持NDMP協(xié)議的存儲設(shè)備發(fā)送NDMP指令,即可讓存儲設(shè)備將其自己的數(shù)據(jù)直接發(fā)送到其他設(shè)備上,而不需要流經(jīng)服務(wù)器主機。
4.2 備份介質(zhì)
- 磁盤陣列
- 磁帶庫
- 虛擬帶庫
- 光盤塔、光盤庫
- 云存儲
- 一體機(將主服務(wù)器、介質(zhì)服務(wù)器、備份介質(zhì)集成到一個物理設(shè)備上。例如華為的HDP3500E)
4.3 備份設(shè)計原則
- 客戶需求(需要備份的數(shù)據(jù)類型、數(shù)據(jù)量、備份的對象)
- 備份策略(數(shù)據(jù)備份的周期、數(shù)據(jù)備份的時間點)
- 網(wǎng)絡(luò)規(guī)劃(帶寬的大小、網(wǎng)絡(luò)的規(guī)劃、組網(wǎng)類型)
- 存儲規(guī)劃(備份數(shù)據(jù)量、未來數(shù)據(jù)增長量)
4.4 容災(zāi)的方式
4.5 容災(zāi)技術(shù)
4.5.1 主機層數(shù)據(jù)復(fù)制
主機層數(shù)據(jù)復(fù)制:在生產(chǎn)中心和災(zāi)備中心的服務(wù)器上安裝專用的數(shù)據(jù)復(fù)制軟件,如卷復(fù)制軟件,以實現(xiàn)遠(yuǎn)程復(fù)制功能。兩中心間必須有網(wǎng)絡(luò)連接作為數(shù)據(jù)通道。可以在服務(wù)器層增加應(yīng)用遠(yuǎn)程切換功能軟件,從而構(gòu)成完整的應(yīng)用級容災(zāi)方案。這種數(shù)據(jù)復(fù)制方式相對投入較少,主要是軟件的采購成本;兼容性較好,可以兼容不同品牌的服務(wù)器和存儲設(shè)備,較適合硬件組成復(fù)雜的用戶。但這種方式要在服務(wù)器上通過軟件來實現(xiàn)同步操作,占用主機資源和網(wǎng)絡(luò)資源非常大。
4.5.2 網(wǎng)絡(luò)層數(shù)據(jù)復(fù)制
網(wǎng)絡(luò)層數(shù)據(jù)復(fù)制:在生產(chǎn)中心和災(zāi)備中心的服務(wù)器上安裝專用的數(shù)據(jù)復(fù)制軟件,如卷復(fù)制軟件,以實現(xiàn)遠(yuǎn)程復(fù)制功能。兩中心間必須有網(wǎng)絡(luò)連接作為數(shù)據(jù)通道。可以在服務(wù)器層增加應(yīng)用遠(yuǎn)程切換功能軟件,從而構(gòu)成完整的應(yīng)用級容災(zāi)方案。這種數(shù)據(jù)復(fù)制方式相對投入較少,主要是軟件的采購成本;兼容性較好,可以兼容不同品牌的服務(wù)器和存儲設(shè)備,較適合硬件組成復(fù)雜的用戶。但這種方式要在服務(wù)器上通過軟件來實現(xiàn)同步操作,占用主機資源和網(wǎng)絡(luò)資源非常大。
4.5.3 存儲層數(shù)據(jù)復(fù)制
存儲層數(shù)據(jù)復(fù)制:要實現(xiàn)數(shù)據(jù)的復(fù)制需要在生產(chǎn)中心和災(zāi)備中心都部署一套這樣的存儲系統(tǒng),數(shù)據(jù)復(fù)制功能由存儲系統(tǒng)實現(xiàn)。如果距離比較近(幾十公里之內(nèi)),之間的鏈路可由兩中心的存儲交換機通過光纖直接連接;如果距離在200公里內(nèi),可通過增加DWDM等設(shè)備直接進(jìn)行光纖連接;超過200公里,則可增加存儲路由器進(jìn)行協(xié)議轉(zhuǎn)換途徑WAN或Internet實現(xiàn)連接。因此,從理論上可實現(xiàn)無限制連接。在存儲層實現(xiàn)數(shù)據(jù)復(fù)制功能是很成熟的技術(shù),而且對應(yīng)用服務(wù)器的性能基本沒有影響。目前,這種容災(zāi)方案穩(wěn)定性高、對服務(wù)器性能基本無影響,是容災(zāi)方案的主流選擇。
本文作者:SkyBiuBiu
本文鏈接:
https://www.cnblogs.com/Skybiubiu/p/14992848.html