無論是硬盤固件bug,還是人為刪除,數(shù)據(jù)丟失會對用戶業(yè)務(wù)造成極大影響。
根據(jù)2020年IBM數(shù)據(jù)泄露調(diào)查報告(The 2020 Cost of a Data Breach Report)顯示:在美國,由于數(shù)據(jù)丟失帶來的損失平均達(dá)到860萬美元,有94%的企業(yè)經(jīng)歷過數(shù)據(jù)丟失而無法恢復(fù)的情況,更驚人的是,70%的中小企業(yè)在發(fā)生大規(guī)模數(shù)據(jù)丟失后一年內(nèi)出現(xiàn)破產(chǎn)……
當(dāng)我們把目光聚焦于數(shù)據(jù)存儲時會發(fā)現(xiàn),造成數(shù)據(jù)丟失的原因有很多,根據(jù)第三方調(diào)研機構(gòu)Kroll Ontrack的分析報告顯示,有67%的數(shù)據(jù)丟失是由于硬盤或者系統(tǒng)故障造成的,14%是由于人為誤操作,10%的數(shù)據(jù)丟失源于軟件失效。想要避免數(shù)據(jù)丟失就需要提高硬件的可靠性并盡可能降低人為誤操作帶來的風(fēng)險。
目前,市面上的數(shù)據(jù)存儲解決方案都填充著各種功能或機制,看似可靠性很高,實則缺乏完整的數(shù)據(jù)保護(hù)閉環(huán)。一旦發(fā)生故障,往往依然采用“頭痛醫(yī)頭腳痛醫(yī)腳”的方式打補丁。基于這一洞察,深信服分布式存儲EDS構(gòu)建了事前主動防御、事中自動處理、事后快速兜底的數(shù)據(jù)保護(hù)框架,重新定義了存儲可靠性,通過軟硬件協(xié)同設(shè)計,以期充分保障用戶核心業(yè)務(wù)數(shù)據(jù)的安全可靠。事前階段的“防患于未然”更是重中之重。
事前主動防御——潛在風(fēng)險提前布防
對于硬件而言,故障發(fā)生往往充滿隨機性且難以預(yù)測,與其“坐以待斃”不如“主動出擊”,深信服EDS針對潛在故障,結(jié)合硬件故障預(yù)測、數(shù)據(jù)冗余保護(hù)、容災(zāi)備份等構(gòu)建了主動防御體系。
1.硬盤亞健康預(yù)測機制——省心的“硬盤看護(hù)”
EDS對硬盤進(jìn)行了全方位保護(hù),結(jié)合AI算法模型,推出了硬盤壞道預(yù)測、掃描修復(fù)及SSD壽命預(yù)測等一系列功能——
硬盤壞道預(yù)測:通過收集10萬+塊壞道硬盤的1800多萬條特征數(shù)據(jù),進(jìn)行機器學(xué)習(xí)算法訓(xùn)練,最終將算法內(nèi)置到EDS存儲軟件中,可以實現(xiàn)提前15天發(fā)現(xiàn)出硬盤是否出現(xiàn)壞道,預(yù)測準(zhǔn)確率達(dá)98.5%,如果預(yù)測到某塊磁盤將出現(xiàn)壞道,則調(diào)取壞道掃描和修復(fù)進(jìn)程對磁盤進(jìn)行掃描和修復(fù)。
自動壞道掃描及修復(fù):主動對預(yù)測將產(chǎn)生壞道的磁盤進(jìn)行掃描,如果掃描發(fā)現(xiàn)潛藏的壞道,則立即觸發(fā)數(shù)據(jù)修復(fù),即利用冗余機制將壞道上的數(shù)據(jù)修復(fù)至硬盤保留扇區(qū)。
預(yù)測和檢測結(jié)果及時通知:預(yù)測和檢測結(jié)果都會以頁面告警、郵件告警等方式及時通知用戶風(fēng)險等級,用戶可根據(jù)風(fēng)險等級提前預(yù)備備件。
除了對硬盤壞道的預(yù)測、檢查和修復(fù)完整閉環(huán)流程外,EDS還支持對卡盤、慢盤、SSD壽命到期、IO錯誤等硬件亞健康問題的閉環(huán)處理,切實保障數(shù)據(jù)可靠。
2.副本、糾刪碼機制——故障后的“重構(gòu)”、“推算”實現(xiàn)復(fù)原
針對塊存儲,EDS采用多副本機制,除了多份數(shù)據(jù)副本之外,還同時存在仲裁副本,保存少量校驗數(shù)據(jù)即可完成故障后的數(shù)據(jù)重構(gòu)。而針對文件、對象存儲,EDS采用糾刪碼機制,對不同節(jié)點冗余不同級別的主機/硬盤故障。
3.數(shù)據(jù)容災(zāi)機制——故障發(fā)生有“兜底”
針對用戶業(yè)務(wù)系統(tǒng)或者生產(chǎn)數(shù)據(jù),深信服提供完整的備份解決方案,針對結(jié)構(gòu)化數(shù)據(jù)提供實時備份能力;針對海量非結(jié)構(gòu)化數(shù)據(jù),通過永久增量與快速掃描技術(shù)提供高效的非結(jié)構(gòu)化數(shù)據(jù)備份和恢復(fù)方案。
事中自動處理——實時業(yè)務(wù)維護(hù)與快速故障修復(fù)
當(dāng)故障發(fā)生之時,需要考慮兩件事,一個是如何保障業(yè)務(wù)依舊正常運轉(zhuǎn),另一個是如何做到故障快速修復(fù)。不僅要求存儲具備“自愈能力”,還要做到“輕傷不下火線”。深信服EDS針對各種難題提供了有效的處理方式。
1.針對硬盤靜默錯誤,通過配置一致性檢查策略,自動檢查并修復(fù)由于硬盤靜默錯誤產(chǎn)生的數(shù)據(jù)不一致問題。
2.針對無法修復(fù)的硬盤,EDS觸發(fā)自動修復(fù)實現(xiàn)數(shù)據(jù)的自動重建。
3.對于業(yè)務(wù)系統(tǒng),當(dāng)主機/網(wǎng)絡(luò)出現(xiàn)異常時,業(yè)務(wù)IP自動切換到可用節(jié)點,最大程度保障業(yè)務(wù)不中斷。
事后快速兜底——業(yè)務(wù)數(shù)據(jù)找回及時止損
在故障發(fā)生后,用戶必須要進(jìn)行業(yè)務(wù)數(shù)據(jù)找回以將損失降到最低。深信服EDS實現(xiàn)發(fā)生物理災(zāi)難性故障后,通過備份容災(zāi)系統(tǒng),幫助用戶盡快恢復(fù)數(shù)據(jù);當(dāng)發(fā)生邏輯錯誤時,可以通過快照克隆、回收站進(jìn)行數(shù)據(jù)恢復(fù)。
其中,回收站可以根據(jù)需要進(jìn)行靈活設(shè)置,一旦配置回收站策略,符合策略的文件在刪除后會進(jìn)入回收站,當(dāng)刪除操作為誤操作或惡意行為時,管理員通過回收站可以找回刪除的數(shù)據(jù),實現(xiàn)快速恢復(fù)。
如今,數(shù)據(jù)已經(jīng)成為一種新型生產(chǎn)要素,和所有的行業(yè)、所有單位、企業(yè),甚至是我們每一個人都是密不可分,而想要挖掘數(shù)據(jù)的價值,首先就要保障數(shù)據(jù)的可用性及可靠性,而可靠性是數(shù)據(jù)的根基。深信服EDS存儲基于數(shù)萬家用戶服務(wù)的積累,構(gòu)建了完整的數(shù)據(jù)保護(hù)閉環(huán),提供99.9999%的可靠性,致力于實現(xiàn)用戶業(yè)務(wù)永無宕機。