國內各行業的IT信息化建設正處于高速發展階段,業務量與日劇增,伴隨著數據大集中,以及業務系統的快速上線,運維部門作為業務網絡保障部門面臨著巨大挑戰和壓力。由于各種關鍵業務和應用都被承載在基礎架構、WEB應用、中間件和數據庫上,同時業務系統上線需實現快速、靈活、按需的可插入式部署能力,這使得業務的復雜性和維護難度大幅增加。如何對這些復雜的業務系統進行有效監控和風險防范,保障關鍵業務的高性能和高可用性,以及如何對現有的運維流程進行優化,不斷提升管理和運維水平已經成為新的難題。
以某企業為例,該企業的數據中心部署了大量負載均衡設備,經常出現大量Limiting closed port RST Respond 告警信息,由于沒有流量分析能力以及標準運維工作流程,每次出現該問題時運維人員不知道是如何引起,對業務有沒有影響。因此定位故障總是需要耗費大量時間,造成排查效率較低。具體難點如下:
業務運行環境越來越復雜,故障定位慢,各種業務系統越來越多,系統對相關資源的依賴性高,系統一但出現任何問題,需要逐個排查,故障定位難;
運維工作繁重,缺少工具和手段,維護人員每天面臨大量的重復性、手工性的故障排查工作,不僅費時費力,而且容易出錯,亟需新的手段幫助提升效率;
日常運維工作流程混亂,或者沒有標準流程,造成工作效率低下,同時客戶抱怨、投訴不減;
為解決以上運維痛點,nCompass流量分析平臺從用戶的實際情況出發,以數據作為切入點進行面向業務的數據可視化智能分析,從智能告警-數據回溯-數據分析-故障定位-分析流程代碼化-智能分析六方面解決目前運維管理中面臨的一些實際問題。
告警出現
F5設備出現大量Limiting closed port RST Respond 告警信息。
【告警示意圖】
由上圖可以看出,某企業F5設備出現了大量Limiting closed port RST Respond告警信息,并且告警信息一直在持續,運維人員無從下手。
數據回溯
nCompass通過數據可視化手段,將維度指標的組合過濾進行問題回溯,可查詢各個VLAN中Reset包信息以及Reset包數量。經過過濾后的表格可以看到是哪一個VLAN的 Reset數量最高。
【維度選擇示意圖】
【指標選擇示意圖】
【數據表格示意圖】
通過上圖“數據表格示意圖”,可以看出,在nCompass數據表格選擇好維度與指標后,可以將相關數據全部在數據表格中得以展現,通過展示出的數據得出VLAN2007 REST數量最高。
數據分析
接下來對表格中通過添加維度的方式對Reset數量最高的VLAN進行下鉆分析,可以看出客戶側Reset包無明顯異常IP,服務側Reset列發現0.16服務端Reset占比超過80%。
【客戶端下鉆示意圖】
【服務端下鉆示意圖】
在得出VLAN2007 REST數量最高后,我們要對其進行下鉆分析,首先進行客戶端下鉆,通過上圖“客戶端下鉆示意圖”可以看出,客戶端REST數量雖然總數過高,但是平均在每一個客戶端上之后,只有幾個或者幾十個,所以可以先排除客戶端異常。我們接下來在對服務端進行下鉆分析,通過上圖“服務端下鉆示意圖”發現服務端REST指標列最高達到了1,565,194個,他對應的IP為*.*.0.16,可以得出結論,服務端*.*.0.16為異常IP。
再通過nCompass DNS解析發現0.16對應域名telemetry.*******.com非公司域名。
【DNS解析示意圖】
得出異常IP后,我們可以將其帶入至nCompass內置視圖DNS解析中,通過“DNS解析示意圖”中可以看出,異常IP*.*.0.16對應域名為telemetry.*******.com,經過DNS與CMDB的排查得出telemetry.*******.com非本公司正常域名。
故障定位
通過F5將0.16加入黑名單進行攔截后,整體服務端Reset下降明顯,Limiting closed port RST Respond相關告警趨勢明顯下降。由此可見,造成Limiting closed port RST Respond相關告警量突增的原因就是由0.16導致。
【告警趨勢示意圖】
將異常IP的訪問進行攔截后,可以通過上圖“告警趨勢示意圖”看出,告警趨勢明顯下降。
分析流程代碼化
nCompass作為新一代數據可視化智能分析平臺,不僅擁有可視化分析能力,可以快速定位故障所在,同時,系統還支持將運維人員分析問題的經驗代碼化,將個體經驗留存至系統知識庫中,此后再有類似告警產生,系統將自動調用先前錄入的智能分析腳本。
【代碼化示意圖】
如上圖“代碼化示意圖”所示,在每一次解決問題之后,nCompass可以將分析經驗進行代碼化,當在出現類似問題時,可以直接進行調用,一鍵分析問題,提高運維效率。如果您是一位編程高手或是遇有復雜的分析場景,產品也提供Python編輯器,來實現復雜的數據分析腳本。
智能分析
當告警產生,系統將自動調用智能知識庫,給出故障的詳細分析報告。報告內容包括分析對象、異常現象、分析結論、排錯具體命令、后續建議等,同時報告中還會提供詳盡的數據分析過程數據,以支撐分析結論,為運維人員下一步處置提供決策支持。
【智能分析報告示意圖】
nCompass采用多源數據的采集方式,不僅可以基于流量進行分析,還支持與DNS、CMDB等進行對接,實現更深層次的關聯分析。如上圖“智能分析報告示意圖”所示可以看出,分析對象為VLAN2007,在8月22日,發生了異常REST日志現象,我們不僅通過流量對其進行分析,還通過DNS與CMDB的自動調用來確定域名為異常域名,并且針對現象給出合理建議。
nCompass 流量分析平臺從告警出現-數據回溯-數據分析-故障定位-分析流程代碼化-智能分析六個方面為運維人員實現了從人工分析到智能分析的轉變,在提供大量數據支撐的同時,還為運維人員提供一鍵式的故障分析能力,大幅降低了運維數據分析時對某些特定領域內專業經驗的依賴,提升了團隊的整體排障效率。為運維人員真正解決了日常運維故障定位難、運維工作繁重、重復性高、沒有標準流程的困擾,實現運維故障“簡單、快速,一鍵輸出分析結果”。