1.大型公司的運維痛點
互聯網巨頭X在全球員工數萬人,業(yè)務覆蓋上百個國家與地區(qū)。IT作為技術支撐部門,服務的對象主要是企業(yè)內部員工,要保障辦公網絡流暢、穩(wěn)定,支撐數萬員工高效辦公,網絡部門面臨不少監(jiān)控難題:
1、之前的監(jiān)控體系主要基于基礎架構層的硬件、資源監(jiān)控,對于負載設備所承載的應用服務質量缺少監(jiān)控能力;
2、負載日志監(jiān)控體系分散,各個監(jiān)控工具各自獨立,有問題時才能進行數據回溯,缺乏故障預警能力;
3、目前的監(jiān)控體系仍然存在盲區(qū),無法做到業(yè)務級別的數據洞察,因此對用戶體驗常常缺乏感知;
4、由于負載前后端地址轉換復雜,給故障排查帶來了較大挑戰(zhàn),運維效率急需提升;
5、伴隨公司業(yè)務高速發(fā)展,網絡端需要應對業(yè)務復雜度不斷提升以及團隊規(guī)模持續(xù)變大的挑戰(zhàn),為減少因故障帶來的組織效率影響,因此需要更好的管控應用風險。
X公司如何保障業(yè)務端流轉高效、穩(wěn)定的同時消除應用交付的盲區(qū),提升運維服務能力、效率與滿意度?
2.網絡訪問需要穩(wěn)定快速,合規(guī)有序 智維數據提供解決方案
基于客戶的以上需求,智維數據的方案理念是:搭建一套以用戶為核心的監(jiān)控體系。借助負載設備承載應用、業(yè)務及用戶訪問的特性,從負載數據中實時抓取用戶的每一次訪問,通過負載配置和日志數據,分析設備性能與用戶體驗情況,通過用戶的真實訪問數據,來監(jiān)控數據中心關鍵業(yè)務的運行狀態(tài),當真實用戶訪問出現異常時,運維人員可以快速感知,對常規(guī)問題實現自動化處置,降低故障的影響。
3.應用場景
低成本,輕量級,快速搭建應用服務質量監(jiān)控系統
由于X公司之前的監(jiān)控體系主要基于網絡設備的性能數據,想要了解應用服務質量的情況,如果以流量鏡像方式進行監(jiān)控需部署大量采集點,成本較高;原有的幾個監(jiān)控平臺可以對負載設備的日志進行采集,但對負載日志缺乏解讀能力,查找關鍵問題需要耗費網絡部門大量時間;網絡部也測試過其他第三方平臺,由于產品邏輯過于復雜,廠商光對接負載配置就花了好幾天,且日志對接和讀取都出現了問題。這使得運維人員很為難,有沒有部署更靈活,對接成本更低的解決方式?
此時,智維數據的技術團隊提出了新的方案,因為X公司需要監(jiān)控的業(yè)務應用都承載在負載均衡上,通過智維數據自主研發(fā)的靈瓏應用交付管理平臺采集關鍵負載節(jié)點的日志數據,讀取HTTP日志,就可以分析應用性能,而不需要按原始流量數據去做分析,這種部署方式按采集點進行費用核算,沒有日志量的限制,將為X公司節(jié)約數倍的成本。
而在分析能力上,這種方式支持HTTP、SSL、TCP的業(yè)務層面分析,并按關鍵指標輸出不同場景的可視化分析視圖及分析建議,可讀性強,為后面應用故障排查及用戶體驗分析提供了可靠數據基礎。
應用交付一體化監(jiān)控,消除傳統日志監(jiān)控盲區(qū)
X公司原有的監(jiān)控體系比較分散,設備告警由各自的設備產生并通過內部整合至自建的內部協同平臺,但對負載日志缺乏監(jiān)控,存在監(jiān)控盲區(qū)。在發(fā)生應用交付設備問題時,需要通過負載設備進行逐一的日志回溯,原有的日志通過表格形式存檔,回溯過程繁瑣,只能呈現數據無法分析數據,需要人工解讀海量日志,為運維端帶來較大工作負擔。
【靈瓏告警功能包含設備、日志、審計、應用四大維度,150+分析指標】
X公司通過對接靈瓏自動獲取了全量的負載設備日志,以可視化報告的方式展現重要信息和分析結果。在告警層面,X公司過去的告警功能偏向于傳統的ZABBIX告警,對只能采集部分設備性能指標,如CPU,內存,接口帶寬等,但缺乏分析、預測能力。
【靈瓏對告警日志提示關鍵信息,提供詳細日志解讀】
現在,使用靈瓏平臺,除設備和日志外還包含審計、應用維度,150 + 標準化的監(jiān)控分析指標,2000+異常日志的解釋及處理建議,能自動輸出分析報告,包含事故原因,事故影響范圍,解決方案建議等,分析場景可結合負載自身配置信息,除了輸出業(yè)務性能之外,還可以輸出負載失敗的記錄(例如DNS沒有走智能DNS、會話保持異常分析等);結合iRules,可以定向對特定業(yè)務做解碼處理,獲取業(yè)務信息;對于加密流量數據的分析,無需額外的解密。靈瓏的分析模式為應用交付模式,貼合全代理架構展示,實現負載連接表持久化,更好的展示應用交付中的業(yè)務場景。
應用使用質量監(jiān)控,提升用戶體驗
X公司在全球上百個地區(qū)設有辦公室,為了有效進行跨部門溝通協作,需要一套高效的遠程辦公和網絡調度的機制。以前的解決方式主要依賴運維人員手動,當出現節(jié)點故障或訪問人數過多的時候,就需要運維人員手動切換節(jié)點,完成DNS解析、甚至是節(jié)點部署工作。然而由于缺乏線路監(jiān)控,難以判斷切換時采用的是否為最優(yōu)線路,而頻繁的切換操作,工作負擔也較大。
現在,通過靈瓏結合流量監(jiān)控信息,就可以很好的解決這一問題。首先運維人員可通過流量監(jiān)控查看訪問慢是否由于線路問題導致,保障每一次的切換都是最優(yōu)路徑;其次,如果線路本身沒有問題,那么可以進一步通過靈瓏的業(yè)務畫像能力和數據縫合查看應用承載的負載均衡前后端信息,判斷是哪一個通訊節(jié)點出現了故障。
比如,之前有業(yè)務部門反饋應用不可用,此時運維人員也查看到靈瓏的事件異常告警,顯示DNS解析出現異常,通過靈瓏的日志查詢功能,最后發(fā)現是負載日志的iRules出現了配置問題,本應該由IPV6業(yè)務出訪,在負載端轉換為IPV4,導致整個訪問不通。通過靈瓏對日志、配置的查詢和業(yè)務畫像的聯動分析能力,網絡人員很快找到了DNS解析失敗的原因。
流量縫合助力故障快速排查
協同系統打開慢,是大型公司網絡運維經常遇到的問題,由于內部用戶眾多,應用交付節(jié)點多、構架復雜,需要快速定位故障點就非常困難。過去,對于已發(fā)生的故障需要等故障再次發(fā)生才能進行回溯,在故障處理過程中,由于每次排查可能并不是同一個地址,按之前設定的線路去查只能定位到線路而無法定位到IP,難以一次解決問題根源。
【靈瓏自動實現F5設備前后會話關聯并展示對應指標信息】
【靈瓏自動繪制業(yè)務畫像視圖,可同步分析設備異常情況】
現在,有了靈瓏平臺,運維人員實現了對這類的問題的高效處置:1通過客戶端域名與DNS域名解析,服務端口去查找,先確認公網的映射地址,通過流量監(jiān)控查看,此時可確認數據傳輸有問題,但問題是負載導致還是公網導致,仍無法確認。2通過靈瓏的流量縫合能力,對接負載前后端的通訊對,發(fā)現從運營商A出去的線路訪問正常,而運營商B的線路有異常,通過靈瓏點開“事件詳情”,發(fā)現是特定某一個IP轉換出去有問題,其他IP是沒有問題的。3最后定位到這個IP跟負載的某個映射地點起了沖突,導致回包有問題,因為不同的IP被交換機攔截了。以前常見卻總是難排查的問題,現在通過靈瓏強大的分析能力,運維人員三步即可精確了解到是哪一個IP產生了問題。
結合智能基線,實現業(yè)務運行狀態(tài)監(jiān)控與運行趨勢預測
過去,X公司對應用交付的運維方式是響應式的被動運維,而隨著業(yè)務規(guī)模與人員的雙重增長,公司對運維團隊的能力也提出了新的要求。如何實時洞察業(yè)務狀態(tài),并準確預測應用運行趨勢成為團隊想要提升的重點。
【DNS監(jiān)控趨勢圖】
拿DNS來說,當靈瓏預警DNS現在轉發(fā)率低,則預示著的業(yè)務有可能在未來出現問題。 靈瓏通過對歷史數據進行分析,形成智能基線,比如該業(yè)務過去平均成功率為90%,下偏離如果超過5%,系統將出現告警,此時運維人員可具體查看這個下降是什么導致的。
一種是服務端有問題沒有響應,第二是在轉發(fā)過程中一些節(jié)點出現了問題導致數據包沒發(fā)出去,需要確定這個數據包到底是在哪個節(jié)點斷掉了。通過流量數據補充,結合靈瓏流量縫合能力,平臺可自動繪制業(yè)務交互地圖,靈瓏將以可視化視圖的方式將告警內容與分析結果進行展現,服務端是否異常,通訊節(jié)點是否異常,通過視圖一目了然。原來一個復雜的應用交付問題,借助靈瓏的智能分析與可視化能力,現在不再需要負載技術專家的參與,也能獲得專家級的排查結果。
4總 結
X公司通過部署靈瓏應用交付管理平臺,對應用服務質量監(jiān)控、應用交付一體化監(jiān)控、用戶體驗監(jiān)控、快速故障排查、應用趨勢洞察五個方面實現了能力提升,消除了應用交付盲區(qū),提升了對負載設備和網絡性能的管理能力。對跨國運營的互聯網公司來說,要應對變化的國際局勢與競爭挑戰(zhàn),保持企業(yè)高效運營,應用質量與網絡質量是員工數字化辦公的效率基礎,靈瓏提供了應用交付專家級的賦能,為團隊辦公效率和使用滿意度提升提供了有效的可視化分析工具。