云計算、大數據、5G以及人工智能等新技術的發展給各行各業都帶來了嶄新機遇。為進一步提升 IT 服務管理的科學性、規范性與標準化,確保系統能夠可靠且持續地運行,企業需要一套國際化、基于成熟理念的管理系統和標準化的實施方法來提升自動化運維效率、提升信息系統事前預防能力,從而為高速發展的業務經營提供有力支撐。
一、新常態下ITSM系統的新特性
當前,隨著企業信息化建設的不斷深入,網絡不斷延伸和拓展,IT與業務的融合不斷向縱深方向發展:一方面,企業的內外部工作對信息化系統的依賴程度不斷增加;另一方面,在云計算、大數據背景下,信息系統的自身復雜程度也不斷增加,存在IT設施數量大、應用種類繁多、業務訪問量大,注重用戶體驗、維護和管理挑戰巨大等多種現實問題。傳統的IT管理方式己經不能滿足企業信息化發展的要求,雖然大部分企業已經采用多種工具與管理模式有效地解決了一些問題,但IT管理依然面臨更多的、更新的挑戰:在目前的人工管理狀態下,存在著對人為操作的嚴重依賴、最終用戶對服務的效果與價值不能完全認可、服務質量難以監控等多種問題。
實際上,基于幫助臺處理各類用戶問題只是運維IT服務人員日常工作中的一項。從IT整體管理的角度來看,IT統一的服務部門與統一IT服務中心規劃應該將IT本身作為業務進行管理,對IT服務管理提出更高、更難的要求,所以非常有必要引入現代IT運維服務的思維。
(一)指導理論創新:ITIL 4為新一代ITSM提供全新理論支撐
從ITIL發展角度來看,目前國內外幾乎所有的ITSM項目構建和實施都是基于ITIL V2、V3來進行的,即使是ITIL V3,已經是2007~2011年發布的標準了。在數字化轉型、DveOps、敏捷、雙態模式、人工智能和大數據蓬勃發展的時代,ITIL V3面向的管理對象以及理念、技術等有了非常大的挑戰,尤其是傳統的面向流程的方式已經越來越顯得僵硬與固化,不能充分發揮人的主觀能動性,導致IT服務管理最終結果與目標的偏差。ITIL官方本身也意識到了這個問題,所以AXELOS在2019年初發布了最新的ITIL 4版本,在ITIL 4版本中對原有的理念、模型、方法和流程進行了非常大的革新,在ITIL4中弱化了流程與管理,更加強調面向最終價值的協同與價值共創。在未來至少5年內,更多企業會基于ITIL 4的模型和方法來重塑企業的IT服務管理。
(二)技術實踐創新:大數據和智能為新一代ITSM提供了技術土壤
ITSM作為運維工作的支撐體系,需要把IT系統基礎設施和應用系統的運維協同起來,共同保障正常運行,確保業務高可用性及業務連續性。
隨著新技術逐漸成熟及深化,ITSM的建設呈現“監控智能化、調度自動化、管理扁平化、分析立體化”的技術發展趨勢。
二、新一代ITSM系統的主要特點
(一)保障高可用及業務連續性是新一代ITSM的首要目標
隨著IT的發展和應用深化,企業生產活動對IT的依賴度越來越高,對可用性提出了更高的要求。為保障IT資源尤其是核心信息系統的可用性,面對龐大且復雜的運維任務,如何協同運維團隊之間的運維工作,提高運維效率與運維水平,保障安全穩定運行,ITSM平臺建設極其重要。同時,從應用系統建設轉入運維,需要良好的運維體系和平臺工具來保障可用性與業務連續性。
(二)面向共享式服務中心運營成為新一代ITSM的典型需求
要實現IT服務的統一受理、調度、協同、跟蹤、反饋和應用監控,需要通過ITSM的建設和應用,促進各項運維活動和支持工作的規范化和標準化,幫助企業形成建設共享式中心,構建資源共享機制。這樣才能有利于精干機構、降低成本,減少資源分散和浪費,以達到“省人”、“省事”、“省錢”的目的。
(三)讓業務部門獲得更好體驗成為新一代ITSM的重要驅動力
業務部門需要第一時間發現故障、快速處理、及時協調和溝通,從而提高一線解決率、規范運維活動和流程、降低整體服務成本。而且,IT資源的劃撥調配、日常維護、故障處理等工作繁重且可靠性要求高,需要在標準化、自主可控的基礎上,實現智能化、自動化水平,提高工作效率,降低人為風險。
三、云智慧ITSM建設方法論
(一)近景和中長期規劃結合的業務咨詢
伴隨IT的快速發展及企業自身的科技發展戰略,IT服務管理體系需要對運維服務組織機構、運維管理制度、運維工作流程、運維系統支撐等方面進行梳理和分析,根據自身的特點與未來規劃,自上而下逐層進行運維體系頂層架構設計:
●搭建適合運維最佳實踐的運維組織架構;
●結合ITIL和運維行業經驗,建立成套的運維管理制度;
●根據咨詢成果進行系統建設規劃。
(二)貼近業務場景的實施
在可預見的未來,智能運維將在高度、廣度和深度三個緯度不斷進化,這種進化與以往的狀態相比,簡稱為智能業務運維2.0。
■運維日常工作場景:
• 將運維人員日常工作流程規范化;
• 作為統一入口,記錄所有用戶服務請求和故障申報;
• 運維人員通過系統記錄運維流程處理過程,實現對運維工作的透明和量化管理;
• 管理人員通過統計分析報表,為運維管理提供決策支持。
■數據治理及配置管理場景
作為運行數據管理的核心,數據治理及配置管理提供配置模型、配置項、配置關系及權限管理,配置版本、變更管理,配置信息采集、導入、配置審計、配置更新等業務。
• 先進的自動化采集及存儲機制:采用多種自動化采集手段對配置信息進行自動化采集,并采用兩段式的管理模式,對原始配置信息以及格式化后的信息同步存儲及管理;
• 先進的配置信息管理模型:采用了動態配置模型的設計方法,允許對配置模型進行定義、修改和擴展,從而徹底解決了數據治理模型設計完善性和可擴展性的難題;
• 為數據中心IT資源預測提供數據基礎:提供了關于IT資源及其使用率、運行狀態的準確信息;這種能力保證資源得到最有效的利用,而且有助于節約成本。
■ 智能運維場景
面向IT和業務雙向驅動的運維數據指標體系建模,是指標體系構建與應用的必經之路。
常見的指標體系建模方法有平衡計分卡(BSC)、AARRR模型(也稱海盜模型)、OSM模型等,但在實踐過程中,這些模型向智能運維中監控、分析、流程以及管理評估等多種場景時,只具備部分的參考價值。所以面向智能運維的全局規劃與實施落地,云智慧首次創新的提出了基于D-CREAM模型的運維指標體系構建、管理與應用的方法論,面向運維的各類應用場景,圍繞運維數據,從管理和實踐的視角,幫助建立全局的IT運維監控和管理指標體系。
以可編排作業平臺為核心構建運維自動化平臺,提供配置變更、任務巡檢、腳本執行控制、自定義工作流等功能,覆蓋巡檢、文件分發、備份恢復、SQL操作等運維場景,并提供可擴展能力。
• 自動化故障報警,支持基于故障類型關聯自動化作業響應;
• 提供智能調度,運行巡檢、文件分發、備份恢復等多場景運維支撐;
• 支持自動化腳本、python、bat、ansible、Sql等下發執行;
■ 故障發現及處理場景
• 匯總告警數據,對原始告警信息進行解析和格式標準化處理;
• 進行統一規整、重新定義:對告警數據所屬的類別和級別重新定義;
• 完成告警信息的過濾,解決多個相關事件信息的合并、壓制、過濾、定位、根源確定;
• 以列表或拓撲等多種形式集中或分類顯示被管對象的告警信息,方便自動確認和手動確認兩種方式。告警清除后,刪除活動告警記錄,增加相應歷史記錄運維人員監控。
■數據指標分析及展現場景
在標準的數據分析層次模型基礎上,根據應用數據中心的業務特征,作用域以及隸屬關系,將反應數據中心運行狀態中所涉及到的所有數據分解為三個指標體系。
• 生死線:主要描述核心業務、如大規模計算的業務狀態;
• 關鍵指標:描述和衡量特定的業務狀態,如負載趨勢、空間增長趨勢、能源利用率等;
• 標準指標:通過分層監控工具獲取到的,描述和衡量IT資源狀態及活動的指標,如CPU利用率、系統響應性能等。
(三)以ITIL4為設立思想的軟件系統
面向數字化業務的新一代IT服務管理系統,需要以ITIL4和ITIL V3中的經典流程為理論基礎,以大數據和人工智能技術為支撐,將企業IT部門技術資源各種要素(人、事、財)進行科學組織與管理,合理調配人力資源、有效管理信息系統軟硬件、提高運營管理水平、提升運維整體效能。在保留基于傳統的IT流程管理的能力基礎之上,新一代的ITSM系統還需要具備更好的智能、協作與自動化能力。
• 基于扁平化任務協作,即時通訊、智能助理與自動化共同提升運維管理效能;
• 提供運維服務知識圖譜構建、文本語義分析工具、可視化的語義分析模型管理;
• 借助機器學習和語料庫的不斷更新來優化算法,提高智能服務臺首問解決率;
• 提供微信、即時通訊、呼叫中心、自助門戶等多種渠道的服務接入;
• 提供腳本編排、跨平臺調度、腳本分發與執行等自動化操作組件。