蘇寧全場景零售布局,線上線下融合的經營管理模式,意味著在818大促等節點,數據量峰值可能是日常銷售的幾十倍。而背后大量的數據,就需要強大的計算和存儲能力支撐,而有能力支撐這些全場景復雜運算和數據存儲需求的,正是云計算。
業務的高速發展,意味著對云資源的持續需求增長,在保證業務連續性的同時如何保證業務對于資源的利用是否高效、對動態峰值需求是否極速響應至關重要。針對818大促產生的數據峰值,蘇寧云技術需綜合考慮安全性、可控性、資源利用率、資源成本等因素。
每秒數百萬次的高并發請求,系統間數百億次的調用,數十億的實時消息推送,數千應用服務的精準協同…在這一系列龐大數據的背后,蘇寧云技術是如何保證在818期間核心服務不降級、無重大事故的?
提升資源調度效率,818物理機整體使用率提升10%
在私有云領域,提升整合比、降低TOC是必然需要考慮的,具體到,比如數據中心建設需要物盡其用、物美價廉。蘇寧云基于該理念出發,在應對資源使用率提升和有效應對業務峰值這對基礎矛盾的實踐中,推出了基礎資源微調度產品。818期間,通過資源爭搶組件與兄弟團隊的資源池間均衡能力雙劍合璧,蘇寧云的物理機整體使用率提升了10%, 在保障穩定性的同時獲得了較好的經濟成本收益。
比如在監控粒度從分鐘級別提升到秒級,設計上以分散監控,邊緣化計算的理念為指導,為識別毛刺波峰類異常、獲取資源畫像及訓練預測提供數據基礎。并且通過對歷史數據的分析,建立系統關鍵服務與guest 在物理核級別歸屬隔離關系,確保關鍵服務與guest不會互相干擾。針對資源爭搶程度和資源使用程度的判斷,通過算法建立資源爭搶健康評分和資源使用評分,使判斷變得更加簡單易行。通過自動化的物理機PCPU級別的微調度,迅速完成資源熱點均衡,降低峰峰疊加到來時發生資源爭搶的概率;且通過Qos自動調配能夠達到對特定虛機進行快速精準的干預,保障大促核心系統的關鍵資源供給。
保障資源調度穩定性,精準調配數十萬虛擬機
818大促帶來超過日常幾十倍的業務流量,保障大規模服務器資源穩定性是極具挑戰的工作之一。蘇寧云通過動態資源調度技術為應用系統數十萬虛擬機進行精準資源調配,提前規避虛擬化超分場景下業務系統間的資源競爭風險,解決大促全鏈路壓測識別出的虛擬機資源爭搶和物理機負載超安全水位問題,確保在零點流量洪峰到來時參與大促活動的業務系統能獲得充足的資源服務能力并穩定運行,保障大促活動順利進行。
動態資源調度技術依賴系統容量規劃系統刻畫出應用負載畫像數據,再結合不同機型物理機虛擬化服務能力,為應用系統進行精準資源匹配,保障關鍵應用系統資源需求。系統容量規劃管理大促活動場景和系統容量,收集和分析大促全鏈路壓測應用性能數據和虛擬機監控數據,對線上核心購物和瀏覽鏈路、線下購物主流程、支付主流程、商戶端主流程、金融服務、物流、客服、售后等幾千個參與大促活動系統繪制應用負載畫像,為精細化資源調度提供大促活動場景下的應用負載特征數據。
同時,根據大促活動場景下的應用負載畫像數據和全鏈路壓測收集的物理機CPU、內存、網絡多維度負荷數據,動態資源調度為大促業務系統重新進行資源匹配,進行二次資源調度和資源調整。業務系統資源需求除了包括靜態的資源規格需求,還考慮了CPU算力、內存使用、網絡吞吐、磁盤IO等運行時資源消耗需求。只有精準匹配了業務系統的多維度運行時資源需求,才能有效的保障大促活動中應用系統運行穩定,不出現資源競爭,不影響應用系統服務能力和大促活動正常運營。對于大促全鏈路壓測識別出的虛擬機資源爭搶和物理機超安全水位問題,通過仿真調度重新匹配資源。如果當前物理機資源充足,根據仿真調度結果鎖定資源放置位置,輔助運維人員精確調整資源,如果當前物理機資源余量不足,評估出資源缺口,則補充新的物理機資源。
未來,將會繼續深化使用負載畫像數據,利用AI算法分析在大促不同活動場景和時間段的資源需求變化特征,實現分時復用資源調度能力,資源調度精度更細致,并與內核資源隔離和保障技術相結合,降低資源競爭風險的同時實現物理機資源利用率提升,資源使用成本降低。
構建全方位安全體系,護航818大促
本次818大促恰逢蘇寧30周年,期間設有多個重要促銷節點,眾多豐富且大力度的促銷玩法琳瑯滿目,在利益驅動下,黑客和灰產在此期間的攻擊力度和攻擊頻次預計也將大幅提升。在訪問暴漲、訂單激增、滲透力度空前的情況下,如何有效應對各類網絡攻擊以保障業務系統的安全穩定,無疑是對蘇寧安全團隊的一次重大考驗。
蘇寧安全體系提供全面、快速、精準的漏洞掃描、風險管理及專家級安全服務。其中漏洞掃描結合動態爬蟲技術,全面深入搜集應用攻擊面信息,并采用6W+漏洞檢測插件,監測各類主機及應用存在的安全風險。在818大促預熱活動前,已完成近千個系統、兩千多域名、數十萬臺主機的安全掃描與修復。使用SDK與KMS進行交互,給數據穿上一層安全外衣,使得數據在收集、傳輸、處理、交換、存儲、銷毀的全生命周期中得到保護。此外,蘇寧數據庫審計系統支持對業務網絡中的數據庫進行全方位安全審計,提高數據資產安全。
動態的攻防博弈有利于幫助安全團隊提升日常威脅檢測發現能力、事件分析決策能力和應急處置能力。蘇寧通過在真實的網絡環境中進行實戰攻防演習,攻擊方對核心目標進行滲透攻擊,防守方對安全事件進行全方位檢測,在過載的信息中明確防護方案,并快速做出應急處理。針對網絡攻擊,結合大數據分析和NLP技術,打造Web攻擊智能AI檢測引擎,可有效識別變形攻擊和0day漏洞。目前,蘇寧web攻擊模型攔截準確率達98%,召回率達94%;Bot攻擊模型攔截準確率達97%,召回率達90%。可支撐百萬級QPS請求過濾分析,大促攔截攻擊達10億+次。并通過對海量流量、日志數據進行深入關聯分析,并與威脅情報系統在全網采集的信息碰撞比對,結合主機運行狀態的實時監控數據,生成攻擊者畫像,并在攻擊行為發生前及時阻斷,避免信息資產遭受損失。
面對818期間的巨大數據量和超大流量洪峰,高穩定性、高延展性、高可用性,是蘇寧云技術團隊交出的優秀答卷,818之后,蘇寧云技術團隊還將對全量信息數據進行復盤分析,查漏補缺進一步提升和優化,以支撐高速發展的業務需求。