某制造業(yè)企業(yè)為全球領先的通信服務及解決方案提供商,業(yè)務廣泛且復雜,對 IT 基礎設施的穩(wěn)定性、可靠性和靈活性有著極高的要求。然而,公司原VMware系統(tǒng)許可到期,存在安全風險及存儲管理、資源利用問題,業(yè)務連續(xù)性受威脅,且系統(tǒng)兼容性需求逐漸提升。為滿足業(yè)務發(fā)展需求,集團決定使用深信服超融合替換原有的VMware,以增強業(yè)務連續(xù)性和安全性。
一、現(xiàn)狀與挑戰(zhàn)
(一)技術層面
1.許可與安全問題
VMware許可到期,在出現(xiàn)漏洞時無法及時得到修復,存在一定的安全風險。
2.功能缺失
網(wǎng)絡安全防護:未使用NSX,因此業(yè)務系統(tǒng)東西向流量互訪無法得到有效保障,網(wǎng)絡安全防護存在漏洞,容易受到外部攻擊。
虛擬化和存儲管理:物理機在存儲管理方面的功能相對有限,無法滿足日益增長的業(yè)務需求,如資源動態(tài)分配、存儲優(yōu)化等。
(二)業(yè)務層面
資源利用效率低:物理機靈活性差,資源分配固定,無法根據(jù)業(yè)務負載的變化進行動態(tài)調整,導致部分資源閑置,而部分業(yè)務系統(tǒng)卻面臨資源不足的困境。
業(yè)務連續(xù)性風險高:物理機上線時間長,故障風險持續(xù)增高,沒有HA機制保障,一旦出現(xiàn)故障,將導致業(yè)務中斷,影響用戶業(yè)務的正常運行。
兼容性問題:隨著新業(yè)務系統(tǒng)的不斷上線,對基礎設施的兼容性要求越來越高,VMware平臺在某些方面無法滿足需求,限制了業(yè)務的拓展。
二、VMware替換方案設計
(一)整體規(guī)劃
遷移目標:將用戶的業(yè)務系統(tǒng)從VMware平臺遷移到深信服的HCI平臺,實現(xiàn)業(yè)務的平穩(wěn)過渡,提高資源利用率,增強業(yè)務連續(xù)性和安全性。
資源整合:對原有的物理機和VMware虛擬機資源進行整合,統(tǒng)一管理和分配,充分發(fā)揮HCI平臺的優(yōu)勢,提高資源利用率。
業(yè)務承載優(yōu)化:根據(jù)業(yè)務系統(tǒng)的特點和需求,為其在HCI平臺上規(guī)劃合適的資源配置,確保業(yè)務系統(tǒng)能夠穩(wěn)定運行,滿足業(yè)務發(fā)展的要求。具體優(yōu)化措施包括:對于計算密集型業(yè)務系統(tǒng),增加CPU和內存資源;對于存儲密集型業(yè)務系統(tǒng),增加存儲容量、提高存儲性能。
(二)分層規(guī)劃
1.計算資源層
CPU和內存配置:根據(jù)業(yè)務系統(tǒng)的性能需求,為其分配合適的CPU和內存資源。例如,對于一般的業(yè)務應用服務器,可配置 2 - 4 顆CPU和 8 - 16GB 內存;對于數(shù)據(jù)庫服務器,可根據(jù)數(shù)據(jù)庫的規(guī)模和并發(fā)用戶數(shù),配置 8 - 16 顆CPU和 32 - 64GB 內存。同時,考慮到業(yè)務的增長趨勢,適當預留一定的資源余量,以確保系統(tǒng)的穩(wěn)定性和可擴展性。
計算資源優(yōu)化:利用HCI平臺的智能資源調度功能,實現(xiàn)計算資源的動態(tài)分配和優(yōu)化,提高資源利用率,避免資源浪費。例如,當某業(yè)務系統(tǒng)的CPU利用率超過70%時,系統(tǒng)會自動將部分CPU資源分配給該業(yè)務系統(tǒng),確保其性能不受影響;當業(yè)務系統(tǒng)的負載降低時,系統(tǒng)會將多余的資源分配給其他負載較低的業(yè)務系統(tǒng),提高資源利用率。
2.存儲資源層
(1)存儲類型選擇:根據(jù)業(yè)務數(shù)據(jù)的特點和訪問頻率,選擇合適的存儲類型。
全閃卷存儲:對于性能要求較高的業(yè)務系統(tǒng),如數(shù)據(jù)庫系統(tǒng)、在線交易系統(tǒng)等,采用全閃卷存儲,具有讀寫速度快、響應時間短等優(yōu)點。
混閃卷存儲:對于存儲容量要求較大、性能要求相對較低的業(yè)務系統(tǒng),如文件服務器、備份服務器等,采用混閃卷存儲?;扉W卷存儲采用固態(tài)硬盤和機械硬盤(HDD)混合配置,在提供一定存儲容量的同時,也能保證一定的性能水平。本次混閃集群,緩存比10%,共容量1.7PB,分為XX生產集群、XX測試集群 、核心ERP集群。
(2)存儲容量規(guī)劃:
數(shù)據(jù)評估:通過對業(yè)務系統(tǒng)的數(shù)據(jù)量進行評估,確定存儲容量的需求。例如,對于用戶的核心數(shù)據(jù)庫系統(tǒng),可通過數(shù)據(jù)庫管理工具查看數(shù)據(jù)庫的大小、數(shù)據(jù)增長速度等信息,結合業(yè)務發(fā)展規(guī)劃,預測未來幾年的數(shù)據(jù)量增長情況,從而確定存儲容量的需求。
冗余設計:為了確保數(shù)據(jù)的安全性和可靠性,在存儲容量規(guī)劃時應考慮一定的冗余。一般來說,冗余比例可根據(jù)業(yè)務的重要性和數(shù)據(jù)的價值來確定,通常在10% - 20%之間。以用戶的核心數(shù)據(jù)庫系統(tǒng)為例,可根據(jù)未來3年的數(shù)據(jù)量規(guī)劃存儲容量,并在此基礎上增加20%的冗余容量,以確保在數(shù)據(jù)量增長超過預期時,存儲系統(tǒng)仍能滿足需求。
三、遷移方案設計與實施
(一)遷移目標
1.業(yè)務平穩(wěn)遷移:確保所有業(yè)務系統(tǒng)在遷移過程中平穩(wěn)過渡,不影響業(yè)務的正常運行。
2.資源優(yōu)化整合:將原有的物理機和VMware虛擬機資源進行整合,實現(xiàn)資源的統(tǒng)一管理和高效利用。
技術要點:在遷移過程中,對于CPU的評估至關重要。需獲取用戶業(yè)務最高峰時的CPU利用率,并按照物理CPU核數(shù) / 50%的公式來計算。例如,原先某物理機的使用情況為48C,其CPU利用率達到80%,那么按照公式計算:48C * 80% / 50% = 76.8C。所以,在配置虛機CPU時,其核數(shù)不應低于76C,以此確保遷移后系統(tǒng)的性能和穩(wěn)定性。
3.性能提升優(yōu)化:通過優(yōu)化系統(tǒng)配置和架構,提升業(yè)務系統(tǒng)的性能,提高用戶體驗。
4.安全可靠保障:建立完善的安全防護體系,確保業(yè)務數(shù)據(jù)的安全和可靠。
(二)遷移策略
1.分階段遷移:根據(jù)業(yè)務系統(tǒng)的重要性和依賴關系,分階段進行遷移,先遷移非核心業(yè)務系統(tǒng),再遷移核心業(yè)務系統(tǒng),確保關鍵業(yè)務的穩(wěn)定運行。
2.數(shù)據(jù)備份與恢復:在遷移前對所有核心業(yè)務數(shù)據(jù)進行備份,遷移過程中確保數(shù)據(jù)的完整性和準確性,遷移完成后進行數(shù)據(jù)恢復和驗證,確保業(yè)務數(shù)據(jù)的可恢復性。
3.風險評估與應對:對遷移過程中可能出現(xiàn)的風險進行全面評估,制定相應的風險應對措施,如網(wǎng)絡故障、數(shù)據(jù)丟失、系統(tǒng)兼容性問題等,確保遷移工作的順利進行。
(三)ERP系統(tǒng)遷移
ERP系統(tǒng)作為用戶全球業(yè)務的核心支撐系統(tǒng),承載著財務報表、財務支付、倉庫管理等關鍵業(yè)務流程。這些業(yè)務涉及到公司的資金流動和物資管理,對公司的運營和發(fā)展至關重要。
1.遷移考慮與解決方案
業(yè)務可用性與時間考量
(1)總體思路:在遷移過程中,重點考慮了遷移所需時間和速度問題,確保遷移后業(yè)務能正常使用。
(2)業(yè)務切換時間與方案選擇
時間限制:用戶期望業(yè)務遷移切換時間在10分鐘內。
方案決策:與用戶業(yè)務部門探討后,鑒于重新搭建軟件投入成本和負載配置變更等因素,選擇了SCMT點對點的遷移方案。
綜合方案:成本最優(yōu)、時間控制在10分鐘內
虛擬機遷移:采用深信服 SCMT 進行虛擬機級別遷移,此方式不改變業(yè)務訪問,成本最優(yōu),并且能夠將中斷時間控制在5分鐘以內。
業(yè)務發(fā)布:由于ERP已具備容災能力,在遷移主生產ERP時,先提前將業(yè)務切換至災備ERP。生產ERP遷移完成后,先進行業(yè)務測試,驗證無問題后,再正式發(fā)布到生產業(yè)務中。
節(jié)省時間方案:中斷在1分鐘內
重建業(yè)務系統(tǒng):協(xié)調業(yè)務部門重新搭建一套新的ERP業(yè)務系統(tǒng)。
調整負載均衡:調整前端負載均衡配置,增加負載節(jié)點池新節(jié)點,通過負載進行業(yè)務切換。
(3)具體實施
遷移規(guī)劃:鑒于用戶的ERP業(yè)務有容災環(huán)境,超融合實施完成后,先進行一輪遷移測試。從22號開始,逐個服務組件進行遷移測試,順序為先遷移ascp業(yè)務(前端portal組件),后遷移wms倉庫系統(tǒng),最后遷移ebs財務核心系統(tǒng),遵循從邊緣業(yè)務到核心業(yè)務的原則。
業(yè)務驗證方式:遷移完成后,臨時將業(yè)務切換至新環(huán)境,設置為容災IP,并使用用戶現(xiàn)有的容災環(huán)境,通過jmeter模擬上千客戶端訪問,對業(yè)務和壓力進行驗證,以確保業(yè)務能正常訪問。
(4)遷移過程細節(jié)
物理機與遷移速度:每臺物理機空間約為1T,每個遷移任務的速度約為80MB/s,整體遷移測試耗時約兩天。
數(shù)據(jù)量與遷移階段:本次遷移ERP核心業(yè)務系統(tǒng),從2024年9月20號開始實施,至24年10月1號結束。整個過程包括遷移前期測試、遷移過程和遷移切換后的業(yè)務驗證,共約10天完成核心業(yè)務遷移。
(5)遷移問題解決
軟件沖突問題:用戶的所有物理機均安裝了愛數(shù)和科力銳備份軟件。在安裝agent進程之前,必須對這些軟件進行卸載,并尋找合適的窗口進行重啟。否則,將會出現(xiàn)無法正常識別源機的問題,從而影響遷移工作的順利進行。
安裝環(huán)境問題:源業(yè)務虛擬機內部安裝了殺毒軟件,這有可能導致scmt的agent進程無法正常運行。因此,在遷移時,建議先退出殺毒軟件,然后再進行agent的安裝操作。
2.賦能用戶自主遷移
(1)背景
用戶面臨著上百臺虛擬機的遷移任務。從以用戶為中心的理念出發(fā),幫助用戶節(jié)約成本是方案設計的重要考量,同時考慮到用戶運維人員對業(yè)務系統(tǒng)的運行情況更為熟悉,且深信服的遷移方案已實現(xiàn)標準化,經與用戶溝通并達成一致后,決定通過為用戶提供詳細文檔和專業(yè)培訓的形式,使用戶能夠自主進行業(yè)務遷移。這樣一來,減少了對外部技術支持的依賴,從而降低了直接的技術支持費用支出。
(2)培訓及落地關鍵思路
技術培訓內容:為用戶制定詳細的技術培訓方案,包括HCI平臺的基本架構、虛擬機的管理、數(shù)據(jù)遷移工具的使用等方面。通過理論講解、實際操作演示和案例分析等方式,讓用戶深入了解HCI平臺的技術原理和操作方法。
業(yè)務流程培訓:結合用戶的業(yè)務特點,培訓用戶如何在HCI平臺上進行業(yè)務系統(tǒng)的部署、遷移和管理。包括業(yè)務系統(tǒng)的安裝、配置、優(yōu)化以及故障排除等方面,讓用戶能夠熟練掌握業(yè)務系統(tǒng)在新環(huán)境中的運行和維護。
技術支持保障:作為廠商,深信服為用戶提供技術兜底服務,在用戶自主遷移過程中,若遇到技術難題或突發(fā)問題,廠商將及時進行支撐處置。確保用戶在任何時候都能得到專業(yè)的技術援助,為用戶的自主遷移之路保駕護航。
(3)成果
在用戶具備遷移能力后,成功且平穩(wěn)地完成了MES(制造執(zhí)行系統(tǒng))、PLM(產品生命周期管理系統(tǒng))、BPM(業(yè)務流程管理系統(tǒng))、SRM(供應商關系管理系統(tǒng))等業(yè)務系統(tǒng)的遷移。這一成果在為用戶節(jié)約成本方面成效顯著。這得益于用戶自身所具備的一定的技術能力,同時借助于深信服遷移方案的成熟性、工具的易用性以及全方位的技術支撐。正是在這些因素的共同作用下,才使得此次遷移得以順利完成,充分展現(xiàn)了用戶與深信服在業(yè)務系統(tǒng)遷移過程中的高效協(xié)作與卓越執(zhí)行。
四、業(yè)務替換總結與現(xiàn)狀
(一)遷移成果
截至目前,已完成大量業(yè)務系統(tǒng)的遷移。其中包括上百臺VMware虛擬機遷移以及幾十臺物理機遷移,VMware還有約三分之一的虛擬機未遷移。預計25年初,還計劃將10臺物理機上的業(yè)務遷移至HCI。
(二)關鍵業(yè)務承載現(xiàn)狀
在HCI平臺上實現(xiàn)多種功能,為業(yè)務系統(tǒng)帶來全方位的提升,為用戶帶來了顯著價值。
1.業(yè)務系統(tǒng)性能提升
(1)資源利用率優(yōu)化
成功將業(yè)務系統(tǒng)部署在HCI集群,實現(xiàn)資源利用率的優(yōu)化。
在正常情況下,內存和CPU的使用率均在40%以下,有效避免資源浪費,確保系統(tǒng)高效運行。
當業(yè)務繁忙時,內存利用率能夠達到80%,充分滿足業(yè)務高峰需求,同時保證系統(tǒng)的穩(wěn)定性。
(2)虛擬機互斥保護
對核心業(yè)務系統(tǒng)配置虛擬機互斥保護,例如優(yōu)先保障ebs資源,有效防止應用集中在同一臺物理機上。
這種配置方式顯著提高系統(tǒng)的穩(wěn)定性,避免因單一物理機故障影響多個核心業(yè)務應用。
通過合理分配資源,提升業(yè)務系統(tǒng)的整體性能,確保各項業(yè)務的順暢運行。
(3)HCI平臺功能優(yōu)勢
分布式防火墻配置
實現(xiàn)分布式防火墻配置,增強安全防護能力,有效抵御外部網(wǎng)絡威脅,保障業(yè)務數(shù)據(jù)安全。例如,在一次針對用戶的網(wǎng)絡攻擊模擬測試中,HCI平臺的分布式防火墻成功識別并攔截了來自外部的惡意訪問嘗試,阻止了潛在的數(shù)據(jù)泄露風險,確保了財務報表、用戶信息等重要業(yè)務數(shù)據(jù)的安全性。
問題及時處理
具備快速處理問題的能力,提高運維效率,減少因系統(tǒng)故障導致的業(yè)務中斷時間。此前有一次,用戶的某個業(yè)務系統(tǒng)出現(xiàn)了異常,導致部分用戶無法正常訪問相關功能。HCI平臺的監(jiān)控系統(tǒng)迅速發(fā)出警報,運維團隊借助平臺提供的工具和信息,快速定位問題為服務器內存溢出。通過及時調整內存分配和優(yōu)化相關配置,在短短30分鐘內就解決了問題,業(yè)務恢復正常,將對業(yè)務的影響降到了最低。
業(yè)務性能分層
能夠進行業(yè)務性能分層,合理分配資源,優(yōu)先保障核心業(yè)務資源使用,確保核心業(yè)務的高效運行。以用戶的ERP系統(tǒng)為例,在財務結算期間,核心的財務計算和報表生成任務被分配到高性能的計算資源層,確保這些關鍵業(yè)務能夠快速、準確地完成。而其他非核心業(yè)務,如一些日常的查詢和報表預覽功能,則在相對較低性能的資源層運行,既滿足了業(yè)務需求,又避免了核心業(yè)務因資源競爭而受到影響,提高了整體業(yè)務處理效率。
網(wǎng)絡訪問關系清晰
可以清晰查看網(wǎng)絡訪問關系,優(yōu)化網(wǎng)絡管理,便于排查網(wǎng)絡故障和優(yōu)化網(wǎng)絡配置。用戶在一次網(wǎng)絡架構調整過程中,通過HCI平臺提供的網(wǎng)絡訪問可視化功能,運維團隊清晰地看到各個業(yè)務系統(tǒng)之間的網(wǎng)絡連接情況以及數(shù)據(jù)流向。他們發(fā)現(xiàn)某個部門的業(yè)務系統(tǒng)與其他部門的部分系統(tǒng)存在不必要的大量數(shù)據(jù)交互,導致網(wǎng)絡擁堵。基于此,他們對網(wǎng)絡訪問權限和路由進行了優(yōu)化,減少了不必要的網(wǎng)絡流量,提高了整個網(wǎng)絡的運行速度和穩(wěn)定性。
數(shù)據(jù)備份防護
可對核心業(yè)務數(shù)據(jù)進行備份防護,提高數(shù)據(jù)安全性,在數(shù)據(jù)丟失或損壞時能夠及時恢復。例如,用戶的倉庫管理系統(tǒng)數(shù)據(jù)因一次意外的服務器故障出現(xiàn)部分丟失風險。由于HCI平臺的備份防護機制,系統(tǒng)能夠迅速從最近的備份點恢復數(shù)據(jù),確保倉庫庫存信息、出入庫記錄等關鍵數(shù)據(jù)的完整性,避免了因數(shù)據(jù)丟失可能導致的倉庫管理混亂和業(yè)務損失。
(4)程序升級保障
在程序升級等變更操作時,可使用快照技術做兜底保障。
這種保障機制有效降低業(yè)務風險,確保在升級過程中即使出現(xiàn)問題,也能夠快速恢復到之前的穩(wěn)定狀態(tài),避免對業(yè)務造成嚴重影響。
(5)定期主動做深度檢測
根據(jù)業(yè)務系統(tǒng)的重要性和運行特點,制定每兩周一次的巡檢計劃。明確巡檢的時間窗口、范圍以及重點關注的指標和系統(tǒng)組件。
通過定期的巡檢與同步,能夠在問題尚未對業(yè)務造成嚴重影響之前及時發(fā)現(xiàn)潛在的系統(tǒng)故障、性能瓶頸或配置錯誤。
由于巡檢過程中已經對問題進行了詳細的分析和記錄,并提供了建議解決方案,運維人員可以快速定位問題并實施修復,減少系統(tǒng)停機時間,保障業(yè)務系統(tǒng)的穩(wěn)定運行。
2.成本節(jié)約與靈活性提升
(1)減少外部依賴
通過培養(yǎng)用戶自主遷移能力,減少對外部技術支持的依賴。這不僅降低遷移過程中的人力成本,還使用戶能夠更好地掌控遷移過程,提高遷移效率和質量。
(2)平臺優(yōu)勢體現(xiàn)
HCI平臺的使用帶來多方面的成本節(jié)約和靈活性提升。
解決原有問題
解決原有物理機靈活性差和資源利用率低的問題,提高資源的統(tǒng)一管理和高效利用,避免資源閑置和浪費。
降低硬件成本
減少對硬件設備的依賴,降低硬件采購和維護成本,為企業(yè)節(jié)省大量資金。
(3)根分區(qū)案例體現(xiàn)
例如在10月15日11時發(fā)生根分區(qū)使用過載的問題時,HCI平臺展現(xiàn)出其靈活性和成本優(yōu)勢。
快速擴容
借助HCI的靈活性,能夠快速完成擴容操作,及時滿足業(yè)務對存儲空間的需求。
避免中斷
有效避免業(yè)務中斷,確保業(yè)務的連續(xù)性,減少因業(yè)務中斷帶來的經濟損失和不良影響。
解決隱患
成功解決業(yè)務安全隱患,保障業(yè)務系統(tǒng)的穩(wěn)定運行,體現(xiàn)HCI平臺在應對突發(fā)情況時的可靠性和經濟性。
五、用戶價值
深信服為用戶提供更穩(wěn)定、性能更優(yōu)、更安全的云底座,大幅提升平臺的易用性——相較于VMware需要聯(lián)合第三方備份工具操作,HCI平臺操作更加簡單易懂,例如有回收站和備份恢復等功能,使得用戶體驗更為流暢。同時,在遷移過程中,深信服可為用戶提供更及時、高效的技術支持,以完整的遷移工具及服務、細致嚴謹?shù)脑u估與規(guī)劃,確保遷移過程順暢,保障業(yè)務連續(xù)性。