云集技術學社一文帶您了解深信服aSV服務器虛擬化功能及原理-魔扣目錄

10月14日，深信服云計算專家Leijian在信服云《云集技術學社》系列直播課上進行了《深信服aSV服務器虛擬化功能及原理》的分享，介紹了服務器虛擬化的基本原理和深信服aSV服務器虛擬化特色技術。以下是他的分享內容摘要，想要了解更多可以關注“深信服科技”公眾號。

看點一：服務器虛擬化的發展

從上世紀60年代開始，服務器虛擬化經歷了60多年的發展，也有著十分明顯的代際變化。

第一代是基于二進制翻譯的全虛擬化，它的典型應用是早期的VMware Workstation。核心是通過二進制發育的方式實現虛擬機的復用。

第二代是半虛擬化，它的典型應用是Xen，通過修改操作系統內核，替換掉不能虛擬化的指令，通過超級調用（Hypercall）直接和底層的虛擬化層Hypervisor來通訊，Hypervisor 同時也提供了超級調用接口來滿足其他關鍵內核操作，比如內存管理、中斷和時間保持。這種做法省去了全虛擬化中的捕獲和模擬，大大提高了效率。

第三代是硬件輔助虛擬化，核心是在裸金屬上安裝VMware，在上面跑GuestOS指令。有別于上兩代的是，它不用修改任何的GuestOS指令，可以直接運行。

看點二：服務器虛擬化基本原理

Qemu-KVM基本原理介紹

深信服目前應用的硬件輔助虛擬化是基于Qemu-KVM實現的。

KVM是內核的一個驅動（kvm.ko），工作在內核態（CPU Ring0），實際上是Linux內核一個標準組件。KVM 內核模塊收到該請求后，它先做一些準備工作，比如將vCPU上下文加載到 VMCS （Virtual Machine Control Structure）等，然后驅動 CPU 進入 VMX Non-Root 模式，開始執行客戶機代碼。

Qemu是一個應用程序，工作在用戶態（User mode 、CPU Ring3），提供外設的模擬、vCPU模擬、主控邏輯、IO收發等，當GuestOS 需要發送IO請求、需要發送網絡包的時候，都需要調用VM_Exit讓Qemu協助實現。它能夠支持CPU 和 memory 超分、半虛擬化 I/O、熱插拔、對稱多處理、實時遷移、PCI 設備直接分配和單根 I/O 虛擬化、內核同頁合并、NUMA等多項功能。使用Qemu的云廠商在這些功能配置上都是類似的。

使用Qemu-KVM有三種運行模式：

第一種是客戶模式（Guest Ring0~3），可以簡單理解成客戶機操作系統運行在的模式，它本身又分為自己的內核模式和用戶模式(CPU工作在 VMX Non-Root Operation）。

第二種是用戶模式（User Ring3），為用戶提供虛擬機管理的用戶空間工具以及代表用戶執行I/O，Qemu運行在這個模式之下（CPU工作在VMX Root Operation)。

第三種內核模式（System Ring0），模擬CPU以及內存，實現客戶模式的切換，處理從客戶模式的退出，KVM內核模塊運行在這個模式下（CPU工作在 VMX Root Operation)。

Virtio(aTool) 和全虛介紹

Virtio半虛：實際上是在Qemu和虛擬機之間設置一個共享內存Vring，當有數據需要發送的時候，把數據拷貝到共享內存Vring中，然后調用一次VM_Exit退出到Qemu中，Qemu再把這個Vring的數一次性全部發出（注意：如果虛擬機此時在快速發包，有可能Vring中已經緩存了多個包，從而更進一步減少了VM_Exit）。這樣可以減少VM_Exit的次數，從而大大提高性能（可以理解成在GuestOS和Qemu之間開了個后門）。

Virtio半虛擬可以獲得很好的I/O性能，比純軟件模擬高于4倍多，其性能幾乎可以達到和Native（即非虛擬化環境中的原生系統）差不多的I/O性能。所以，在使用KVM之時，如果宿主機內核和客戶機都支持Virtio的情況下，一般推薦使用Virtio達到更好的性能。

IO全虛擬：以磁盤或者網絡為例，當虛擬機有數據需要發送的時候，需要通過Qemu模擬所有的硬件寄存器，虛擬機OS把這些數據填充到模擬的硬件中，然后訪問設置這些寄存器，觸發VM_Exit退出，Qemu接收到這些數據，再把這些數據真實的寫入到磁盤、發送到網卡。這個過程發送一個數據包，可能要多次設置寄存器，導致多次退出，從而性能較差。

超配原理以及限制介紹

虛擬機在Hypervisor看來，就是一個配置文件+vDisk文件（配置文件會注明磁盤大小、CPU、內存數量、型號等等基礎信息，這些信息會在虛擬機啟動的時候，傳遞到虛擬機啟動參數），而每個vDISK實際上在Hypervisor看來就是一個文件。

KVM的vDISK有兩種格式：RAW 和 QCOW2格式。RAW格式性能更高些，但相比QCOW2，RAW不支持快照、精簡分配等特性，故而深信服采用的是QCOW2格式。

對于QCOW2文件，有三種模式：精簡分配、動態分配（需要底層存儲支持空洞文件）、預分配模式。其中“預分配”性能最好，接近于RAW格式的性能，“精簡分配”性能最差，“動態分配”居中（注意：目前超融合中動態分配已接近于預分配性能、aSAN有優化）。

對于精簡分配和動態分配，假設實際上是配置文件寫分配2TB,但實際QCOW2文件占用可能很小（實際大小取決于真實數據），因而可以超配，即配置的虛擬機總磁盤大小，大于實際物理主機的磁盤大小。

物理主機虛擬內存包含物理內存（內存條，高速）+ SWAP（硬盤分區、龜速）；物理內存不夠時，系統會根據配置使用SWAP分區（深信服超融合在平臺上默認設置“盡量不用SWAP”的策略）。vMEM超配本質是假設給虛擬機分配32G內存，虛擬機實際占用只了24G，理論上8G（32G-24G=8G）是可以回收的，這回收的部分理論上可以給其他虛擬機用。此時，就需要用到KSM（沒有安裝aTool的生效）或者氣泡內存技術（安裝了aTool的生效）。但內存超配可能會造成系統物理內存耗盡，導致系統卡頓的情況。因此，在核心系統上，要控制超分內存的比率，或者不要超配。

每個運行中的虛擬機在Hypervisor看來，就是一個系統進程，而vCPU是該進程的一個線程。同一時刻，每個vCPU線程最多占用一個物理CPU的邏輯核，且多個vCPU之間的同步、調度會消耗額外的資源（因此，當單個虛擬機的vcpu數量超過物理主機的邏輯核時，實際上會讓虛擬機的性能反而變低）。

無論vCPU數量配置多大，總的物理主機CPU資源是恒定的，因而：

（1）單個虛擬機最大的配置不要超過物理CPU的核心數量；

（2）主機上運行所有虛擬機的總vCPU數量不能太多，否則調度消耗會增大。生產環境最佳實踐為不超過CPU的邏輯核心的2倍，主要參考真實生產中物理CPU占用一般不超過20%；超配2倍以后，物理CPU占用40%左右，超配要考慮峰值預留，且物理CPU占用超過50%以上，已經比較繁忙了。

熱遷移基本原理介紹

熱遷移分為兩種形式，一種是共享存儲熱遷移，此種熱遷移形式，需要虛擬機鏡像在共享存儲上，此種遷移類型，只需要通過網絡發送客戶機的vCPU執行狀態、內存中的內容、虛機設備的狀態到目的主機上。另一種是跨主機跨存儲熱遷移，與跨主機不跨存儲熱遷移類似。不同的是其需要在目的存儲創建相同配置的虛擬機鏡像（空白的，沒有數據），之后仍然是在目的宿主機上啟動目的端Qemu進程，目的端Qemu鏡像打開新創建的鏡像文件。另外還需要傳送源端虛擬機的磁盤數據到目的端。

看點三：深信服aSV服務器虛擬化特色技術

虛擬機快速備份

通過快速的無代理磁盤備份保護您的數據，使用增量備份減少備份所需空間，降低備份成本。它能夠實現無需備份軟件和備份服務器，實現增量的備份，快速備份比普通基于快照備份性能提升60%，且備份完成后，性能無損失。另外還能提供手工備份和定時備份功能，保證虛擬機文件的數據安全。與快照備份性能相比，深信服虛擬機快速備份在備份過程中性能影響小，備份后不影響性能。

CDP技術

CDP技術實現依賴于HCI自帶的“備份技術” + “IO 分流技術”。虛擬機同時開啟業務（Qemu）和CDP功能（cdp_worker），并為該虛擬機開辟一塊共享內存作為主業務和CDP模塊的共享緩存區。CDP模塊（cdp_worker）可直接向Qemu下發備份指令，指示QCOW2鏡像進行備份動作，形成全備和增備BP。首次開啟CDP功能，需要進行一次全備生成BP基準點，后續根據設置的定期備份頻率（小時級）定期生成BP點。BP點以備份文件的形式存在CDP數據存儲區。CDP采用旁路架構+IO分流技術，經過共享緩存區，實現從主業務異步復制IO到CDP 日志存儲區（io倉庫）, 以IO日志的形式存在；根據設置的IO日志間隔時間（RPO=1s/5s），定期生成RP點，單獨利用RP并不能夠恢復數據，所有的RP均依賴于對應的BP。相較于傳統CDP，搭載HCI的CDP技術有著更高的容錯能力和虛擬機兼容性。

容災技術

深信服采用“本地備份-異地容災”的方案，本地提供秒級的持續數據保護方案，當虛擬機出現故障時，可以快速從本地的保護數據中恢復整臺虛擬機；異地提供不同RPO（1秒、10秒、10分鐘、30分鐘、1小時、2小時、4小時、8小時、12小時、1天、2天、一周）的虛擬機級容災功能，主、備站點皆為深信服的企業云平臺。

基于AI的調度優化技術

當一臺物理主機上運行多臺虛擬機的時候，虛擬機之間必然會有資源的競爭，包括CPU、內存、Cache、TLB、QPI等資源競爭。傳統的虛擬化優化技術無法知道資源的供需關系。傳統虛擬化優化技術無資源感知能力，如CPU級資源競爭，內存帶寬競爭；無協同優化能力，如計算，存儲與網絡的協同優化；無業務感知能力，重要核心虛擬機依然會受到其他虛擬機的資源競爭。而深信服基于AI的性能優化引擎，擁有業務感知能力通過AI引擎識別當前業務場景的核心資源需求和業務場景的資源瓶頸。AI引擎基于業務的歷史資源標簽建立性能優化模型。自適應的性能優化架構能夠根據業務的資源標簽推薦最優的資源配置并根據業務的資源標簽推薦最優的調度策略。