SDS 2.0時代進化
達爾文的《進化論》認為,地球上現存的所有生物都是自然選擇的結果,生物只有適應環境的變化,才能得到生存和進化。
回望到企業存儲,一個常做常新的行業,從上古結繩記事到竹簡刻字,從殷墟甲骨文到蔡倫造紙,從傳統存儲到軟件定義存儲…事實上,數據一直在進化,存儲也在持續的迭代進化。
正如同,當我們正在談論軟件定義存儲加速替代傳統存儲的話題時,殊不知,一場關于軟件定義存儲的2.0時代進化早已開始。
1“江山代有才人出,各領風騷數百年”
將時間指針撥回到2013年以前,用今天的時髦話說,那時候的傳統存儲,尤其是高端存儲,那就是“高端大氣上檔次”的化身,軟硬一體,且多為定制化設備,高性能高可靠的同時,同樣少不了高昂的價格,主要應用于核心場景。
傳統存儲的架構以機頭控制器為核心,從雙控到16控,Scale-up垂直擴展,無法線性擴展。主存以HDD機械硬盤為主,通常使用內存Cache+BBU進行加速。容量多從幾十TB到幾百TB,有些高端的能到PB級。
磁盤和容量可以通過增加JBOD(Just a Bunch Of Disks,磁盤簇)來增加,但會受限于機頭的性能瓶頸。產品主要以SAN和NAS為主,同樣也出現了SAN+NAS的統一存儲方案。
圖片來源網絡
著互聯網和云計算時代的到來,超大規模和“秒殺”在很多行業中成為常態,超大容量、快速變化的IO需求,對存儲設施的彈性擴展、簡便運維以及更低的TCO成本,都提出了更高要求。而傳統存儲的緊耦合特點,煙囪式架構,以及高昂的價格,無法滿足企業的發展需要。
這一時期,基于分布式架構的軟件定義存儲(Software Defined Storage,SDS)開始“登堂入室”,而且隨著萬兆網絡和SSD固態硬盤技術的逐漸成熟,進一步為傳統的集中式架構向分布式架構演進提供了基礎。
2012年,VMware首次提出了軟件定義數據中心(SDDC)的概念,作為VMware軟件定義數據中心五大組成部分(計算、存儲、網絡、管理和安全)之一,軟件定義存儲的概念首次被提出。
2013年,Gartner發布2014年十大戰略技術中,便包含了“軟件定義一切”。Gartner認為:軟件定義一切囊括了在基礎設施可編程性標準提升下不斷增長的市場勢頭、由云計算內在自動化驅動的數據中心互通性、DevOps和快速的基礎設施提供等。
2015年前后,國內一大批新興的start-up公司投身這一賽道,同時傳統存儲大廠也開始加緊在這一領域的研究。從技術路線來看,開源成為當仁不讓的主流,而Ceph又是其中的絕對熱門。
Ceph最早作為加州大學圣克魯茲分校的Sage Weil的博士論文研究項目,是一個遵循自由開源許可(LGPLv2.1)的分布式存儲系統。Ceph的主要目標是提供高可擴展性和提供對象存儲、塊存儲和文件系統的存儲機制,是一個高擴展、高容錯、高一致的開源分布式存儲平臺。
無論是開源版本還是基于Ceph的商業化軟件定義存儲版本,在中國市場都得到了較多應用,尤其是與OpenStack成為了“最佳CP”。而企業存儲在這一時期的進化和分布式轉型,我們可以稱之為軟件定義存儲的1.0時代,歸結來看有如下核心特點:
1、計算和容量都支持Scale-out橫向擴展,存儲集群容量和性能可以隨著擴容線性增長;
2、軟硬件解耦,可以使用通用服務器作為存儲服務器,解除硬件綁定;
3、分布式架構決定了存儲系統可以按照資源池化管理,系統可以根據實際的容量性能需求進行部署,同時伴隨需求的變化進行快速的部署擴展。
2“數風流人物,還看今朝”
今天,企業的數字化轉型正加速邁向“數據紅利”時代,企業對數據的認知和數據的利用超越了以往任何一個時代。軟件定義存儲1.0使得用戶從邊緣到準核心再到部分核心業務,都可以得到支撐,一定程度上推動了企業基礎架構的現代化轉型。但是,作為上一個十年的技術產物,由于技術架構上的先天不足,面對企業需求的新變化,逐漸“難以招架”。
第一,混合多云正在成為企業當下以及未來實現數字化的最佳選擇。調研顯示,超過八成的企業已經開始在多云環境中開展運營,其中,超過四分之三的受訪企業表示,他們正在使用至少2-15個云平臺。存儲系統需要為用戶提供面對混合多云異構環境下的一致性體驗,確保數據在多云環境中自由流動,真正就緒跨越“邊緣-本地-多云”的基礎能力。
第二,邊緣計算的興起,意味著企業將管理更多的動態數據,存儲設備將要求更接近計算,并最終提供計算功能。IDC預測,到2025年,44%的數據將在核心和邊緣創建,屆時,全球將近80%的數據將存儲于核心和邊緣,這一數字在2015年僅有35%。邊緣將要求能夠存儲關鍵數據并進行分析,以應對終端交易和時延敏感性的服務請求。
第三,目前主流的SDS產品架構由于誕生的年代,決定其基于HDD或者HDD+SSD Cache來設計,整個軟件棧非常厚重且冗繁;針對目前一些新的高IOPS、低時延的存儲硬件比如NVMe SSD,SCM等,軟件定義存儲1.0的架構無法發揮出來其性能優勢;而從網絡側來看,軟件定義存儲1.0架構對于目前有著更高性能的RDMA網絡,無法將其價值完全發揮出來。整個集群的性能區間大約為:從幾萬到幾十萬IOPS,端到端平均時延都是毫秒級別,峰值時延可能到分鐘級,完全不能覆蓋高性能業務場景的需求。
第四,目前大部分SDS產品采用開源平臺進行構建,在自主可控方面存在風險,而且過時、復雜的技術棧設計,讓系統的整體效率和性能受到限制,不能最大化發揮分布式架構的優勢。另外,由于架構和工程實現帶來了橫向擴展的瓶頸,全系統并不能真正做到無限的Scale-out。
第五,“云原生”技術正在加速企業數據中心變革。IDC預計,到2022年,90%的新應用將采用微服務架構,35%的生產環境應用是云原生。企業存儲需要適應全面云化的IT基礎設施的特征和要求,利用云的彈性敏捷的特點,讓企業業務的迭代、交付和創新變得更快。
第六,現代企業組織的CIO們逐漸意識到,必須擺脫過去“以流程為中心”,轉向“以數據和應用為中心”構建下一代數據基礎架構,讓數據真正服務于企業創新和創造利潤。對于存儲設施而言,不僅需要考慮如何存好的問題,對數據的全生命周期管理都需要通盤的考量,數據從何來、去何處、怎么管、什么類型、如何用、什么價值,都會成為企業存儲設施的基礎技術棧與能力。
基于上述,下一代SDS呼之欲出。并且,關于理想中的下一代SDS,業界開始形成了一些共識:
1、迫切需要設計新一代分布式存儲引擎,在TCO成本可控的前提下,性能、可靠性、自動化運維等達到量級飛躍。例如,在性能輸出上可提供微秒級延遲以及百萬甚至千萬級的IOPS能力。
2、具備面向高IOPS、低時延的新一代存儲介質的擴展能力,能夠與硬件技術革新保持同頻。
3、支持跨越本地數據中心到邊緣以及多公有云的數據自由流動,全面擁抱云原生,真正實現數據“生于云上,長于云上”。
4、支持全系統幾乎無限的Scale-out橫向擴展,以及支持完整的訪問協議和對全業務場景的覆蓋。
5、能夠站在數據的“第一視角”,通盤考量南向數據存儲和北向數據服務。
3“柳暗花明又一村”
第三方分析機構Wikibon認為“面對傳統企業級客戶的下一步云化,最終主導模式是將云移動到數據上,而非將海量數據移動到中心云上。”也就是說,將云的能力推送到企業將變得至關重要。
從傳統存儲到軟件定義存儲1.0再到下一代SDS,我們看到云的體驗和技術能力正加速落地到企業。
事實上,目前我們已經觀察到了一些接近下一代SDS特征的產品和服務,例如阿里云pangu2.0同期推出的第二代存儲引擎,也正基于類似的設計思想完成了產品的整體迭代。
領先的數據基礎設施整體解決方案提供商——ExponTech公司(華瑞指數云科技)目前正基于自研的全新一代分布式存儲引擎,推出了混合多云數據平臺(Hybrid and Multi-Cloud Data Platform),其與下一代SDS的特征高度契合,目前產品已經開始投放市場,并在多家客戶處進行聯合測試,更多的技術細節后續將對外披露。