開源就能搞定,還要選商業(yè)方案嗎?
我是小白用戶,開源方案上手快嗎?
性能有極致要求,開源能滿足嗎?
追求性價(jià)比,哪種方案更適合我?
我對(duì)MySQL很熟悉,
數(shù)據(jù)分析場(chǎng)景適合嗎?
上述問題如何解?
看阿里云幫你對(duì)比分析!
近些年來在數(shù)據(jù)分析領(lǐng)域,涌現(xiàn)出很多開源的技術(shù)方案,例如Presto、Spark、Impala等。面對(duì)多種選擇,客戶往往會(huì)比較困惑、無從下手。此外,MySQL生態(tài)非常火熱,但對(duì)于數(shù)據(jù)分析類場(chǎng)景,使用此類關(guān)系型數(shù)據(jù)庫是否合適呢?
阿里云近期,基于常見的開源數(shù)據(jù)分析產(chǎn)品和數(shù)據(jù)庫與阿里云自研的分析型數(shù)據(jù)庫MySQL版進(jìn)行了對(duì)比性能測(cè)試,希望從中能幫你找到答案。具體測(cè)試細(xì)節(jié),可參見阿里云官網(wǎng)鏈接。
01、測(cè)試標(biāo)準(zhǔn):TPC-H
本次對(duì)比測(cè)試,是使用TPC-H標(biāo)準(zhǔn)。TPC-H(商業(yè)智能計(jì)算測(cè)試)是美國(guó)交易處理效能委員會(huì)(TPC,Transaction Processing Performance Council) 組織制定的用來模擬決策支持類應(yīng)用的一個(gè)測(cè)試集。
目前在學(xué)術(shù)界和工業(yè)界普遍采用它來評(píng)價(jià)決策支持技術(shù)方面應(yīng)用的性能。這種商業(yè)測(cè)試可以全方位評(píng)測(cè)系統(tǒng)的整體商業(yè)計(jì)算綜合能力,對(duì)廠商的要求更高,同時(shí)也具有普遍的商業(yè)實(shí)用意義。
TPC-H 是根據(jù)真實(shí)的生產(chǎn)運(yùn)行環(huán)境來建模,模擬了一套銷售系統(tǒng)的數(shù)據(jù)倉庫。其共包含8個(gè)基本關(guān)系,數(shù)據(jù)量可設(shè)定從1G~3T不等。其基準(zhǔn)測(cè)試共包含了22個(gè)查詢,主要評(píng)價(jià)指標(biāo)各個(gè)查詢的響應(yīng)時(shí)間,即從提交查詢到結(jié)果返回所需時(shí)間。其測(cè)試結(jié)果可綜合反映系統(tǒng)處理查詢時(shí)的能力。
02、測(cè)試方案
測(cè)試基于阿里云基礎(chǔ)環(huán)境,在同等(或接近)的硬件配置下,對(duì)比分析型數(shù)據(jù)庫MySQL版與MySQL、Presto、Spark、Impala在同等數(shù)據(jù)規(guī)模(100G)下,標(biāo)準(zhǔn)TPC-H的測(cè)試結(jié)果對(duì)比。測(cè)試環(huán)境如下表:
*點(diǎn)擊查看大圖


03、測(cè)試結(jié)果
如下表可以看出,分析型數(shù)據(jù)庫MySQL版比MySQL8.0性能提升100多倍,比其他開源數(shù)據(jù)分析產(chǎn)品也有6~10倍的性能提升。
*點(diǎn)擊查看大圖

*表格中對(duì)比數(shù)據(jù)為性能提高倍數(shù),計(jì)算方法為(開源-ADB)/ADB。
*測(cè)試中Impala、Presto因語法或資源問題,無法全部完成測(cè)試。
04、解讀數(shù)據(jù)

在與關(guān)系型數(shù)據(jù)庫典型產(chǎn)品-MySQL對(duì)比中,分析型數(shù)據(jù)庫MySQL版實(shí)現(xiàn)了百余倍的提升。雖然MySQL采用了最新的8.0版本,在復(fù)雜SQL處理能方面有了長(zhǎng)足的進(jìn)步,但與專業(yè)數(shù)據(jù)分析類產(chǎn)品對(duì)比,差距明顯。
在實(shí)際使用中,對(duì)于查詢不太復(fù)雜、數(shù)據(jù)規(guī)模不大、響應(yīng)時(shí)間要求不高的情況下,使用原生MySQL是可以接受的。對(duì)于稍顯復(fù)雜的場(chǎng)景,還是建議選擇專業(yè)的分析類產(chǎn)品。(廣告下:分析型數(shù)據(jù)庫MySQL版已推出MySQL分析型實(shí)例,歡迎關(guān)注!)
對(duì)Presto、Spark、Impala的對(duì)比中,分析型數(shù)據(jù)庫MySQL版也實(shí)現(xiàn)了6~10余倍的性能提升。同樣作為分布式數(shù)據(jù)分析類產(chǎn)品,分析型數(shù)據(jù)庫MySQL版經(jīng)過多年技術(shù)積累,在存儲(chǔ)架構(gòu)、優(yōu)化器、執(zhí)行引擎等多領(lǐng)域的創(chuàng)新性成果,可大幅提高海量數(shù)據(jù)的實(shí)時(shí)查詢性能。
測(cè)試中除分析型數(shù)據(jù)庫MySQL版外,其余產(chǎn)品都進(jìn)行部分調(diào)優(yōu)工作(包括參數(shù)調(diào)整、數(shù)據(jù)結(jié)構(gòu)調(diào)整、語句改寫等);而只有分析型數(shù)據(jù)庫MySQL版真正實(shí)現(xiàn)了“開箱即用”,零優(yōu)化、免維護(hù)、無開發(fā)。除在TPC-H提供的建表語句中增加對(duì)分布鍵的定義外(原有測(cè)試標(biāo)準(zhǔn)未考慮到分布式數(shù)據(jù)庫場(chǎng)景),其余未做任何調(diào)整。
05、客戶選擇
回到文章之初的問題,客戶如何來選擇?這里簡(jiǎn)單整理了幾點(diǎn):
- 極致性能
對(duì)比測(cè)試結(jié)果來看,分析型數(shù)據(jù)庫MySQL版在性能上優(yōu)勢(shì)明顯。這也是依賴于多年技術(shù)積累所致。
- 語法兼容
從測(cè)試過程來看,分析型數(shù)據(jù)庫MySQL版對(duì)MySQL生態(tài)兼容很好,語句無需修改即可使用。其他產(chǎn)品在兼容性方面還需進(jìn)一步加強(qiáng)。
- 技術(shù)基礎(chǔ)
如技術(shù)較薄弱的客戶,選擇分析型數(shù)據(jù)庫MySQL版的商用方案無疑是很合適的。如果客戶已經(jīng)在其他大數(shù)據(jù)棧有了多年積累,可快速解決問題,則可以選擇其他產(chǎn)品。
- 高性價(jià)比
上述測(cè)試中,未算考慮經(jīng)濟(jì)投入。在使用同樣云端資源的情況下,分析型數(shù)據(jù)庫MySQL版較其他產(chǎn)品,具有明顯的經(jīng)濟(jì)優(yōu)勢(shì)。同時(shí),分析型數(shù)據(jù)庫MySQL版也提供了豐富的規(guī)格選擇,進(jìn)一步為客戶降低成本。例如之前推出的基礎(chǔ)版規(guī)格,將大數(shù)據(jù)分析門檻大幅降低;新推出的大存儲(chǔ)規(guī)格,則面向具備海量數(shù)據(jù)體量用戶;其未來還將有更為豐富且具有彈性的規(guī)格推出。(廣告下,3月末還將有重磅產(chǎn)品發(fā)布,敬請(qǐng)期待!)
- 簡(jiǎn)單易用
零維護(hù)、免優(yōu)化,這是分析型數(shù)據(jù)庫MySQL版給很多客戶的直觀印象。其將數(shù)據(jù)分析這一原本門檻較高的領(lǐng)域,變得觸手可得。感興趣的同學(xué),可以根據(jù)文檔說明,快速?gòu)?fù)現(xiàn)上述測(cè)試過程,真正體會(huì)下分析型數(shù)據(jù)庫MySQL版帶來的價(jià)值。