近日,2021云棲大會開源大數(shù)據(jù)與AI行業(yè)實踐論壇上,阿里巴巴開源委員會副主席、阿里云開源大數(shù)據(jù)平臺負責(zé)人王峰首次公開阿里云開源大數(shù)據(jù)技術(shù)的十年演進之路。同時,經(jīng)歷阿里巴巴自身業(yè)務(wù)千錘百煉的兩款A(yù)I“神兵”宣布開源——大規(guī)模稀疏模型訓(xùn)練引擎DeepRec和多模態(tài)向量檢索引擎Proxima,幫助搜索、廣告等AI業(yè)務(wù)大幅提效。
開源大數(shù)據(jù):進擊的十年演進之路
王峰介紹了阿里云開源大數(shù)據(jù)平臺在過去十年間的技術(shù)演進歷程,并分享了數(shù)據(jù)湖、實時化、云原生、智能化等技術(shù)趨勢。阿里巴巴一直堅持自研和開源雙軌制平行發(fā)展模式,在自研的基礎(chǔ)上積極擁抱開源生態(tài)。早在2009年,基于 Apache Hadoop 構(gòu)建第一代大數(shù)據(jù)平臺-云梯,并從 2016 年開始大力推動 Apache Flink 社區(qū)的發(fā)展,激發(fā)社區(qū)生態(tài)的繁榮和多元化。至2020年,F(xiàn)link已連續(xù)三年在用戶和開發(fā)者郵件列表活躍度蟬聯(lián)第一。
隨著開源技術(shù)與云原生的高度融合,阿里云開源大數(shù)據(jù)平臺在功能性、易用性、安全性上積累了豐富的實踐經(jīng)驗,幫助萬千企業(yè)聚焦自身核心業(yè)務(wù)優(yōu)勢,縮短大數(shù)據(jù)開發(fā)周期、簡化運維難度,更輕松的投入到業(yè)務(wù)創(chuàng)新。
重磅開源:DeepRec和Proxima
基于業(yè)界常見的開源深度學(xué)習(xí)框架Tensorflow、PyTorch,針對稀疏模型仍具有局限性的問題,阿里巴巴高級技術(shù)專家劉童璇在會上宣布大規(guī)模稀疏模型訓(xùn)練引擎DeepRec即將開源。DeepRec針對稀疏模型在分布式、圖優(yōu)化、算子、Runtime等方面進行了深度的性能優(yōu)化,同時提供了動態(tài)彈性特征、動態(tài)彈性維度、自適應(yīng)彈性特征、多Hash彈性特征等在阿里集團內(nèi)搜推廣業(yè)務(wù)中沉淀的稀疏功能。高效助力技術(shù)升級,提升模型效果和模型迭代效率,大幅提高搜索、推薦、廣告場景的訓(xùn)練速度,縮短模型迭代周期。
阿里巴巴達摩院資深技術(shù)專家肖允鋒帶來多模態(tài)向量檢索引擎Proxima的正式開源。Proxima是阿里巴巴達摩院自研的向量檢索內(nèi)核,可實現(xiàn)對語音、圖像、視頻等非結(jié)構(gòu)化數(shù)據(jù)的檢索,廣泛應(yīng)用于阿里巴巴和螞蟻集團內(nèi)的眾多業(yè)務(wù),如淘寶搜索、優(yōu)酷視頻搜索、阿里媽媽廣告檢索等。同時,還深度集成在各類大數(shù)據(jù)和數(shù)據(jù)庫產(chǎn)品中,為其提供向量檢索的能力。開源項目地址:
https://github.com/alibaba/proximabilin
堅定擁抱開源,共建社區(qū)繁榮
在堅定擁抱開源的道路上,阿里巴巴一直強調(diào)希望能為開源社區(qū)作出更多貢獻,帶動社區(qū)繁榮發(fā)展,并實現(xiàn)社區(qū)多元化,讓開源技術(shù)能普惠更多行業(yè)和場景。在此期間,阿里巴巴組織了上萬人群參與Flink等開源技術(shù)討論、聯(lián)合舉辦超過百場社區(qū)活動、引入國際盛會Flink Forward等。
目前,阿里巴巴已經(jīng)成為 Apache Flink 社區(qū)全球最大的貢獻者和推動者,阿里云開源大數(shù)據(jù)團隊也培養(yǎng)出30名以上Apache 頂級項目 Committer 、 PMC Member 和多名 ASF Member,參與了十多個Apache Top Level Project的建設(shè)。阿里云也與Spark、Elasticsearch等開源社區(qū)展開了深入的合作。
12月4-5日,作為開源大數(shù)據(jù)領(lǐng)域的頂級盛會之一,F(xiàn)link Forward Asia 2021再次重磅來襲,聚集全球40+行業(yè)一線廠商和80+干貨議題,打造專屬于開發(fā)者的技術(shù)盛宴。大會議程已上線,點擊鏈接即可免費報名。