深度學(xué)習(xí)框架被稱(chēng)為“智能時(shí)代的操作系統(tǒng)”,是推動(dòng)人工智能應(yīng)用大規(guī)模落地的核心動(dòng)力引擎。國(guó)家“十四五”規(guī)劃將深度學(xué)習(xí)框架列入“新一代人工智能”領(lǐng)域,作為前沿創(chuàng)新技術(shù)重點(diǎn)支持。近年來(lái),國(guó)產(chǎn)深度學(xué)習(xí)開(kāi)源框架迎來(lái)集中爆發(fā),一眾優(yōu)秀項(xiàng)目在產(chǎn)業(yè)實(shí)踐中站穩(wěn)了腳跟。
百度飛槳(PaddlePaddle)是國(guó)內(nèi)首個(gè)自主研發(fā)、開(kāi)源開(kāi)放的產(chǎn)業(yè)級(jí)深度學(xué)習(xí)框架,并于去年全新發(fā)布了開(kāi)源框架 2.2 版本。2022 年 4 月 29 日《極客有約》邀請(qǐng)到了百度 AI 技術(shù)生態(tài)總經(jīng)理馬艷軍博士,同時(shí)也是 OpenI 啟智社區(qū)技術(shù)委員會(huì)委員,和大家一起暢聊開(kāi)源深度學(xué)習(xí)框架建設(shè)的話(huà)題。馬艷軍總體負(fù)責(zé)產(chǎn)業(yè)級(jí)深度學(xué)習(xí)開(kāi)源開(kāi)放平臺(tái)飛槳的產(chǎn)品和技術(shù)研發(fā)及生態(tài)建設(shè),主要研究方向包括自然語(yǔ)言處理、深度學(xué)習(xí)等,相關(guān)成果在百度產(chǎn)品中廣泛應(yīng)用,并在 ACL 等權(quán)威會(huì)議、期刊發(fā)表論文 20 余篇,多次擔(dān)任頂級(jí)國(guó)際會(huì)議的 Area Chair。本期訪(fǎng)談中,馬艷軍主要圍繞飛槳平臺(tái)的技術(shù)和生態(tài)分享了自己在這一領(lǐng)域的經(jīng)驗(yàn)和觀(guān)點(diǎn)。
如何看待深度學(xué)習(xí)框架
深度學(xué)習(xí)框架非常類(lèi)似于操作系統(tǒng),是底層芯片指令集與上層應(yīng)用之間的連接層,既要做好對(duì)底層 AI 芯片的適配、融合與優(yōu)化,也要對(duì)上層應(yīng)用提供數(shù)以千計(jì)的算法開(kāi)發(fā)接口。它相當(dāng)于人類(lèi)身體的腰腹部位,是全身發(fā)力的核心支點(diǎn)。深度學(xué)習(xí)框架與操作系統(tǒng)的主要相似點(diǎn)還在于生態(tài)屬性。一系列軟硬件技術(shù)都要圍繞著框架緊密結(jié)合、共同發(fā)展,才能獲得良好的效果。
在 AI 研究的早期,學(xué)術(shù)界發(fā)現(xiàn)很多深度學(xué)習(xí)算法可以拆分成眾多可復(fù)用的固定模塊,為了提升算法開(kāi)發(fā)的效率,便開(kāi)始研發(fā)深度學(xué)習(xí)框架。2015 年之后的幾年,AI 技術(shù)積累雄厚的科技企業(yè)陸續(xù)推出了 TensorFlow、PaddlePaddle、PyTorch 等框架。這些框架在產(chǎn)業(yè)界和科研界得到了廣泛應(yīng)用,對(duì)很多應(yīng)用場(chǎng)景都有極大的提升和推動(dòng)作用。
飛槳框架的創(chuàng)新
PaddlePaddle 于 2016 年開(kāi)源,是國(guó)內(nèi)最早開(kāi)源開(kāi)放的深度學(xué)習(xí)框架,然后在 2019 年有了中文名“飛槳”。英文名稱(chēng) PaddlePaddle 來(lái)自于 PArallel Distributed Deep LEarning 的簡(jiǎn)寫(xiě),而中文名飛槳?jiǎng)t出自明朝朱熹的一首詩(shī)“聞?wù)f雙飛槳,翩然下廣津”,以飛槳命名也蘊(yùn)含著快速發(fā)展的寓意。飛槳發(fā)源于百度公司內(nèi)部的研發(fā)和業(yè)務(wù)訴求,在產(chǎn)業(yè)實(shí)踐中經(jīng)過(guò)多年打磨,取得了突破性進(jìn)展,并形成了比較成熟的開(kāi)源生態(tài)。
馬艷軍提到,各大主流深度學(xué)習(xí)框架走過(guò)的發(fā)展路線(xiàn)都是類(lèi)似的,并且各家產(chǎn)品在技術(shù)上會(huì)相互借鑒、共同創(chuàng)新,因此會(huì)有很多相同相似的特性。與其它框架相比,飛槳最大的不同之處在于這款框架與產(chǎn)業(yè)應(yīng)用有更緊密的結(jié)合,為生產(chǎn)環(huán)境做了很多細(xì)致的工作,不僅僅在算法層面開(kāi)展優(yōu)化,而且會(huì)專(zhuān)門(mén)進(jìn)行框架層面的升級(jí)。以動(dòng)靜統(tǒng)一為例,為了滿(mǎn)足企業(yè)場(chǎng)景中靈活調(diào)試和快速部署的需求,飛槳在業(yè)內(nèi)最早提出動(dòng)靜統(tǒng)一的設(shè)計(jì)并將之真正實(shí)現(xiàn)。所謂動(dòng)靜統(tǒng)一,動(dòng)的是靈活,靜的是高效率,既要有開(kāi)發(fā)的靈活性,也要訓(xùn)練部署的高效率。從本質(zhì)上講,這也是打通了科研與企業(yè)兩大領(lǐng)域之間的聯(lián)系。基于上述底層技術(shù)架構(gòu)的支撐,開(kāi)發(fā)者可以很方便的將研發(fā)出來(lái)的學(xué)術(shù)算法直接應(yīng)用到產(chǎn)業(yè)實(shí)踐中。這一設(shè)計(jì)在產(chǎn)業(yè)界接受度頗高,吸引了很多企業(yè)使用飛槳。類(lèi)似這樣的底層框架創(chuàng)新還有很多,而且往往來(lái)源于企業(yè)開(kāi)發(fā)者的實(shí)際業(yè)務(wù)。在這樣的良性循環(huán)中,飛槳框架逐漸走出了自己獨(dú)特的發(fā)展路線(xiàn),形成了一種平臺(tái)化的深度學(xué)習(xí)開(kāi)源開(kāi)放生態(tài)。
深度學(xué)習(xí)框架的應(yīng)用場(chǎng)景
作為更加貼近產(chǎn)業(yè)實(shí)踐的深度學(xué)習(xí)框架,飛槳在實(shí)際應(yīng)用中非常適合各類(lèi)型企業(yè)的使用。
例如一些企業(yè)尚不具備一流的深度學(xué)習(xí)算法研發(fā)能力,在實(shí)踐中更偏向于采用業(yè)界成熟的算法,結(jié)合自己的數(shù)據(jù)和場(chǎng)景進(jìn)行優(yōu)化。針對(duì)這樣的需求,飛槳提供了一整套開(kāi)發(fā)套件和工具組件,打通了典型 AI 應(yīng)用開(kāi)發(fā)的全流程。企業(yè)可以使用飛槳快速開(kāi)發(fā)出適合自身場(chǎng)景的優(yōu)化算法,更早在實(shí)踐中部署 AI 能力。
還有一些企業(yè)雖然自身具備較好的研發(fā)能力,但在實(shí)踐中因?yàn)槌杀镜纫蛩兀辉敢庵貜?fù)造輪子,也很適合使用飛槳獲得開(kāi)箱即用的算法組合。
另一類(lèi)企業(yè)對(duì)算法的性能有很高的要求,希望獲得盡可能高的訓(xùn)練和部署效率。這些企業(yè)可以使用飛槳獲得很好的性能,同時(shí)節(jié)省可觀(guān)的資源。
除了企業(yè)用戶(hù)外,也有很多科研人員和學(xué)校師生在使用飛槳框架。過(guò)去兩年來(lái),飛槳針對(duì)學(xué)術(shù)需求做了很多優(yōu)化,尤其是如前所述實(shí)現(xiàn)了動(dòng)靜統(tǒng)一后,開(kāi)發(fā)調(diào)試大大簡(jiǎn)化,提升了科研人員的使用體驗(yàn),所以最近飛槳的科研用戶(hù)比例有了不小的提升。
在科研場(chǎng)景中,飛槳的用戶(hù)主要分為兩大類(lèi)。其中一大類(lèi)是做人工智能相關(guān)的研究,主要關(guān)注深度學(xué)習(xí)算法的開(kāi)發(fā)和改進(jìn)。這類(lèi)需求對(duì)深度學(xué)習(xí)框架的靈活性與可擴(kuò)展性有極高的要求,需要框架能夠非常靈活地定制算子,盡量通過(guò) Python 層就實(shí)現(xiàn)高度定制化的功能特性。另一大類(lèi)則是科學(xué)計(jì)算需求,需要深度學(xué)習(xí)框架為物理、化學(xué)、生物等科學(xué)領(lǐng)域的研究提供對(duì)應(yīng)的能力和優(yōu)化。這一類(lèi)需求同樣對(duì)框架的靈活性和可擴(kuò)展性有很高的挑戰(zhàn)。因此飛槳在過(guò)去兩年中不斷在這兩大指標(biāo)上極致優(yōu)化,希望能同時(shí)充分滿(mǎn)足企業(yè)與科研用戶(hù)的多樣化需求。
馬艷軍提到,與操作系統(tǒng)相比,深度學(xué)習(xí)框架其實(shí)是更接近用戶(hù)的。因?yàn)槿斯ぶ悄芩惴ū旧砭褪呛蛻?yīng)用非常貼近的,并且深度學(xué)習(xí)應(yīng)用的整個(gè)流程,包括數(shù)據(jù)準(zhǔn)備、模型開(kāi)發(fā)、訓(xùn)練和部署都是業(yè)務(wù)場(chǎng)景中需要完成的。因此業(yè)務(wù)場(chǎng)景中的用戶(hù)同樣需要與深度學(xué)習(xí)框架進(jìn)行大量交互,很多時(shí)候用戶(hù)本身也會(huì)參與到社區(qū)生態(tài)的開(kāi)發(fā)工作中來(lái),這種互動(dòng)是在操作系統(tǒng)領(lǐng)域很難看到的。
如何做好生態(tài)建設(shè)
人工智能生態(tài)有一些獨(dú)有的特性,導(dǎo)致生態(tài)本身會(huì)有相當(dāng)程度的復(fù)雜性。首先,人工智能有很強(qiáng)的賦能屬性,在賦能千行百業(yè)的時(shí)候,需要與行業(yè)場(chǎng)景深入融合才能發(fā)揮更大的作用。與眾多行業(yè)結(jié)合為產(chǎn)業(yè)賦能的過(guò)程中,人工智能生態(tài)自然就要與這些行業(yè)充分互動(dòng),復(fù)雜性也會(huì)大大提升。
例如很多中小企業(yè)需要充分借力開(kāi)源開(kāi)放平臺(tái)實(shí)現(xiàn)更多跟場(chǎng)景結(jié)合的方案,進(jìn)而服務(wù)大型企業(yè),一定程度上起到毛細(xì)血管的作用;使用 AI 技術(shù)的頭部企業(yè)會(huì)面臨很多本行業(yè)的復(fù)雜問(wèn)題,需要上述中小企業(yè)從專(zhuān)業(yè)角度幫助提供 AI 解決方案。再如,很多高校學(xué)生在學(xué)習(xí)階段就會(huì)開(kāi)始使用人工智能生態(tài)中的各種工具,從而生態(tài)也要適應(yīng)他們的很多需求。
從開(kāi)源社區(qū)的角度來(lái)看,像 OpenI 啟智這樣的社區(qū)中會(huì)有很多人工智能相關(guān)的項(xiàng)目,這些項(xiàng)目環(huán)環(huán)相扣形成網(wǎng)絡(luò)效應(yīng),互相協(xié)作,共同提升,最終形成繁榮的社區(qū)發(fā)展面貌。如果社區(qū)中的項(xiàng)目不能形成這樣的緊密聯(lián)系,那么就很難形成網(wǎng)絡(luò)效應(yīng),在互相促進(jìn)中加速發(fā)展。
如上所述,深度學(xué)習(xí)框架生態(tài)在發(fā)展的過(guò)程中就要同時(shí)考慮中小企業(yè)、頭部企業(yè)和高校學(xué)術(shù)界的方方面面需求,同時(shí)還要考慮到為不同的開(kāi)源項(xiàng)目提供溝通融合的管道。飛槳在多年的發(fā)展過(guò)程中就針對(duì)這樣的需求做了很多工作,在這個(gè)過(guò)程中不斷起到“連接”各個(gè)角色的作用,例如與高校教師合作了很多項(xiàng)目,或者在開(kāi)源社區(qū)中培育很多項(xiàng)目等等。這些項(xiàng)目為生態(tài)注入了源源不斷的創(chuàng)新活力,使社區(qū)能夠持續(xù)推陳出新。與此同時(shí),包括媒體人、布道師等角色也在飛槳生態(tài)中發(fā)揮著各自的作用,大家共同努力,打造出了一個(gè)欣欣向榮的人工智能開(kāi)源生態(tài)。
在運(yùn)營(yíng)這樣一個(gè)生態(tài)的過(guò)程中,成功的關(guān)鍵要素就是要做好“連接”的工作,與生態(tài)共創(chuàng)、共享,讓生態(tài)伙伴都能從中受益。例如飛槳會(huì)與芯片廠(chǎng)商合作開(kāi)發(fā)面向特定場(chǎng)景的軟硬一體解決方案,基于硬件開(kāi)發(fā)很多模型庫(kù)算法,從而打通了硬件廠(chǎng)商與算法開(kāi)發(fā)人員之間的溝通渠道。通過(guò)這種以具體項(xiàng)目為依托的形式,飛槳生態(tài)中的交流效率得到了顯著提升,也讓更多生態(tài)參與者能夠長(zhǎng)期留在社區(qū)中參與貢獻(xiàn)并共享成果。
這樣的生態(tài)體系就像一片生機(jī)勃勃的“熱帶雨林”,可以為許許多多的開(kāi)發(fā)者提供豐富的資源。各種類(lèi)型、各種背景、研究各種能力和模型的開(kāi)發(fā)者都可以在這個(gè)生態(tài)中找到自己的用武之地,這也是飛槳生態(tài)最吸引人的魅力所在。
深度學(xué)習(xí)框架的未來(lái)展望
談到深度學(xué)習(xí)框架的未來(lái)發(fā)展這個(gè)話(huà)題,馬艷軍也有自己的一些看法。首先人工智能技術(shù)本身還有很大的發(fā)展空間,當(dāng)下出現(xiàn)了很多不同類(lèi)型的技術(shù)互相融合的趨勢(shì),例如框架與芯片的融合、跨模態(tài)技術(shù)的融合、技術(shù)與行業(yè)場(chǎng)景的融合等等。這樣的融合過(guò)程中就會(huì)出現(xiàn)很多技術(shù)創(chuàng)新。
另一方面,隨著人工智能在各個(gè)行業(yè)中展現(xiàn)出可觀(guān)的應(yīng)用價(jià)值,相關(guān)技術(shù)需要進(jìn)一步降低門(mén)檻,以便推動(dòng)更多組織在實(shí)踐中有效利用人工智能。行業(yè)需要包括深度學(xué)習(xí)框架在內(nèi)的更多低門(mén)檻的工具來(lái)吸引更多用戶(hù)來(lái)發(fā)揮聰明才智,讓不同類(lèi)型的開(kāi)發(fā)者都能充分利用人工智能的能力。
飛槳平臺(tái)開(kāi)源的幾年來(lái),有很多開(kāi)發(fā)者進(jìn)入這個(gè)生態(tài)做出了自己的貢獻(xiàn)。就是這些貢獻(xiàn)幫助飛槳逐漸打磨出了很好的使用體驗(yàn)。飛槳也非常珍惜和感謝他們的努力與支持。未來(lái),人工智能框架還有很長(zhǎng)的路要走,馬艷軍也希望更多開(kāi)發(fā)者能夠與飛槳共同在開(kāi)源社區(qū)成長(zhǎng),見(jiàn)證飛槳和社區(qū)共同發(fā)展邁向新的臺(tái)階。
在本期節(jié)目中,馬艷軍也向觀(guān)眾推薦了幾本好書(shū)。首先是飛槳官方出的《零基礎(chǔ)實(shí)踐深度學(xué)習(xí)》,其中有很多動(dòng)手實(shí)操內(nèi)容,非常適合入門(mén)學(xué)習(xí)。飛槳也同包括北航的劉祥龍老師在內(nèi)的多位老師合作編寫(xiě)了多本著作,都很適合開(kāi)發(fā)人員動(dòng)手實(shí)踐,快速上手深度學(xué)習(xí),歡迎感興趣的讀者搜索查找。
最后也預(yù)告一下,大家可以關(guān)注即將于 5 月 20 日線(xiàn)上舉辦的WAVE SUMMIT 2022深度學(xué)習(xí)開(kāi)發(fā)者峰會(huì),飛槳最新的技術(shù)、產(chǎn)品、生態(tài)進(jìn)展都會(huì)在這個(gè)峰會(huì)上發(fā)布。