云計算在與人工智能技術的融合發展中,也在打破企業開發的邊界。3月27日,百度智能云“2021云智技術論壇”首場活動在京舉辦,百度智能云重磅發布“云智一體的AI開發全棧模式”,基于獨有的 AI 原生云架構,通過軟硬一體高性能AI開發基礎設施為企業提供AI開發全棧解決方案,并與到場的各個領域企業嘉賓分享了AI中臺的特性和實踐等等。作為國內AI公有云服務市場第一的百度智能云正以“云智一體”獨家優勢持續領跑市場。
百度智能云是百度AI技術落地的承載者和輸出者,已展現出“云智一體”這一獨特競爭優勢。“智”指百度大腦,作為智能云的核心基礎,經過十余年積累,百度大腦已經發展成核心技術領先的軟硬一體AI大生產平臺,為各行各業賦能的AI新型基礎設施。為了滿足產業智能化應用的規?;a,百度智能云在行業率先提出了AI原生的云計算架構,打造業界最適合跑AI的云,結合上層靈活易用、滿足各類開發者應用需求的AI開發平臺,助力企業提升AI開發效率,提速智能化進程。
軟硬一體高性價比的AI開發基礎設施 打造業界最適合跑AI的云
當下,智能家居、智能金融、自動駕駛、智慧醫療、智能零售、智能制造等領域的行業應用正全面進入AI原生階段。為了更好地適應已經來到的AI原生新階段,百度智能云構建全棧的AI原生云架構,面向AI應用場景進行深度的軟硬一體協同優化,構建業界最適合跑AI的云,在AI基礎設施層面能夠為企業提供高性能的AI算力,更簡單、易用、高效的開發過程,更流暢的端到端應用開發全流程體驗。
百度智能云主要通過AI計算、AI存儲、AI容器三層構建AI開發基礎設施。具體來看:
AI計算層:基于百度“太行”彈性裸金屬產品為客戶提供高性能,多規格高性價比的算力服務。這里分為如下幾個維度分別介紹:
-芯片層面,擁有豐富的AI芯片類型,包括百度自研的昆侖芯片以及行業多規格的商業GPU和FPGA芯片,以滿足不同場景的AI算力需求。
-單機服務器層面,基于X-MAN架構的AI超級服務器,X-MAN是第一款能夠搭配4路CPU的超級AI計算機,突破CPU+GPU配比限制,更好的釋放GPU能力,讓CPU的能力不再成為GPU算力利用的約束限制,提升AI計算場景的整體計算能力。同時在單機內部多卡之間通訊基于NVLink高速互聯。
-百度的AI超級服務器統一通過百度自主研發的硬件虛擬化技術百度太行彈性裸金屬,以百度太行高性能計算實例的形態,能夠和其他云服務無縫接入,包括云存儲、云數據庫、云網絡等,同時也保持裸機層面的零損耗高性能。
AI存儲層:其核心是基于百度的對象存儲服務以及關聯的面向AI場景的加速和處理能力,解決客戶AI開發場景的數據存儲和分析問題。為此,百度智能云特別提供了面向AI計算的存儲服務架構,并分為如下幾個層面:
-第一層,是數據上云,幫助客戶的數據怎么能快速高效的上云,百度既提供面向離線傳輸的磁盤傳輸方式,也提供面向在線的cloud flow產品,支持客戶創建各種模型的在線傳輸任務。離線傳輸支持單臺百TB的數據遷移能力,在線數據流轉cloud flow兼容業界7種對象存儲接口。
-第二層,是數據存儲,百度以對象存儲為核心提供高性價比的存儲服務。百度對象存儲提供業界最先的4級數據存儲,并提供智能的生命周期管理和業界領先的讀寫性能,滿足客戶在大數據場景下的性價比需求。
-第三層,就是數據的處理和AI加速層,在加速層面,百度提供一層Cache服務,基于更高速的存儲介質,提供元數據加速,緩存的管理等能力,以提供更高性能的存儲能力,同時也在對象存儲上默認集成了一些AI智能處理能力。百度的高速緩存能力,在一些場景下訓練速度能提升4倍以上,同時也融合集成了幾十種智能處理能力。
此外,針對視頻、圖像等文件類型,百度智能云在BOS測試更好的封裝集成了百度相關的AI能力,包括幾十項圖像的審核能力,以及圖像增強和特效能力,用戶可以直接通過BOS的事件觸發框架,在數據訪問或者數據上傳時,直接通過統一的接口拓展來調用這些智能處理能力,讓數據分析和存儲更近,降低編碼復雜度,提升管理體驗。
AI容器層:百度智能云的容器引擎服務CCE,提供基礎的Docker容器生命周期管理、大規模容器集群運維管理、業務應用一鍵式發布運行等功能,還面向AI場景進行了一系列的針對優化,包括GPU異構資源的管理,AI作業的調度管理等,以更高效的使用算力資源,提升資源自用使用率。具體介紹一下AI容器服務的一些關鍵特性:
-支持GPU的共享能力,支持用戶進行1/2、1/4等顆粒度的GPU算力資源管理。
-在AI作業的調度層面,支持Gang、Spread、Binpack等調度算法,以及針對NVLink等GPU網絡架構的感知調度能力。
-在加速引擎層面,提供算子和通信加速引擎,算子加速在具體場景下可以提升數倍的推理效率,通信庫可以支持千卡規模的通信加速能力。
AI原生的云基礎設施上層打造AI開發雙平臺 云智一體的AI開發成為最優解
伴隨著產業智能化的大潮,AI已成為諸多行業轉型升級的通用技術,企業級AI開發平臺的作用日益凸顯。依托AI原生的云基礎設施,基于百度自研的產業級開源深度學習平臺飛槳,滿足企業針對場景的定制化應用需求,百度推出飛槳企業版,包括面向AI應用開發者打造的零門檻AI開發平臺EasyDL和面向AI算法開發者建設的全功能AI開發平臺BML。
EasyDL和BML都可以滿足開發者數據獲取、特征提取、參數調優、模型訓練、模型評估、模型部署、推理服務等全流程需求,更具備豐富的任務場景、便捷高效的智能數據服務EasyData、內置百度超大規模預訓練模型所帶來的高精度效果、支持廣泛適配各類硬件的模型部署四大核心優勢。
零門檻AI開發平臺EasyDL
EasyDL面向AI應用開發者,支持圖像、文本、視頻、語音、OCR、結構化數據、零售行業版7大技術方向,16種任務類型,支持公有云、本地服務部署、設備端、軟硬一體四種部署方案,已服務超過80萬用戶。從EasyData智能數據服務、模型訓練到服務部署一站式全流程服務讓用戶無需了解算法細節,5分鐘即可上手,最快10分鐘完成模型訓練。
數據準備:在數據處理上,可直接使用智能數據服務平臺EasyData的強大能力,實現數據采集、評估、清洗、標注的一站式服務。極大降低用戶獲取與處理數據的成本。
模型訓練:EasyDL內置了百度自研的超大規模視覺預訓練模型和自然語言處理的預訓練模型文心(ERNIE)2.0,對比開源數據集訓練的預訓練模型可以有效全面提升模型效果。
EasyDL還全新發布了多角度模型評估能力進一步助力模型調優,包括三種可視化歸因分析工具:
-混淆矩陣:可以通過數據統計,幫助開發者精準判斷模型在哪些類別上容易出錯,
-熱力圖:可以進一步地解釋模型的決策依據,在整圖范圍內給出影響模型識別結果的像素重要程度
-噪聲樣本挖掘:根據混淆矩陣和熱力圖,直接挖掘影響模型效果的噪聲樣本,幫助開發者有針對性的進行模型迭代。
模型部署:為了滿足不同場景需求,百度提供了公有云 API、本地服務器部署、設備端 SDK、軟硬一體產品四大部署方式。用戶只需經過簡單的設置,就可以將訓練好的模型轉換為滿足業務場景需求的服務。在設備端 SDK上,適配了NV Jetson 系列、Intel 神經加速棒、華為 NPU、華為 Atlas、高通 DSP、RK 等超過15種主流芯片與四大操作系統,實現了業界適配最廣。
另外,EasyDL最近推出了端云協同部署方案。
端云協同部署基于百度開源的智能邊緣BIE框架搭建,開發者可以輕松在云端管理各類端與邊緣。
在端和邊緣設備上,只需一次集成邊緣套件,在本地,就可以輕松獲得AI模型本地推理、視頻流接入等功能。而在云端,可以進行服務的下發和更新,還有報表的統計和節點的管理等功能。
端云協同部署非常適合一些具有聯網(或部分聯網)條件下的業務場景,開發者訓練好模型,只要1分鐘,就可以將新的模型下發更新到邊緣端進行驗證或者批量部署??梢詷O大提升AI模型開發的部署效率,使得開發者可以專注于業務本身。
EasyDL端云協同的部署方案可以運行在各式各樣的智能終端,如盒子、一體機、服務器之中,在這些邊緣設備上,可以再接入各式傳感器,(如攝像機、MIC)。結合EasyDL的公有云部署和本地服務器部署,可以方便地構建出云邊端融合的一整套AI解決方案,滿足各種業務場景下的AI應用需求。
全功能AI開發平臺BML
BML則面向AI算法開發者構建,在模型構建和模型管理上,BML提供了高性價比的算力、更加易用多樣的建模方式。在模型管理上也提供了模型存儲、模型轉化、模型評估和模型優化的功能。可以說BML面向專業算法開發者提供了更靈活和更強大的AI開發平臺。
BML具有以下四個核心優勢,建模方式全面、預置高性能AI套件、交付靈活、提供多種國產化的解決方案,為企業提供自主可控廣泛適配的AI開發平臺。
建模方式:BML提供預置模型調參、Notebook、自定義作業、可視化建模等多種建模方式。其中,預置模型調參在實現了低代碼建模的基礎上,具備一定的腳本編輯靈活性,同時內置了自動超參搜索功能助力提升模型效果。BML提供的自動超參搜索功能是創新基于隨機微分方程的無梯度優化的調參算法,收斂速度快,不依賴平滑性假設,并且可以支持大規模的并行搜索調參。在開啟自動超參搜索之后,BML線上多場景的模型精度平均可提升10%以上。
高性能AI套件:
-高性能的機器學習套件。用于數據分析機器學習場景下的加速,套件可以產生十倍于開源套件的效果,它的接口十分兼容,使用高性能的機器學習套件后,在幾個常見的開源任務上性能都得到了大幅度提升。
-飛槳文心ERNIE開發套件。飛槳的可持續學習語義學習模型,除此之外還提供30+算法工具,20+細化的預訓練模型,20+數據處理的工具和20+基礎開發的工具,使整個數據標注投入的算法、開發時長都有大幅度降低,效率大幅度提升。
交付方式:BML有四種滿足不同需求的交付方式,包括公有云、私有云、混合云、一體機。其中一體機提供了通用的機架式的服務器方案和基于天蝎的整機柜方案,對于整體功耗、性能、散熱等都進行了優化,并通過模型加密、代碼加固、TPM可信鑒權、主機防護等方式強化了安全保障。
國產化的解決方案:BML全面支持從國產深度學習框架飛槳,到麒麟等國產操作系統,再到國產CPU和GPU以及長城、曙光、聯想、浪潮推出的各類硬件形態,構成了自主可控、適配廣泛的BML一體機,高性價比的算力資源滿足各類算力需求。
企業在智能化升級的過程中,特別是從一個單點垂直場景的應用發展到多個業務場景的全面升級階段時,企業還會面臨來自AI能力的生產、應用和運維以及管理層面的諸多問題,這時候企業就會需要AI中臺,作為企業自身的一套AI能力的生產和集中化管理的平臺。
AI中臺是企業的一個智能中樞,連通企業內部的數據、知識和業務,更快更高效支撐上層的智能化的業務應用和業務創新。百度智能云AI中臺的核心包括AI能力引擎、AI開發平臺,再結合與之配套的數據管理、服務管理、全線資源運維管理體系等,企業就能構建一套智能化升級的基礎設施。在AI能力引擎方面,企業可以從百度已有的270多項成熟AI能力中直接選擇應用。AI 開發平臺包括EasyDL、BML和場景化定制平臺UNIT等,滿足企業的多層次開發需求。百度智能云結合具體行業特點,目前已經打造了能源、金融、城市、媒體等多個行業化AI中臺落地解決方案,為不同行業的企業客戶提供建設AI開發和應用的自主能力,集約化管理企業 AI 能力和資源,統籌規劃企業智能化升級版圖的有效路徑。
當人工智能與傳統行業加速融合,進入快速、大規模應用的階段,百度把基于自身AI技術和生態的長期積累形成的領先勢能釋放出來,以真正滿足智能時代場景應用需求的“云智一體”的方式賦能產業。“云智一體”成為百度智能云的核心優勢,也是擁抱AI的企業和開發者的最優選擇。