隨著現(xiàn)象級 AI 產(chǎn)品 ChatGPT 破圈,以大模型為代表的前沿技術(shù)帶動(dòng)算力需求飆升,高性能 AI 芯片行至聚光燈下。
在 “芯” 賽道上,燧原科技是中國首家迭代到第二代云端訓(xùn)練和云端推理產(chǎn)品的 AI 芯片公司,是行業(yè)的領(lǐng)軍企業(yè)。
“一顆芯片的誕生,歷經(jīng)設(shè)計(jì)、制造、封裝、測試等多個(gè)環(huán)節(jié),所涉及的人工智能軟件棧十分龐大,各層模塊集成高度復(fù)雜,只有在每個(gè)階段都精準(zhǔn)執(zhí)行、高效交付,才能實(shí)現(xiàn)場景落地與量產(chǎn)應(yīng)用。這離不開一支覆蓋 AI 云端芯片全流程的專業(yè)團(tuán)隊(duì)和一個(gè)持續(xù)進(jìn)化的高效能研發(fā)體系。”燧原科技軟件技術(shù)總監(jiān)張文平說道。
燧原科技從成立的第一天開始,就使用 GitLab 社區(qū)版管理源代碼。隨著業(yè)務(wù)快速發(fā)展和對研發(fā)效率的高追求,燧原科技在 2021 年升級至極狐GitLab 一體化 DevOps 平臺(tái),解鎖更多高階功能,經(jīng)過一年的迭代和論證,2022 年繼續(xù)擴(kuò)大應(yīng)用規(guī)模。目前,燧原科技基于極狐GitLab ,已構(gòu)建出符合 AI 云端芯片特點(diǎn)的高效能研發(fā)體系。
01私有化部署,兼顧安全與個(gè)性化,保障芯片研發(fā)核心資產(chǎn)自主可控
AI 芯片研發(fā)過程涉及大量設(shè)計(jì)、工藝、測試等與關(guān)鍵技術(shù)和知識產(chǎn)權(quán)相關(guān)的重要數(shù)據(jù),任何信息泄漏都可能造成技術(shù)泄密和研發(fā)損失。因此,私有化部署成為燧原科技選擇 DevOps 平臺(tái)的第一道門檻。
同時(shí),不同于軟件產(chǎn)品,芯片研發(fā)流程高度個(gè)性化,設(shè)計(jì)復(fù)雜、協(xié)作角色多、驗(yàn)證階段長、驗(yàn)證內(nèi)容復(fù)雜,只有私有化部署才能提供高度定制開發(fā)功能與流程支持。
燧原科技調(diào)研了多款研發(fā)平臺(tái)產(chǎn)品,大多采用公有云服務(wù)或功能比較簡單,無法滿足其高安全性和個(gè)性化需求,真正支持私有化部署并提供完整 DevOps 功能的極狐GitLab 成為首選。
極狐GitLab 功能覆蓋軟件開發(fā)全生命周期,提供源代碼管理、敏捷項(xiàng)目管理、CI/CD、DevSecOps、效能管理等完整 DevOps 能力;同時(shí)提供私有化部署方式,在數(shù)分鐘內(nèi)即可快速構(gòu)建,在芯片國產(chǎn)化大勢下,支持燧原科技 “堅(jiān)持原始創(chuàng)新” 的技術(shù)路線,滿足其對數(shù)據(jù)安全、定制化與長期穩(wěn)定支持的訴求。
02企業(yè)級軟件架構(gòu),數(shù)據(jù)靠近研發(fā),分布式團(tuán)隊(duì)協(xié)作效率數(shù)倍提升
當(dāng)開發(fā)團(tuán)隊(duì)分布在不同地理位置,但代碼倉庫只有單一實(shí)例時(shí),遠(yuǎn)程團(tuán)隊(duì)拉取大型存儲(chǔ)庫需花費(fèi)很長時(shí)間;且一旦代碼倉庫發(fā)生故障,將導(dǎo)致整個(gè)研發(fā)網(wǎng)絡(luò)癱瘓。在大型復(fù)雜項(xiàng)目中,這些問題更加突出。
燧原科技是典型的分布式團(tuán)隊(duì),在上海和北京設(shè)有研發(fā)中心,在深圳設(shè)有客戶支持部門,高頻次的溝通協(xié)作無處不在。
在團(tuán)隊(duì)規(guī)模較小時(shí),研發(fā)團(tuán)隊(duì)通過郵件或 IM 工具,與跨地域團(tuán)隊(duì)進(jìn)行代碼變更溝通與傳送。隨著團(tuán)隊(duì)規(guī)模擴(kuò)張和代碼倉庫增大,協(xié)作效率低、代碼變更管理難等缺點(diǎn)開始顯現(xiàn),DevOps 研發(fā)實(shí)踐力不能及。
張文平表示:“讓多地員工高效協(xié)同是我們升級 DevOps 平臺(tái)的目標(biāo)之一,極狐GitLab GEO 企業(yè)級軟件架構(gòu)很好地滿足了我們的需求。”
極狐GitLab GEO 企業(yè)級軟件架構(gòu)為分布式團(tuán)隊(duì)而生,通過分布式緩存、分片部署、多線程并行以及自動(dòng)擴(kuò)縮容等機(jī)制,為燧原科技三地團(tuán)隊(duì)提供低延遲本地極狐GitLab 實(shí)例:
數(shù)據(jù)靠近研發(fā)團(tuán)隊(duì),減少克隆和管理項(xiàng)目所需的時(shí)間和壓力;
一體化協(xié)作環(huán)境,破除組織邊界感,避免不同系統(tǒng)間的數(shù)據(jù)孤島;
確保數(shù)據(jù)安全,SSL/TLS 雙向認(rèn)證、數(shù)據(jù)加密存儲(chǔ)與傳輸;
確保數(shù)據(jù)高可用,單一數(shù)據(jù)中心故障,服務(wù)不中斷,系統(tǒng)健壯可靠。
“相較之前,我們現(xiàn)在的代碼量級已經(jīng)翻了好幾倍,Review 也更加頻繁,但整體協(xié)作時(shí)間沒有增加,相當(dāng)于 GEO 架構(gòu)幫助我們提升了數(shù)倍協(xié)作效率。”燧原科技技術(shù)專家趙任華補(bǔ)充道。
03研發(fā)流程標(biāo)準(zhǔn)化,落地 Code Review 最佳實(shí)踐,Bug 攔截率提升25%
之前,由于沒有很好的工具支撐 Code Review,燧原科技研發(fā)團(tuán)隊(duì)只能通過 “口口相傳” 來找 Reviewer。這種方式既耗費(fèi)時(shí)間,也難以形成團(tuán)隊(duì)公約,讓 Code Review 行之有效。
基于極狐GitLab ,燧原科技將研發(fā)標(biāo)準(zhǔn)和規(guī)范沉淀至工具側(cè),以工具 + 流程倒逼 Code Review 落地,Bug 攔截率提升了 25%,并形成了自己的最佳實(shí)踐:
規(guī)范流程,避免流于形式
通過流程配置,彌補(bǔ)依賴開發(fā)者自覺性來提升代碼質(zhì)量的不足,并內(nèi)化為燧原科技的代碼質(zhì)量內(nèi)建文化。諸如:
阻止合并請求的創(chuàng)建者自己審批;
所有變更必須以 Merge Request 形式提交;
由審核人員審核批準(zhǔn)之后才可以合并到主干分支。
多人 Review,避免漏網(wǎng) Bug
將一個(gè) Merge Request 指派給來自不同團(tuán)隊(duì)與領(lǐng)域的多個(gè)人,從多個(gè)維度、視角審核變更代碼,發(fā)現(xiàn)不同類型或者更隱蔽的問題,有效避免由于單一視角限制,讓 Bug 成為漏網(wǎng)之魚。
有數(shù)可依,選擇最優(yōu) Reviewer
通過 Review 代碼量、時(shí)長、Bug 攔截率等客觀數(shù)據(jù)表現(xiàn),結(jié)合模塊特點(diǎn)選擇最優(yōu) Reviewer,數(shù)據(jù)驅(qū)動(dòng)“專家經(jīng)驗(yàn)”的積累與共享,Review 更到位。
燧原科技還沉淀了 Commit Message 規(guī)范:
幫助 Reviewer 快速理解代碼變更原因,判斷變更范圍,反饋又快又準(zhǔn)確;
幫助團(tuán)隊(duì)快速瀏覽代碼庫演變歷史,追蹤特定變化內(nèi)容,開發(fā)過程更加高效可靠。
“每一個(gè)研發(fā)人員的開發(fā)經(jīng)驗(yàn)和擅長領(lǐng)域不同,有時(shí)很難跳脫出自己的邏輯框架。Code Review 創(chuàng)造了集他人之所長的學(xué)習(xí)機(jī)會(huì),吸收多方意見,幫助我們快速成長。”趙任華說道:“并且,代碼質(zhì)量提升有目共睹,為后續(xù)測試節(jié)省了大量時(shí)間,這種直觀效果讓我們更加擁抱 Code Review,形成學(xué)習(xí)型團(tuán)隊(duì)文化。”
04本土化服務(wù),更懂中國企業(yè),支撐精英組織高速發(fā)展
本土化服務(wù)與企業(yè)級 SLA 是極狐GitLab 相較 GitLab 的顯著優(yōu)勢,讓中國用戶便捷地享受到世界頂級 DevOps 技術(shù)的同時(shí),體驗(yàn)到更加全面和完善的服務(wù)。對此,張文平也深有感觸:“極狐GitLab 本土化服務(wù)值得信賴,很感謝極狐GitLab 團(tuán)隊(duì)給予了我們非常及時(shí)的支撐和保障。”
一方面,極狐GitLab 豐富的產(chǎn)品課程和清晰詳細(xì)的說明文檔,幫助燧原科技快速上手極狐GitLab;
另一方面,極狐GitLab 所有服務(wù)運(yùn)營團(tuán)隊(duì)均在國內(nèi),快速響應(yīng)和解決燧原科技使用過程中的問題,工具平臺(tái)真正服務(wù)于高效能研發(fā),團(tuán)隊(duì)可以專注于業(yè)務(wù)創(chuàng)新。
成立 5 年來,燧原科技向業(yè)界證明了燧原速度和能力:
2019 年,發(fā)布第一代訓(xùn)練產(chǎn)品「云燧T10/T11」;
2020 年,發(fā)布第一代推理產(chǎn)品「云燧i10」;
2021 年,發(fā)布第二代訓(xùn)練產(chǎn)品「云燧T20/T21」,推理產(chǎn)品「云燧i20」;
2022 年,發(fā)布高性能人工智能加速集群產(chǎn)品「云燧智算機(jī)」。
第四次科技革命浪潮席卷而來,時(shí)代呼喚 “芯” 聲 ,燧原科技挺立潮頭。