在2025年度的華為中國(guó)合作伙伴大會(huì)上,一場(chǎng)科技界的強(qiáng)強(qiáng)聯(lián)手震撼上演。華為攜手景聯(lián)文科技,共同推出了面向AI數(shù)據(jù)湖的數(shù)據(jù)工程聯(lián)合解決方案,這一創(chuàng)新方案旨在為AI行業(yè)注入強(qiáng)大的數(shù)據(jù)動(dòng)能,推動(dòng)智能化升級(jí)。
景聯(lián)文科技的CEO劉云濤在會(huì)上發(fā)表演講,他深刻指出:“AI的成功離不開(kāi)高質(zhì)量的數(shù)據(jù)支持。數(shù)據(jù)的優(yōu)劣直接決定了AI大模型的表現(xiàn)。因此,提供高質(zhì)量的數(shù)據(jù)集是AI行業(yè)發(fā)展的關(guān)鍵,也是數(shù)據(jù)要素交易繁榮的基石。”劉云濤還強(qiáng)調(diào),精準(zhǔn)全面的數(shù)據(jù)治理與可靠高效的數(shù)據(jù)基礎(chǔ)設(shè)施,在智能化進(jìn)程中扮演著不可或缺的角色。
面向AI的數(shù)據(jù)處理,通常需歷經(jīng)三大關(guān)鍵階段:從海量原始數(shù)據(jù)中提煉結(jié)構(gòu)化數(shù)據(jù)集,再經(jīng)過(guò)精細(xì)標(biāo)注形成語(yǔ)料集,最終構(gòu)建知識(shí)庫(kù)以支撐模型訓(xùn)練及業(yè)務(wù)應(yīng)用。然而,在這一過(guò)程中,業(yè)界面臨著多重嚴(yán)峻挑戰(zhàn)。數(shù)據(jù)擁有者往往缺乏便捷安全的數(shù)據(jù)匯聚托管系統(tǒng),導(dǎo)致數(shù)據(jù)共享壁壘重重;原始數(shù)據(jù)類型多樣、格式復(fù)雜,增加了語(yǔ)料處理的難度;同時(shí),數(shù)據(jù)作為風(fēng)險(xiǎn)資源,在流通中缺乏端到端的安全管控,存在被篡改、擴(kuò)散的風(fēng)險(xiǎn),加之區(qū)域間數(shù)據(jù)基礎(chǔ)設(shè)施發(fā)展不均,數(shù)據(jù)跨域流通效率低下。
針對(duì)這些挑戰(zhàn),華為與景聯(lián)文科技攜手推出了創(chuàng)新的數(shù)據(jù)工程聯(lián)合解決方案。依托景聯(lián)文科技多年的數(shù)據(jù)工程經(jīng)驗(yàn),以及華為在數(shù)據(jù)存儲(chǔ)領(lǐng)域的領(lǐng)先地位,這一方案將全方位提升數(shù)據(jù)處理效率。
在數(shù)據(jù)處理的全流程中,景聯(lián)文科技的Solar Data平臺(tái)采用AI Agent理念,與華為的全閃數(shù)據(jù)湖存儲(chǔ)緊密協(xié)作,支持異構(gòu)數(shù)據(jù)的高效加工。平臺(tái)能自動(dòng)或半自動(dòng)化地清洗、解析、預(yù)處理30多種格式的數(shù)據(jù),進(jìn)行特征提取與初步分析。結(jié)合AI預(yù)標(biāo)注與專業(yè)手工標(biāo)注,最終整合出高質(zhì)量的數(shù)據(jù)產(chǎn)品,全流程效率提升高達(dá)70%。
在數(shù)據(jù)流通與資源調(diào)度方面,華為DME(Omni-Dataverse)全局文件系統(tǒng)與可信數(shù)據(jù)空間的結(jié)合,實(shí)現(xiàn)了多源數(shù)據(jù)的無(wú)縫歸集,全局?jǐn)?shù)據(jù)可視、可管、可流,確保了數(shù)據(jù)交換過(guò)程的可信、可證、可控。基于華為DCS的統(tǒng)一資源調(diào)度,Solar Data平臺(tái)的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等資源實(shí)現(xiàn)了彈性服務(wù)與統(tǒng)一管理。通過(guò)ModelEngine AI使能工具鏈框架,數(shù)據(jù)集的開(kāi)發(fā)進(jìn)程得以加速。
該方案還采用了基于華為OceanStor Pacific分布式存儲(chǔ)底座的統(tǒng)一數(shù)據(jù)底座。在先進(jìn)介質(zhì)、協(xié)議互通、負(fù)載優(yōu)化、分布式并行客戶端等領(lǐng)域,軟硬件協(xié)同創(chuàng)新,打造了業(yè)界領(lǐng)先的高密綠色數(shù)據(jù)基礎(chǔ)設(shè)施。這一基礎(chǔ)設(shè)施使得海量數(shù)據(jù)能夠更持久地存儲(chǔ)、更高效地訪問(wèn)。
華為數(shù)據(jù)存儲(chǔ)部門表示,將持續(xù)深化與業(yè)界伙伴的合作,共同推動(dòng)AI時(shí)代應(yīng)用生態(tài)的繁榮發(fā)展。秉持“以數(shù)據(jù)為中心”的產(chǎn)業(yè)理念,華為將充分發(fā)揮數(shù)據(jù)在數(shù)字經(jīng)濟(jì)中的核心驅(qū)動(dòng)力作用,攜手合作伙伴共同開(kāi)創(chuàng)AI數(shù)據(jù)處理的新篇章。