這一次我們要聊一下數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)和數(shù)據(jù)AI模型訓(xùn)練這個(gè)事情。
起因是不久之前舉行的第二屆深圳(國際)人工智能展上,云測數(shù)據(jù)發(fā)布了一款針對AI數(shù)據(jù)訓(xùn)練服務(wù)的平臺產(chǎn)品——“云測數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn)平臺4.0”。
讓鋼哥感興趣的是,云測數(shù)據(jù)方面自信滿滿,稱這一平臺是當(dāng)下“AI訓(xùn)練數(shù)據(jù)最強(qiáng)工具”。
究竟有多強(qiáng)?
從平臺相關(guān)介紹來看,作為實(shí)現(xiàn)AI模型訓(xùn)練與部署的關(guān)鍵一步,實(shí)現(xiàn)人工智能產(chǎn)業(yè)落地的重要環(huán)節(jié),“云測數(shù)據(jù)標(biāo)注平臺4.0”具備全類型數(shù)據(jù)標(biāo)注支持、多種工具組件靈活配置、AI智能輔助標(biāo)注、多道數(shù)據(jù)質(zhì)量控制流程完善的績效數(shù)據(jù)統(tǒng)計(jì)等特性,能夠一站式輕松解決企業(yè)AI數(shù)據(jù)訓(xùn)練需求,可助力AI數(shù)據(jù)訓(xùn)練綜合效率提升200%、服務(wù)成本降低60% 、標(biāo)注精準(zhǔn)度最高達(dá)99.99%。
首先要明白,什么是數(shù)據(jù)標(biāo)注和數(shù)據(jù)訓(xùn)練?
人工智能的發(fā)展如火如荼,如何讓機(jī)器像人類一樣學(xué)會學(xué)習(xí)的背后,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等都需要大量數(shù)據(jù)的進(jìn)行AI算法模型訓(xùn)練、迭代與支持,相關(guān)AI數(shù)據(jù)的采集、標(biāo)注與價(jià)值挖掘是人工智能技術(shù)得以在實(shí)際應(yīng)用場景中大展拳腳的重要基石。
簡單來說,就是用 “好的數(shù)據(jù)”訓(xùn)練出“好的AI”。
隨著人工智能深入自動(dòng)駕駛、智慧醫(yī)療、智慧教育等諸多行業(yè)領(lǐng)域,AI算法對訓(xùn)練數(shù)據(jù)維度和樣本復(fù)雜性的要求變得越來越高,對數(shù)據(jù)標(biāo)注技術(shù)、標(biāo)注平臺能力、不同維度數(shù)據(jù)協(xié)同標(biāo)注等都提出了挑戰(zhàn)。
高效高質(zhì)量的進(jìn)行AI的應(yīng)用落地, 針對數(shù)據(jù)采集標(biāo)注軟件工程能力和系統(tǒng)能力的提升必不可少。如何通過技術(shù)層、工具層的優(yōu)化,在最大限度提升人效比的同時(shí)提升數(shù)據(jù)標(biāo)注準(zhǔn)確性,做好數(shù)據(jù)標(biāo)注這件“人機(jī)協(xié)作”的事,已經(jīng)成為AI應(yīng)用落地的重要課題。
通過結(jié)構(gòu)創(chuàng)新、智能化、工程化、標(biāo)準(zhǔn)化的標(biāo)注平臺產(chǎn)品賦能AI訓(xùn)練數(shù)據(jù)行業(yè),可以從質(zhì)量、效率等方面激發(fā)數(shù)據(jù)要素價(jià)值,加速AI技術(shù)的創(chuàng)新發(fā)展,推進(jìn)AI產(chǎn)業(yè)的場景化落地。
云測數(shù)據(jù)總經(jīng)理賈宇航告訴鋼哥,推出的4.0版本是在之前實(shí)現(xiàn)商業(yè)化產(chǎn)品的版本基礎(chǔ)上,基于人工智能產(chǎn)品落地,面向企業(yè)AI訓(xùn)練數(shù)據(jù)實(shí)際生產(chǎn)環(huán)節(jié)中所需要的的AI數(shù)據(jù)處理的全流程處理,涵蓋數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注、數(shù)據(jù)管理等數(shù)據(jù)處理環(huán)節(jié)。所涉
其中,云測數(shù)據(jù)標(biāo)注平臺4.0數(shù)據(jù)采集環(huán)節(jié)具有多端數(shù)據(jù)支持、AI輔助質(zhì)檢、浸入式錄制引導(dǎo)、自研網(wǎng)盤等設(shè)置,解決AI訓(xùn)練數(shù)據(jù)采集環(huán)節(jié)面臨的不同維度數(shù)據(jù)采集端系統(tǒng)種類繁多、采集內(nèi)容及場景復(fù)雜易出錯(cuò)、多種傳感器數(shù)據(jù)本地存儲安全性及效率等95%問題,幫助企業(yè)獲取AI應(yīng)用場景純凈數(shù)據(jù);
云測數(shù)據(jù)標(biāo)注平臺4.0數(shù)據(jù)標(biāo)注環(huán)節(jié)具有豐富標(biāo)注工具支持、流程化高效化運(yùn)轉(zhuǎn)、企業(yè)流程深度融合、標(biāo)注流程質(zhì)量把控等優(yōu)勢,可解決AI落地場景多樣性、豐富性的數(shù)據(jù)需求,AI數(shù)據(jù)訓(xùn)練過程綜合效率提升200%;
云測數(shù)據(jù)標(biāo)注平臺4.0數(shù)據(jù)管理環(huán)節(jié)具有數(shù)據(jù)權(quán)限管理、快捷數(shù)據(jù)檢索、數(shù)據(jù)版本管理、標(biāo)注結(jié)果可視化等優(yōu)勢,可幫助企業(yè)進(jìn)行多維度靈活數(shù)據(jù)檢索,并進(jìn)行可視化數(shù)據(jù)管理,大大助推AI數(shù)據(jù)產(chǎn)能提升。解決企業(yè)自身數(shù)據(jù)量大、數(shù)據(jù)標(biāo)注文件版本過多、數(shù)據(jù)存儲偏線下管理等難題。
及所有的工作流程處理平臺、數(shù)據(jù)標(biāo)準(zhǔn)平臺。
相比傳統(tǒng)的采集數(shù)據(jù)、訓(xùn)練模型的方式,云測數(shù)據(jù)創(chuàng)新性的提出“數(shù)據(jù)在環(huán)和模型迭代在環(huán)新方式”,將數(shù)據(jù)在環(huán)開發(fā)打通,將數(shù)據(jù)采集、處理、標(biāo)注、訓(xùn)練、模型輸出進(jìn)行持續(xù)迭代集成。云測數(shù)據(jù)標(biāo)注平臺4.0,為AI提供了企業(yè)處理大規(guī)模感知數(shù)據(jù)的能力,不僅降低了數(shù)據(jù)采集周期,提升了數(shù)據(jù)標(biāo)注效率,大幅降低了AI模型訓(xùn)練成本,同時(shí)也在數(shù)據(jù)識別準(zhǔn)確率提升上達(dá)到了傳統(tǒng)方式無法達(dá)到的高度,極大地加速了人工智能的落地迭代周期,節(jié)省大量研發(fā)時(shí)間和成本。
賈宇航說,AI的深度神經(jīng)網(wǎng)絡(luò)非常依賴于場景數(shù)據(jù),如果不能獲得足夠多的數(shù)據(jù),就不能形成更好的模型,如果某些邊緣場景沒有被覆蓋,就會導(dǎo)致數(shù)據(jù)缺失,從而使得AI識別不夠精準(zhǔn)。
通常情況下,AI企業(yè)會將產(chǎn)品先行投放到市場上,然后通過在線學(xué)習(xí)或者增量學(xué)習(xí)的方式,去逐漸彌補(bǔ)算法上對于這些邊緣場景的覆蓋。
以自動(dòng)駕駛為例。某大廠的自動(dòng)駕駛系統(tǒng)有一套影子模式,駕駛員在開車過程中,后臺同步運(yùn)行一個(gè)模型去預(yù)測駕駛員的軌跡。
如果出現(xiàn)實(shí)際駕駛軌跡和影子模式軌跡不一致,相關(guān)數(shù)據(jù)可能會做篩選,然后分發(fā)到相對應(yīng)的就需要服務(wù)器中進(jìn)行識別和判斷,是感知層、決策層、控制層的哪一個(gè)環(huán)節(jié)出現(xiàn)了問題。
如果問題出現(xiàn)在感知層,譬如說出現(xiàn)了在前期AI模型沒有覆蓋到的一個(gè)人穿了動(dòng)物的衣物出現(xiàn)在道路上小場景數(shù)據(jù),車輛因此而沒有識別出這是一個(gè)人而不是一個(gè)動(dòng)物,那么數(shù)據(jù)就需要進(jìn)行標(biāo)注和訓(xùn)練,從而在以后相似的場景下實(shí)現(xiàn)精準(zhǔn)識別。
,這時(shí)候,數(shù)據(jù)標(biāo)注平臺就可及時(shí)的為會遇到非常大量這些場景數(shù)據(jù)發(fā)揮相對應(yīng)的清洗和數(shù)據(jù)標(biāo)注的作用工作,。在這個(gè)過程中,數(shù)據(jù)一方面要支撐相關(guān)業(yè)務(wù)的處理,另一方面要被用于標(biāo)注和訓(xùn)練算法的持續(xù)迭代,這就是數(shù)據(jù)迭代的概念。
從而在以后相似的場景下實(shí)現(xiàn)精準(zhǔn)識別。 以自動(dòng)駕駛為例。某大廠的自動(dòng)駕駛系統(tǒng)有一套影子模式,駕駛員在開車過程中,后臺同步運(yùn)行一個(gè)模型去預(yù)測駕駛員的軌跡。
如果出現(xiàn)實(shí)際駕駛軌跡和影子模式軌跡不一致,相關(guān)數(shù)據(jù)可能會做篩選,然后分發(fā)到相對應(yīng)的服務(wù)器中進(jìn)行識別和判斷,是感知層、決策層、控制層的哪一個(gè)環(huán)節(jié)出現(xiàn)了問題。
如果問題出現(xiàn)在感知層,譬如說一個(gè)人穿了動(dòng)物的衣物出現(xiàn)在道路上,車輛因此而沒有識別出這是一個(gè)人而不是一個(gè)動(dòng)物,那么數(shù)據(jù)就需要進(jìn)行標(biāo)注和訓(xùn)練,從而在以后相似的場景下實(shí)現(xiàn)精準(zhǔn)識別。
而且,隨著數(shù)據(jù)量的增加會導(dǎo)致大量的數(shù)據(jù)重復(fù),需要在重復(fù)的數(shù)據(jù)中尋找有價(jià)值的部分,然后進(jìn)行標(biāo)注。
“這就是我們的平臺提供的標(biāo)注服務(wù)的能力所在。”賈宇航說。
賈宇航表示認(rèn)為,云測數(shù)據(jù)標(biāo)注平臺4.0新的平臺將可以為企業(yè)提供定制化的數(shù)據(jù)采集、清晰清洗和標(biāo)注的服務(wù),幫助企業(yè)處理更為海量的在線AI訓(xùn)練學(xué)習(xí)數(shù)據(jù)。
正是由于云測數(shù)據(jù)對于AI訓(xùn)練數(shù)據(jù)服務(wù)的高精度、場景化、工具化的高標(biāo)準(zhǔn)要求,幫助解決AI產(chǎn)業(yè)化落地的現(xiàn)實(shí)問題,讓眾多AI企業(yè)和各個(gè)行業(yè)的龍頭企業(yè)選擇與云測數(shù)據(jù)合作,保持著長期良好的關(guān)系。
目前,云測數(shù)據(jù)深度合作伙伴覆蓋了汽車、手機(jī)、工業(yè)、家居、金融、安防、教育、新零售、地產(chǎn)、生態(tài)系統(tǒng)等行業(yè)。其中包含眾多世界500強(qiáng)企業(yè)、高校科研機(jī)構(gòu)、政府機(jī)構(gòu),頭部AI企業(yè)和大型互聯(lián)網(wǎng)企業(yè),涵蓋了計(jì)算機(jī)視覺、語音識別、自然語言處理、知識圖譜等AI主流技術(shù)領(lǐng)域。