AI 數(shù)據(jù)是推動(dòng)人工智能落地發(fā)展的核心基礎(chǔ),是人工智能技術(shù)應(yīng)用和發(fā)展的基石。人工智能的大規(guī)模應(yīng)用需要利用海量數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,可以說,沒有高質(zhì)量的數(shù)據(jù)就沒有人工智能的大規(guī)模應(yīng)用。可以說,AI 數(shù)據(jù)基礎(chǔ)設(shè)施已經(jīng)成為AI 新基建的重要支撐。
國家工業(yè)信息安全發(fā)展研究中心最新發(fā)布的《2020年AI新基建發(fā)展白皮書》中指出,人工智能算法的演進(jìn)升級(jí)需要高質(zhì)量數(shù)據(jù)作為支撐。經(jīng)過清洗標(biāo)注、去掉噪聲數(shù)據(jù)的高質(zhì)量數(shù)據(jù)集比未經(jīng)過處理的數(shù)據(jù)集更適合人工智能算法進(jìn)行訓(xùn)練。質(zhì)量不斷提升的數(shù)據(jù)集已經(jīng)成為人工智能技術(shù)發(fā)展的重要推動(dòng)力,高質(zhì)量AI數(shù)據(jù)正驅(qū)動(dòng)人工智能算法更加智能化。
回顧過去,早期的數(shù)據(jù)標(biāo)注行業(yè)曾長(zhǎng)期處于粗放的發(fā)展模式,數(shù)據(jù)粗制、混亂、復(fù)用的情況屢見不鮮;但隨著AI與各個(gè)產(chǎn)業(yè)結(jié)合得愈加緊密,AI商業(yè)化程度進(jìn)入新的高度,行業(yè)屬性較強(qiáng)的垂直領(lǐng)域加速落地,數(shù)據(jù)標(biāo)注的需求正逐漸轉(zhuǎn)向個(gè)性化、場(chǎng)景化和準(zhǔn)確化,數(shù)據(jù)服務(wù)供應(yīng)商的技術(shù)實(shí)力、精細(xì)化管理能力、流程把控能力不斷提升,數(shù)據(jù)標(biāo)注行業(yè)走向?qū)I(yè)化、精細(xì)化、定制化。
這也意味著必須有能力超群的代表站出來,重新定義數(shù)據(jù)標(biāo)注行業(yè)的規(guī)則。
目前,數(shù)據(jù)標(biāo)注行業(yè)的企業(yè)機(jī)構(gòu)主要分為三類:第一類是AI公司內(nèi)部的標(biāo)注部門,第二類是數(shù)據(jù)標(biāo)注眾包平臺(tái),第三類是以場(chǎng)景化、高精度數(shù)據(jù)采集和標(biāo)注見長(zhǎng)的公司。
第一種形式顧名思義,科技企業(yè)自身有數(shù)據(jù)采集標(biāo)注需求,大量數(shù)據(jù)標(biāo)注任務(wù)由公司內(nèi)部完成。
第二種是眾包平臺(tái),以亞馬遜眾包平臺(tái)Mechanical Turk為代表,基本按照“需求公司——眾包平臺(tái)——多個(gè)互聯(lián)網(wǎng)用戶”的模式完成。
第三種是以云測(cè)數(shù)據(jù)為代表的,專門從事高精度、場(chǎng)景化數(shù)據(jù)采集和標(biāo)注的第三方企業(yè)。
與其他數(shù)據(jù)標(biāo)注公司不同的是,云測(cè)數(shù)據(jù)更強(qiáng)調(diào)高精準(zhǔn)度的場(chǎng)景化的數(shù)據(jù)服務(wù)。其CTO陳冠誠認(rèn)為,“通過云測(cè)數(shù)據(jù)的服務(wù),企業(yè)可以將自己算法的識(shí)別精度推到一個(gè)新的高度,進(jìn)而落地成為產(chǎn)品被用戶使用,而沉淀的用戶數(shù)據(jù)以及用戶在分享過程中逐漸產(chǎn)生的更多互聯(lián)網(wǎng)數(shù)據(jù),則會(huì)讓整個(gè)數(shù)據(jù)庫演變成大數(shù)據(jù)生態(tài)。”
實(shí)際上,這所體現(xiàn)的正是對(duì)數(shù)據(jù)質(zhì)量的把控能力和對(duì)場(chǎng)景深度的還原能力。
以云測(cè)數(shù)據(jù)為例,為進(jìn)一步滿足場(chǎng)景化數(shù)據(jù)的需求,首創(chuàng)了“數(shù)據(jù)場(chǎng)景實(shí)驗(yàn)室”進(jìn)行相應(yīng)的場(chǎng)景化數(shù)據(jù)生產(chǎn),以滿足AI行業(yè)應(yīng)用場(chǎng)景逐漸趨于長(zhǎng)尾和碎片化的趨勢(shì);并從幫助客戶梳理數(shù)據(jù)需求出發(fā),通過自建數(shù)據(jù)標(biāo)注基地和自研的數(shù)據(jù)標(biāo)注平臺(tái)進(jìn)行數(shù)據(jù)的全流程把控,在保證數(shù)據(jù)的質(zhì)量、效率和隱私安全的前提下,來幫助AI企業(yè)或部門快速構(gòu)建核心數(shù)據(jù)壁壘,加速AI產(chǎn)業(yè)化落地的進(jìn)程。
舍恩伯格在他的《大數(shù)據(jù)時(shí)代》中預(yù)言:“數(shù)據(jù)可以量化一切,文字變成了數(shù)據(jù),方位變成了數(shù)據(jù),溝通變成了數(shù)據(jù),直到萬物的數(shù)據(jù)化。
當(dāng)下,數(shù)據(jù)價(jià)值驅(qū)動(dòng)的數(shù)字經(jīng)濟(jì)正成為推動(dòng)社會(huì)前進(jìn)的主要模式,由各種AI等創(chuàng)新技術(shù)驅(qū)動(dòng)的數(shù)字化轉(zhuǎn)型成為了新基建的核心。“新基建”的東風(fēng)促使我國人工智能、5G、工業(yè)互聯(lián)網(wǎng)等行業(yè)迎來大規(guī)模提速發(fā)展機(jī)遇期,AI數(shù)據(jù)作為新的生產(chǎn)要素聲名漸顯,以云測(cè)數(shù)據(jù)為代表的深耕數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注的人工智能數(shù)據(jù)服務(wù)商將進(jìn)一步助力AI產(chǎn)業(yè)生態(tài)的完善。