現(xiàn)在人工智能的發(fā)展可謂是如火如荼,在人工智能(AI)體系中,算力、算法和數(shù)據(jù)作為人工智能進化的三大元素,分別承擔(dān)著人工智能在基礎(chǔ)設(shè)施能力、工作指導(dǎo)方法和算法(進化)依據(jù)作用。算力是技術(shù)設(shè)施能力、算法是工作方法,而數(shù)據(jù)則是優(yōu)化算法的依據(jù)。
在機器學(xué)習(xí)領(lǐng)域,訓(xùn)練數(shù)據(jù)的準(zhǔn)備是最重要且最耗時的任務(wù)之一。目前,一些研究認為,微調(diào)AI模型參數(shù)就能取得SOTA的時代已經(jīng)過去,專注于提升訓(xùn)練數(shù)據(jù)的質(zhì)量,也許是更重要的工作。
來自谷歌AI的最新研究表明,要想在細分領(lǐng)域取得更好的模型效果,精準(zhǔn)優(yōu)質(zhì)的數(shù)據(jù)十分重要,它在極大程度上決定了AI模型的性能。
吳恩達(英文名 Andrew Ng,人工智能和機器學(xué)習(xí)領(lǐng)域國際上最權(quán)威的學(xué)者之一)尤其看中數(shù)據(jù)的作用,他曾不止在一個場合說過:
“一個機器學(xué)習(xí)團隊80%的工作應(yīng)該放在數(shù)據(jù)準(zhǔn)備上,確保數(shù)據(jù)質(zhì)量是最重要的工作,每個人都知道應(yīng)該如此做,但沒人在乎。如果更多強調(diào)以數(shù)據(jù)為中心而不是以模型為中心,那么機器學(xué)習(xí)的發(fā)展會更快。”
今年10月,吳恩達還宣布了首屆以數(shù)據(jù)為中心的 AI 競賽(Data-Centric AI competition)落下帷幕。區(qū)別于傳統(tǒng)的以模型為中心的比賽(Model-Centric AI competition)不斷改進模型以提升準(zhǔn)確率的方法,這項比賽通過給定模型的方式,要求參賽者通過不斷改進數(shù)據(jù)以獲得更好的成績。
以數(shù)據(jù)為中心的AI(data-centric AI)這一概念,簡單概括來說就是——想要提升模型的表現(xiàn),我們要花費大精力保證訓(xùn)練數(shù)據(jù)集的高質(zhì)量。
那么如何保證“數(shù)據(jù)質(zhì)量”呢?這里就引入了對于訓(xùn)練數(shù)據(jù)的采集、清洗、信息抽取、標(biāo)注等服務(wù),以采集和標(biāo)注為主。其中數(shù)據(jù)標(biāo)注為人工智能人工智能技術(shù)提供了大量帶標(biāo)簽的數(shù)據(jù),供機器訓(xùn)練和學(xué)習(xí),保證了算法模型的有效性。簡單來說,數(shù)據(jù)采集決定了訓(xùn)練數(shù)據(jù)的場景豐富度,而數(shù)據(jù)標(biāo)注影響了訓(xùn)練數(shù)據(jù)的精準(zhǔn)度。
如何獲取機器學(xué)習(xí)訓(xùn)練數(shù)據(jù)?
無論是個人或高校項目、還是商業(yè)AI項目,獲取訓(xùn)練數(shù)據(jù)主要有三種形式,分別是開源數(shù)據(jù)集、自己構(gòu)建數(shù)據(jù)集和專業(yè)訓(xùn)練數(shù)據(jù)提供商。在需要大量訓(xùn)練數(shù)據(jù)的的情況下,采購專業(yè)的訓(xùn)練數(shù)據(jù)服務(wù)是推進項目的最優(yōu)選擇。
目前,國內(nèi)有一家代表企業(yè):云測數(shù)據(jù)——正在為計算機視覺、語音識別、自然語言處理、知識圖譜等AI主流技術(shù)領(lǐng)域提供訓(xùn)練數(shù)據(jù),以幫助相關(guān)客戶來改善和提升機器學(xué)習(xí)模型表現(xiàn)。仔細了解之后我們發(fā)現(xiàn)其核心服務(wù)如下:
基礎(chǔ)數(shù)據(jù)集:圖像/語音/文本等在多場景下的數(shù)據(jù)集;
數(shù)據(jù)采集:數(shù)據(jù)場景實驗室用于AI應(yīng)用場景的構(gòu)建;
數(shù)據(jù)標(biāo)注:視覺、語音、文本的全品類標(biāo)注能力;
數(shù)據(jù)處理工具:數(shù)據(jù)標(biāo)注平臺、數(shù)據(jù)集管理系統(tǒng)的技術(shù)支撐;
云測數(shù)據(jù)基于數(shù)據(jù)產(chǎn)品、數(shù)據(jù)處理工具與數(shù)據(jù)服務(wù)的三螺旋,為機器學(xué)習(xí)提供大規(guī)模訓(xùn)練數(shù)據(jù),為行業(yè)提供高效率、高質(zhì)量、多維度、場景化的數(shù)據(jù)服務(wù)與策略。
不同階段對訓(xùn)練數(shù)據(jù)的差異化需求
從不同階段的訓(xùn)練數(shù)據(jù)需求來看,企業(yè)應(yīng)用人工智能算法要經(jīng)歷研發(fā)、訓(xùn)練和落地三個階段,不同階段對于訓(xùn)練數(shù)據(jù)服務(wù)也有差異化需求。
研發(fā)需求是新算法研發(fā)拓展時產(chǎn)生的數(shù)據(jù)需求,一般量級較大,初期多采用標(biāo)準(zhǔn)數(shù)據(jù)集產(chǎn)品訓(xùn)練,中后期則需要專業(yè)的訓(xùn)練數(shù)據(jù)定制采標(biāo)服務(wù);
訓(xùn)練需求是通過標(biāo)注數(shù)據(jù)對已有算法的準(zhǔn)確率等能力進行優(yōu)化,是市場中的主要需求,以定制化服務(wù)為主,對算法的準(zhǔn)確性有較高要求;
落地場景的業(yè)務(wù)需求中算法較為成熟,涉及的訓(xùn)練數(shù)據(jù)更貼合具體業(yè)務(wù),如飛機保養(yǎng)中的涂料識別數(shù)據(jù)等,對于標(biāo)注能力和供應(yīng)商主動提出優(yōu)化意見的服務(wù)意識有較強要求。
真正“有用”的AI模型,離不開訓(xùn)練數(shù)據(jù)
時至今日,人工智能從業(yè)公司的算法模型經(jīng)過多年的打磨,基本達到階段性成熟,隨著AI行業(yè)商業(yè)化發(fā)展,更具有前瞻性的數(shù)據(jù)集產(chǎn)品和高定制化數(shù)據(jù)服務(wù)需求成為了主流,可以說,真正“有用”的AI模型,離不開訓(xùn)練數(shù)據(jù)。
說回前文提到的以數(shù)據(jù)為中心的 AI 競賽(Data-Centric AI competition).這次競賽共有489個參賽個人和團隊提交了2458個獨特的數(shù)據(jù)集。僅僅通過改進數(shù)據(jù)(而不是模型架構(gòu),這是硬標(biāo)準(zhǔn)),許多參賽者能夠?qū)?4.4%的基準(zhǔn)性能提高20%以上,最佳性能組的獲獎?wù)叩某煽冊?6.034%至86.405%之間。
這種限定框架內(nèi)的巨大差別,足以說明在吳恩達等人的推動下以數(shù)據(jù)為中心(Data-centric)的AI進一步的系統(tǒng)化,并成為一個有具有巨大實用價值方法論。未來誰能夠更好地挖掘和使用訓(xùn)練數(shù)據(jù),就能在AI大潮中發(fā)現(xiàn)真正的“寶藏”。