近日,由中國信通院、中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟(AIIA)、語音之家共同主辦的“人工智能合成數(shù)據(jù)”主題沙龍成功召開。會議旨在進(jìn)一步調(diào)研產(chǎn)業(yè)界在合成數(shù)據(jù)方面的現(xiàn)狀,探討合成數(shù)據(jù)如何助力人工智能產(chǎn)業(yè)有序健康發(fā)展。
作為AI數(shù)據(jù)服務(wù)領(lǐng)域知名品牌,標(biāo)貝科技受邀出席會議,聯(lián)合創(chuàng)始人&CTO李秀林博士圍繞《合成數(shù)據(jù)的應(yīng)用探索》進(jìn)行主題分享,與百余位業(yè)內(nèi)人士一起在線探討交流了AI語音合成在產(chǎn)品服務(wù)以及模型訓(xùn)練上的應(yīng)用和落地。
合成數(shù)據(jù) 助推人工智能產(chǎn)業(yè)蓬勃發(fā)展
Gartner 2022 年人工智能創(chuàng)新技術(shù)成熟度曲線(GartnerHype Cycle)發(fā)布,“以數(shù)據(jù)為中心的人工智能”被列為 2022年人工智能技術(shù)和應(yīng)用四大創(chuàng)新之一,其中“合成數(shù)據(jù)”作為人工智能的創(chuàng)新方式之一,正處于期望膨脹期。伴隨著機(jī)器學(xué)習(xí)模型對海量數(shù)據(jù)的依賴日益增加,使得合成數(shù)據(jù)市場需求持續(xù)增長。
合成數(shù)據(jù)是計(jì)算機(jī)模擬或算法所生成的帶有注釋的信息。在真實(shí)數(shù)據(jù)稀缺或敏感的領(lǐng)域,可通過合成數(shù)據(jù)的方法訓(xùn)練AI模型。換言之,合成數(shù)據(jù)是在數(shù)字世界中創(chuàng)建的數(shù)據(jù),而不是從現(xiàn)實(shí)世界中采集或測量的數(shù)據(jù)。
雖然合成數(shù)據(jù)不包含任何現(xiàn)實(shí)世界現(xiàn)象或事件產(chǎn)生的數(shù)據(jù),但從數(shù)學(xué)和統(tǒng)計(jì)學(xué)上反映了真實(shí)數(shù)據(jù)信息,并可以滿足現(xiàn)有真實(shí)數(shù)據(jù)中[穆向禹1]很少出現(xiàn)但很關(guān)鍵的特定情景需求或條件,是數(shù)據(jù)科學(xué)領(lǐng)域中快速發(fā)展的趨勢和新興工具。
目前,合成數(shù)據(jù)已在自動駕駛、數(shù)字醫(yī)療領(lǐng)域[穆向禹2]廣泛應(yīng)用,成為人工智能數(shù)據(jù)一個顛覆性的新來源。根據(jù)研究公司Cognilytica發(fā)布的一份報(bào)告,合成數(shù)據(jù)生成的市場在2021年增長到1.1億美元以上,預(yù)計(jì)到2027年底將增加到11.5億美元。
高質(zhì)量合成數(shù)據(jù) 加速人工智能產(chǎn)業(yè)應(yīng)用落地
會上,李秀林博士指出,對于人工智能模型訓(xùn)練來說,合成數(shù)據(jù)非常重要。在訓(xùn)練人工智能(AI)模型時,企業(yè)往往會遇到?jīng)]有足夠量的數(shù)據(jù)、數(shù)據(jù)生產(chǎn)成本高昂,或采集的數(shù)據(jù)涉及隱私、公平等問題[穆向禹3]的挑戰(zhàn)。在這種情況下,合成數(shù)據(jù)為訓(xùn)練符合道德標(biāo)準(zhǔn)、高質(zhì)量的 AI 模型提供了另一種機(jī)會。
例如,在對皮膚視覺診斷中,使用手機(jī)等非專業(yè)設(shè)備拍攝皮膚的圖片,難以完整的表現(xiàn)皮膚的顏色、皮膚表面特質(zhì)變化、光照條件等特點(diǎn)。而基于Unet結(jié)構(gòu)的pix2pix圖像風(fēng)格遷移網(wǎng)絡(luò),可以控制變量,如不同類型的皮膚、病變,為病理判斷提供有效的參考依據(jù)。
在自動駕駛領(lǐng)域里,由于自動駕駛要求的能力,數(shù)據(jù)采集加工的數(shù)據(jù)量巨大。通過對數(shù)以百萬計(jì)的車輛偏離軌道的場景進(jìn)行合成生成圖像,獲得現(xiàn)實(shí)場景下幾乎不可能捕捉到、或者[穆向禹4]只存在于極度危險(xiǎn)場景下才能存在的圖像和視頻,極大提升并改善了自動駕駛系統(tǒng)的訓(xùn)練效率與效果。
在多風(fēng)格音色生產(chǎn)項(xiàng)目中,由于不同的人有不同的音色、說話方式,同一個人在不同語境下也會有不同的語氣語調(diào)。傳統(tǒng)的音色采集通常由專業(yè)主播和剪輯人員完成,錄制加工流程復(fù)雜,費(fèi)時費(fèi)力。通過語音合成技術(shù),可以快速生成自然真實(shí)、充滿感情和表現(xiàn)力的合成音色。
標(biāo)貝科技作為行業(yè)領(lǐng)先的智能語音交互與AI數(shù)據(jù)服務(wù)提供商,深耕智能語音交互領(lǐng)域多年,始終致力于語音合成技術(shù)的創(chuàng)新研發(fā)和商業(yè)化應(yīng)用。隨著自身技術(shù)不斷迭代升級,構(gòu)建了豐富的合成語音數(shù)據(jù)庫,包括超過100余種不同語言和場景的自有版權(quán)商業(yè)化發(fā)音人,覆蓋男聲、女聲、老人、童聲等多種音色,支持中文、英文、中英混讀、小語種、方言等語種。憑借自然流暢的韻律、豐富的音色層次感和多維情感表現(xiàn)力等優(yōu)勢,充分滿足智能客服、媒體新聞、有聲閱讀、車載互聯(lián)、泛娛樂等領(lǐng)域語音需求。
隨著市場對更仿真、更個性的聲音需求,標(biāo)貝科技基于核心的深度神經(jīng)網(wǎng)絡(luò)技術(shù)模型,創(chuàng)新打造了情感合成、聲音轉(zhuǎn)換、聲音復(fù)刻等個性化聲音定制方案,幫助加速語音產(chǎn)品的落地。
未來,人工智能的迅猛發(fā)展,合成數(shù)據(jù)將迎來更大需求市場。標(biāo)貝科技將持續(xù)加碼自主研發(fā)投入,打造更智能、更場景化的語音合成服務(wù),實(shí)現(xiàn)技術(shù)創(chuàng)新和商業(yè)化應(yīng)用的雙贏。