“我是東北的,東北吉林的……”
“我是四川的,四川成都的……”
“我是廣東的,廣東汕尾的……”
前段時(shí)間,一段云南傈僳族小伙“我是云南的,云南怒江的……”的“魔性”家鄉(xiāng)特色方言介紹視頻走紅網(wǎng)絡(luò),引來(lái)網(wǎng)友爭(zhēng)相模仿。大家紛紛通過(guò)這種形式介紹自己的家鄉(xiāng),為家鄉(xiāng)方言打call。
不得不說(shuō),十里八鄉(xiāng)不同音。無(wú)論是“洗腦”指數(shù)一絕的東北話,“發(fā)”、“花”不分的福建話,還是自帶“相聲”效果的天津話......方言都是各地極具特色的文化名片,傳承豐富的歷史文化內(nèi)涵。
到了今天,方言梗更是在短視頻和各大網(wǎng)絡(luò)綜藝?yán)锘鸪鋈?,甚至超越地域的限制,成為網(wǎng)絡(luò)時(shí)代的“通用語(yǔ)”,足見(jiàn)其魅力所在。
方言的傳承與使用
古人感慨:“少小離家老大回,鄉(xiāng)音無(wú)改鬢毛衰。”每當(dāng)身處異地的你聽(tīng)到熟悉的口音,親切感就油然而生,即使是不認(rèn)識(shí)的陌生人,也恨不得搭上一句“朋友,咱老鄉(xiāng)?。?rdquo;
方言不僅是地域文化的載體,也是聯(lián)結(jié)人與地方情感的紐帶,我們應(yīng)該加以保護(hù)和傳承。對(duì)于方言的交流屬性,我們更應(yīng)該在時(shí)代和社會(huì)進(jìn)步的過(guò)程中,為其創(chuàng)造更多的使用機(jī)會(huì)和平臺(tái)。
事實(shí)上,在智能語(yǔ)音應(yīng)用日益普及的今天,隨著用戶對(duì)智能語(yǔ)音產(chǎn)品的需求越來(lái)越多元化,方言語(yǔ)音識(shí)別以及語(yǔ)音合成已經(jīng)成為熱門(mén)方向。其中,語(yǔ)音合成技術(shù)的應(yīng)用,讓機(jī)器也能開(kāi)口說(shuō)方言。
例如,智能音箱用熟悉的鄉(xiāng)音和用戶對(duì)話,慰藉身居異地的思鄉(xiāng)之情;直播間里,主播通過(guò)搞笑幽默的方言讓直播內(nèi)容更有趣味性,增加與各地觀眾的黏性;影視配音場(chǎng)景下,方言合成能幫助影視、短視頻快速完成有聲內(nèi)容建設(shè),保證質(zhì)量的同時(shí)降低人工配音成本。
對(duì)于智能語(yǔ)音設(shè)備廠商來(lái)說(shuō),讓產(chǎn)品具備方言能力,滿足不同地域的用戶需求,有助于打造產(chǎn)品差異化優(yōu)勢(shì),更好的開(kāi)拓下沉市場(chǎng)。
方言語(yǔ)音合成難點(diǎn)
雖然方言合成前景廣闊,但面臨的技術(shù)挑戰(zhàn)也不少。首當(dāng)其沖就是方言的多樣性。
中國(guó)地大物博,人口眾多,不同地區(qū)、不同民族都有自己的方言。根據(jù)教育部2019年《中國(guó)語(yǔ)言文字概況》介紹,漢語(yǔ)方言通常分為十大方言:官話方言、晉方言、吳方言、閩方言、客家方言、粵方言、湘方言、贛方言、徽方言、平話土話。各方言區(qū)內(nèi)又分布著若干次方言和許多種“土語(yǔ)”。
同時(shí),各方言之間相互獨(dú)立,有其不同的表達(dá)特色以及不同的體系,在語(yǔ)音、詞匯、語(yǔ)法方面都有所差異,很難被系統(tǒng)整理。這給方言數(shù)據(jù)的采集帶來(lái)諸多困難。
一般來(lái)說(shuō),語(yǔ)音合成數(shù)據(jù)的采集就是把方言的常用句子、詞語(yǔ)通過(guò)文字、音標(biāo)以及語(yǔ)音的方式搜集記錄下來(lái),組成一個(gè)數(shù)據(jù)集,并根據(jù)具體使用場(chǎng)景對(duì)數(shù)據(jù)集完成標(biāo)注,供人工智能學(xué)習(xí)使用。語(yǔ)言的種類(lèi)越多,意味著需要完成的數(shù)據(jù)采集和數(shù)據(jù)標(biāo)注工作也就越多。
標(biāo)貝科技方言合成數(shù)據(jù)庫(kù)
標(biāo)貝科技深耕AI能數(shù)據(jù)服務(wù)領(lǐng)域多年,在數(shù)據(jù)采集和標(biāo)注方面具備豐富的實(shí)踐經(jīng)驗(yàn)。針對(duì)不同應(yīng)用場(chǎng)景的方言需求,標(biāo)貝科技基于專(zhuān)業(yè)級(jí)錄音棚及優(yōu)質(zhì)聲優(yōu)資源建立了系列方言合成數(shù)據(jù)庫(kù),覆蓋東北話、天津話、河南話、四川話、粵語(yǔ)、臺(tái)語(yǔ)、維語(yǔ)等多種方言,并完成對(duì)數(shù)據(jù)庫(kù)的音字標(biāo)注、韻律標(biāo)注、音素邊界標(biāo)注,可供算法優(yōu)化直接使用,確保合成出來(lái)的音色更穩(wěn)定、自然度更高。
*以上數(shù)據(jù)庫(kù)列表僅為部分內(nèi)容,如需完整數(shù)據(jù)庫(kù)請(qǐng)聯(lián)系我們
歡迎對(duì)以上數(shù)據(jù)集感興趣的行業(yè)伙伴聯(lián)系我們~
如果以上數(shù)據(jù)不能滿足您當(dāng)前的需求,標(biāo)貝科技還可以針對(duì)特定人群、特定場(chǎng)景、特定語(yǔ)種提供相應(yīng)的數(shù)據(jù)定制化服務(wù),全力幫助企業(yè)客戶得到滿意的數(shù)據(jù)服務(wù)。