昆侖萬維集團(tuán)在近期的一次技術(shù)盛宴中,正式揭曉了其AI音樂創(chuàng)作領(lǐng)域的最新力作——Mureka V7.5模型。這一發(fā)布不僅為SkyWork AI技術(shù)周畫上了圓滿的句號(hào),更在音樂創(chuàng)作界掀起了波瀾。
作為技術(shù)周的壓軸產(chǎn)品,Mureka V7.5模型在中文歌曲創(chuàng)作上展現(xiàn)出了非凡的實(shí)力。它在音色、演奏技巧以及歌詞表達(dá)和情感傳遞上均實(shí)現(xiàn)了質(zhì)的飛躍。得益于對(duì)中文音樂風(fēng)格的深刻洞察,該模型能夠完美捕捉從古典民歌到現(xiàn)代流行金曲的各種音樂韻味,充分展現(xiàn)了中文音樂的多元魅力。
為了讓人聲表現(xiàn)更加真實(shí)且充滿情感,Mureka V7.5在自動(dòng)語音識(shí)別技術(shù)上進(jìn)行了深度優(yōu)化。它能夠細(xì)致入微地捕捉演唱中的每一個(gè)細(xì)節(jié),包括唱詞的清晰度、氣息的運(yùn)用以及情感的波動(dòng)。通過智能分析,模型能夠自然地劃分樂句,確定換氣與停頓的位置,從而大大提升了生成音樂的流暢度和真實(shí)感。這種對(duì)細(xì)節(jié)的精準(zhǔn)把控,使得AI生成的歌曲在演繹中文歌曲特有的韻律和氣息時(shí),更加貼近真人的表現(xiàn)。
與此同時(shí),昆侖萬維語音團(tuán)隊(duì)還帶來了另一項(xiàng)創(chuàng)新成果——MoE-TTS,這是一個(gè)基于Mixture of Experts的角色描述語音合成框架。MoE-TTS打破了傳統(tǒng)語音合成的局限,允許用戶通過自然語言描述來精確控制聲音的特征和風(fēng)格。即使僅依賴開源數(shù)據(jù),該技術(shù)也能在角色貼合度上媲美甚至超越市面上的閉源商業(yè)產(chǎn)品。這一突破性的成果,為描述性語音合成領(lǐng)域帶來了新的解決方案。
MoE-TTS結(jié)合了預(yù)訓(xùn)練大語言模型的文本理解能力和語音專家模塊的合成能力,通過模態(tài)路由實(shí)現(xiàn)了各模態(tài)的獨(dú)立優(yōu)化,確保了知識(shí)的無損失傳遞。在復(fù)雜描述的場(chǎng)景下,MoE-TTS展現(xiàn)出了卓越的風(fēng)格表現(xiàn)力貼合度和整體貼合度,為用戶提供了前所未有的語音合成體驗(yàn)。這一技術(shù)的推出,預(yù)示著語音合成領(lǐng)域?qū)摹胺忾]標(biāo)簽式控制”向“自然語言自由控制”的新階段邁進(jìn)。
目前,MoE-TTS仍在持續(xù)優(yōu)化中,昆侖萬維計(jì)劃將其集成至Mureka-Speech平臺(tái),作為全球開發(fā)者和創(chuàng)作者的強(qiáng)大工具。屆時(shí),用戶將能夠輕松享受到開放、高效且可定制的描述性語音合成服務(wù)。
昆侖萬維集團(tuán)通過Mureka V7.5和MoE-TTS的發(fā)布,再次證明了其在AI音樂創(chuàng)作和語音合成領(lǐng)域的領(lǐng)先地位。這些創(chuàng)新技術(shù)不僅為音樂創(chuàng)作和語音合成帶來了全新的可能性,更為相關(guān)領(lǐng)域的研究和發(fā)展注入了新的活力。全球用戶現(xiàn)在即可訪問www.mureka.ai,親身體驗(yàn)Mureka V7.5模型的強(qiáng)大功能,探索音樂創(chuàng)作的無限創(chuàng)意。