在今年的科技舞臺上,音樂大模型以其獨特的魅力脫穎而出,成為垂直大模型賽道上一顆璀璨的明星。這一領(lǐng)域不僅帶來了令人耳目一新的音樂創(chuàng)作玩法,還以驚人的模型效果和現(xiàn)象級的產(chǎn)品傳播方式,贏得了廣大用戶的青睞。
回溯到3月,Suno V3的問世如同一顆重磅炸彈,在音樂行業(yè)掀起了軒然大波。而最近,Suno再次發(fā)力,推出了V4版本,進(jìn)一步提升了音樂的音質(zhì)、悅耳度和時長,使得AI能夠創(chuàng)作出完整的四分鐘歌曲。這一突破性的進(jìn)展,在國內(nèi)外引發(fā)了廣泛的討論和關(guān)注。
然而,值得注意的是,盡管Suno在英文曲目上表現(xiàn)出色,但在中文曲目和中國用戶市場的迭代需求上,卻并未給予足夠的重視。面對這一挑戰(zhàn),國內(nèi)在AI音樂領(lǐng)域深耕已久的公司紛紛亮出了自己的殺手锏,推出了一系列具有競爭力的模型和應(yīng)用,與全球頂級產(chǎn)品展開了激烈的較量。
在這場你追我趕的競賽中,國內(nèi)AI音樂應(yīng)用主要形成了三大陣營:以字節(jié)跳動豆包旗下的海綿音樂為代表的大廠派,以昆侖萬維旗下的天工SkyMusic為代表的新興大模型廠商,以及以趣丸科技旗下天譜樂為代表的垂直賽道獨角獸科技公司。這些玩家在各自的領(lǐng)域內(nèi)發(fā)揮優(yōu)勢,不斷推陳出新。
海綿音樂,作為字節(jié)跳動推出的一款免費(fèi)AI音樂創(chuàng)作和分享平臺,憑借其強(qiáng)大的人工智能技術(shù),幫助用戶輕松生成個性化的音樂作品。用戶只需輸入一句靈感或上傳一張圖片,即可獲得專屬的音樂作品,且平臺提供了豐富的音樂風(fēng)格和創(chuàng)作工具。
與Suno相比,海綿音樂在AI生成的中文歌曲方面表現(xiàn)更為出色,不僅提高了吐字的清晰度和演唱的流暢性,還使音樂曲風(fēng)更符合中國人的喜好。
昆侖萬維推出的天工SkyMusic,則是國內(nèi)首個音樂SOTA模型,基于其“天工3.0”超級大模型打造。該模型能夠快速生成多種風(fēng)格的音樂作品,采用了音樂音頻領(lǐng)域類Sora模型架構(gòu),通過Large-scale Transformer和Diffusion Transformer的協(xié)同工作,實現(xiàn)了高質(zhì)量音頻的生成。
而趣丸科技旗下的天譜樂,作為全球首個多模態(tài)配樂大模型,自今年7月發(fā)布以來,便以其獨特的功能吸引了大量用戶的關(guān)注。天譜樂不僅支持文生音樂和音頻生音樂,還首創(chuàng)了圖片和視頻生成音樂的功能,這一創(chuàng)新使得其多模態(tài)輸入能力超越了Suno。
天譜樂大模型集成了多項領(lǐng)先技術(shù),包括圖片理解算法、旋律生成算法、視頻理解算法和配器識別算法等,能夠生成高契合度的視頻配樂。用戶只需上傳一張圖片或一段視頻,即可在1-2分鐘內(nèi)生成一首與畫面高度適配的完整歌曲,且生成效果達(dá)到唱片發(fā)行級水準(zhǔn)。
除了這些代表性的玩家外,國內(nèi)音樂行業(yè)的兩大巨頭騰訊音樂和網(wǎng)易云音樂也分別推出了X·Studio和啟明星等產(chǎn)品,以追趕當(dāng)前生成式人工智能的浪潮。然而,盡管這些巨頭擁有強(qiáng)大的版權(quán)庫和市場份額,但在AI音樂上的投入和活躍度卻不及上述代表性玩家。
在與全球科技巨頭角逐AI大模型的競賽中,國內(nèi)公司的一個顯著優(yōu)勢是AI應(yīng)用。探索和創(chuàng)造出更多用戶真正會使用的產(chǎn)品以及可落地的商業(yè)化場景,是國產(chǎn)大模型能夠持續(xù)進(jìn)化的關(guān)鍵。趣丸科技副總裁賈朔曾表示,“降低門檻讓普通用戶體驗音樂創(chuàng)作的樂趣”是自研天譜樂產(chǎn)品的價值主張。
然而,盡管音樂大模型在2024年以驚人的速度發(fā)展,但版權(quán)問題仍然是一個難以回避的尷尬。多家唱片公司曾對Suno和Udio發(fā)起訴訟,指控它們非法使用版權(quán)音樂來訓(xùn)練AI模型。而AI生成的音樂作品是否享有版權(quán)保護(hù),其版權(quán)歸屬如何界定,也尚無明確的法律規(guī)定。
針對這一問題,賈朔提出可以從技術(shù)手段上規(guī)避一些紛爭。例如,在產(chǎn)品側(cè)判斷用戶是否有主觀意圖模仿現(xiàn)有藝術(shù)家,并做出彈窗提示。然而,盡管AI能夠模擬人類的創(chuàng)作模式,但它始終難以真正理解和表達(dá)人類復(fù)雜的情感。如何提升AI音樂的創(chuàng)意和情感表達(dá)能力,仍然是當(dāng)前音樂大模型需要突破的方向之一。
AI音樂創(chuàng)作的發(fā)展也對人類音樂創(chuàng)作者的就業(yè)和創(chuàng)作空間造成了一定的擠壓。在當(dāng)前的階段,我們需要尋找一種平衡,實現(xiàn)AI與人類創(chuàng)作者的共存。