在2024年的科技舞臺上,Reddit以耀眼的姿態(tài)成為了一顆明星。這家歷史悠久的社交平臺,自三月成功登陸紐交所后,不僅在第三季度實(shí)現(xiàn)了首次盈利,其股價更是飆升,達(dá)到了上市首日開盤價的350%左右。這一切的輝煌成就,無一不歸功于人工智能(AI)的助力。
Reddit之所以能在AI時代大放異彩,關(guān)鍵在于其平臺上豐富且高質(zhì)量的內(nèi)容,這些內(nèi)容成為了訓(xùn)練AI大模型不可或缺的語料庫。去年二月,Reddit與谷歌達(dá)成了一項(xiàng)價值約每年6000萬美元的協(xié)議,允許谷歌使用Reddit的內(nèi)容來訓(xùn)練其人工智能模型。Reddit對此表示:“我們相信,我們平臺不斷增長的數(shù)據(jù)將成為領(lǐng)先大型語言模型(LLM)培訓(xùn)的關(guān)鍵要素,同時也為Reddit開辟了新的盈利渠道。”
緊接著,在上市后的五月,Reddit又與OpenAI建立了類似的合作關(guān)系。Reddit的問答內(nèi)容將被整合進(jìn)OpenAI的產(chǎn)品中,同時,Reddit平臺的編輯功能和附加模組也將引入由OpenAI技術(shù)驅(qū)動的AI功能。這一雙向合作不僅為Reddit提供了技術(shù)支持,還為OpenAI提供了寶貴的語料資源。
在眾多UGC(用戶生成內(nèi)容)社交平臺中,為何Reddit能夠脫穎而出,成為AI大模型廠商爭相合作的語料供應(yīng)商?這主要得益于其獨(dú)特的業(yè)務(wù)生態(tài)、內(nèi)容模式以及發(fā)展階段。
從業(yè)務(wù)生態(tài)上看,Reddit是一個相對獨(dú)立的平臺,其背后由多個利益集團(tuán)及個人控股,沒有像國內(nèi)某些社交平臺那樣擁有龐大的產(chǎn)品生態(tài)和產(chǎn)業(yè)鏈。這種獨(dú)立性使得Reddit可以更加靈活地與其他公司進(jìn)行合作,將語料作為合作的籌碼進(jìn)行交易。
在內(nèi)容模式上,Reddit通過subReddit(子論壇)來組織內(nèi)容,用戶可以根據(jù)自己的興趣創(chuàng)建和加入不同的子論壇,發(fā)帖和評論。同時,用戶還可以對帖子和評論進(jìn)行點(diǎn)贊或點(diǎn)踩,這種機(jī)制使得優(yōu)質(zhì)內(nèi)容能夠獲得更多的曝光機(jī)會,形成了良好的語料產(chǎn)出循環(huán)。
那么,在國內(nèi)眾多具有豐富文字語料且業(yè)務(wù)相對獨(dú)立的UGC平臺中,誰最有可能成為AI時代的“中國Reddit”呢?B站、小紅書、微博、豆瓣、知乎和貼吧等平臺都具備了一定的潛力。
首先,要成為AI大模型廠商的語料供應(yīng)商,平臺必須擁有合法且高質(zhì)量的語料。在這方面,像OpenAI這樣的廠商通常會從多個渠道獲取語料,包括Common Crawl、WebText、維基百科、書籍和期刊以及社交媒體內(nèi)容等。其中,社交媒體內(nèi)容因其具有更強(qiáng)的“人味”和即時性,成為了AI廠商爭相追逐的目標(biāo)。
然而,并非所有UGC社交平臺都愿意出售自己的語料。例如,小紅書目前正處于商業(yè)化探索的上升期,其內(nèi)容和交易數(shù)據(jù)都在快速增長。同時,小紅書自己也在測試多個AI功能,因此可能更傾向于成為AI技術(shù)的使用者而非語料供應(yīng)商。
相比之下,B站和微博則更適合與AI大模型廠商達(dá)成類似Reddit的合作模式。B站擁有高質(zhì)量的內(nèi)容儲備和粘性較高的社區(qū)氛圍,其長視頻內(nèi)容非常適合轉(zhuǎn)化成文字,并包含大量的觀點(diǎn)性思考。然而,B站需要解決的是用戶協(xié)議問題,即如何讓用戶接受自己的內(nèi)容被用于AI訓(xùn)練。
微博則是一個用戶定位和使用場景都非常清晰的平臺,其月活用戶數(shù)基本穩(wěn)定在5.8億左右。微博用戶對于自己的內(nèi)容被用來生成AI內(nèi)容似乎并不排斥,甚至微博的評論機(jī)器人“羅伯特”已經(jīng)成為提升用戶粘性的手段之一。因此,微博可能是一個更適合AI大模型廠商尋找語料供應(yīng)商的平臺。
當(dāng)然,除了B站和微博之外,其他平臺如豆瓣、知乎等也具備一定的潛力。這些平臺都擁有獨(dú)特的用戶群體和內(nèi)容風(fēng)格,可以為AI大模型提供多樣化的語料資源。
在如何出售語料的問題上,平臺需要做好與用戶的內(nèi)容協(xié)議工作。這包括明確告知用戶其內(nèi)容可能會被用于AI訓(xùn)練,并征得用戶的同意。同時,平臺還需要建立完善的語料篩選和標(biāo)注機(jī)制,以確保提供給AI大模型的語料質(zhì)量。
語料庫的用戶風(fēng)格將直接影響AI大模型的訓(xùn)練結(jié)果。因此,在選擇語料供應(yīng)商時,AI大模型廠商需要仔細(xì)考慮平臺的用戶群體和內(nèi)容風(fēng)格是否與自己的需求相匹配。
隨著AI技術(shù)的不斷發(fā)展,語料庫的重要性將日益凸顯。未來,那些擁有高質(zhì)量語料庫的平臺將有望在AI時代占據(jù)先機(jī)。
在AI大模型廠商紛紛尋找語料供應(yīng)商的背景下,那些愿意開放自己平臺內(nèi)容并與AI技術(shù)深度融合的平臺將有望獲得更多的機(jī)遇和發(fā)展空間。
然而,對于平臺而言,如何在保護(hù)用戶隱私和權(quán)益的同時實(shí)現(xiàn)與AI技術(shù)的深度融合仍是一個需要深思的問題。
無論如何,隨著AI技術(shù)的不斷進(jìn)步和應(yīng)用場景的拓展,那些能夠緊跟時代步伐并不斷創(chuàng)新的平臺將有望在未來的科技競爭中脫穎而出。