日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:52011
  • 待審:79
  • 小程序:12
  • 文章:1184964
  • 會員:801

在2024年,Reddit這一老牌社交平臺煥發了新生。自三月成功登陸紐約證券交易所后,它不僅在第三季度實現了首次盈利,其股價更是飆升,達到了上市首日開盤價的350%左右。這一切輝煌成就的背后,有一個共同的推動者——人工智能(AI)。

Reddit之所以能夠成為AI時代的寵兒,關鍵在于其平臺上豐富的內容資源。這些內容,對于進一步發展和優化AI大模型技術而言,是不可或缺的語料庫。去年二月,Reddit與谷歌達成了一項價值約每年6000萬美元的協議,允許谷歌使用Reddit的內容來訓練其人工智能模型。Reddit對此表示:“我們堅信,平臺不斷增長的數據將成為領先大型語言模型(LLM)培訓的關鍵要素,同時也將為Reddit開辟新的盈利渠道。”

緊接著,在上市后的五月,Reddit又與OpenAI建立了類似的合作關系。Reddit的問答內容將被整合進OpenAI的產品中,同時,Reddit平臺的編輯功能和附加模組也將引入由OpenAI技術驅動的AI功能。這一合作是雙向的,OpenAI為Reddit提供技術支持,而Reddit則為OpenAI提供寶貴的語料。

那么,在眾多UGC(用戶生成內容)社交平臺中,為何Reddit能夠脫穎而出,成為AI大模型廠商青睞的語料供應商呢?這主要得益于其獨特的業務生態、內容模式以及發展階段。

從業務生態上看,Reddit是一個相對獨立的平臺,其背后由多個利益集團及個人控股,沒有像國內某些社交平臺那樣擁有龐大的產品生態和產業鏈。因此,Reddit無需顧及自身的生態組合,可以將語料作為合作時的籌碼進行交易。

在內容模式上,Reddit通過subReddit(子論壇)來組織內容,用戶可以自由地創建和加入不同的子論壇,發帖和評論。用戶還可以對帖子和評論進行“點贊”或“點踩”,被點贊的內容會獲得更多曝光機會,而被點踩的內容則可能被折疊或隱藏。這種機制形成了良好的語料產出正向循環,與知乎、豆瓣等平臺類似。

至于發展階段,Reddit在創立近二十年后才開始盈利,收入結構相對單一,主要依賴平臺廣告。然而,在AI大模型時代,這卻為Reddit提供了業務拓展和盈利的新機遇。

以Reddit為模板,我們來分析一下國內具有較多文字語料且業務較為獨立的UGC平臺,如B站、小紅書、微博、豆瓣、知乎和貼吧。在這些平臺中,誰最有可能成為AI時代的中國Reddit呢?

然而,并不是所有UGC社交平臺的業務模式都適合出售語料。像微信生態內的公眾號和小綠書等內容渠道,由于其母公司騰訊擁有強大的產品生態和產業鏈,可能會將語料作為自己在AI時代的隱藏殺手锏之一,而不會輕易出售。

相比之下,那些相對獨立的C端社交平臺產品,尤其是以文字類內容為主的平臺,如B站、小紅書、微博、豆瓣、知乎和貼吧等,都有機會在AI時代像Reddit一樣煥發新生。但關鍵在于,這些平臺如何判定自己的語料是否更好、更適合AI廠商的需求。

用戶自發的內容判定機制是首要因素。以Reddit為例,用戶可以對帖子和評論進行“點贊”或“點踩”,這相當于AI訓練階段的人工“數據標注”工作。同時,平臺自身的內容判定機制也很重要,可以看作是大模型發展向人類看齊的“超級對齊”方式。平臺用戶畫像與AI的適配度也是關鍵因素之一。用戶畫像更多元、年齡、性別、地理位置、受教育程度等各個維度更均衡、粘性更高的平臺,其語料往往更好。

基于以上分析模板,我們可以對B站、小紅書、微博、豆瓣、知乎等平臺在內容判定機制、內容質量和用戶畫像等方面的表現進行更加細致的研究。初步猜測,如果想要訓練一款面向相對較年輕群體(消費主力軍)的AGI,B站、小紅書和微博在這三方面得分率較高,因此進入下一輪篩選。

然而,在廠商眼中適合的目標,卻不一定愿意出售語料。B站、小紅書和微博中,最不想賣的可能是小紅書。這是因為小紅書目前正處于商業化探索上升期,其生態增長有內容和交易雙維度數據支撐,且財務狀況良好,在2023年首次實現盈利。小紅書自己也在平臺內測試多個AI功能,更傾向于成為AI時代的甲方。

相比之下,B站和微博則更適合與AI大模型廠商達成Reddit模式的合作。B站已經與kimi有較為深度的合作,且內容儲備量及質量較高,長視頻內容適合轉化成文字,同時擁有大量觀點性思考和粘性較高的社區氛圍。然而,將平臺內容用于與AI大模型廠商合作之前,需要先解決用戶協議問題,即讓用戶接受自己的評論、視頻、文字等內容用于AI訓練。

微博則與B站的發展階段相似,已經趨于穩定。其用戶定位和使用場景清晰,用戶規模在高強度的注意力競爭中保持穩定。而且,微博用戶對于自己的內容被用來生成AI內容似乎并不排斥,甚至微博的評論機器人“羅伯特”已經成為提升用戶粘性的手段之一。因此,微博可能是缺乏語料庫的大模型廠商尋找活人多的社交平臺作為語料供應商的一個不錯選項。

在AI訓練即將進入語料比拼階段的2025年,社交平臺用戶風格將如何影響AI大模型的訓練,是一個值得關注的問題。美國大模型圈的一些案例已經讓我們感受到了這種影響。例如,OpenAI曾因在肯尼亞有外包公司為其提供數據標注服務而引發爭議;谷歌Gemini大模型生成圖像避免白人內容的事件也曾引起軒然大波。這些案例都表明,社交平臺作為語料供應商,其用戶風格將極大地影響所訓練的AI的“性格”。

分享到:
標簽:語料 中國 或將 引領 誕生
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 52011

    網站

  • 12

    小程序

  • 1184964

    文章

  • 801

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定