抖音近期采取了一項在國內互聯網行業中罕見的舉措:全面且深入地公開了其算法的運行機制。這一舉動不僅涵蓋了算法的技術細節,還通過線上網站和線下公開課的形式,向公眾詳細解釋了從基本原理到具體模型的方方面面。
抖音在“安全與信任中心”網站上匯總了相關信息,并在北京舉辦了一場由算法工程師親自講解的公開課,以通俗易懂的方式復盤了算法的所有細節。這種透明度,對于一家面臨算法黑箱質疑的互聯網公司來說,實屬不易。
在仔細研讀抖音公開的所有內容后,不難發現,當前市面上許多非技術類媒體關于算法的討論存在明顯偏差。這些偏差并非主觀歪曲,而是基于過時信息。例如,許多文章仍在討論短視頻平臺如何通過給內容和用戶打標簽來進行匹配,但實際上,這種做法早已被淘汰,取而代之的是基于特征向量的數學統計。
抖音的算法工程師在公開課上指出,現代推薦算法不再依賴有限的標簽來理解內容,而是通過分析用戶的互動行為(如點贊、觀看時長、評論等)來預測用戶可能感興趣的內容。這種方法的核心在于機器學習,它通過建立評分系統,在海量數據和算力支持下,盡可能準確地為用戶推薦高評分內容。
在機器學習領域,推薦算法的成功很大程度上歸功于其預測能力。這與當前熱門的大模型行業中的“預測”原理相似,例如ChatGPT在對話中不斷預測下一個詞匯,盡管它并不真正理解對話的語義內容。同樣,抖音的算法也不需要理解視頻的具體內容,而是根據用戶的反饋來優化推薦。
面對信息爆炸的時代,算法成為了包括抖音在內的所有平臺不可或缺的分發技術。據IDC報告顯示,全球每年產生的網絡數據量已達到驚人的175ZB,遠遠超出了歷史上任何一個時代的信息處理需求。抖音每天新增的視頻數量以億計,而用戶每天能消費的視頻數量有限,因此,如何確保用戶看到的都是他們感興趣的內容,成為了算法需要不斷優化的核心問題。
在這個過程中,“召回”概念起到了關鍵作用。它通過將數以億計的內容逐步縮小到用戶可能感興趣的范圍,從而確保用戶能在有限的瀏覽時間內看到最符合他們興趣的內容。這一過程不僅依賴于復雜的數學模型,還需要算法工程師不斷調試和優化。
然而,盡管算法在推薦內容方面取得了顯著成效,但公眾對算法的誤解仍然普遍存在。其中最常見的誤解包括信息繭房、算法造神以及短視頻泛濫等。實際上,平臺并不希望助長信息繭房,而是致力于推薦多元化的內容以提高用戶活躍度。同時,算法也并非流量至上的工具,而是受到機器和人工雙重治理機制的約束。隨著抖音平臺的發展,中長視頻也逐漸獲得了更多展示機會,這得益于算法的不斷優化和平臺的積極推廣。
抖音敢于公開算法細節的舉措,不僅體現了其對透明度和用戶信任的承諾,也為整個行業樹立了榜樣。通過打開天窗說亮話,抖音讓更多人了解了算法的真實面貌,從而消除了不必要的誤解和擔憂。這種開放和透明的態度,對于促進互聯網行業的健康發展具有重要意義。