功能目標
針對客戶(業務員、用戶)輸入的信息、上傳的文件(后期),實現自動審核過濾,以達成盡可能少的人工參與!
通過程序中對文本對象進行檢測,有效降低內容違規風險。但是不能徹底解決內容違規。
我們會將大部分的違規內容,通過前端js、后臺服務自動處理,并返回處理結果;小部分違規內容,由人工參與處理,具體邏輯根據不同的業務場景提供不同的功能支持。
后期如需對圖片、音視頻文件進行內容檢測,需要對接第三方接口實現。
內容審核自動化(半)
內容檢測
內容審核方案
內容檢測方案
以上第三方支持直接針對網站內容進行檢測判斷。
文本內容檢測實施方案
1,違規詞匯檢測審核。
2,第三方接口檢測審核。
3,人工審核。
圖片、音視頻內容檢測方案
1,第三方接口檢測審核。
2,人工審核。
文本反垃圾匯總
反垃圾算法
文本信息檢測流程(半)自動化
核心是通過前端結合后端程序,對信息進行違規檢測,將大部分的違規信息,通過應用程序自動判定處理,并返回對應的處理結果。有效降低內容違規風險。
針對程序沒有檢測到的違規信息,通過人工審核的策略,下架或刪除遺漏的違規信息。
文本信息檢測處理流程
信息檢測流程概述:
1,用戶輸入文本信息,前端通過敏感詞庫進行JS校驗判斷,如果不合法,返回結果;合法,執行下一步;
2,服務端,通過敏感數據庫對信息進行檢測判斷,如果不合法,返回結果;合法,執行下一步;
3,調用第三方接口,檢測判斷,如果不合法,返回結果;合法,保存到數據庫中。【此步驟,前期可省略】
4,人工審核,功能包括:巡查審核、信息審核、禁言等操作。作為保全方案!(主要針對廣告、刷屏、添加重復數據的情況)
注意:【詞庫大,需要注意檢測方法執行時長,不影響業務的情況下,需控制在50ms以內;時長根據業務容錯而定】
補充
以上方案,對于文本內容檢測程序會增加程序響應時間(盡量控制在10ms以內),從而會進一步影響整個應用的吞吐量。
前期:代碼實現,優化方法執行邏輯,縮短程序執行時間。(測試方法執行時間)
后期可考慮應用集群。
審核結果處理方案
針對違規信息處理方案,根據不同的場景,可考慮不同的落地設計方案:
1,彈框提示
2,接口信息提示
3,信息提示
4,頻繁發送,限制
5,信息下架
6,賬號鎖定或禁用
圖片、音視頻檢測審核
前期主要針對文本信息進行檢測處理。
后期如需對圖片、音視頻文件進行內容檢測,需要對接第三方接口實現。
文本信息檢測算法
檢測方法,可參考--DFA算法/AC自動機,可有效縮短檢測方法時間。
- DFA全稱為:Deterministic Finite Automaton,即確定有窮自動機。
大致是將敏感數據構建成樹的結構,完成搜索命中,然后進行處理。
- AC自動機
多模式匹配算法:在主串中查找多個模式串。(字典樹+kmp算法+失配指針)
(原理todo)
前端
針對客戶輸入的信息,采用js檢測,判斷是否會命中敏感詞。
后端
服務端:通過已有的敏感詞數據表,查詢判斷。如果敏感詞較多,可使用redis進行緩存處理。
數據庫:敏感詞數據表(后期可后臺維護新增)
功能設計
場景1:添加數據
- 方案1,敏感詞打碼處理。
- 方案2,提示填寫的數據違規。
結合人工審核,信息下架處理,網站不再顯示。
視頻檢測
對接第三方,todo