功能目標

針對客戶（業務員、用戶）輸入的信息、上傳的文件（后期），實現自動審核過濾，以達成盡可能少的人工參與！

通過程序中對文本對象進行檢測，有效降低內容違規風險。但是不能徹底解決內容違規。

我們會將大部分的違規內容，通過前端js、后臺服務自動處理，并返回處理結果；小部分違規內容，由人工參與處理，具體邏輯根據不同的業務場景提供不同的功能支持。

后期如需對圖片、音視頻文件進行內容檢測，需要對接第三方接口實現。

內容審核自動化（半）

內容檢測

內容審核方案

內容檢測方案

以上第三方支持直接針對網站內容進行檢測判斷。

文本內容檢測實施方案

1，違規詞匯檢測審核。

2，第三方接口檢測審核。

3，人工審核。

圖片、音視頻內容檢測方案

1，第三方接口檢測審核。

2，人工審核。

文本反垃圾匯總

反垃圾算法

文本信息檢測流程（半）自動化

核心是通過前端結合后端程序，對信息進行違規檢測，將大部分的違規信息，通過應用程序自動判定處理，并返回對應的處理結果。有效降低內容違規風險。

針對程序沒有檢測到的違規信息，通過人工審核的策略，下架或刪除遺漏的違規信息。

文本信息檢測處理流程

信息檢測流程概述：

1，用戶輸入文本信息，前端通過敏感詞庫進行JS校驗判斷，如果不合法，返回結果；合法，執行下一步；

2，服務端，通過敏感數據庫對信息進行檢測判斷，如果不合法，返回結果；合法，執行下一步；

3，調用第三方接口，檢測判斷，如果不合法，返回結果；合法，保存到數據庫中。【此步驟，前期可省略】

4，人工審核，功能包括：巡查審核、信息審核、禁言等操作。作為保全方案！（主要針對廣告、刷屏、添加重復數據的情況）

注意：【詞庫大，需要注意檢測方法執行時長，不影響業務的情況下，需控制在50ms以內；時長根據業務容錯而定】

補充

以上方案，對于文本內容檢測程序會增加程序響應時間（盡量控制在10ms以內），從而會進一步影響整個應用的吞吐量。

前期：代碼實現，優化方法執行邏輯，縮短程序執行時間。（測試方法執行時間）

后期可考慮應用集群。

審核結果處理方案

針對違規信息處理方案，根據不同的場景，可考慮不同的落地設計方案：

1，彈框提示

2，接口信息提示

3，信息提示

4，頻繁發送，限制

5，信息下架

6，賬號鎖定或禁用

圖片、音視頻檢測審核

前期主要針對文本信息進行檢測處理。

后期如需對圖片、音視頻文件進行內容檢測，需要對接第三方接口實現。

文本信息檢測算法

檢測方法，可參考--DFA算法/AC自動機，可有效縮短檢測方法時間。

DFA全稱為：Deterministic Finite Automaton，即確定有窮自動機。

大致是將敏感數據構建成樹的結構，完成搜索命中，然后進行處理。

AC自動機

多模式匹配算法：在主串中查找多個模式串。(字典樹+kmp算法+失配指針)

（原理todo）

前端

針對客戶輸入的信息，采用js檢測，判斷是否會命中敏感詞。

后端

服務端：通過已有的敏感詞數據表，查詢判斷。如果敏感詞較多，可使用redis進行緩存處理。

數據庫：敏感詞數據表（后期可后臺維護新增）

功能設計

場景1：添加數據

方案1，敏感詞打碼處理。
方案2，提示填寫的數據違規。

結合人工審核，信息下架處理，網站不再顯示。

視頻檢測

對接第三方，todo

日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

網站信息安全檢測、敏感詞過濾設計方案

功能目標

內容審核方案

文本內容檢測實施方案

圖片、音視頻內容檢測方案

文本反垃圾匯總

文本信息檢測流程（半）自動化

補充

審核結果處理方案

圖片、音視頻檢測審核

文本信息檢測算法

前端

后端

功能設計

視頻檢測

數獨大挑戰2018-06-03

答題星2018-06-03

全階人生考試2018-06-03

運動步數有氧達人2018-06-03

每日養生app2018-06-03

體育訓練成績評定2018-06-03