網易易盾正式發布AIGC內容風控解決方案-魔扣目錄

2023年，注定是AIGC發展的關鍵一年，它標志著人工智能逐漸從學術研究走向產業化，并與商業融合形成互為支點的發展格局，進入產業商用期。

技術無罪，商用卻有風險。不少AIGC平臺在上線后僅僅幾天時間內就頻頻遭遇翻車。究其背后,是國家對人工智能技術發展的引導和規范體現。

4月11日，國家互聯網信息辦公室公布了《生成式人工智能服務管理辦法(征求意見稿)》(以下簡稱辦法)。這代表著，國內即將迎來首個AIGC新規。其中，在《辦法》的21條政策中釋放出了一條的關鍵信號，國家支持AIGC的健康發展和商業應用，前提必須是合法合規，且有13條規定都明確指向了”AIGC 提供商“。

在此背景下，網易易盾從AIGC提供商運營角度出發，結合國家政策與豐富的行業經驗，提供覆蓋事前—平臺運營前置的風險、事中—平臺內容合規風險、事后—投訴與違規處理風險的全流程解決方案。

01 事前—平臺運營前置風險

1. AI算法治理

從算法治理角度出發，AIGC提供商有責任在平臺投入使用前對可能產生的問題進行預估、判定并制定相對應的措施，對算法使用過程中的安全監測、算法評估以及算法推薦對個人信息主體帶來的影響等內容進行規范。

同時，《辦法》中明確規定，AIGC服務及生成內容必須“符合社會主義的價值觀”，防止出現民族、信仰等歧視、尊重商業道德、尊重他人合法權益、“防止生成虛假信息”等意識形態與價值傾向問題。

因此，人工智能服務提供者應當對生成式人工智能產品的預訓練數據、優化訓練數據來源的合法性負責，提供預訓練和優化訓練數據的來源等描述，人工標注規則，人工標注數據的規模和類型等必要信息。

由于大模型依賴訓練數據，在數據輸入層面可能會存在惡意操縱的風險，包括有毒輸入、偏見、意識形態攻擊、輿論操控、虛假信息、隱私泄露等。因此，模型訓練語料庫基本決定AIGC生成內容的價值觀。數據標注是AI數據訓練流程中的“關鍵一步”，純凈、貼合AI應用場景的數據源可解決數據訓練中90%的問題。

對此，易盾可對模型訓練語料庫提供人工標注服務。易盾擁有頭部企業海量數據的標注經驗，可快速、準確地提供專業人工標注服務，涵蓋文字、圖片、音視頻及特殊場景和人物，同時對激增數據量可建立應急響應流程，為模型訓練提供貼合使用場景的高質量數據。

2. 安全管理制度

用戶認證管理

AIGC提供商需提供涵蓋用戶認證、重點群體保護和算法透明服務。按照《中華人民共和國網絡安全法》規定，提供生成式人工智能服務應當要求用戶提供真實身份信息。

在強化信息認證能力方面，易盾提供多種身份驗證方式，靈活組合;創新算法能力，有效應對AI技術合成人臉、3D面具等假體攻擊;同時在登錄注冊或使用AIGC服務前集成調用信息認證能力，減少惡意注冊的安全風險。

技術安全評估

《互聯網信息服務深度合成管理規定》第二十條深度合成服務提供者開發上線具有輿論屬性或者社會動員能力的新產品、新應用、新功能的，應當按照國家有關規定開展安全評估。

易盾可協助AIGC提供商建立健全AIGC相關的安全管理制度及業務技術資料的支持，協助企業進行現場迎檢，包括文件準備，人員訪談，技術檢測，問題記錄，問題整改。

服務算法備案

AIGC提供商應按照《互聯網信息服務算法推薦管理規定》履行算法備案和變更、注銷備案手續。易盾可提供算法備案咨詢全流程服務，協助企業完成備案信息填報。

02 事中—平臺內容合規風險

1.AI實時交互內容審核

為了遵守法律法規和體現社會主義核心價值觀，對于實時交互內容審核和利用AI生成內容，需要加強敏感內容審核，例如涉政、涉黃、涉暴等內容，以確保信息的安全和合規性。然而，特殊的prompt指令可能會繞過AI自身的安全機制，增加審核的難度和復雜度。

為了解決這個問題，網易易盾提供了針對AIGC+UGC場景下的機器審核能力，可根據業務場景配置審核的松緊程度，選擇適當的審核策略來滿足不同場景的合規要求。

如在語聊對話場景中，存在真實用戶和智能機器人兩種角色，這要求機審能夠快速識別不良信息，確保人機聊天的實時性。易盾的機審技術可根據業務場景不同，在UGC內容和AIGC生成內容配置不同的松緊度審核策略，兼顧用戶使用體驗和內容安全合規性。

2.上下文關聯分析+人審

AI生成內容由于算法機制原因，存在用戶利用敏感話題、循序誘導提問等方式輸出不當AIGC內容的情況，特別是包含多條上下文內容，單詞條閱讀沒有問題，關聯上下文多詞條閱讀會有違法違規的信息，違法人員常借用藏頭詩、情景劇本、歌詞等形式生成長文本(長圖)分享，來躲避平臺的審查機制。

網易易盾自主研發AI語義分析技術，提供AI機審上下文關聯能力;并結合人工審核，對AI生成的長圖分享、記憶薄等內容進行關聯檢測分析。另外易盾自主研發的人工審核系統能還原真實對話場景，區分AI機器人與真實用戶的會話，大幅提高審核精準度及審核效率，有效識別和防范用戶利用敏感話題、循序誘導提問等方式輸出不當信息。

3.AI偽造內容識別

由于Deepfake等技術的濫用可能會導致嚴重的詐騙和欺詐行為，因此需要采取措施來打擊AI濫用行為。易盾基于深度偽造識別算法，打造了動態防御機制，可以識別由AI生成的視頻或音頻。這種技術可以識別Deepfake等虛假信息，從而保護社交網絡和其他在線平臺的用戶免受欺詐和詐騙的侵害。

根據《互聯網信息服務深度合成管理規定》對于由AI生成的圖片、視頻等內容需要進行標識，以確保信息的真實性和準確性，避免虛假信息的傳播造成不良影響。網易易盾建議平臺提供深度合成內容的顯著標識功能，用戶在創作AIGC內容的時候可以自行完成顯著標識的標記操作。標識AI生成的內容，以及采取防御措施來打擊AI濫用行為，是確保互聯網信息安全的重要措施。