日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

近日,以“新技術,新機會”為主題的2021 LiveVideoStackCon 北京站如期召開。人與人、人與機器之間的交互將更加身臨其境,視覺和聽覺感官刺激前所未有的被滿足,技術的升級正在創造想象中的新應用。作為多媒體技術領域的盛會,大會聚焦在音頻、視頻、圖像等技術的最新探索與應用實踐,覆蓋教育、娛樂、醫療、安防、交通、制造、旅游、電商、金融、社交、游戲、智能設備、IC等行業領域。

眾所周知,互聯網平臺在確保線上內容安全時需要極大的人力成本,相對于原來傳統的有監督,半監督和自監督中的“半”和“自”代表只用一半的標簽、一半的資源或者是不用標簽也能達到很好的效果。

深度學習領域中,半監督、自監督算法通過借助無標簽數據與無監督訓練任務,可有效改善傳統有監督算法中“泛化性能不足”、“模型過擬合”、“嚴重依賴數據標注質量”等問題。

網易易盾資深算法工程師崔若璇在2021 LiveVideoStackCon 北京站發表技術分享,她總結了半監督學習領域的發展脈絡,并展示半監督、自監督算法在網易易盾數字內容風控業務上的創新應用,希望為聽眾在“降低數據標注成本”、“提升深度學習模型效果”方面帶來一些啟發。

本次的分享分為三大部分:

?網易易盾在數字內容風控領域的業務背景

?半監督和自監督近年的前沿算法思想,以及對內容風控業務的適用性分析

?網易易盾在新算法以及業務解決方案上的實踐

以下為演講全文:

一、數字內容風控下的AI價值

1. 1 業務背景

隨著移動終端5G的快速發展,內容生成的速度加快,內容審核的要求也越來越高。也就是說,內容業務端在風控過程中,面對的數據量將出現“大爆發”。其次,面對的數據形式也從以往的以文本、圖像為主,演變為現在的文本、圖像、視頻等各個數據類型。近兩年,政府加強了內容監管方面的工作,這對內容風控的從業者來說,不僅是一次好機會,也是一個大挑戰。

關于網易易盾的業務背景,我們致力于對“色情”、“低俗”、“廣告”、“暴恐”和“違禁”等違規內容進行智能檢測與處理,面對的數據任務形式包含但不限于圖像、視頻、語音和NLP。

1. 2 關鍵點

作為數字內容風控行業的領軍者,網易易盾多年來在內容風控領域積累了豐富的業務和技術經驗。對于內容風控任務的關鍵點,我們總結為以下幾方面:

1、識別內容敏感:內容風控領域經常面對敏感內容,這部分內容會對網絡受眾和審核人員造成傷害。

2、開放式攻防場景:做內容風控需要經常與黑灰產業斗智斗勇,所謂“我在明,敵在暗”,黑灰產的攻擊形式層出不窮。因此,內容風控不是一勞永逸的工作,而是一項需要持續不斷地考察問題、創新解決的挑戰。

3、極致的識別效果:客戶對內容風控的要求非常高,畢竟安全無小事,所以在一些任務特殊的、范圍廣、細分繁雜的內容風控領域,對產品的識別效果要求可謂極致。

4、要求敏捷響應:凡是涉及到安全問題的業務都至關重要,我們的全部技術團隊、產品團隊、以及市場和銷售團隊,都要具備敏捷響應的能力。

以上四項關鍵點也映射出進行內容風控算法設計時遇到的四個痛點:

1、 由于識別內容敏感,收集、標注數據過程存在著成本高、傷害大、數據量少的問題。

2、開放式的防御場景經常會遇到新形式的攻擊類型,這要求整個團隊要具有超高的業務洞察力、全面的算法技術儲備,才能高效地給出最合適的解決方案。

3、業務需要我們具備極致的識別效果,但是目前常見的有監督訓練算法已經面臨數據積累和效果提升的瓶頸,這也推動著我們必須從算法訓練角度做出突破。

4、內容風控領域離不開敏捷的反應。正如前文提到的,業務安全領域數據收集難度大,這會拖慢整個算法優化進度。

1. 3 常見AI算法點評

此處向大家簡要介紹下常見的AI算法及其特點。目前的AI算法主要包括兩個重要環節,一個是數據收集,另一個模型訓練(常見的訓練方式是有監督訓練)。具體來說,AI算法迭代循環一般經歷以下幾個環節:遇到問題、收集相應數據并標注、擴充數據集進行模型訓練,從此遇到新問題后再循環往復。

可以看到,以上環節之間形成一個閉環鏈條,循環往復,理想情況下算法效果會至臻完美,但實際操作中整個過程成本高昂、進展緩慢。同時,算法效果也極大地依賴于數據的收集、標注和質檢質量。再加之有監督訓練存在天然的弊端,“過擬合”、“泛化性能差”等問題也會限制模型的訓練效果。以上種種困難集中在一起,難免人工智能經常會被詬病為“有多少人工就有多少智能”。

二、前沿深度學習算法簡述

了解了當前業務、技術的背景情況和痛點問題,我們在此為大家帶來半監督、自監督學習領域交出的一份“解題答卷”。此領域的解決方案,也是主要包含了數據使用、模型訓練兩大重點,接下來我們就從以上兩點出發為大家簡要介紹半監督、自監督方法為何有效。

2. 1 算法介紹

首先是數據層面。(a)圖以一個二分類任務為例,展示了幾種訓練方法中數據標簽的不同使用方式。圓圈代表數據樣本,其顏色代表標簽信息(紅藍彩色代表標注的分類標簽,灰色代表未標注,帶線條陰影的彩色代表標注標簽在某些階段使用并在某些階段不使用;圓圈中一條黑色的線代表兩個類別的決策邊界)。簡單來說,半監督和自監督就是對數據標簽進行花樣使用“時而用、時而不用,可用可不用”。

其次在模型訓練層面,半監督和自監督相比有監督有什么獨特之處?我們經常遇到的是右下角這種與實際業務強相關的模型訓練任務,比如違禁圖片分類、敏感元素檢測與分割等。

舉個例子,現在要對暴恐元素進行識別,我們最簡單的方案就是將其簡化為一個暴恐元素檢測任務,需要進行暴恐元素數據標注、檢測模型訓練等步驟,其中第二步可以直接借鑒當前很成熟的檢測任務來進行訓練。

而半監督和自監督算法則會引入新的訓練任務,如左上角所示,它會設計一些輔助訓練任務,而這些任務可能看起來和業務需求毫不相干。比如預測圖像塊旋轉角度、預測圖像塊是否來自同一張圖、將一張圖打亂順序后重新拼圖等。

還是以“暴恐元素識別業務”為例,自監督訓練過程不需要對數據進行暴恐元素的標注,它會對圖片進行特定角度的旋轉,然后讓模型學會預測這個旋轉角度。看似這個學習過程對實際業務沒有任何幫助,但其實半監督和自監督是通過輔助任務來加強模型對于通用特征的學習能力。

也就是說,我們先不告訴模型學什么,先讓模型自己去看數據,總結規律,有一些懵懂的認識,打好基礎。然后再借助少量有標簽數據,進行業務相關的針對性學習。

我們再用兩個淺顯易懂的例子來展示半監督和自監督的學習方式:

半監督就好比是“助教借我抄作業”。所謂“助教”,就是我們針對這個新的習題,沒有權威的標簽,也就是沒有老師給的權威答案。但半監督可以用現有的標簽訓練一些不是很完美的模型來打偽標簽,這個偽標簽就類似于助教給的參考答案。半監督在讓學生去模仿這些參考答案,從而獲得學習能力。

而無監督就好比是“學生之間私下對答案”。沒有標準答案,那我們幾個同學都去把這些題多做幾遍,大家校對一下做題過程和思路,從而能歸納出一些特點和規律,對知識有一些懵懂的認知。

2.2“數字內容風控”適用性分析

回歸到業務上,半監督和自監督算法為什么適用于“數字內容風控”業務?

第一,“更合理”:半監督和自監督很符合人類的認知方式,就像嬰兒學習東西時不是每一樣東西都要拿著去問父母、問老師,它的標準答案是什么,而是在見到了很多東西后,能夠自己總結出它們的特點。

第二,“提效果”:半監督和自監督能夠利用海量容易獲取的無標簽數據,并引入更多維的模型訓練任務。有這兩方面加持,它可以更大化地發揮人工智能“數據驅動”的優勢,從而提升模型的效果和泛化能力。

第三,“提效率”:半監督和自監督極大縮短了傳統優化過程中數據獲取的周期,從而提升整個算法迭代效率。

第四,“減成本”:還是上述提到的數據問題,半監督和自監督很大程度上減免了人工標注、質檢的成本,也減少了內容風控業務數據對人工的傷害。

三、易盾創新實踐案例

3. 1 前沿算法落地

對于半監督和自監督算法的落地,網易易盾采取了兩種形式的應用,在不同業務中都取得了優異表現。

第一種是串聯嘗試,即上圖右側流程圖中間的三個串聯訓練過程:兩個自監督訓練和一個半監督訓練。首先是在ImageNet數據域上的自監督訓練,旨在提升該數據域上模型的通用特征提取能力;其次是在實際業務數據域上的自監督訓練,算是一個數據域的過渡,旨在提升業務數據域上模型的通用特征提取能力;最后是一個針對特定業務任務的半監督訓練,旨在針對性地提升模型對于特定業務任務的表現。

上述串聯結構的創新點總結有:

首先,我們為數字風控任務針對性地引入、設計自監督訓練任務。比如在“暴力恐怖”識別任務中引入無監督輔助訓練任務,提升模型對于業務數據的通用特征提取能力,不再受限于任務本身。結合上后期的半監督訓練微調,算法整體能達到更好的效果。

其次,我們對內容分控業務,針對性地設計了偽標簽數據的篩選規則。設計過程借鑒了Meta learning等半監督前沿算法中的一些思想,比如怎么選擇無標簽數據集?選擇之后怎么用?用完之后新數據怎么回流?這些問題都可以通過模型自動化確定規則。

第二種嘗試是并聯結構,即不同任務并聯地同時進行訓練。和圖中UDA算法的想法類似:左邊是傳統的有監督的訓練Loss,右邊是一個或多個無監督的訓練Loss,在具體訓練時我們借鑒了FixMatch、Self-tuning等多篇研究成果,并根據內容風控業務特點做了針對性修改,從而多種Loss協同共同訓練。

總結一下以上兩個實際落地的算法結構,網易易盾將半監督和自監督上算法應用于數字內容風控領域時,聚焦于三大主要工作:

一是,開創性地引入和設計與業務特點相關的無監督訓練任務。

二是,借助了豐富的數據資源。此處“豐富”不僅指大量業務數據,也包含海量的業務以外的如公開數據集,甚至ImageNet1000 分類等。

三是,我們開創了新的迭代流程。傳統來看,一個算法的迭代流程就是“收集數據-打標簽-模型訓練”幾步。在引入半監督和自監督的元素以后,算法迭代流程改良為自動回流數據、自動篩選合適的數據進入訓練、自動進行訓練方案的設計。

3. 2 效果展示

接下來,我們簡單展示一下借助半監督、自監督算法,我們易盾產品在一個檢測任務上的優異表現。

左側是奧運會場景上的國旗檢測,可以看到即使出現很多次國旗遮擋的情況,模型都能敏捷地檢測出國旗位置。

右側也是國旗檢測,其中不僅涉及到目標在不同方向的轉換,還有小目標檢測的問題,可以看到檢測算法都表現良好。

在易盾官網,我們為企業客戶提供了免費的網頁版“內容檢測”體驗,其中涉及到的內容非常多,比如廣告過濾、色情過濾、暴恐過濾。以下是兩張檢測結果示例:

兩張圖檢測出來都是廣告,不同的是,左側100%命中了通用廣告,右邊疑似手寫體廣告。這個結果也是因為我們在實際攻防布控時,不是用一套簡單的規則,輸出一個簡單的標簽,而且實際上對數據、甚至對數據來源進行了全方位、多角度的分析,可以輸出細化的多維度的標簽。

四、總結

本次分享主要從技術的角度,簡單地介紹了半監督、自監督的前沿算法與其在網易易盾產品中的應用。不過由于半監督、自監督訓練方法的通用性,只要是用到AI模型的場景,都可以用今天講到的技術去優化。希望本次分享能為不同領域的實踐者帶來啟發。

分享到:
標簽:網易易盾
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定