7月22日,由澎湃新聞網主辦的“新潮·澎湃”2021外灘新媒體峰會在上海拉開帷幕。數美科技CTO兼聯合創始人梁堃受邀參加了《新技術助力網絡內容生態治理》圓桌論壇,針對AI識別違規內容所面臨的挑戰及機器識別涉政違規信息等內容做了分享。
網絡安全,是國家數字化戰略的“底盤”。內容安全,是國家數字化戰略的“方向盤”。對于文字、圖片、音頻、視頻等多種形態的網絡信息,我們在審核時面臨哪些挑戰?
數美科技CTO梁堃表示,通過AI識別違規內容面臨三個挑戰:
第一個挑戰是內容量大,如何提高機審效率是頭一個挑戰。比如,每天數美科技AI實時審核的音頻累計時長超過100年。這就對平臺的處理效率、穩定性提出了挑戰;
第二個挑戰是內容安全定義比較“泛”,需要識別的維度非常多。比如,數美科技視頻/圖片產品以標簽的形式定義了上千個不同的違規類型,背后有27個不同的視覺AI模型在識別這些標簽;
第三,做違規內容識別時,發布人可能存在“對抗性”。對于“對抗性”,梁堃解釋道,“比如姓名的變體、影射,或者是在漫畫和視頻中涂抹、修改,或通過影子和鏡子來傳達信息”。
梁堃表示,這就需要在識別算法上不斷改進。目前,數美科技不僅有用于識別風險內容的人工智能技術,還有用于對抗黑產的基于行為畫像的全棧式實時智能風控引擎“天網”,通過內容+畫像的組合拳,才能夠達到更好的識別效果。
針對當前涉政違規信息機器識別率相對不高的問題,梁堃表示,“涉政”的概念是比較寬泛的,模型對一個文本、圖片是不是涉及到政治可以識別的很好。對于涉政內容的各種變體,數美科技研發了專門的變體引擎,也基本上解決了這類問題。目前,模型面臨的挑戰——“導向是否正確”,針對這個挑戰我們研發了正負向標簽,有望解決這些問題。目前最好的解決方案是機器先審核,再通過人工判斷導向是否正確。
如今網絡空間每天新增的信息數以億計,網絡內容生態治理不容忽視。2021外灘新媒體峰會上,數美科技CTO梁堃與數位業界專家圍繞《新技術助力網絡內容生態治理》展開精彩研討,為廣大行業從業者提供了更多落地的參考方向和思路。未來,數美科技將以AI力量持續賦能網絡內容生態治理,清朗網絡空間,踐行時代擔當。