對于資訊類產(chǎn)品和內容內產(chǎn)品來說,內容審核是必不可少的環(huán)節(jié)之一。借助人工智能的發(fā)展,可以讓機器替代一部分審核工作,但由于內容的復雜性,人工審核必不可少,而且還有其他需要考慮的點。這篇文章,作者為我們講解內容審核的方式與流程,希望能對你有所幫助。
何為內容審核?
簡單來說就是:對用戶在社交平臺上上傳、發(fā)布或共享的內容(文字,圖片,音頻,視頻)進行審查。
其主要目的是對低質庸俗的內容進行過濾篩選,從而生產(chǎn)高質量的內容、防止降低用戶體驗、保持良好的內容調性。
而在這個過程中,平臺會對于內容有一個專業(yè)的標準作為參考,這個時候有一個很大的問題就是人工篩選效率低,而且成本大。
所以很多內容平臺采用了算法進行過濾,通過人工和算法的有效結合來提升效率。
經(jīng)過過濾后的內容基本上能保證無害,即使質量不高,但也不存在風險問題。這時企業(yè)就會面對選擇是先發(fā)后審還是先審后發(fā):
- “先發(fā)后審”:即用戶先發(fā)表UGC內容,再經(jīng)過審核;
- “先審后發(fā)”:即用戶提交UGC內容后,先經(jīng)過審核,審核通過后才能發(fā)表上線。
“先發(fā)后審”和“先審后發(fā)”的適用場景:
- “先發(fā)后審”:適用于對發(fā)表內容時效性要求較高的場景,如閱讀、聽歌等場景下的用戶評論,此時用戶發(fā)表評論更多出于即興,因此從用戶的角度考慮,希望自己發(fā)表的評論能夠馬上看到成功、有效。比如:網(wǎng)易云音樂評論。
- “先審后發(fā)”:適用于在社區(qū)、論壇、新聞平臺等場景下發(fā)表文章、觀點、討論等,此時對于平臺方來說需要對內容負責、并構建權威性,因此通常要審核后才能發(fā)表。比如:抖音、人人都是產(chǎn)品經(jīng)理。
一、審核方式
不管是什么內容的審核,都應該包含以下四個基礎模塊:機器審核、人工審核、用戶投訴審核、結果復審。
1. 機器審核
是按照制定好的規(guī)則或機器學習算法對內容進行審核.
通常,成熟的審核系統(tǒng)能將95%甚至99%以上的內容都自動審核并做出處理。確定有問題的會被自動刪除,難以判斷是否有問題的會被標注,進入人工審核程序。
2. 人工審核
雖然用戶投訴審核和結果復審大多時候也是人工審核,但這里所說的人工審核,特指審核機器無法判別的內容,通常占平臺內容數(shù)量的比例不超過5%.
但對于一些大型的內容平臺,絕對數(shù)量已經(jīng)很多了。在內容爆炸的時代,我們看到許多平臺在全國都有多個審核中心,每個審核中心的員工數(shù)量都成千甚至上萬。
3. 用戶投訴審核
是前兩者的彌補,有很多違規(guī)內容以前沒有出現(xiàn)過;所以不在規(guī)則可以過濾的范圍內,或者非常隱蔽,規(guī)則難以嚴格過濾。
用戶的投訴是發(fā)現(xiàn)新問題的重要渠道。通過知乎的危機事件,我們更應該重視對投訴的審核,并及時據(jù)此對機器審核做出補充。
4. 結果復審
通常采取抽查方式,比如通過復審機器刪除的內容,看規(guī)則或算法是否過于嚴格;比如通過查看人工刪除和通過的內容,看員工的工作是否按要求執(zhí)行;比如通過內容的整體巡查,看是否存在新的問題未被注意到。
二、審核流程
具體流程,以下圖為例:
- 先過機器審核,機器審核 通過 或 不通過;
- 對機器審核不通過的,再進行人工復審;
- 對機器審核通過的,再進行人工抽樣審核。
三、審核的四個維度
這里一般都是對四個維度進行審核,關鍵字審核,用戶發(fā)布次數(shù)限制,重復內容過濾和白/黑名單用戶。
1. 關鍵詞審核
詞語過濾的環(huán)節(jié),關鍵詞主要分為三類:
1)禁止關鍵詞
只要匹配到這個詞,內容就被自動刪除或禁止提交。通常只有極少數(shù)詞會被納入禁止關鍵詞,比如明確的色情、邪教以及廣告的專屬關鍵詞。
2)審核關鍵詞
這是最常見的關鍵詞種類,只要匹配到就會自動進入后臺進行審核,文章中的關鍵詞會被高亮并羅列出來,有助于審核人員快速判斷。審核關鍵詞也應該盡量是專屬關鍵詞,以防止太多內容被攔截到后臺。
3)替換關鍵詞
在許多平臺,我們會在文中看到莫名的號或字母縮寫*,這可能不是文章作者寫的,而是這個詞被系統(tǒng)自動替換。平臺不希望出現(xiàn)這個關鍵詞,但用別的代替讀者通常也能讀懂。比如一些政治、宗教、不文明用語類詞語,都有可能被自動替換。
當然,管理員在添加關鍵詞時,很多時候并不是直接把關鍵詞添加到后臺。否則用戶用很簡單的方式就可以避過關鍵詞過濾,比如在關鍵詞內加一個空格,系統(tǒng)就難以匹配到。
所以,一般后臺都會支持限定符{x} 以限定相鄰兩字符間可忽略的文字,x 是忽略的字節(jié)數(shù)。在Discuz!網(wǎng)站后臺有明確說明,如 “a{1}s{2}s”(不含引號) 可以過濾 “ass” 也可過濾 “axsxs” 和 “axsxxs” 等等。
對于中文字符,若使用 GBK、Big-5 版本,每個中文字符相當于 2 個字節(jié);若使用 UTF-8 版本,每個中文字符相當于 3 個字節(jié)。
另外,關鍵詞還可以支持正則表達式,來匹配具有一定模式的關鍵詞。比如”/1d{10}([^d]+|$)/”(不包括引號)用來匹配手機號碼。正則表達式的內容過多,大家有興趣可以搜索學習一下。
2. 用戶發(fā)布次數(shù)限制
主要限制一名用戶無限制地發(fā)送評論。
對這種情況可以設置同一用戶一分鐘內最多發(fā)送一條評論;一小時內最多發(fā)送10條評論,一天最多發(fā)送三十條評論,評論次數(shù)如果超出時則彈出toast“發(fā)言太多累了吧,請休息下”的提示。
其實這個限制上線后,發(fā)現(xiàn)發(fā)廣告的人會不斷注冊新號來規(guī)避這個問題,后續(xù)可以考慮再加上。新用戶需注冊多長時間才可發(fā)布評論,或需綁定手機號才可以發(fā)布評論這些嚴格的條件。
3. 重復內容過濾
這種一般都是對于發(fā)廣告的。
對比時去掉除漢字外的任何符號,如“抖丶音”、“快aabb手”,對比時用“抖音”“快手”;將評論與同一用戶上條評論作對比,10個漢字以上的若與其中一條重復率達70%(20,60%;30,50%)則彈出toast“請不要發(fā)布重復內容”;同時將評論僅與評論庫最近發(fā)布50條的評論作對比,20個漢字以上的若與其中一條重復率達80%則機審失?。?0,70%;50,60%);
在對比重復內容時一定要去掉一些無關的符號。因為很多小廣告喜歡加空格,逗號這些。他們也通常備用好幾條文案,可以將評論庫的拿出來對比;這樣也可以規(guī)避他們換號,換文案的問題。
4. 白名單用戶,黑名單用戶
白名單用戶、黑名單用戶需要有個可編輯的后臺,可隨時增減;若同一用戶一天內機審失敗的評論超過10,則自動列入黑名單。
白名單的用戶不受發(fā)布次數(shù)限制,但內容需要檢查廣告詞、敏感詞、屏蔽詞,如果一天內發(fā)布的評論超過10條機審失敗,也自動列入黑名單。列在黑名單的用戶發(fā)布評論時,彈出toast“您暫時無法發(fā)布評論”或機審直接失敗。
最后補充下,其實沒有對IP進行限制是因為在公共區(qū)域的wifi好像IP是一樣的,盡管非常希望處理掉垃圾評論這一問題,但我還是希望在不影響到普通用戶的前提下。
以上基本是一個內容審核都需要了解的點了。