久久久久久久视色,久久电影免费精品,中文亚洲欧美乱码在线观看,在线免费播放AV片

<center id="vfaef"><input id="vfaef"><table id="vfaef"></table></input></center>

    <p id="vfaef"><kbd id="vfaef"></kbd></p>

    
    
    <pre id="vfaef"><u id="vfaef"></u></pre>

      <thead id="vfaef"><input id="vfaef"></input></thead>

    1. 站長資訊網(wǎng)
      最全最豐富的資訊網(wǎng)站

      內(nèi)容審核基礎(chǔ):審核方式、流程與審核維度


      對(duì)于資訊類產(chǎn)品和內(nèi)容內(nèi)產(chǎn)品來說,內(nèi)容審核是必不可少的環(huán)節(jié)之一。借助人工智能的發(fā)展,可以讓機(jī)器替代一部分審核工作,但由于內(nèi)容的復(fù)雜性,人工審核必不可少,而且還有其他需要考慮的點(diǎn)。這篇文章,作者為我們講解內(nèi)容審核的方式與流程,希望能對(duì)你有所幫助。

      內(nèi)容審核基礎(chǔ):審核方式、流程與審核維度

      何為內(nèi)容審核?

      簡單來說就是:對(duì)用戶在社交平臺(tái)上上傳、發(fā)布或共享的內(nèi)容(文字,圖片,音頻,視頻)進(jìn)行審查。

      其主要目的是對(duì)低質(zhì)庸俗的內(nèi)容進(jìn)行過濾篩選,從而生產(chǎn)高質(zhì)量的內(nèi)容、防止降低用戶體驗(yàn)、保持良好的內(nèi)容調(diào)性。

      而在這個(gè)過程中,平臺(tái)會(huì)對(duì)于內(nèi)容有一個(gè)專業(yè)的標(biāo)準(zhǔn)作為參考,這個(gè)時(shí)候有一個(gè)很大的問題就是人工篩選效率低,而且成本大。

      所以很多內(nèi)容平臺(tái)采用了算法進(jìn)行過濾,通過人工和算法的有效結(jié)合來提升效率。

      經(jīng)過過濾后的內(nèi)容基本上能保證無害,即使質(zhì)量不高,但也不存在風(fēng)險(xiǎn)問題。這時(shí)企業(yè)就會(huì)面對(duì)選擇是先發(fā)后審還是先審后發(fā):

      • “先發(fā)后審”:即用戶先發(fā)表UGC內(nèi)容,再經(jīng)過審核;
      • “先審后發(fā)”:即用戶提交UGC內(nèi)容后,先經(jīng)過審核,審核通過后才能發(fā)表上線。

      “先發(fā)后審”和“先審后發(fā)”的適用場(chǎng)景:

      • “先發(fā)后審”:適用于對(duì)發(fā)表內(nèi)容時(shí)效性要求較高的場(chǎng)景,如閱讀、聽歌等場(chǎng)景下的用戶評(píng)論,此時(shí)用戶發(fā)表評(píng)論更多出于即興,因此從用戶的角度考慮,希望自己發(fā)表的評(píng)論能夠馬上看到成功、有效。比如:網(wǎng)易云音樂評(píng)論。
      • “先審后發(fā)”:適用于在社區(qū)、論壇、新聞平臺(tái)等場(chǎng)景下發(fā)表文章、觀點(diǎn)、討論等,此時(shí)對(duì)于平臺(tái)方來說需要對(duì)內(nèi)容負(fù)責(zé)、并構(gòu)建權(quán)威性,因此通常要審核后才能發(fā)表。比如:抖音、人人都是產(chǎn)品經(jīng)理。

      一、審核方式

      不管是什么內(nèi)容的審核,都應(yīng)該包含以下四個(gè)基礎(chǔ)模塊:機(jī)器審核、人工審核、用戶投訴審核、結(jié)果復(fù)審。

      1. 機(jī)器審核

      是按照制定好的規(guī)則或機(jī)器學(xué)習(xí)算法對(duì)內(nèi)容進(jìn)行審核.

      通常,成熟的審核系統(tǒng)能將95%甚至99%以上的內(nèi)容都自動(dòng)審核并做出處理。確定有問題的會(huì)被自動(dòng)刪除,難以判斷是否有問題的會(huì)被標(biāo)注,進(jìn)入人工審核程序。

      2. 人工審核

      雖然用戶投訴審核和結(jié)果復(fù)審大多時(shí)候也是人工審核,但這里所說的人工審核,特指審核機(jī)器無法判別的內(nèi)容,通常占平臺(tái)內(nèi)容數(shù)量的比例不超過5%.

      但對(duì)于一些大型的內(nèi)容平臺(tái),絕對(duì)數(shù)量已經(jīng)很多了。在內(nèi)容爆炸的時(shí)代,我們看到許多平臺(tái)在全國都有多個(gè)審核中心,每個(gè)審核中心的員工數(shù)量都成千甚至上萬。

      3. 用戶投訴審核

      是前兩者的彌補(bǔ),有很多違規(guī)內(nèi)容以前沒有出現(xiàn)過;所以不在規(guī)則可以過濾的范圍內(nèi),或者非常隱蔽,規(guī)則難以嚴(yán)格過濾。

      用戶的投訴是發(fā)現(xiàn)新問題的重要渠道。通過知乎的危機(jī)事件,我們更應(yīng)該重視對(duì)投訴的審核,并及時(shí)據(jù)此對(duì)機(jī)器審核做出補(bǔ)充。

      4. 結(jié)果復(fù)審

      通常采取抽查方式,比如通過復(fù)審機(jī)器刪除的內(nèi)容,看規(guī)則或算法是否過于嚴(yán)格;比如通過查看人工刪除和通過的內(nèi)容,看員工的工作是否按要求執(zhí)行;比如通過內(nèi)容的整體巡查,看是否存在新的問題未被注意到。

      二、審核流程

      具體流程,以下圖為例:

      1. 先過機(jī)器審核,機(jī)器審核 通過 或 不通過;
      2. 對(duì)機(jī)器審核不通過的,再進(jìn)行人工復(fù)審;
      3. 對(duì)機(jī)器審核通過的,再進(jìn)行人工抽樣審核。

      內(nèi)容審核基礎(chǔ):審核方式、流程與審核維度

      三、審核的四個(gè)維度

      這里一般都是對(duì)四個(gè)維度進(jìn)行審核,關(guān)鍵字審核,用戶發(fā)布次數(shù)限制,重復(fù)內(nèi)容過濾和白/黑名單用戶。

      1. 關(guān)鍵詞審核

      詞語過濾的環(huán)節(jié),關(guān)鍵詞主要分為三類:

      1)禁止關(guān)鍵詞

      只要匹配到這個(gè)詞,內(nèi)容就被自動(dòng)刪除或禁止提交。通常只有極少數(shù)詞會(huì)被納入禁止關(guān)鍵詞,比如明確的色情、邪教以及廣告的專屬關(guān)鍵詞。

      2)審核關(guān)鍵詞

      這是最常見的關(guān)鍵詞種類,只要匹配到就會(huì)自動(dòng)進(jìn)入后臺(tái)進(jìn)行審核,文章中的關(guān)鍵詞會(huì)被高亮并羅列出來,有助于審核人員快速判斷。審核關(guān)鍵詞也應(yīng)該盡量是專屬關(guān)鍵詞,以防止太多內(nèi)容被攔截到后臺(tái)。

      3)替換關(guān)鍵詞

      在許多平臺(tái),我們會(huì)在文中看到莫名的號(hào)或字母縮寫*,這可能不是文章作者寫的,而是這個(gè)詞被系統(tǒng)自動(dòng)替換。平臺(tái)不希望出現(xiàn)這個(gè)關(guān)鍵詞,但用別的代替讀者通常也能讀懂。比如一些政治、宗教、不文明用語類詞語,都有可能被自動(dòng)替換。

      當(dāng)然,管理員在添加關(guān)鍵詞時(shí),很多時(shí)候并不是直接把關(guān)鍵詞添加到后臺(tái)。否則用戶用很簡單的方式就可以避過關(guān)鍵詞過濾,比如在關(guān)鍵詞內(nèi)加一個(gè)空格,系統(tǒng)就難以匹配到。

      所以,一般后臺(tái)都會(huì)支持限定符{x} 以限定相鄰兩字符間可忽略的文字,x 是忽略的字節(jié)數(shù)。在Discuz!網(wǎng)站后臺(tái)有明確說明,如 “a{1}s{2}s”(不含引號(hào)) 可以過濾 “ass” 也可過濾 “axsxs” 和 “axsxxs” 等等。

      對(duì)于中文字符,若使用 GBK、Big-5 版本,每個(gè)中文字符相當(dāng)于 2 個(gè)字節(jié);若使用 UTF-8 版本,每個(gè)中文字符相當(dāng)于 3 個(gè)字節(jié)。

      另外,關(guān)鍵詞還可以支持正則表達(dá)式,來匹配具有一定模式的關(guān)鍵詞。比如”/1d{10}([^d]+|$)/”(不包括引號(hào))用來匹配手機(jī)號(hào)碼。正則表達(dá)式的內(nèi)容過多,大家有興趣可以搜索學(xué)習(xí)一下。

      2. 用戶發(fā)布次數(shù)限制

      主要限制一名用戶無限制地發(fā)送評(píng)論。

      對(duì)這種情況可以設(shè)置同一用戶一分鐘內(nèi)最多發(fā)送一條評(píng)論;一小時(shí)內(nèi)最多發(fā)送10條評(píng)論,一天最多發(fā)送三十條評(píng)論,評(píng)論次數(shù)如果超出時(shí)則彈出toast“發(fā)言太多累了吧,請(qǐng)休息下”的提示。

      其實(shí)這個(gè)限制上線后,發(fā)現(xiàn)發(fā)廣告的人會(huì)不斷注冊(cè)新號(hào)來規(guī)避這個(gè)問題,后續(xù)可以考慮再加上。新用戶需注冊(cè)多長時(shí)間才可發(fā)布評(píng)論,或需綁定手機(jī)號(hào)才可以發(fā)布評(píng)論這些嚴(yán)格的條件。

      3. 重復(fù)內(nèi)容過濾

      這種一般都是對(duì)于發(fā)廣告的。

      對(duì)比時(shí)去掉除漢字外的任何符號(hào),如“抖丶音”、“快aabb手”,對(duì)比時(shí)用“抖音”“快手”;將評(píng)論與同一用戶上條評(píng)論作對(duì)比,10個(gè)漢字以上的若與其中一條重復(fù)率達(dá)70%(20,60%;30,50%)則彈出toast“請(qǐng)不要發(fā)布重復(fù)內(nèi)容”;同時(shí)將評(píng)論僅與評(píng)論庫最近發(fā)布50條的評(píng)論作對(duì)比,20個(gè)漢字以上的若與其中一條重復(fù)率達(dá)80%則機(jī)審失?。?0,70%;50,60%);

      在對(duì)比重復(fù)內(nèi)容時(shí)一定要去掉一些無關(guān)的符號(hào)。因?yàn)楹芏嘈V告喜歡加空格,逗號(hào)這些。他們也通常備用好幾條文案,可以將評(píng)論庫的拿出來對(duì)比;這樣也可以規(guī)避他們換號(hào),換文案的問題。

      4. 白名單用戶,黑名單用戶

      白名單用戶、黑名單用戶需要有個(gè)可編輯的后臺(tái),可隨時(shí)增減;若同一用戶一天內(nèi)機(jī)審失敗的評(píng)論超過10,則自動(dòng)列入黑名單。

      白名單的用戶不受發(fā)布次數(shù)限制,但內(nèi)容需要檢查廣告詞、敏感詞、屏蔽詞,如果一天內(nèi)發(fā)布的評(píng)論超過10條機(jī)審失敗,也自動(dòng)列入黑名單。列在黑名單的用戶發(fā)布評(píng)論時(shí),彈出toast“您暫時(shí)無法發(fā)布評(píng)論”或機(jī)審直接失敗。

      最后補(bǔ)充下,其實(shí)沒有對(duì)IP進(jìn)行限制是因?yàn)樵诠矃^(qū)域的wifi好像IP是一樣的,盡管非常希望處理掉垃圾評(píng)論這一問題,但我還是希望在不影響到普通用戶的前提下。

      以上基本是一個(gè)內(nèi)容審核都需要了解的點(diǎn)了。

       

      贊(0)
      分享到: 更多 (0)
      網(wǎng)站地圖   滬ICP備18035694號(hào)-2    滬公網(wǎng)安備31011702889846號(hào)