敏感詞風(fēng)控策略是風(fēng)控法體系中最基礎(chǔ)的,但同時(shí)也是最繁瑣的。敏感詞運(yùn)營(yíng)系統(tǒng)的搭建應(yīng)該如何做好呢?
基于敏感詞的風(fēng)控策略是所有風(fēng)控體系中最基礎(chǔ)的,內(nèi)容簡(jiǎn)單但瑣碎,系統(tǒng)涉及從用戶發(fā)布到用戶舉報(bào)、命中策略到審核處理、用戶畫像到AI識(shí)別等方方面面。
本次系統(tǒng)性的整理總結(jié)了工作以來在敏感詞運(yùn)營(yíng)系統(tǒng)搭建方面的經(jīng)驗(yàn)和想法,作為自我總結(jié)回顧的同時(shí),也希望分享出來避免其他同學(xué)在敏感詞運(yùn)營(yíng)方面少走彎路。
一、產(chǎn)品概述
1.1? 產(chǎn)品背景介紹
敏感詞系統(tǒng)是搜索和內(nèi)容類產(chǎn)品的基礎(chǔ)風(fēng)控類系統(tǒng)。本文從詞庫(kù)匹配出發(fā),涉及敏感詞添加、命中方式、影響業(yè)務(wù)和影響用戶等多個(gè)維度,全面介紹敏感詞體系搭建的結(jié)構(gòu)和流程。
1.2 產(chǎn)品功能概述
通過本系統(tǒng)可以過濾基礎(chǔ)的文本敏感內(nèi)容;可以結(jié)合業(yè)務(wù)線靈活掌握敏感詞過濾方式,以及觸及敏感詞的用戶。
1.3 名詞介紹
詞庫(kù):同一類別的敏感詞所組成的一個(gè)大類。本文中有四大詞庫(kù)(紅線詞庫(kù)、敏感詞庫(kù)、危險(xiǎn)詞庫(kù)),每一個(gè)詞庫(kù)中有三級(jí)分類。
詞過濾:針對(duì)搜索業(yè)務(wù),對(duì)搜索詞直接過濾。
結(jié)果過濾:針對(duì)命中敏感詞的結(jié)果直接過濾。
二、使用場(chǎng)景
敏感詞系統(tǒng)最基本的功能有匹配詞庫(kù)就足夠,但是面對(duì)越來越多的越來越復(fù)雜的產(chǎn)品形態(tài),單一的敏感詞系統(tǒng)使用場(chǎng)景的問題基本有以下四類:
場(chǎng)景一:A產(chǎn)品要小規(guī)模內(nèi)測(cè)上線,產(chǎn)品中的評(píng)論功能需要接入最基本的敏感詞控制風(fēng)險(xiǎn),但是面對(duì)運(yùn)營(yíng)的詞庫(kù)找不到哪些屬于“基本”敏感詞;
場(chǎng)景二:B產(chǎn)品被用戶反饋有低俗色情內(nèi)容,但敏感詞明明已經(jīng)添加過了,經(jīng)檢查發(fā)現(xiàn)該敏感詞只管控了甲業(yè)務(wù),新上的乙業(yè)務(wù)沒有添加管控而被用戶投訴;
場(chǎng)景三:C產(chǎn)品被老大反饋?zhàn)约喊l(fā)表的評(píng)論消失了,開發(fā)查到是命中了敏感詞導(dǎo)致找到了運(yùn)營(yíng),但運(yùn)營(yíng)認(rèn)為這個(gè)詞字面上看確實(shí)有問題,可說不出添加依據(jù);
場(chǎng)景四:及時(shí)手握大量敏感詞,但依舊依靠人工排查來擴(kuò)充詞庫(kù),費(fèi)時(shí)費(fèi)力;
因此,在本系統(tǒng)會(huì)嘗試解決以上四類問題。
三、產(chǎn)品需求
1. 核心路徑
用戶:輸入/發(fā)布–>敏感詞檢測(cè)–>過濾–>結(jié)果展示;
運(yùn)營(yíng):發(fā)現(xiàn)敏感詞–>評(píng)估–>添加–>處理被過濾內(nèi)容。
2. 模塊結(jié)構(gòu)
3. 功能樹
系統(tǒng)以詞庫(kù)為基礎(chǔ),將敏感詞根據(jù)重要程度不同,區(qū)分不同類別,如紅線類別,敏感類別,危險(xiǎn)類別等等,不同類別結(jié)合用戶維度和地域維度,正則匹配或精確匹配等不同匹配方式,作用于不同業(yè)務(wù),產(chǎn)生不同效果。
4. 頁(yè)面結(jié)構(gòu)
5. 原型設(shè)計(jì)
5.1 策略配置
背景功能:詞庫(kù)和業(yè)務(wù)結(jié)合??刂朴绊懛绞剑ㄔ~過濾或結(jié)果過濾),控制持續(xù)時(shí)間,控制狀態(tài)(生效或者是下線),掌握策略召回的數(shù)量,并可將策略召回的內(nèi)容進(jìn)行處理。
頁(yè)面說明:策略管理頁(yè)可直接配置管控策略。例如在紅線詞庫(kù)中,添加二級(jí)類別為“低俗色情”,選擇該類別下所有的三級(jí)類別“all”,選擇需要管控的業(yè)務(wù)如一級(jí)業(yè)務(wù)“搜索”,其下所有二級(jí)業(yè)務(wù),選擇影響方式和持續(xù)時(shí)間,則達(dá)到效果為:
“在搜索下的所有業(yè)務(wù),都被紅線詞庫(kù)-低俗色情類別敏感詞所影響,影響方式為在搜索該詞時(shí)就被影響,且為永久影響狀態(tài)”。
策略配置所需要的其他部件添加或者修改則在業(yè)務(wù)管控和詞庫(kù)管理進(jìn)行。
原型演示:
5.2 詞庫(kù)管理
背景功能:添加敏感詞,控制該詞所屬詞庫(kù),并在添加時(shí)可看到召回量,抽樣評(píng)估后得到攔截準(zhǔn)確率。
頁(yè)面說明:敏感詞添加可直接批量添加多詞,并初步依靠字面意義判斷所屬詞庫(kù),然后評(píng)估召回量和隨機(jī)樣本,給出是否需要生效,以及確認(rèn)所屬詞庫(kù)。
隨機(jī)樣本抽取數(shù)量和方式可在“樣本設(shè)置”進(jìn)行,命中準(zhǔn)確率評(píng)估可在“敏感詞評(píng)估”進(jìn)行。
原型演示:
5.3 用戶配置
背景功能:將用戶與敏感詞、業(yè)務(wù)、地域三種維度結(jié)合。
頁(yè)面說明:敏命中策略指“策略配置”頁(yè)的策略,可看到被該策略召回的用戶數(shù),點(diǎn)擊“處理”可跳轉(zhuǎn)至“內(nèi)容處理”頁(yè)面進(jìn)行處理。
原型演示:
5.4 內(nèi)容處理
背景功能:對(duì)命中策略的業(yè)務(wù)或用戶做處理。
頁(yè)面說明:時(shí)間指該策略生效的時(shí)間,可在該頁(yè)面完成增量和存量?jī)?nèi)容的處理。
原型演示:
5.5 數(shù)據(jù)統(tǒng)計(jì)
背景功能:從策略維度、詞庫(kù)維度、用戶維度和處理維度做出數(shù)據(jù)統(tǒng)計(jì)。
頁(yè)面說明:報(bào)表形式給出
原型演示:
四、未來規(guī)劃
互聯(lián)網(wǎng)面前人人平等,因此人們可以非常輕易的暴露自己黑暗的一面。
為了避免其他用戶看到、接觸到、受到這些黑暗信息的影響,敏感詞系統(tǒng)應(yīng)運(yùn)而生。這不僅承擔(dān)著為產(chǎn)品過濾基礎(chǔ)風(fēng)險(xiǎn)的功能,同時(shí)作為基礎(chǔ)系統(tǒng)承擔(dān)著為公眾提供一個(gè)天朗氣清的網(wǎng)絡(luò)環(huán)境的作用,因此敏感詞系統(tǒng)也需要不斷的優(yōu)化和改進(jìn):
- 利用AI技術(shù)增強(qiáng)語義識(shí)別功能,擴(kuò)充添加渠道,及時(shí)發(fā)現(xiàn)及時(shí)處理;
- 敏感詞系統(tǒng)和輿情系統(tǒng)結(jié)合,成為負(fù)面輿情控制和處理的強(qiáng)大工具。