張安康 劉加兵
摘 要 互聯(lián)網(wǎng)上的有害信息層出不窮 而隨著各項(xiàng)技術(shù)的發(fā)展 有害信息采用各種方式隱藏其核心內(nèi)容 以躲避各類算法的識(shí)別和檢索 目前 對(duì)此類隱蔽性有害信息識(shí)別的常用方法主要是基于人工智能技術(shù) 采用人工標(biāo)注和訓(xùn)練學(xué)習(xí)的方式 但是算法較為復(fù)雜 對(duì)資源的需求較大 因此 一種新思路為 從隱蔽性有害信息的特征出發(fā) 分析出其特征規(guī)律 并基于以上結(jié)果設(shè)計(jì)一種新方法 同時(shí)降低人工參與和算法復(fù)雜度 最后 通過不同的樣本庫 對(duì)基于深度學(xué)習(xí)的方法和基于特征分析的方法效果進(jìn)行對(duì)比分析 得到不同場(chǎng)景下的應(yīng)用方案 為識(shí)別隱蔽性有害信息工作提供參考
關(guān)鍵詞 隱蔽性有害信息 文本識(shí)別 深度學(xué)習(xí) 特征分析
中圖法分類號(hào)TP18? ?文獻(xiàn)標(biāo)識(shí)碼A
1 引言
隨著互聯(lián)網(wǎng)的高速發(fā)展,產(chǎn)生了大量有害信息,如詐騙、謠言、色情、暴恐等。如果對(duì)這些信息不加以檢測(cè)和控制,不僅嚴(yán)重威脅人們的精神和物質(zhì)財(cái)產(chǎn)安全,更嚴(yán)重制約著網(wǎng)絡(luò)空間的健康發(fā)展[1~2] 。網(wǎng)絡(luò)空間是現(xiàn)實(shí)世界的延伸,而并非法外之地。《網(wǎng)絡(luò)安全法》規(guī)定,國家保護(hù)公民依法使用網(wǎng)絡(luò)的權(quán)利,但不允許任何個(gè)人和組織有違背憲法法律、公共秩序以及社會(huì)公德的網(wǎng)絡(luò)行為。由于互聯(lián)網(wǎng)信息數(shù)量龐大、結(jié)構(gòu)復(fù)雜、形式豐富,單純依靠監(jiān)管人工審核難以做到全面細(xì)致,并且需要耗費(fèi)大量人力物力成本。因此,人工智能、數(shù)據(jù)挖掘等新技術(shù)新手段在近年來被廣泛應(yīng)用于有害信息識(shí)別工作。其主要方式為,通過人工提取樣本數(shù)據(jù),利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等模型實(shí)現(xiàn)有害信息的自動(dòng)識(shí)別,通過人工標(biāo)注和算法迭代,實(shí)現(xiàn)識(shí)別效率的提升[4~5] 。
不過,也正是由于有害信息智能識(shí)別技術(shù)的發(fā)展,促使有害信息想方設(shè)法逃避智能算法的識(shí)別。最典型的方式為有害信息的核心內(nèi)容被各種手段隱蔽(如特殊符號(hào)、火星文、標(biāo)志符號(hào)等),從而規(guī)避智能算法的檢索。對(duì)于此類信息,目前已有部分研究,本文稱其為隱蔽性有害信息。為研究隱蔽性有害信息的特點(diǎn),前期本文收集了約5 000 萬條原始數(shù)據(jù),并初步分析了隱蔽性有害信息的特點(diǎn),主要表現(xiàn)為隱蔽性有害信息普遍不直接顯示明文內(nèi)容,而是通過增加特殊字符的方式隱藏關(guān)鍵信息,從而增加識(shí)別難度。
為實(shí)現(xiàn)隱蔽性有害信息的識(shí)別,常用方法為基于深度學(xué)習(xí)的經(jīng)典算法模型,通過訓(xùn)練集加人工標(biāo)注的方式訓(xùn)練算法,繼而實(shí)現(xiàn)算法對(duì)隱蔽性有害信息的識(shí)別。本文基于隱蔽性有害信息的特征研究結(jié)果,提出一種方法———不使用人工標(biāo)注,而是通過比對(duì)特征的方式進(jìn)行隱蔽性有害信息的識(shí)別。本文通過對(duì)以上方法的研究,為實(shí)現(xiàn)快速、實(shí)用、準(zhǔn)確地識(shí)別隱蔽性有害信息提供了一種思路。
2 隱蔽性有害信息特征分析
本文對(duì)收集到的屬地有害信息原始數(shù)據(jù)進(jìn)行多維度分析,識(shí)別出了有害信息的特征,初步分析如下。
(1)語言特征:通過分析輸出結(jié)果發(fā)現(xiàn),有害信息均含有部分特殊文字,如火星文等,但并非全文都是特殊文字。其具體如表1 所列。
(2)文字特征:通過分析輸出結(jié)果發(fā)現(xiàn),有害信息中的特殊文字一般不局限于某一類,繁體字、異體字、形近字等都會(huì)出現(xiàn)。其具體如表2 所列。
(3)信息特征:通過分析發(fā)現(xiàn),有害信息一般含有網(wǎng)址、QQ 號(hào)、微信號(hào)等,否則無法傳遞關(guān)鍵信息,僅含有特殊字符但不含以上任何信息的文本基本不包含有害內(nèi)容。其具體如表3 所列。
(4)邏輯特征:通過分析發(fā)現(xiàn),QQ 號(hào)和微信號(hào)基本都使用特殊字符,很少使用完全明文信息,但網(wǎng)址基本都是明文。其具體如表4 所列。
特征總結(jié):有害信息基本為正常文字和特殊字符混合,特殊文字一般不局限于某一類,一般都含有網(wǎng)址、QQ 號(hào)、微信號(hào)等。QQ 號(hào)和微信號(hào)基本都使用特殊字符,如變種“Q”或變種“V\微”等,避免被關(guān)鍵字識(shí)別檢索;而網(wǎng)址基本都是明文,否則無法被目標(biāo)用戶直接點(diǎn)擊,其他文字使用特殊字符,主要目的為在隱蔽性和可讀性之間尋求平衡。
3 基于深度學(xué)習(xí)的傳統(tǒng)識(shí)別方法
3.1 理論模型簡(jiǎn)介
在人工智能領(lǐng)域,研究人員設(shè)計(jì)了多種文本表示和識(shí)別類算法,本文采用經(jīng)典的BERT 模型。BERT模型是谷歌公司的研究人員于2018 年提出的一種典型的預(yù)訓(xùn)練表征模型[6~7] ,采用maskedlanguage model(MLM)技術(shù),用于生成深層次的文本特征表示,同時(shí)引入了遮蔽式語言模型,用于隨機(jī)遮蔽文本序列中的部分詞語。
BERT 模型按照功能模塊分為輸入層、預(yù)訓(xùn)練層和輸出層。輸入層由Token Embeddings, SegmentEmbeddings 和Position Embeddings 3 個(gè)部分組成;預(yù)訓(xùn)練層生成雙向的深層文本特征表示,采用MLM 對(duì)雙向的Transformers 預(yù)訓(xùn)練;輸出層對(duì)模型內(nèi)部的參數(shù)進(jìn)行微調(diào),得到最終的模型輸出結(jié)果。
BERT 模型主要結(jié)構(gòu)如圖1 所示,基礎(chǔ)模塊為BERT Layer, 多個(gè)基礎(chǔ)模塊疊加組成了BERTEncoder,多個(gè)BERT Encoder 最終構(gòu)成完整的BERT模型。
3.2 系統(tǒng)方案設(shè)計(jì)
利用BERT 模型設(shè)計(jì)一種識(shí)別隱蔽性有害信息的傳統(tǒng)方案(如圖2 所示),主要分為輸入、輸出、文本識(shí)別模型和人工標(biāo)注等模塊。從本文收集到的樣本庫中取出一部分樣本并將其作為該模型的訓(xùn)練集,通過人工標(biāo)注進(jìn)行訓(xùn)練和調(diào)優(yōu),總體方案與目前人工智能領(lǐng)域普遍使用的深度學(xué)習(xí)BERT 模型設(shè)計(jì)方案類似。
4 一種基于特征分析的識(shí)別方法
4.1 方案設(shè)計(jì)
上述傳統(tǒng)的有害信息識(shí)別方法是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)理論的經(jīng)典應(yīng)用之一。如果將其應(yīng)用到本文研究的隱蔽性有害信息識(shí)別中,有以下2 點(diǎn)可以優(yōu)化:一是傳統(tǒng)的有害信息識(shí)別方法需要人工參與標(biāo)注,算法質(zhì)量一定程度上取決于人工標(biāo)注的質(zhì)量;二是在海量文本數(shù)據(jù)情況下,人工標(biāo)注工作需要耗費(fèi)大量的人力資源,對(duì)課題或者項(xiàng)目的成本控制帶來極大挑戰(zhàn)。因此,為降低人工參與對(duì)算法的影響以及算法復(fù)雜度和人工成本,本文提出一種技術(shù)路線:通過研究分析隱蔽性有害信息的特點(diǎn),將隱蔽性有害信息作為一個(gè)整體,針對(duì)其特征進(jìn)行要素提取,以識(shí)別出隱蔽性有害信息。其具體技術(shù)框架如圖3 所示。
4.2 具體算法
根據(jù)隱蔽性有害信息的特征分析結(jié)果,本文設(shè)計(jì)了一種算法———通過兩級(jí)要素提取模型識(shí)別出有害信息,不需要人工標(biāo)注參與。其具體算法框架如圖4所示。
(1)文本分類環(huán)節(jié)。在該環(huán)節(jié),首先判斷輸入的文本信息是否含有特殊字符。根據(jù)本文分析的隱蔽性有害信息的特征,不含特殊字符的文本基本不是有害信息,故將含有特殊字符的信息全部作為結(jié)果,輸出到第二級(jí)信息識(shí)別模型中并將其進(jìn)行處理。判斷是否含有特殊字符的方法為將該文本與標(biāo)準(zhǔn)字符庫進(jìn)行比對(duì),只要有任意字符不在標(biāo)注字符庫,即判定為含有特殊字符,將該文本輸出。
(2)信息識(shí)別環(huán)節(jié)。在該環(huán)節(jié),將第一級(jí)的輸出作為輸入,根據(jù)有害信息的特征進(jìn)行判斷,判斷條件為該信息是否包含明文網(wǎng)址或QQ 號(hào)或微信關(guān)鍵字。具體判斷方法為使用正則規(guī)則比對(duì)“.+連續(xù)字母或數(shù)字”判斷是否包含網(wǎng)址;通過比對(duì)“Q”字符及其變種字符庫和連續(xù)數(shù)字判斷是否包含QQ 號(hào);比對(duì)“微”字符及其相關(guān)變種字符庫判斷是否包含微信號(hào)。若輸入文本滿足以上3 個(gè)條件的任意一種,則判定該文本為隱蔽性有害信息,并將該文本輸出。
(3)算法特點(diǎn):本算法在文本分類和信息識(shí)別環(huán)節(jié)無需人工標(biāo)注及人工參與,降低了算法人力成本。同時(shí),本算法采取的兩級(jí)要素提取模型僅需要使用正則表達(dá)式和比對(duì)字符庫的方式實(shí)現(xiàn),算法復(fù)雜度低,降低了算法所需的軟硬件成本。
5 對(duì)比分析
5.1 評(píng)價(jià)指標(biāo)
混淆矩陣是機(jī)器學(xué)習(xí)中總結(jié)分類模型預(yù)測(cè)結(jié)果的常用工具,數(shù)據(jù)集中的記錄以矩陣形式且按照真實(shí)類別與分類模型預(yù)測(cè)的類別2 個(gè)判斷標(biāo)準(zhǔn)進(jìn)行匯總。其中,矩陣的行表示真實(shí)值,矩陣的列表示預(yù)測(cè)值。以典型的二分類評(píng)估指標(biāo)為例,其中定義的一些符號(hào)含義如下。
(1)TP(True Positive):將正類預(yù)測(cè)為正類數(shù),真實(shí)為0,預(yù)測(cè)也為0。
(2)FN(False Negative):將正類預(yù)測(cè)為負(fù)類數(shù),真實(shí)為0,預(yù)測(cè)為1。
(3)FP(False Positive):將負(fù)類預(yù)測(cè)為正類數(shù),真實(shí)為1,預(yù)測(cè)為0。
(4)TN(True Negative):將負(fù)類預(yù)測(cè)為負(fù)類數(shù),真實(shí)為1,預(yù)測(cè)也為1。
本文的應(yīng)用場(chǎng)景為最典型的二分類模型,正類代表該樣本為隱蔽性有害信息,負(fù)類代表該樣本不屬于隱蔽性有害信息。評(píng)價(jià)算法結(jié)果的矩陣表現(xiàn)形式如圖5 所示。
矩陣行數(shù)據(jù)相加是真實(shí)值類別數(shù),列數(shù)據(jù)相加是分類后的類別數(shù)。因此,根據(jù)以上矩陣可以得到以下計(jì)算公式:
召回率(正)= a / (a+b) (1)
準(zhǔn)確率(正)= a / (a+c) (2)
召回率和準(zhǔn)確率是評(píng)價(jià)分類模型預(yù)測(cè)結(jié)果的常用指標(biāo),在本文的二分類應(yīng)用場(chǎng)景中,召回率(正)表示經(jīng)算法模型預(yù)測(cè)為隱蔽性有害信息的樣本數(shù)量,在真實(shí)值為隱蔽性有害信息的樣本總數(shù)中的占比;準(zhǔn)確率(正)表示真實(shí)值為隱蔽性有害信息的樣本,且經(jīng)算法模型成功預(yù)測(cè)為隱蔽性有害信息的樣本數(shù)量,在算法模型輸出的所有預(yù)測(cè)為隱蔽性有害信息樣本數(shù)量的占比。
5.2 結(jié)果與分析
本文使用前期收集到的有害信息原始數(shù)據(jù),并將其劃分成3 個(gè)樣本庫,分別對(duì)基于深度學(xué)習(xí)的傳統(tǒng)算法(下稱算法1)和本文設(shè)計(jì)的基于特征分析的算法(下稱算法2)進(jìn)行效果驗(yàn)證。對(duì)于算法1,將樣本庫中一部分樣本作為訓(xùn)練集,采用人工標(biāo)注的方法進(jìn)行訓(xùn)練調(diào)優(yōu)。對(duì)于算法2,直接將樣本庫送入算法模型中并進(jìn)行篩選,不使用人工參與算法,僅在輸出結(jié)果對(duì)比分析時(shí),使用人工進(jìn)行分析。
5.2.1 準(zhǔn)確率結(jié)果分析
根據(jù)2 個(gè)算法模型和3 個(gè)樣本庫,對(duì)算法準(zhǔn)確率進(jìn)行研究和對(duì)比分析,如圖6 所示。
根據(jù)圖6 可以得到以下結(jié)論。
(1)算法1 和算法2 的準(zhǔn)確率差異不大,均可以達(dá)到80%的目標(biāo)要求。
(2)在不同樣本庫條件下,算法1 的準(zhǔn)確率總體比較平穩(wěn),而算法2 的準(zhǔn)確率波動(dòng)相對(duì)較大。
(3)算法2 的準(zhǔn)確率與樣本庫的相關(guān)性較大,在某些樣本庫條件下,算法2 的準(zhǔn)確率優(yōu)于算法1。為分析算法2 的準(zhǔn)確率結(jié)果,本文對(duì)3 個(gè)樣本庫進(jìn)行了抽樣分析,與算法2 使用的隱蔽性有害信息的分析特征進(jìn)行對(duì)比。分析發(fā)現(xiàn),在樣本庫2 條件下,算法2 的準(zhǔn)確性相對(duì)較高的原因主要是樣本庫2 中滿足前期總結(jié)的隱蔽性有害信息特征的文本,屬于非有害信息的數(shù)量很少,而樣本庫1 和樣本庫3 中有少量非有害信息文本也符合隱蔽性有害信息特征,但總體影響不大。
5.2.2 召回率結(jié)果分析
根據(jù)2 個(gè)算法模型和3 個(gè)樣本庫,對(duì)算法召回率進(jìn)行研究和對(duì)比分析,如圖7 所示。
根據(jù)圖7 可以得到以下結(jié)論。
(1)算法1 和算法2 的召回率差異不大,在不同樣本庫條件下,算法1 的召回率總體比較平穩(wěn),而算法2 的召回率波動(dòng)相對(duì)較大。
(2)算法1 的召回率總體高于算法2,因算法2 的召回率與樣本庫的相關(guān)性較大。
為分析算法2 的召回率結(jié)果,本文同樣對(duì)3 個(gè)樣本庫進(jìn)行了抽樣分析,與算法2 使用的隱蔽性有害信息的分析特征進(jìn)行對(duì)比。在樣本庫2 條件下,算法2召回率相對(duì)較低的原因主要是前期總結(jié)的隱蔽性有害信息的特征與樣本庫2 匹配程度較低,有少量有害信息文本不符合算法2 所使用的規(guī)律特征。因此,算法2 依賴于前期隱蔽性有害信息的特征總結(jié),以及樣本庫與特征總結(jié)的匹配程度,特征總結(jié)越完備,樣本庫的匹配度越高,召回率越高。
5.2.3 應(yīng)用場(chǎng)景分析
基于以上結(jié)果分析,算法1 和算法2 各有特點(diǎn),需結(jié)合應(yīng)用場(chǎng)景進(jìn)行選擇。算法1 采用目前相對(duì)成熟的機(jī)器學(xué)習(xí)算法和人工標(biāo)注方式,輸出識(shí)別樣本的準(zhǔn)確率和召回率均相對(duì)穩(wěn)定,全部維持在85%和82%以上。但算法1 較為復(fù)雜,對(duì)硬件資源要求較高,同時(shí)需要人工參與,因此適用于對(duì)識(shí)別樣本準(zhǔn)確率和召回率的穩(wěn)定性要求較高且資源充足的場(chǎng)景。算法2采用特征總結(jié)對(duì)比的方式,輸出識(shí)別樣本的準(zhǔn)確率和召回率依賴于特征總結(jié)的完備性,以及樣本庫與特征總結(jié)的匹配程度,因此波動(dòng)相對(duì)較大。但算法2 的優(yōu)勢(shì)在于實(shí)現(xiàn)相對(duì)簡(jiǎn)單,算法復(fù)雜度遠(yuǎn)低于算法1,同時(shí)不需要人工標(biāo)注,對(duì)資源的需求相對(duì)較小,因此適用于對(duì)樣本識(shí)別穩(wěn)定性要求相對(duì)較低但資源有限的場(chǎng)景(如實(shí)驗(yàn)研究), 或者用于對(duì)龐大樣本庫的粗略篩選,其作為后續(xù)某個(gè)算法的輸入樣本,以減少后續(xù)某個(gè)算法模型的運(yùn)行時(shí)間。
本文算法能夠基于隱蔽性有害信息的特征減少算法復(fù)雜度,為智能識(shí)別隱蔽性有害信息工作提供了參考。
參考文獻(xiàn):
[1] 龔文全.人工智能在有害信息識(shí)別服務(wù)的應(yīng)用和發(fā)展趨勢(shì)[J].電信網(wǎng)技術(shù),2018(2):10?14.
[2] 陶冶,王志軍,劉鏑,等.基于大數(shù)據(jù)的信息通信欺詐事件發(fā)現(xiàn)技術(shù)研究[J].信息通信技術(shù),2017,11(3):7?12.
[3] 黃欣榮.大數(shù)據(jù)時(shí)代的精準(zhǔn)詐騙及其治理[J].新疆師范大學(xué)學(xué)報(bào),2017,38(4):86?92.
[4] 趙京勝,宋夢(mèng)雪,高祥,等.自然語言處理中的文本表示研究[J].軟件學(xué)報(bào),2022,33(1):102?128.
[5] 張千,王慶瑋,張悅,等.基于深度學(xué)習(xí)的文本特征提取研究綜述[J].計(jì)算機(jī)技術(shù)與發(fā)展,2019,29(12):61?65.
[6] DEVLIN J,CHANG M W,LEE K,et al.BERT:Pre?training ofDeep Bidirectional Transformers for Language Understanding[ J ]. North American Chapter of the Association forComputational Linguistics,2018:179?195.
[7] 李杰,李歡.基于深度學(xué)習(xí)的短文本評(píng)論產(chǎn)品特征提取及情感分類研究[J].情報(bào)理論與實(shí)踐,2018,41(2):143?148.
作者簡(jiǎn)介:
張安康(1989—),碩士,工程師,研究方向:信息安全、通信信息系統(tǒng)。
劉加兵(1993—),碩士,初級(jí)工程師,研究方向:網(wǎng)絡(luò)安全、通信信息系統(tǒng)。