王 楊,王非凡,張舒宜,黃少芬,許閃閃,趙晨曦,趙傳信
(安徽師范大學(xué) 計算機(jī)與信息學(xué)院,蕪湖 241000)
隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)將大千世界連接在一起,很多社交平臺應(yīng)運而生并發(fā)展壯大.其為世界各地的人們提供了便利的交流方式與資源共享的平臺,從而深深地融入到了人們的學(xué)習(xí)生活和工作中.然而,社交平臺的開放性、傳播的迅速性與普遍性使得很多不法分子與廣告商散布垃圾文本,垃圾短文本是指涉及色情、暴力、廣告推銷等方面的文本消息.其擾亂了社交平臺的安寧、破壞了社交平臺的綠色環(huán)境.為響應(yīng)國家號召,打造綠色社交平臺、實現(xiàn)垃圾文本檢測與過濾迫在眉睫.垃圾文本的檢測與過濾主要分為如下幾個步驟:(1)數(shù)據(jù)集的收集;(2)對數(shù)據(jù)集中的文本進(jìn)行分詞;(3)構(gòu)造文本向量;(4)對文本向量進(jìn)行降維,得到特征向量,構(gòu)造關(guān)鍵詞集;(5)運用關(guān)鍵詞集進(jìn)行訓(xùn)練,得到分類器.從而完成垃圾文本的檢測并對其進(jìn)行過濾.針對這些步驟,在對已有研究成果學(xué)習(xí)、分析各自利弊的基礎(chǔ)上,我們提出了一種基于TF-IDF和BP神經(jīng)網(wǎng)絡(luò)的社交平臺垃圾短文本過濾的方法.
為了研究垃圾文本的接收端過濾技術(shù),根據(jù)文本接收端過濾技術(shù).其主要分為基于行為模式的過濾技術(shù)以及基于內(nèi)容的過濾技術(shù)兩類.針對本文研究的問題,短文本的來源比較廣泛且行為模式具有很大的不確定性,從而基于行為模式的過濾技術(shù)并不適用.我們選擇運用基于內(nèi)容的過濾技術(shù)對本文提出的問題進(jìn)行研究.其對垃圾郵件的處理過程如圖1.根據(jù)文獻(xiàn)[1],基于內(nèi)容的垃圾短文本過濾的主要研究難點首先是對數(shù)據(jù)集中的文本進(jìn)行分詞,高效率的分詞可以為之后關(guān)鍵詞集的構(gòu)建提供良好的基礎(chǔ),繼而利于分類器的構(gòu)建;其次是關(guān)鍵詞集的構(gòu)建,如何對原始文本向量進(jìn)行特征選擇,從而進(jìn)行特征降維,便于之后的研究;最后是分類器的訓(xùn)練,用怎樣的方法才可以得到一個高精度、高準(zhǔn)確率的分類器.
針對難點一,目前用的比較多的是一個開源項目—“結(jié)巴分詞”[2],它將文本中漢字可能構(gòu)成的一個有向無環(huán)圖,通過動態(tài)規(guī)劃的方法找到圖中最大概率路徑,基于路徑找出基于詞頻的最大切分組合.同時,由于漢語的表達(dá)習(xí)慣,在分詞中需要注意停用詞的干擾,停用詞指的是樣本集中頻繁出現(xiàn)且分布均勻的、攜帶的類別信息量小的詞條,如語氣助詞、介詞等.如果分詞后的文本樣本中存在大量的停用詞,會影響分類器效果,同時延長了測試集測試需要的時間,因此需要通過去停用詞提高分類效率.常用去停用詞的方法有兩種,一種為查表法,通過與現(xiàn)有的停用詞表進(jìn)行匹配刪除文本中的停用詞;另一種為對某個特征指標(biāo)設(shè)定閾值,如果某個詞條在該指標(biāo)上的數(shù)值超過閾值,則該詞定義為停用詞并刪除.
圖1 基于內(nèi)容的垃圾郵件過濾流程
對于研究難點二,此前主要的特征降維的方法有信息增益[3]、互信息[4]以及期望交叉熵.由于信息增益缺乏互信息,互信息和期望交叉熵缺乏對特征詞的集中度和分散度的評估,因此我們選取了一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù) TF-IDF[5].TF-IDF 相比于如主成分分析法,層次分析法等特征提取的方法,客觀性以及真實性更強,同時它具有計算簡便、利于理解、性價比高的特點.
對于研究難點三,比較常用的分類器構(gòu)建的方法有貝葉斯[6,7]、SVM[8]等,近年比較流行的是運用樸素貝葉斯[9],其算法邏輯簡單,易于實現(xiàn);分類過程中時空開銷小;理論上與別的分類方法相比有較小的誤差率,但樸素貝葉斯分類有一個限制條件,就是特征屬性必須有條件獨立或基本獨立,實際上在現(xiàn)實應(yīng)用中幾乎不可能做到完全獨立.當(dāng)這個條件成立時,樸素貝葉斯分類法的準(zhǔn)確率是最高的,但不幸的是,現(xiàn)實中各個特征屬性間往往并不條件獨立,而是具有較強的相關(guān)性,這樣就限制了樸素貝葉斯分類的能力.通過查閱相關(guān)資料[10-12]我們發(fā)現(xiàn),與樸素貝葉斯相比,由于BP神經(jīng)網(wǎng)絡(luò)是模擬人的認(rèn)知思維推理模式,具有非線性映射能力,自學(xué)習(xí)和自適應(yīng)能力,同時具有較好的泛化能力和一定的容錯能力,因此我們選取BP神經(jīng)網(wǎng)絡(luò)構(gòu)造分類器.
BP網(wǎng)絡(luò)模型處理信息的基本原理是:輸入信號Xi通過中間節(jié)點(隱層點)作用于輸出節(jié)點,經(jīng)過非線形變換,產(chǎn)生輸出信號Yk,網(wǎng)絡(luò)訓(xùn)練的每個樣本包括輸入向量X和期望輸出量t,網(wǎng)絡(luò)輸出值Y與期望輸出值t之間的偏差,通過調(diào)整輸入節(jié)點與隱層節(jié)點的聯(lián)接強度取值Wij和隱層節(jié)點與輸出節(jié)點之間的聯(lián)接強度Tjk以及閾值,使誤差沿梯度方向下降,經(jīng)過反復(fù)學(xué)習(xí)訓(xùn)練,確定與最小誤差相對應(yīng)的網(wǎng)絡(luò)參數(shù)(權(quán)值和閾值),訓(xùn)練即告停止.此時經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)即能對類似樣本的輸入信息,自行處理輸出誤差最小的經(jīng)過非線形轉(zhuǎn)換的信息.BP網(wǎng)絡(luò)模型包括其輸入輸出模型、作用函數(shù)模型、誤差計算模型和自學(xué)習(xí)模型,BP神經(jīng)網(wǎng)絡(luò)的原理圖如圖2.
(1)節(jié)點輸出模型
隱節(jié)點輸出模型:
輸出節(jié)點輸出模型:
其中,f表示非線形作用函數(shù);θ表示神經(jīng)單元閾值.
(2)作用函數(shù)模型
作用函數(shù)是反映下層輸入對上層節(jié)點刺激脈沖強度的函數(shù)又稱刺激函數(shù),一般為(0,1)內(nèi)連續(xù)取值Sigmoid函數(shù):
(3)誤差計算模型
誤差計算模型是反映神經(jīng)網(wǎng)絡(luò)期望輸出與計算輸出之間誤差小的函數(shù):
其中,tpi_i節(jié)點的期望輸出值;Opi_i節(jié)點計算輸出值.
(4)自學(xué)習(xí)模型
神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程,即連接下層節(jié)點和上層節(jié)點之間的權(quán)重拒陣Wij的設(shè)定和誤差修正過程.BP網(wǎng)絡(luò)有師學(xué)習(xí)方式-需要設(shè)定期望值和無師學(xué)習(xí)方式-只需輸入模式之分.自學(xué)習(xí)模型為:
其中,η表示為學(xué)習(xí)因子;Φij表示為輸出節(jié)點i的計算誤差;Oj表示為輸出節(jié)點j的計算輸出;a表示為動量因子.
由于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)在算法效率與收斂效果并不盡如人意,因此在原有的BP神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上對其進(jìn)行優(yōu)化改進(jìn),從而提高其效率與收斂性,使得分類效果更高.
圖2 BP 神經(jīng)網(wǎng)絡(luò)原理圖
(1)學(xué)習(xí)因子η的優(yōu)化
采用變步長法根據(jù)輸出誤差大小自動調(diào)整學(xué)習(xí)因子,來減少迭代次數(shù)和加快收斂速度.
其中,a為調(diào)整步長,在 0~1 之間取值.
(2)隱層節(jié)點數(shù)的優(yōu)化
隱節(jié)點數(shù)的多少對網(wǎng)絡(luò)性能的影響較大,當(dāng)隱節(jié)點數(shù)太多時,會導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)時間過長,甚至不能收斂;而當(dāng)隱節(jié)點數(shù)過小時,網(wǎng)絡(luò)的容錯能力差.利用逐步回歸分析法并進(jìn)行參數(shù)的顯著性檢驗來動態(tài)刪除一些線形相關(guān)的隱節(jié)點,節(jié)點刪除標(biāo)準(zhǔn):當(dāng)由該節(jié)點出發(fā)指向下一層節(jié)點的所有權(quán)值和閾值均落于死區(qū)(通常取±0.1、±0.05 等區(qū)間)之中,則該節(jié)點可刪除.要確定最佳隱含層節(jié)點數(shù)應(yīng)該滿足以下條件:隱含層節(jié)點數(shù)必須小于N-1(N為訓(xùn)練樣本數(shù)),輸入層的節(jié)點數(shù)也必須小于N-1.最佳隱含節(jié)點數(shù)L可參考下面公式計算:
其中,m表示為輸入節(jié)點數(shù);n表示為輸出節(jié)點數(shù);c表示為介于1~10的常數(shù).
(3)輸入和輸出神經(jīng)元的確定輸入?yún)?shù),來減少輸入節(jié)點數(shù).
TF-IDF (Term Frequency-Inverse Document Frequency)是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù).
在一份給定的文件里,詞頻TF指的是某一個給定的詞語在該文件中出現(xiàn)的次數(shù).這個數(shù)字通常會被歸一化,以防止它偏向長的文件.對于在某一特定文件里的詞語來說,它的重要性可表示為:
其中,ni,j是該詞ti在文件dj中出現(xiàn)次數(shù),而分母則是在文件dj中所有字詞的出現(xiàn)次數(shù)之和.
逆向文件頻率IDF是一個詞語普遍重要性的度量.某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對數(shù)得到:
其中,|D|表示語料庫中的文件總數(shù),{J:ti∈dj}包含詞語t的文件數(shù)目(即ni,j≠0的文件數(shù)目),如果該詞不在語料庫中,就會導(dǎo)致被除數(shù)為0,因此一般情況下使用1+{J:ti∈dj},TF-IDF 傾向于過濾掉常見的詞語,保留重要的詞語,從而實現(xiàn)特征降維.
4.2.1 利用 TF-IDF 獲取文本分類特征向量
TF-IDF用以評估一個字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度.因此算法首先應(yīng)對兩類數(shù)據(jù)集Spam和Ham內(nèi)的文本進(jìn)行分詞處理.“結(jié)巴分詞”支持三種分詞模式:精確模式,全模式和搜索引擎模式,因精確模式試圖將句子最精確地分開,能解決歧義,適合文本分析,所以本實驗采用精確模式試圖實現(xiàn)文本語句的高精確度分割,以便后續(xù)工作的分析處理.另外,停用詞會對分類的準(zhǔn)確率產(chǎn)生較大影響,為了提高準(zhǔn)確率,去停用詞的步驟不必可少.兩類數(shù)據(jù)集內(nèi)的文本分詞完成后,將每一類分詞結(jié)果整合為一個“分詞包”.基于兩個包含詞匯豐富的分詞包,應(yīng)用TF-IDF算法計算兩類分詞包內(nèi)所有詞語的TF-IDF值,選取前N個TF-IDF值較高的詞語作為文本分類特征詞.在確定文本特征詞之后,我們按照詞語在文本中是否出現(xiàn)將每個文本轉(zhuǎn)換為有和0組成的N維特征向量,在特征向量的基礎(chǔ)上進(jìn)行垃圾文本檢測工作.
算法 1.TF-IDF 選取特征詞算法 (Algorithm for selecting feature words by TF-IDF)Step 1.導(dǎo)入垃圾文本和正常文本數(shù)據(jù)集Spam和Ham;Step 2.采用“結(jié)巴分詞”精確分詞模式對文本進(jìn)行分詞處理;Step 3.導(dǎo)入停用詞集stop_words.txt;Step 4.去停用詞后得到垃圾文本的分詞包記為package1,正常文本的分詞包記為package2;Step 5.導(dǎo)入{package1,package2},建立循環(huán),對分詞包的所有分詞計算詞頻IF和逆向文件頻率IDF;Step 6.計算每個分詞的IF-IDF=TF×IDF;Step 7.按照分詞的IF-IDF值從高到低的次序,對所有詞語進(jìn)行排序;Step 8.選取TF×IDF值最高的前N個詞語作為文本分類特征詞feature_words={word1,word2,…,wordN};Step 9.構(gòu)建文本特征向量feature_vector={0,0,…,0},維度為N;Step 10.對數(shù)據(jù)集的每一個文本進(jìn)行檢測,構(gòu)造文本特征向量{w1,w2,…,wN}.
4.2.2 基于特征向量的垃圾文本檢測
從TF-IDF實現(xiàn)思想來看,基于特征詞的特征向量能夠更好的區(qū)分文本所屬類別.目前基于特征向量的垃圾文本檢測方法主要有一般的貝葉斯網(wǎng)絡(luò)分類器、樸素貝葉斯、支持向量機(jī)SVM和人工神經(jīng)網(wǎng)絡(luò)等,如何利用已有數(shù)據(jù)集進(jìn)行分類器的訓(xùn)練以及訓(xùn)練結(jié)果的滿意程度是衡量分類模型優(yōu)劣的主要標(biāo)準(zhǔn).神經(jīng)網(wǎng)絡(luò)算法模擬人體大腦處理問題的過程,使用最速下降法,通過反向傳播不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,最后使全局誤差系數(shù)最小.對于文本分類問題,實驗采用兩層網(wǎng)絡(luò),且第一層使用 log sig(n)=1/(1+exp(-n))線性激活函數(shù),第二層使用purelin(n)=n對數(shù)S形轉(zhuǎn)移函數(shù).神經(jīng)網(wǎng)絡(luò)是一種自調(diào)整權(quán)重的學(xué)習(xí)方法,訓(xùn)練過程中只需正確提供訓(xùn)練集并明確輸入與輸出信號即可.
算法2.基于監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)分類算法(ANN Classification algorithm based on supervised learning)Step 1.導(dǎo)入訓(xùn)練集文本特征化后的向量,記訓(xùn)練樣本數(shù)目為n;Step 2.確定訓(xùn)練集的輸入為文本的特征向量,即N個輸入信號;輸出結(jié)果有兩種:1或0;Step 3.根據(jù)輸入信號,創(chuàng)建神經(jīng)網(wǎng)絡(luò)net_classifier進(jìn)行訓(xùn)練;Step 4.給定測試數(shù)據(jù),采用訓(xùn)練完成后的網(wǎng)絡(luò)net_classifier對測試文本進(jìn)行分類.
我們選用 CDCSE (Ccert Data Sets of Chinese Emails)中的數(shù)據(jù)作為實驗數(shù)據(jù),數(shù)據(jù)集內(nèi)所有文本分為垃圾文本Spam和正常文本Ham兩類,各自數(shù)據(jù)量的大小分別為25 088和9272.首先我們通過TF-IDF算法選取特征詞算法選取1000個用于文本分類的特征詞,部分特征詞有{公司,工作,發(fā)票,水木,社區(qū),合作,發(fā)信站,喜歡,有限公司,優(yōu)惠,網(wǎng)上,建筑工程,介紹,獨家代理,想要,發(fā)信人,放棄,生產(chǎn),主動,有時候},生成的特征詞云圖如圖3.
圖3 文本特征詞云圖
選取特征詞后,依次對兩類數(shù)據(jù)集分詞后的文本進(jìn)行特征化處理,將每個由眾多分詞組成的文本量化為1000維有0和1組成的特征向量,部分量化結(jié)果如表1.
基于上述操作,我們得到了各個文本的特征向量,文本將這1000個特征屬性為分類標(biāo)準(zhǔn),同時選取數(shù)據(jù)集的70%作為分類器訓(xùn)練集,30%作為分類器測試集.實驗選用了樸素貝葉斯、貝葉斯、改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的方法分別對文本進(jìn)行分類,用以說明改進(jìn)BP神經(jīng)網(wǎng)絡(luò)相較于貝葉斯與樸素貝葉斯對垃圾文本過濾的優(yōu)越性.首先我們利用優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)構(gòu)建分類器.所得分類效果如圖4所示,分類平均準(zhǔn)確率達(dá)到了97.720%.本實驗中BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練結(jié)果目標(biāo)誤差規(guī)定為0.01,從訓(xùn)練效果圖來看,隨著迭代次數(shù)的遞增訓(xùn)練結(jié)果的誤差在不斷降低,并在400次迭代左右趨于穩(wěn)定.從網(wǎng)絡(luò)訓(xùn)練回歸圖像來看,R達(dá)到了0.964 83,具有優(yōu)良的訓(xùn)練效果.我們將特征維度降為100維,重復(fù)該實驗過程,所得結(jié)果如圖5.此時平均分類準(zhǔn)確率達(dá)到96.576%,相較于1000維特征向量,準(zhǔn)確率變化不大,具有較強的穩(wěn)定性.
表1 特征向量量化
圖4 1000維文本特征向量的BP神經(jīng)網(wǎng)絡(luò)結(jié)果
樸素貝葉斯分類效果可由混淆矩陣度量.混淆矩陣是對有監(jiān)督學(xué)習(xí)分類算法準(zhǔn)確率進(jìn)行評估的工具,通過將模型預(yù)測的數(shù)據(jù)與測試數(shù)據(jù)進(jìn)行對比,使用準(zhǔn)確率,覆蓋率和命中率等指標(biāo)評價模型的分類效果.本實驗采用樸素貝葉斯對文本分類后得到的混淆矩陣如表2.
從表2中可以看出,模型正確預(yù)測正常文本的正確率SPC較高,達(dá)到了99.31%;而垃圾文本的預(yù)測準(zhǔn)確率TPR較低,僅在0.7左右.說明樸素貝葉斯模型在預(yù)測文本所屬種類時有單向偏差,對垃圾文本的預(yù)測效果不太理想.在同樣的實驗環(huán)境下,從總體的預(yù)測結(jié)果來看,樸素貝葉斯預(yù)測準(zhǔn)確率ACC僅達(dá)到了86.75%.同樣的,我們將特征維度降至 100 維,從總體的預(yù)測結(jié)果來看,預(yù)測準(zhǔn)確率大幅降低,僅為77.23%.
表2 1000 維樸素貝葉斯混淆矩陣
圖5 100維文本特征向量的BP神經(jīng)網(wǎng)絡(luò)結(jié)果
表3 100 維貝葉斯混淆矩陣
貝葉斯分類效果類似于樸素貝葉斯,可用混淆矩陣度量.貝葉斯對文本分類后得到的混淆矩陣如表3.
表4 準(zhǔn)確率實驗結(jié)果對比圖(單位:%)
從表3中可以綜合看到,貝葉斯預(yù)測準(zhǔn)確率為85.37%.將特征維度降至100維,從總體的預(yù)測結(jié)果來看,預(yù)測準(zhǔn)確率大幅降低,僅為74.93%.對實驗所得結(jié)果進(jìn)行整合,如表4.
綜上,優(yōu)化的 BP 神經(jīng)網(wǎng)絡(luò),在同等實驗環(huán)境下,不僅僅在分類效果上有著明顯的優(yōu)勢,同時在性能上也具有較強的穩(wěn)定性,受特征集數(shù)目影響較小.
社交平臺的綠色環(huán)境對建設(shè)文明中國的意義重大,因此社交平臺垃圾文本的過濾與篩選迫在眉睫.TFIDF是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù),科學(xué)合理,使用簡單方便,適用于分詞后特征集的選擇.由于樸素貝葉斯及貝葉斯對文本的預(yù)處理要求較高,特別是樸素貝葉斯,對文本獨立性要求極高,因此我們將優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)應(yīng)用于文本分類器的構(gòu)建,由于神經(jīng)網(wǎng)絡(luò)是一種具有一定容錯性模仿人類思考的模型,且優(yōu)化后的神經(jīng)網(wǎng)絡(luò)的收斂性及效率有所提高,因此運用優(yōu)化后的BP神經(jīng)網(wǎng)絡(luò)所訓(xùn)練的文本分類效率極好且具性能穩(wěn)定,且成本有所節(jié)省,因此,基于 TF-IDF和改進(jìn)BP神經(jīng)網(wǎng)絡(luò)方法的社交平臺垃圾文本過濾不僅科學(xué)合理、結(jié)果準(zhǔn)確、且較于其他方法具有一定的優(yōu)越性及實用價值.