黃國(guó)偉,劉云霞,陳 志
(1.深圳信息職業(yè)技術(shù)學(xué)院 廣東 深圳 518172;2.天津工業(yè)大學(xué) 天津 300387)
隨著計(jì)算機(jī)網(wǎng)絡(luò)的普及,電子郵件得到了廣泛應(yīng)用,已成為人們進(jìn)行溝通、交流的重要手段。然而隨之而來(lái)的垃圾郵件泛濫問(wèn)題,嚴(yán)重干擾著電子郵件用戶的日常生活與工作。據(jù)相關(guān)統(tǒng)計(jì)報(bào)告[1],2010年第四季度中國(guó)垃圾郵件數(shù)量已占電子郵件總量的87.2%。面對(duì)垃圾郵件的泛濫,研究人員針對(duì)如何進(jìn)行垃圾郵件過(guò)濾這一問(wèn)題進(jìn)行了廣泛而深入的研究,提出了諸如貝葉斯過(guò)濾技術(shù)[2-3]、支持向量機(jī)過(guò)濾技術(shù)[4]、決策樹(shù)過(guò)濾技術(shù)[5]、黑白名單技術(shù)[6]等垃圾郵件過(guò)濾技術(shù),上述技術(shù)在實(shí)際應(yīng)用中取得了較好的過(guò)濾效果,在一定程度上抑制了垃圾郵件的影響[7]。
垃圾郵件過(guò)濾要求在線對(duì)郵件進(jìn)行二值分類,即在線將郵件判別為正常郵件或垃圾郵件。然而與傳統(tǒng)的文本二值分類問(wèn)題相比,垃圾郵件過(guò)濾這一在線二值分類問(wèn)題具有十分明顯的個(gè)性化特點(diǎn)。由于用戶興趣、愛(ài)好的不同,用戶對(duì)垃圾郵件的定義可能存在巨大差異[8],不同用戶對(duì)同一封郵件可能有著截然不同的分類結(jié)果。如果采用全局統(tǒng)一的郵件分類標(biāo)準(zhǔn)對(duì)所有用戶的郵件進(jìn)行分類而忽略用戶間的差異性,將勢(shì)必造成郵件的誤判并導(dǎo)致郵件分類準(zhǔn)確性的降低。因此,如何在已有垃圾郵件過(guò)濾技術(shù)基礎(chǔ)上實(shí)現(xiàn)垃圾郵件個(gè)性化過(guò)濾,從而進(jìn)一步提升郵件分類效果,是當(dāng)前垃圾郵件過(guò)濾技術(shù)領(lǐng)域的一個(gè)研究熱點(diǎn)。
用戶個(gè)性化郵件分類標(biāo)準(zhǔn)的提取是實(shí)現(xiàn)個(gè)性化垃圾郵件過(guò)濾的關(guān)鍵。電子郵件應(yīng)用的用戶作為垃圾郵件的直接受害者,其對(duì)一封郵件的手工分類處理結(jié)果則能夠反映用戶對(duì)該郵件的喜惡與傾向。因此,如果用戶能夠?qū)⑵溧]件分類的相關(guān)信息進(jìn)行反饋,將有助于用戶個(gè)性化郵件分類標(biāo)準(zhǔn)的提取,進(jìn)而為垃圾郵件個(gè)性化過(guò)濾的實(shí)現(xiàn)提供有力依據(jù)?;谶@一思想,文中提出一種基于用戶反饋的個(gè)性化垃圾郵件過(guò)濾方法:一方面借助用戶郵件分類反饋信息實(shí)現(xiàn)全局郵件分類標(biāo)準(zhǔn)與用戶個(gè)性化郵件分類標(biāo)準(zhǔn)的提取與更新;在此基礎(chǔ)上,實(shí)現(xiàn)用戶個(gè)性化郵件分類標(biāo)準(zhǔn)與全局郵件分類標(biāo)準(zhǔn)在樸素貝葉斯郵件分類過(guò)程中的有機(jī)結(jié)合,以同時(shí)從全局和用戶個(gè)體兩個(gè)方面綜合判別郵件是否為垃圾郵件,提升垃圾郵件過(guò)濾的準(zhǔn)確性。
貝葉斯分類的基本理論依據(jù)是:大多數(shù)事件都是相互依賴的,那么一個(gè)事件將來(lái)發(fā)生的概率可以從該事件之前發(fā)生的概率進(jìn)行推斷。在傳統(tǒng)的貝葉斯郵件分類算法中[2],通常以郵件e屬于正常郵件類(Ham)和垃圾郵件類(Spam)的后驗(yàn)概率比值作為郵件分類的依據(jù),其具體計(jì)算方法如(1)式所示:
其中,P(Ham)與P(Spam)分別為正常郵件和垃圾郵件的出現(xiàn)概率;P(e|Ham)與P(e|Spam)分別為在正常郵件類和垃圾郵件類中出現(xiàn)郵件e的先驗(yàn)概率。當(dāng)比值超過(guò)預(yù)定閾值時(shí),則貝葉斯分類算法將郵件e判定為垃圾郵件,否則判定為正常郵件。
樸素貝葉斯分類算法則在傳統(tǒng)貝葉斯分類算法基礎(chǔ)之上,應(yīng)用了“郵件特征詞條件獨(dú)立性假設(shè)”[3]:即在給定郵件分類條件下,郵件 e各特征詞{w1,w2,…,wn}的出現(xiàn)相互獨(dú)立,其中n為在郵件e中所提取的郵件特征詞個(gè)數(shù)。將這一假設(shè)應(yīng)用在(1)中,則樸素貝葉斯分類算法的郵件分類依據(jù)如式(2)所示:
其中,P(wi|Spam)與 P(wi|Ham)分別代表在垃圾郵件類和正常郵件類中出現(xiàn)特征詞wi的先驗(yàn)概率;兩者比值P(wi|Spam)/P(wi|Ham)則代表了郵件特征詞wi對(duì)郵件e分類結(jié)果的影響權(quán)重。
在傳統(tǒng)樸素貝葉斯分類算法對(duì)郵件進(jìn)行分類的過(guò)程中,概率比值P(wi|Spam)/P(wi|Ham)并不會(huì)隨著用戶的不同而發(fā)生改變,這意味著特征詞wi的出現(xiàn)對(duì)不同用戶郵件的分類影響均相同。因此,傳統(tǒng)樸素貝葉斯分類算法忽略了不同用戶對(duì)特征詞wi的喜惡差異,勢(shì)必對(duì)郵件分類的準(zhǔn)確性產(chǎn)生影響。如果能夠?qū)⒂脩魝€(gè)性化郵件分類標(biāo)準(zhǔn)融入樸素貝葉斯郵件分類過(guò)程之中,將有助于垃圾郵件過(guò)濾準(zhǔn)確性的進(jìn)一步提升。
基于用戶反饋的個(gè)性化垃圾郵件過(guò)濾方法的郵件處理基本流程如圖1所示:過(guò)濾方法由郵件分類知識(shí)學(xué)習(xí)與郵件分類兩部分組成:一方面,用戶的反饋信息將同時(shí)應(yīng)用于全局郵件分類知識(shí)和用戶個(gè)性化郵件分類知識(shí)的提取與更新;在另一方面,將上述郵件分類知識(shí)有機(jī)結(jié)合應(yīng)用于樸素貝葉斯郵件分類之中,同時(shí)從全局與用戶個(gè)體兩個(gè)方面綜合判別郵件是否為垃圾郵件,實(shí)現(xiàn)用戶郵件個(gè)性化分類。
本文假設(shè)垃圾郵件過(guò)濾系統(tǒng)已經(jīng)實(shí)現(xiàn)了可用于用戶反饋的接口。當(dāng)接收到一封郵件時(shí),用戶可通過(guò)該反饋接口手工向系統(tǒng)提供其對(duì)郵件進(jìn)行分類的相關(guān)信息。在本文中,用戶反饋信息包含3部分內(nèi)容:郵件的完整內(nèi)容、郵件分類結(jié)果以及郵件的分類時(shí)間戳。
圖1 基于用戶反饋的個(gè)性化垃圾郵件過(guò)濾方法工作流程Fig.1 Procedure of the personalized spam filtering method based on users'feedback
2.1.1 全局郵件分類知識(shí)學(xué)習(xí)
用戶反饋所包含的郵件將作為郵件樣本進(jìn)入系統(tǒng)的全局訓(xùn)練郵件集中;同時(shí),為保證訓(xùn)練郵件集中的郵件能夠反映垃圾郵件的當(dāng)前變化趨勢(shì),全局郵件分類知識(shí)學(xué)習(xí)模塊將周期性從訓(xùn)練郵件集中移除時(shí)間戳較早的郵件樣本。
在訓(xùn)練郵件集的基礎(chǔ)上,本文采用基于貝葉斯的郵件內(nèi)容學(xué)習(xí)模塊,以全局訓(xùn)練郵件集中郵件特征詞wi(1≤i≤n)在垃圾郵件類Spam和正常郵件類Ham下的先驗(yàn)條件概率G(wi|Spam)、G(wi|Ham)作為全局郵件分類知識(shí),其中n為訓(xùn)練郵件集中不同郵件特征詞的個(gè)數(shù)。上述概率的計(jì)算方法如式(3)、(4)所示:
其中,參數(shù)Nspam和NHam分別代表全局訓(xùn)練郵件集中垃圾郵件樣本和正常郵件樣本的數(shù)量;參數(shù) Nspam(wi)和 NHam(wi)分別代表在垃圾郵件樣本和正常郵件樣本中出現(xiàn)特征詞wi的郵件數(shù)量。 因此,概率 G(wi|Spam)、G(wi|Ham)的取值代表了特征詞wi在不同郵件類別中出現(xiàn)的概率差異。
由于全局訓(xùn)練郵件集中的郵件來(lái)自系統(tǒng)所有用戶的反饋,因此采用上述方式產(chǎn)生的全局郵件分類知識(shí)是所有用戶郵件分類標(biāo)準(zhǔn)的綜合反映。
2.1.2 用戶個(gè)性化郵件分類知識(shí)學(xué)習(xí)
系統(tǒng)為每一用戶維護(hù)屬于該用戶的個(gè)性化訓(xùn)練郵件集:用戶s反饋的郵件信息在進(jìn)入系統(tǒng)全局訓(xùn)練郵件集的同時(shí),也將進(jìn)入用戶s的個(gè)性化訓(xùn)練郵件集中,以作為用戶s個(gè)性化郵件分類知識(shí)學(xué)習(xí)的基礎(chǔ)。與全局郵件分類知識(shí)的學(xué)習(xí)過(guò)程類似,用戶個(gè)性化郵件分類知識(shí)學(xué)習(xí)模塊以用戶個(gè)性化訓(xùn)練郵件集中郵件特征詞wi(1≤i≤m)在垃圾郵件類Spam和正常郵件類 Ham 下的先驗(yàn)條件概率 Us(wi|Spam)、Us(wi|Ham)作為用戶個(gè)性化郵件分類知識(shí),其中m為訓(xùn)練郵件集中不同郵件特征詞的個(gè)數(shù)。
對(duì)于用戶 s 而言,Us(wi|Spam)與 Us(wi|Ham)的取值在一定程度上可以反映郵件特征詞wi對(duì)用戶s郵件手工分類結(jié)果的影響:當(dāng) Us(wi|Spam)值較大而 Us(wi|Ham)值較小時(shí),則表明wi在垃圾郵件中出現(xiàn)的概率更高,用戶s更傾向于將包含wi的郵件判別為垃圾郵件;反之,當(dāng)Us(wi|Spam)值較小而Us(wi|Ham)值較大時(shí),則表明wi在正常郵件中出現(xiàn)的概率更高,用戶s更傾向于將包含wi的郵件判別為正常郵件。因此,當(dāng) Us(wi|Spam)與 Us(wi|Ham)兩者取值相差較大時(shí),則意味著郵件特征詞wi在反映用戶s的郵件分類標(biāo)準(zhǔn)方面發(fā)揮著更為重要的作用,在對(duì)用戶s郵件進(jìn)行分類的過(guò)程中應(yīng)給予重視?;谶@一思想,本文在用戶s個(gè)性化郵件分類知識(shí)基礎(chǔ)上,提取該用戶的興趣特征詞集Is與厭惡特征詞集Ds,具體方法如式(5)所示:
其中α與β分別為興趣特征詞和厭惡特征詞的篩選閾值。因此,詞集Is與Ds在一定程度上從郵件特征詞的角度描述了用戶s對(duì)郵件內(nèi)容的主觀喜惡。
如前所述,當(dāng)郵件特征詞wi屬于用戶s的興趣特征詞集Is或厭惡特征詞集Ds時(shí),則意味著wi對(duì)用戶郵件的分類結(jié)果具有更大的影響。為此,本文以傳統(tǒng)樸素貝葉斯分類為基礎(chǔ),提出一種混合型郵件分類模塊,實(shí)現(xiàn)全局郵件分類知識(shí)與用戶個(gè)性化郵件分類知識(shí)的結(jié)合。具體而言,該分類模塊將根據(jù)用戶的不同,在兩類郵件分類知識(shí)基礎(chǔ)上動(dòng)態(tài)調(diào)整郵件特征詞對(duì)郵件分類結(jié)果的影響權(quán)重,實(shí)現(xiàn)郵件特征詞在分類過(guò)程中的差別化處理。當(dāng)混合型郵件分類模塊在對(duì)發(fā)往用戶s的郵件e進(jìn)行處理時(shí),其采用的郵件分類依據(jù)如式(6)所示:
在式(6)中,F(xiàn)s(wi)代表了郵件特征詞 wi對(duì)郵件分類結(jié)果的影響權(quán)重,而其取值取決于wi是否屬于用戶s的興趣特征詞集和厭惡特征詞集:當(dāng)wi位于Is或Ds之中時(shí),分類模塊將根據(jù)用戶的個(gè)性化郵件分類知識(shí)確定Fs(wi),以將用戶個(gè)性化郵件分類標(biāo)準(zhǔn)融入郵件分類過(guò)程,在郵件分類中考慮用戶對(duì)郵件內(nèi)容的喜惡;反之,當(dāng)wi不屬于Is或Ds時(shí),分類模塊將根據(jù)全局郵件分類知識(shí)確定F(wi),從全局角度衡量wi對(duì)郵件分類結(jié)果的影響。
為評(píng)估文中提出的基于用戶反饋的個(gè)性化垃圾郵件過(guò)濾方法(Personalized Filtering method based on User’s Feedback,PFUF)在提升郵件分類效果方面的有效性,本文通過(guò)仿真實(shí)驗(yàn)將該方法與傳統(tǒng)樸素貝葉斯分類算法 (Naive Bayesian Classification method,NBC)進(jìn)行郵件分類性能上的比較。
實(shí)驗(yàn)采用的郵件集來(lái)自TREC郵件過(guò)濾任務(wù)2007年公開(kāi)的郵件數(shù)據(jù)集trec07p,其中包括25 000封正常郵件和50 000封垃圾郵件。在郵件數(shù)據(jù)集trec07p中,隨機(jī)選擇5 000封正常郵件與5 000封垃圾郵件構(gòu)成全局訓(xùn)練郵件集,以供NBC和PFUF方法學(xué)習(xí)并產(chǎn)生初始的全局郵件分類知識(shí);在另一方面,實(shí)驗(yàn)從郵件集剩余郵件中隨機(jī)選擇10 000封郵件作為針對(duì)用戶s的測(cè)試郵件集,以此測(cè)試NBC方法和PFUF方法在郵件分類方面的表現(xiàn)。為實(shí)現(xiàn)對(duì)用戶s個(gè)性化郵件分類標(biāo)準(zhǔn)的模擬,在實(shí)驗(yàn)中用戶s會(huì)將測(cè)試郵件集中符合特定內(nèi)容特征的垃圾郵件(如特定類型的商業(yè)廣告郵件)反饋為正常郵件;默認(rèn)情況下,當(dāng)用戶s接收到一封郵件時(shí),將以40%的概率向系統(tǒng)提供反饋。
實(shí)驗(yàn)的其它參數(shù)設(shè)置如表1所示。
表1 實(shí)驗(yàn)參數(shù)及其默認(rèn)值Tab.1 Configuration of experimental parameters
實(shí)驗(yàn)將從召回率、查準(zhǔn)率和精確率[10]等3方面指標(biāo)對(duì)垃圾郵件過(guò)濾技術(shù)的郵件分類性能進(jìn)行評(píng)價(jià)。
實(shí)驗(yàn)1的目的在于比較本文提出的PFUF方法與NBC方法在郵件分類效果方面的差異。實(shí)驗(yàn)結(jié)果如表2所示:兩種方法均取得了較好的郵件分類召回率;而PFUF方法在查準(zhǔn)率和精確率方面則優(yōu)于NBC方法。這一結(jié)果表明,PFUF方法在用戶s動(dòng)態(tài)反饋基礎(chǔ)上所提取的用戶個(gè)性化郵件分類知識(shí),能夠較為準(zhǔn)確地反映用戶s自身的郵件分類標(biāo)準(zhǔn);而用戶個(gè)性化分類知識(shí)在郵件分類中的應(yīng)用,能夠減少正常郵件的誤判現(xiàn)象,有效改善垃圾郵件過(guò)濾的效果。
表2 郵件分類性能比較Tab.2 Comparison of the performance of e-mail classification
實(shí)驗(yàn)2的目的在于衡量用戶的反饋概率對(duì)PFUF方法性能的影響,實(shí)驗(yàn)結(jié)果如表2所示。與表1結(jié)果進(jìn)行比較可知,當(dāng)用戶的反饋概率較低時(shí),PFUF方法的郵件分類性能接近于樸素貝葉斯分類算法的性能;隨著用戶反饋概率的增加,PFUF方法的性能將逐漸得到提升;而當(dāng)反饋概率增加至一定程度后,郵件分類性能的提升幅度將趨于緩和。這一結(jié)果表明:用戶反饋對(duì)于PFUF方法性能的提升至關(guān)重要;在另一方面,即使在用戶只提供部分反饋時(shí),PFUF方法所提取的用戶個(gè)性化郵件分類知識(shí)仍能較為準(zhǔn)確地反映用戶的郵件分類標(biāo)準(zhǔn)。
實(shí)驗(yàn)3的目的在于衡量興趣特征詞與厭惡特征詞篩選參數(shù)α、β對(duì)PFUF方法性能的影響,在實(shí)驗(yàn)中篩選參數(shù)α、β取值設(shè)置相同。實(shí)驗(yàn)結(jié)果如表4所示:當(dāng)篩選參數(shù)取值較小或較大時(shí),PFUF方法在查準(zhǔn)率和精確率方面的表現(xiàn)并不理想。其原因在于,較小的篩選參數(shù)容易致使所選取的郵件特征詞過(guò)多,不能較為準(zhǔn)確地反映用戶對(duì)郵件內(nèi)容的喜惡,進(jìn)而影響郵件分類的效果,導(dǎo)致郵件分類的誤判。在另一方面,過(guò)大的篩選參數(shù)將導(dǎo)致所選取的特征詞數(shù)量過(guò)少,不能較為全面地描述用戶自身的郵件分類標(biāo)準(zhǔn)。
表3 用戶反饋概率對(duì)PFUF郵件分類性能的影響Tab.3 Impact of the feedback ratio on the performance of PFUF
表4 篩選參數(shù)取值對(duì)PFUF郵件分類性能的影響Tab.4 Impact of the filtering parameters settings on the performance of PFUF
文中提出一種基于用戶反饋的個(gè)性化垃圾郵件過(guò)濾方法,一方面,將用戶反饋應(yīng)用于全局郵件分類標(biāo)準(zhǔn)和用戶個(gè)性化郵件分類標(biāo)準(zhǔn)的提取與更新;在另一方面,在樸素貝葉斯分類模型基礎(chǔ)上實(shí)現(xiàn)全局郵件分類標(biāo)準(zhǔn)與用戶個(gè)性化郵件分類標(biāo)準(zhǔn)的有機(jī)結(jié)合,同時(shí)從全局和用戶個(gè)體兩方面綜合判別郵件是否為垃圾郵件。實(shí)驗(yàn)結(jié)果表明,該方法能夠改進(jìn)傳統(tǒng)樸素貝葉斯分類算法在實(shí)現(xiàn)用戶郵件個(gè)性化過(guò)濾方面的不足,有效提高郵件分類效果。
文中提出方法的下一步改進(jìn)方向主要包括:針對(duì)電子郵件應(yīng)用的特點(diǎn),設(shè)計(jì)適合互聯(lián)網(wǎng)環(huán)境的電子郵件用戶反饋機(jī)制等方面。
[1]中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)反垃圾郵件(信息)中心.2010年第四季度中國(guó)反垃圾郵件狀況調(diào)查報(bào)告 [EB/OL].[2010-12-01].http://www.12321.cn/pdf/2010_04_report.pdf.
[2]Friedman N,Geiger D.Bayesian network classifiers[J].Machine Learning,1997,29(2):131-163.
[3]Schneider K.A comparison of event models for naive Bayes anti-spam e-mail filtering[C]//Proceedings of 10th Conference of the European Chapter of the Association for Computational Linguistics.Budapest, Hungary:IEEE Press,2003:307-314.
[4]Drucker H,Wu D,Vapnik V.Support vector machines for spamcategorization[J].IEEETransactionson Neural Networks,1999,20(5):1048-1054.
[5]鄧春燕,陶多秀,呂躍進(jìn).粗糙集與決策樹(shù)在電子郵件分類與過(guò)濾中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2009(6):138-140.DENG Chun-yan,TAO Duo-xiu,LV Yue-jin.Application of rough set and decision tree in e-mail classification and filtering[J].Computer Engineering and Applications,2009,45(16):138-140.
[6]Thiago S,Guzella W.A review of machine learning approaches to spam filtering[J].Expert Systems with Applications,2009 36(7):10206-10222.
[7]Lai C.An empirical study of three machine learning methods for spam filtering[J].Knowledge-based System,2007,20(3):249-254.
[8]王斌,潘文鋒.基于內(nèi)容的垃圾郵件過(guò)濾技術(shù)綜述[J].中文信息學(xué)報(bào),2005,19(5):4-5.WANG Bin,PAN Wen-feng.A survey of conten-based antispam email filtering[J].Journal of Chinese Information Processing,2005,19(5):4-5.
[9]Yih W,Mccann R,Kolcz A.Improving spam filtering by detecting gray mail[C]//Proceedings of Third Conference on Email and AntiSpam (CEAS).California, USA:IEEE Press,2007.