肖瑤
摘要:現(xiàn)在目前的郵件處理方式一般將郵件分為:普通郵件和垃圾郵件。但在實際中,經(jīng)常會有安全的郵件被放進(jìn)垃圾郵件中。為了減少這部分的損失,現(xiàn)我們可以將郵件分為:普通郵件、可疑郵件和垃圾郵件。我們采用三支決策的方法,將郵件分為三類,來達(dá)到減少誤判的目的。同時,由于現(xiàn)在的人們?yōu)榱穗[藏垃圾郵件,會將發(fā)送的內(nèi)容中的一些字換成形似的其他字,來達(dá)到避開分類的目的。因此本文提出將粒計算也加入到分類的標(biāo)準(zhǔn)中,更好的能識別垃圾郵件,為郵件進(jìn)行過濾分類。
關(guān)鍵詞:郵件過濾;三支決策;粒計算
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)17-0248-04
1 概述
隨著科技的發(fā)展,網(wǎng)絡(luò)的普及,收發(fā)郵件已經(jīng)成了人們?nèi)粘I钪胁豢扇鄙俚墓ぷ?。我們都知道郵件擁有普及性、實用性等優(yōu)點,然而有些人正是看中了這種高效的操縱性,頻繁、大量的制造垃圾郵件,妨礙了郵件本該帶來的方便,制造了不便。針對垃圾郵件過濾的問題,有人提出基于黑白名單過濾、反向DNS查詢等方法。而這類方法很容易被有意識的修改某些信息而繞過過濾因而產(chǎn)生誤判。因此,減少誤判也是我們所需要關(guān)注的重點。
現(xiàn)在也有許多關(guān)于分類的機器學(xué)習(xí)算法來自動的對郵件進(jìn)行分類。其中,貝葉斯分類器取得了很好的效果。樸素貝葉斯分類器以及其他的郵件分類算法,對郵件過濾一般處理為兩類,即要么是垃圾郵件,要么是非垃圾郵件。而這種方法在現(xiàn)實生活中則太過絕對,很容易產(chǎn)生誤判。因此,本文基于姚一豫教授提出的三支決策理論,結(jié)合貝葉斯算法、粗糙集、粒計算等,以提高垃圾過濾的準(zhǔn)確性。
2 相關(guān)理論
2.1 樸素貝葉斯垃圾郵件過濾
其中,
同理,我們也可以寫出郵件屬于垃圾郵件類的條件概率為:
由(3)(4)式我們可以得到:
其中
2.2 知識粒度
3 郵件過濾模型建立
3.1 三支決策模型
在樸素貝葉斯算法中,當(dāng)后驗概率超過一定閾值時,可以將郵件歸為非垃圾郵件類。在本文中的基于三支決策方法,我們將確定兩個閾值,來對郵件進(jìn)行三類的分類。一個閾值來決定郵件是否需要再判斷,另一個閾值來確定是否把郵件歸為垃圾郵件類。
本文中的三支決策方法是基于決策粗糙集理論和貝葉斯定理,其中,決策粗糙集是由兩個狀態(tài)集和三個行動集來進(jìn)行的。
3.2 過濾過程建立
目前,許多不法分子為了躲避關(guān)鍵字的過濾,經(jīng)常采取一些手段來編輯郵件。例如郵件的內(nèi)容中,用很多特殊符號和繁體字,以及利用字形相似的文字來代替書寫,躲避關(guān)鍵詞。為了減少因這些問題帶來的誤判,本文將郵件劃分為有限個粒度,層層遞進(jìn)的來對郵件進(jìn)行處理。
我們將郵件劃分為
決策過程:
(1)對粒度
(2)依次添加信息粒度,重復(fù)進(jìn)行(1)中的過程,對劃分為可疑郵件的郵件逐步添加屬性粒度信息,及時進(jìn)行決策。
(3)若所有的屬性信息全部添加完后仍劃為可疑郵件,則交由收件人自己判斷。
過程流程圖如下:
由(12)式得:
來劃分一次分類中郵件所屬的區(qū)域。
3.3 模擬實驗分析
本文從自己的郵箱中提取數(shù)據(jù)集,一共400封郵件,其中124封正常郵件,276封垃圾郵件。接下來對郵件的關(guān)鍵字進(jìn)行提取,過濾一些意義不大的字眼,如“啊”,“一”,“的”等。提取每一個詞,計算每個詞在正常郵件和垃圾郵件中出現(xiàn)的頻率。例如,在276封垃圾郵件中,有23封包含這個詞語,那么它出現(xiàn)的頻率就是0.083。其中,為了避免太過絕對,若某個詞只出現(xiàn)在垃圾郵件中,那我們就假設(shè)它出現(xiàn)在正常郵件中的頻率為0.01。同時,統(tǒng)計垃圾郵件中,發(fā)件人的郵箱和發(fā)送時間的頻率。并且,統(tǒng)計每一封垃圾郵件中繁體字出現(xiàn)的頻率。
現(xiàn)有一封新郵件,我們將它分為5個粒度,A1=[郵件發(fā)件人],
其中,對于
現(xiàn)對
[Pr(NW1)=Pr(N)Pr(W1N)Pr(W1)] (18)
其中,
在各分類階段中,第
4 結(jié)束語
在電子郵件普遍使用的今天,如何對郵件進(jìn)行準(zhǔn)確的過濾是我們一直關(guān)注的問題。本文以三支決策為基礎(chǔ),結(jié)合貝葉斯算法、粗糙集、粒計算等,建立了一個郵件過濾模型。通過從小到大的粒度,能夠更高效、更準(zhǔn)確地對郵件進(jìn)行過濾。下一步將考慮如何劃分適當(dāng)?shù)牧6龋瑏硖岣邷?zhǔn)確性和高效性。然后,也可以考慮在大數(shù)據(jù)的平臺下來實現(xiàn)這一過程。
參考文獻(xiàn):
[1] 王國胤, 張清華, 胡軍. 粒計算研究綜述[J]. 智能系統(tǒng)學(xué)報,2007,2(6):8-26.
[2] Bing Zhou, Yiyu Yao, Jigang Luo. A Three-Way Decision Approach to Email Spam Filtering[C]. Canadian Conference on Advances in Artificial Intelligence. Springer-Verlag, 2010:28-39.
[3] Sahami M, Dumais S, Heckerman D, et al. A Bayesian Approach to Filtering Junk E-Mail[J]. Papers from the Workshop Aaai,1998.
[4] Yao Y. Three-Way Decision: An Interpretation of Rules in Rough Set Theory[C]// International Conference on Rough Sets and Knowledge Technology. Springer-Verlag, 2009:642-649.
[5] 王國胤, 張清華. 不同知識粒度下粗糙集的不確定性研究[J]. 計算機學(xué)報, 2008, 31(9):1588-1598.
[6] 翟軍昌, 秦玉平, 王春立. 改進(jìn)的樸素貝葉斯垃圾郵件過濾算法[J]. 計算機工程與應(yīng)用, 2009, 45(14):145-148.
[7] Yao Y. The superiority of three-way decisions in probabilistic rough set models[J]. Information Sciences, 2011, 181(6):1080-1096.
[8] 王國胤, 張清華, 馬希驁,等. 知識不確定性問題的粒計算模型[J]. 軟件學(xué)報, 2011, 22(4):676-694.
[9] 李建林, 黃順亮. 多階段三支決策垃圾短信過濾模型[J]. 計算機科學(xué)與探索, 2014, 8(2):226-233.
[10] 李華雄, 劉盾, 周獻(xiàn)中. 決策粗糙集模型研究綜述[J]. 重慶郵電大學(xué)學(xué)報:自然科學(xué)版, 2010, 22(5):624-630.