三支決策基于粒度的郵件過濾

2016-07-23 21:21肖瑤

電腦知識與技術(shù) 2016年17期

肖瑤

摘要：現(xiàn)在目前的郵件處理方式一般將郵件分為：普通郵件和垃圾郵件。但在實際中，經(jīng)常會有安全的郵件被放進(jìn)垃圾郵件中。為了減少這部分的損失，現(xiàn)我們可以將郵件分為：普通郵件、可疑郵件和垃圾郵件。我們采用三支決策的方法，將郵件分為三類，來達(dá)到減少誤判的目的。同時，由于現(xiàn)在的人們?yōu)榱穗[藏垃圾郵件，會將發(fā)送的內(nèi)容中的一些字換成形似的其他字，來達(dá)到避開分類的目的。因此本文提出將粒計算也加入到分類的標(biāo)準(zhǔn)中，更好的能識別垃圾郵件，為郵件進(jìn)行過濾分類。

關(guān)鍵詞：郵件過濾；三支決策；粒計算

中圖分類號：TP393 文獻(xiàn)標(biāo)識碼：A 文章編號：1009-3044（2016）17-0248-04

1 概述

隨著科技的發(fā)展，網(wǎng)絡(luò)的普及，收發(fā)郵件已經(jīng)成了人們?nèi)粘Ｉ钪胁豢扇鄙俚墓ぷ?。我們都知道郵件擁有普及性、實用性等優(yōu)點，然而有些人正是看中了這種高效的操縱性，頻繁、大量的制造垃圾郵件，妨礙了郵件本該帶來的方便，制造了不便。針對垃圾郵件過濾的問題，有人提出基于黑白名單過濾、反向DNS查詢等方法。而這類方法很容易被有意識的修改某些信息而繞過過濾因而產(chǎn)生誤判。因此，減少誤判也是我們所需要關(guān)注的重點。

現(xiàn)在也有許多關(guān)于分類的機器學(xué)習(xí)算法來自動的對郵件進(jìn)行分類。其中，貝葉斯分類器取得了很好的效果。樸素貝葉斯分類器以及其他的郵件分類算法，對郵件過濾一般處理為兩類，即要么是垃圾郵件，要么是非垃圾郵件。而這種方法在現(xiàn)實生活中則太過絕對，很容易產(chǎn)生誤判。因此，本文基于姚一豫教授提出的三支決策理論，結(jié)合貝葉斯算法、粗糙集、粒計算等，以提高垃圾過濾的準(zhǔn)確性。

2 相關(guān)理論

2.1 樸素貝葉斯垃圾郵件過濾

其中，可以很容易的從以往的數(shù)據(jù)統(tǒng)計中得到。這樣一來，（1）式可被改寫為：

同理，我們也可以寫出郵件屬于垃圾郵件類的條件概率為：

由（3）（4）式我們可以得到：

其中。若超過某一閾值，則劃為非垃圾郵件類，否則，則劃為垃圾郵件類。

2.2 知識粒度

3 郵件過濾模型建立

3.1 三支決策模型

在樸素貝葉斯算法中，當(dāng)后驗概率超過一定閾值時，可以將郵件歸為非垃圾郵件類。在本文中的基于三支決策方法，我們將確定兩個閾值，來對郵件進(jìn)行三類的分類。一個閾值來決定郵件是否需要再判斷，另一個閾值來確定是否把郵件歸為垃圾郵件類。

本文中的三支決策方法是基于決策粗糙集理論和貝葉斯定理，其中，決策粗糙集是由兩個狀態(tài)集和三個行動集來進(jìn)行的。

3.2 過濾過程建立

目前，許多不法分子為了躲避關(guān)鍵字的過濾，經(jīng)常采取一些手段來編輯郵件。例如郵件的內(nèi)容中，用很多特殊符號和繁體字，以及利用字形相似的文字來代替書寫，躲避關(guān)鍵詞。為了減少因這些問題帶來的誤判，本文將郵件劃分為有限個粒度，層層遞進(jìn)的來對郵件進(jìn)行處理。

我們將郵件劃分為個粒度：。例如A1=[發(fā)送人]，A2=[發(fā)送時間]，，……，。顯然。

決策過程：

（1）對粒度進(jìn)行三支決策分類，若能夠劃分到正常郵件或垃圾郵件，則立即處理進(jìn)行劃分。不能確定的郵件劃為可以郵件類，等待后階段添加粒度，在進(jìn)行決策。

（2）依次添加信息粒度，重復(fù)進(jìn)行（1）中的過程，對劃分為可疑郵件的郵件逐步添加屬性粒度信息，及時進(jìn)行決策。

（3）若所有的屬性信息全部添加完后仍劃為可疑郵件，則交由收件人自己判斷。

過程流程圖如下：

由（12）式得：

來劃分一次分類中郵件所屬的區(qū)域。

3.3 模擬實驗分析

本文從自己的郵箱中提取數(shù)據(jù)集，一共400封郵件，其中124封正常郵件，276封垃圾郵件。接下來對郵件的關(guān)鍵字進(jìn)行提取，過濾一些意義不大的字眼，如“啊”，“一”，“的”等。提取每一個詞，計算每個詞在正常郵件和垃圾郵件中出現(xiàn)的頻率。例如，在276封垃圾郵件中，有23封包含這個詞語，那么它出現(xiàn)的頻率就是0.083。其中，為了避免太過絕對，若某個詞只出現(xiàn)在垃圾郵件中，那我們就假設(shè)它出現(xiàn)在正常郵件中的頻率為0.01。同時，統(tǒng)計垃圾郵件中，發(fā)件人的郵箱和發(fā)送時間的頻率。并且，統(tǒng)計每一封垃圾郵件中繁體字出現(xiàn)的頻率。

現(xiàn)有一封新郵件，我們將它分為5個粒度，A1=[郵件發(fā)件人]，，，，。

其中，對于來說，若數(shù)據(jù)量不夠大的時候，可能無法作為分類的標(biāo)準(zhǔn)。當(dāng)數(shù)據(jù)量足夠大的時候，我們可以統(tǒng)計各個發(fā)件人發(fā)送的郵件在正常郵件中的概率，和在垃圾郵件中的概率。對于來說，大多數(shù)垃圾郵件的發(fā)送時間為非工作時間，我們可以統(tǒng)計在某些時間段類，郵件為正常郵件的概率和為垃圾郵件的概率。對于來說，一般當(dāng)繁體字和特殊符號過多時，該郵件為垃圾郵件，我們可以統(tǒng)計繁體字和特殊符號出現(xiàn)在正常郵件中的概率，和出現(xiàn)在垃圾郵件中概率。對于來說，則需提取單詞來進(jìn)行分析，運用條件概率和貝葉斯公式，來對郵件進(jìn)行分類。

現(xiàn)對進(jìn)行分析。設(shè)為正常郵件類，為可疑郵件類，為垃圾郵件類。我們假設(shè)一封郵件為正常郵件和垃圾郵件的先驗概率都為0.5，即。若記單詞“售”為，其出現(xiàn)在垃圾郵件中的概率為，則，問題變成了求。由貝葉斯公式，我們知：

[Pr（NW1）=Pr（N）Pr（W1N）Pr（W1）] （18）

其中，。假設(shè)經(jīng)統(tǒng)計過后，，，則可計算出。當(dāng)然，用一個詞的概率無法確定分類，所以，我們可將值較高的前20個求聯(lián)合概率，來得到最后此階段的概率。

在各分類階段中，第階段得到，由式（17），當(dāng)時，劃分為正常郵件；當(dāng)，劃為可疑郵件，增加粒度進(jìn)行下一階段分類；時，劃為垃圾郵件。其中，若數(shù)據(jù)量不夠大時，可直接從開始進(jìn)行第一次分類。

4 結(jié)束語

在電子郵件普遍使用的今天，如何對郵件進(jìn)行準(zhǔn)確的過濾是我們一直關(guān)注的問題。本文以三支決策為基礎(chǔ)，結(jié)合貝葉斯算法、粗糙集、粒計算等，建立了一個郵件過濾模型。通過從小到大的粒度，能夠更高效、更準(zhǔn)確地對郵件進(jìn)行過濾。下一步將考慮如何劃分適當(dāng)?shù)牧６龋瑏硖岣邷?zhǔn)確性和高效性。然后，也可以考慮在大數(shù)據(jù)的平臺下來實現(xiàn)這一過程。

參考文獻(xiàn)：

[1] 王國胤，張清華，胡軍. 粒計算研究綜述[J]. 智能系統(tǒng)學(xué)報，2007，2（6）：8-26.

[2] Bing Zhou， Yiyu Yao， Jigang Luo. A Three-Way Decision Approach to Email Spam Filtering[C]. Canadian Conference on Advances in Artificial Intelligence. Springer-Verlag， 2010：28-39.

[3] Sahami M， Dumais S， Heckerman D， et al. A Bayesian Approach to Filtering Junk E-Mail[J]. Papers from the Workshop Aaai，1998.

[4] Yao Y. Three-Way Decision： An Interpretation of Rules in Rough Set Theory[C]// International Conference on Rough Sets and Knowledge Technology. Springer-Verlag， 2009：642-649.

[5] 王國胤，張清華. 不同知識粒度下粗糙集的不確定性研究[J]. 計算機學(xué)報， 2008， 31（9）：1588-1598.

[6] 翟軍昌，秦玉平，王春立. 改進(jìn)的樸素貝葉斯垃圾郵件過濾算法[J]. 計算機工程與應(yīng)用， 2009， 45（14）：145-148.

[7] Yao Y. The superiority of three-way decisions in probabilistic rough set models[J]. Information Sciences， 2011， 181（6）：1080-1096.

[8] 王國胤，張清華，馬希驁，等. 知識不確定性問題的粒計算模型[J]. 軟件學(xué)報， 2011， 22（4）：676-694.

[9] 李建林，黃順亮. 多階段三支決策垃圾短信過濾模型[J]. 計算機科學(xué)與探索， 2014， 8（2）：226-233.

[10] 李華雄，劉盾，周獻(xiàn)中. 決策粗糙集模型研究綜述[J]. 重慶郵電大學(xué)學(xué)報：自然科學(xué)版， 2010， 22（5）：624-630.

電腦知識與技術(shù)2016年17期

電腦知識與技術(shù)的其它文章: 數(shù)據(jù)挖掘技術(shù)在違約金計算中的應(yīng)用; 關(guān)于數(shù)據(jù)庫安全問題的探索與研究; 基于大數(shù)據(jù)的高校財務(wù)信息化建設(shè)有關(guān)對策研究; 淺析數(shù)據(jù)庫的安全設(shè)計與管理; 基于WIFI 的無線存儲系統(tǒng); 基于車聯(lián)網(wǎng)的交通信息采集與應(yīng)用研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

三支決策基于粒度的郵件過濾