国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

三支決策基于粒度的郵件過濾

2016-07-23 21:21肖瑤
電腦知識與技術(shù) 2016年17期

肖瑤

摘要:現(xiàn)在目前的郵件處理方式一般將郵件分為:普通郵件和垃圾郵件。但在實際中,經(jīng)常會有安全的郵件被放進(jìn)垃圾郵件中。為了減少這部分的損失,現(xiàn)我們可以將郵件分為:普通郵件、可疑郵件和垃圾郵件。我們采用三支決策的方法,將郵件分為三類,來達(dá)到減少誤判的目的。同時,由于現(xiàn)在的人們?yōu)榱穗[藏垃圾郵件,會將發(fā)送的內(nèi)容中的一些字換成形似的其他字,來達(dá)到避開分類的目的。因此本文提出將粒計算也加入到分類的標(biāo)準(zhǔn)中,更好的能識別垃圾郵件,為郵件進(jìn)行過濾分類。

關(guān)鍵詞:郵件過濾;三支決策;粒計算

中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)17-0248-04

1 概述

隨著科技的發(fā)展,網(wǎng)絡(luò)的普及,收發(fā)郵件已經(jīng)成了人們?nèi)粘I钪胁豢扇鄙俚墓ぷ?。我們都知道郵件擁有普及性、實用性等優(yōu)點,然而有些人正是看中了這種高效的操縱性,頻繁、大量的制造垃圾郵件,妨礙了郵件本該帶來的方便,制造了不便。針對垃圾郵件過濾的問題,有人提出基于黑白名單過濾、反向DNS查詢等方法。而這類方法很容易被有意識的修改某些信息而繞過過濾因而產(chǎn)生誤判。因此,減少誤判也是我們所需要關(guān)注的重點。

現(xiàn)在也有許多關(guān)于分類的機器學(xué)習(xí)算法來自動的對郵件進(jìn)行分類。其中,貝葉斯分類器取得了很好的效果。樸素貝葉斯分類器以及其他的郵件分類算法,對郵件過濾一般處理為兩類,即要么是垃圾郵件,要么是非垃圾郵件。而這種方法在現(xiàn)實生活中則太過絕對,很容易產(chǎn)生誤判。因此,本文基于姚一豫教授提出的三支決策理論,結(jié)合貝葉斯算法、粗糙集、粒計算等,以提高垃圾過濾的準(zhǔn)確性。

2 相關(guān)理論

2.1 樸素貝葉斯垃圾郵件過濾

其中,可以很容易的從以往的數(shù)據(jù)統(tǒng)計中得到。這樣一來,(1)式可被改寫為:

同理,我們也可以寫出郵件屬于垃圾郵件類的條件概率為:

由(3)(4)式我們可以得到:

其中。若超過某一閾值,則劃為非垃圾郵件類,否則,則劃為垃圾郵件類。

2.2 知識粒度

3 郵件過濾模型建立

3.1 三支決策模型

在樸素貝葉斯算法中,當(dāng)后驗概率超過一定閾值時,可以將郵件歸為非垃圾郵件類。在本文中的基于三支決策方法,我們將確定兩個閾值,來對郵件進(jìn)行三類的分類。一個閾值來決定郵件是否需要再判斷,另一個閾值來確定是否把郵件歸為垃圾郵件類。

本文中的三支決策方法是基于決策粗糙集理論和貝葉斯定理,其中,決策粗糙集是由兩個狀態(tài)集和三個行動集來進(jìn)行的。

3.2 過濾過程建立

目前,許多不法分子為了躲避關(guān)鍵字的過濾,經(jīng)常采取一些手段來編輯郵件。例如郵件的內(nèi)容中,用很多特殊符號和繁體字,以及利用字形相似的文字來代替書寫,躲避關(guān)鍵詞。為了減少因這些問題帶來的誤判,本文將郵件劃分為有限個粒度,層層遞進(jìn)的來對郵件進(jìn)行處理。

我們將郵件劃分為個粒度:。例如A1=[發(fā)送人],A2=[發(fā)送時間],,……,。顯然

決策過程:

(1)對粒度進(jìn)行三支決策分類,若能夠劃分到正常郵件或垃圾郵件,則立即處理進(jìn)行劃分。不能確定的郵件劃為可以郵件類,等待后階段添加粒度,在進(jìn)行決策。

(2)依次添加信息粒度,重復(fù)進(jìn)行(1)中的過程,對劃分為可疑郵件的郵件逐步添加屬性粒度信息,及時進(jìn)行決策。

(3)若所有的屬性信息全部添加完后仍劃為可疑郵件,則交由收件人自己判斷。

過程流程圖如下:

由(12)式得:

來劃分一次分類中郵件所屬的區(qū)域。

3.3 模擬實驗分析

本文從自己的郵箱中提取數(shù)據(jù)集,一共400封郵件,其中124封正常郵件,276封垃圾郵件。接下來對郵件的關(guān)鍵字進(jìn)行提取,過濾一些意義不大的字眼,如“啊”,“一”,“的”等。提取每一個詞,計算每個詞在正常郵件和垃圾郵件中出現(xiàn)的頻率。例如,在276封垃圾郵件中,有23封包含這個詞語,那么它出現(xiàn)的頻率就是0.083。其中,為了避免太過絕對,若某個詞只出現(xiàn)在垃圾郵件中,那我們就假設(shè)它出現(xiàn)在正常郵件中的頻率為0.01。同時,統(tǒng)計垃圾郵件中,發(fā)件人的郵箱和發(fā)送時間的頻率。并且,統(tǒng)計每一封垃圾郵件中繁體字出現(xiàn)的頻率。

現(xiàn)有一封新郵件,我們將它分為5個粒度,A1=[郵件發(fā)件人],,,。

其中,對于來說,若數(shù)據(jù)量不夠大的時候,可能無法作為分類的標(biāo)準(zhǔn)。當(dāng)數(shù)據(jù)量足夠大的時候,我們可以統(tǒng)計各個發(fā)件人發(fā)送的郵件在正常郵件中的概率,和在垃圾郵件中的概率。對于來說,大多數(shù)垃圾郵件的發(fā)送時間為非工作時間,我們可以統(tǒng)計在某些時間段類,郵件為正常郵件的概率和為垃圾郵件的概率。對于來說,一般當(dāng)繁體字和特殊符號過多時,該郵件為垃圾郵件,我們可以統(tǒng)計繁體字和特殊符號出現(xiàn)在正常郵件中的概率,和出現(xiàn)在垃圾郵件中概率。對于來說,則需提取單詞來進(jìn)行分析,運用條件概率和貝葉斯公式,來對郵件進(jìn)行分類。

現(xiàn)對進(jìn)行分析。設(shè)為正常郵件類,為可疑郵件類,為垃圾郵件類。我們假設(shè)一封郵件為正常郵件和垃圾郵件的先驗概率都為0.5,即。若記單詞“售”為,其出現(xiàn)在垃圾郵件中的概率為,則,問題變成了求。由貝葉斯公式,我們知:

[Pr(NW1)=Pr(N)Pr(W1N)Pr(W1)] (18)

其中,。假設(shè)經(jīng)統(tǒng)計過后,,,則可計算出。當(dāng)然,用一個詞的概率無法確定分類,所以,我們可將值較高的前20個求聯(lián)合概率,來得到最后此階段的概率。

在各分類階段中,第階段得到,由式(17),當(dāng)時,劃分為正常郵件;當(dāng),劃為可疑郵件,增加粒度進(jìn)行下一階段分類;時,劃為垃圾郵件。其中,若數(shù)據(jù)量不夠大時,可直接從開始進(jìn)行第一次分類。

4 結(jié)束語

在電子郵件普遍使用的今天,如何對郵件進(jìn)行準(zhǔn)確的過濾是我們一直關(guān)注的問題。本文以三支決策為基礎(chǔ),結(jié)合貝葉斯算法、粗糙集、粒計算等,建立了一個郵件過濾模型。通過從小到大的粒度,能夠更高效、更準(zhǔn)確地對郵件進(jìn)行過濾。下一步將考慮如何劃分適當(dāng)?shù)牧6龋瑏硖岣邷?zhǔn)確性和高效性。然后,也可以考慮在大數(shù)據(jù)的平臺下來實現(xiàn)這一過程。

參考文獻(xiàn):

[1] 王國胤, 張清華, 胡軍. 粒計算研究綜述[J]. 智能系統(tǒng)學(xué)報,2007,2(6):8-26.

[2] Bing Zhou, Yiyu Yao, Jigang Luo. A Three-Way Decision Approach to Email Spam Filtering[C]. Canadian Conference on Advances in Artificial Intelligence. Springer-Verlag, 2010:28-39.

[3] Sahami M, Dumais S, Heckerman D, et al. A Bayesian Approach to Filtering Junk E-Mail[J]. Papers from the Workshop Aaai,1998.

[4] Yao Y. Three-Way Decision: An Interpretation of Rules in Rough Set Theory[C]// International Conference on Rough Sets and Knowledge Technology. Springer-Verlag, 2009:642-649.

[5] 王國胤, 張清華. 不同知識粒度下粗糙集的不確定性研究[J]. 計算機學(xué)報, 2008, 31(9):1588-1598.

[6] 翟軍昌, 秦玉平, 王春立. 改進(jìn)的樸素貝葉斯垃圾郵件過濾算法[J]. 計算機工程與應(yīng)用, 2009, 45(14):145-148.

[7] Yao Y. The superiority of three-way decisions in probabilistic rough set models[J]. Information Sciences, 2011, 181(6):1080-1096.

[8] 王國胤, 張清華, 馬希驁,等. 知識不確定性問題的粒計算模型[J]. 軟件學(xué)報, 2011, 22(4):676-694.

[9] 李建林, 黃順亮. 多階段三支決策垃圾短信過濾模型[J]. 計算機科學(xué)與探索, 2014, 8(2):226-233.

[10] 李華雄, 劉盾, 周獻(xiàn)中. 決策粗糙集模型研究綜述[J]. 重慶郵電大學(xué)學(xué)報:自然科學(xué)版, 2010, 22(5):624-630.

奉化市| 宁陵县| 察雅县| 宜州市| 孟津县| 景谷| 博爱县| 宁武县| 中江县| 锡林浩特市| 山西省| 商水县| 麻江县| 西藏| 同心县| 汉沽区| 建昌县| 嘉兴市| 扎赉特旗| 宝应县| 汾西县| 藁城市| 云梦县| 保定市| 陕西省| 沅陵县| 偏关县| 宜君县| 宁德市| 黑水县| 集贤县| 驻马店市| 张掖市| 济源市| 旺苍县| 建昌县| 莱西市| 易门县| 北海市| 枣庄市| 黑河市|