蔣亞平,梅 驍
(鄭州輕工業(yè)學(xué)院計算機與通信工程學(xué)院,鄭州 450000)
?
基于免疫多Agent的垃圾郵件過濾模型研究
蔣亞平,梅驍
(鄭州輕工業(yè)學(xué)院計算機與通信工程學(xué)院,鄭州450000)
摘要:針對傳統(tǒng)的垃圾郵件過濾方法有效識別未知特征以及變異特征的能力不強,借鑒生物免疫系統(tǒng)基本原理和多Agent技術(shù),提出一種基于免疫多Agent垃圾郵件過濾模型。該模型實現(xiàn)各個Agent的信息交互,增強整個模型“記憶”機制,有效地提取垃圾郵件的信息和變異特征。垃圾郵件實驗仿真結(jié)果表明,該模型與其它模型相比具有更好的性能,有效地提高垃圾郵件模型的正確率等特性,降低虛報率。
關(guān)鍵詞:人工免疫;垃圾郵件;抗原提呈;多Agent
垃圾郵件中存在的信息一般具有不易被發(fā)現(xiàn)、變異能力強等特點。現(xiàn)有的垃圾郵件過濾方法,如支持向量機(SVM)[1]、樸素貝葉斯(Naive Bayesian)、k鄰近算法(k-Nearest Neighbour)[2]等文本分類方法,可有效地實現(xiàn)了垃圾郵件的檢測和過濾功能,但對于郵件中變異的特征或新出現(xiàn)的特征則往往不能及時發(fā)現(xiàn)與提取郵件特征,信息交互不及時。近年來,人工免疫系統(tǒng)AIS (Artificial Immune System)[3]以生物免疫系統(tǒng)為原型進行模擬已被成功運用,采用人工免疫技術(shù)構(gòu)造效率高,信息交互性強的反垃圾郵件模型也逐漸成為研究的熱點。
對于單一的郵件服務(wù)器收轉(zhuǎn)發(fā)節(jié)點,發(fā)現(xiàn)新型垃圾郵件特征信息對整個郵件系統(tǒng)并不明顯,且隨著應(yīng)用的不斷增加,網(wǎng)絡(luò)終端的負載日益加重,垃圾郵件的數(shù)量越來越多。為解決終斷服務(wù)器負載較大,特征不能提取或提取時延較長等問題,可將多Agent技術(shù)應(yīng)用于垃圾郵件過濾模型。在模型中將郵件過濾模型中不同的單個聯(lián)網(wǎng)轉(zhuǎn)發(fā)節(jié)點看作不同的進程Agent,每個A-gent都具有提取垃圾郵件特征的能力,并且能單獨完成各自的任務(wù),將所有Agent組合起來便能組成一個多Agent系統(tǒng)。這既能夠?qū)蝹€Agent進行相對獨立的檢測,又可以互相交流信息,學(xué)習(xí)積累郵件特征信息,實現(xiàn)復(fù)雜環(huán)境下的問題求解。
免疫多Agent十分類似于人體免疫系統(tǒng)的免疫細胞,能夠?qū)Σ煌h(huán)境的刺激產(chǎn)生各種不同應(yīng)答,不同類型的免疫Agent相當(dāng)于不同抗體針對于不同的抗原,這種免疫多Agent對于實現(xiàn)復(fù)雜系統(tǒng)的分布式問題求解具有很強的啟發(fā)性,它具有自主性、應(yīng)激性、高效率的認知性、較強的學(xué)習(xí)和記憶能力、防御性等免疫特征[4]。經(jīng)過分析免疫細胞和Agent之間、人工免疫系統(tǒng)和郵件過濾模型之間在性質(zhì)和行為上的相似性,建立了具有不同功能的免疫Agent組成具有垃圾郵件過濾模型,如圖1所示。
我們定義自體為合法郵件集合(Self),非自體為垃圾郵件集合(Nonself)??乖ˋg)定義為自體和非自體的并集(Ag=Self∪Nonself)。郵件集合為P,p為P的子集,定義正常郵件集合H,H∈P;垃圾郵件集合S,S∈P,滿足:H∩S=?,H∪S=P。
在免疫Agent中,根據(jù)免疫系統(tǒng)中抗體對抗原的記憶、防御和耐受以及抗體之間相互作用機制,實現(xiàn)自垃圾郵件的過濾和學(xué)習(xí)記憶。
圖1 免疫多Agent垃圾郵件過濾模型
檢測模型中,設(shè)計了執(zhí)行層Agent、檢測層Agent、通信層Agent、和決策層Agent[5]。采用免疫多Agent結(jié)構(gòu),分別完成垃圾郵件模型的檢測、通信、執(zhí)行和決策等任務(wù)將不同的檢測Agent聯(lián)合起來。
執(zhí)行層Agent:是指在服務(wù)器中正在發(fā)送或接收郵件狀態(tài)的Agent模塊。歸類郵件信息,并實時與執(zhí)行Agent和通信Agent保持通信。
檢測層Agent:檢測層Agent在網(wǎng)絡(luò)服務(wù)器各個節(jié)點之間監(jiān)視檢測,并與特定的設(shè)備通信。在模型中,用戶層尋找異常用戶行為模式;監(jiān)視并檢測郵件的大小、數(shù)目以及所屬的類型、源地址與目的地址,信封郵件主要內(nèi)容等。若可疑,則上報給通信Agent,請求其作出決策。
通信層Agent:通信Agent充當(dāng)其他Agent模塊的通信網(wǎng)絡(luò)的任務(wù)。
決策層Agent:接收來自各個免疫檢測Agent的模塊檢測結(jié)果,對是否為垃圾郵件或異常異常郵件結(jié)果做出判定。模塊圖如圖2。
圖2 免疫多Agent模塊
如果在檢測過程中,檢測群中Agent檢測到可疑的垃圾郵件抗原,則上報給通信Agent模塊。若通信Agent確定其包含垃圾郵件信息特征的抗原D,則從正在執(zhí)行Agent中選取若干個Agent,將D所包含的信息共享給這些進程Agent并進行特征提取。當(dāng)不同Agent接收到提取特征的信息指令后,從檢測器中選取能與抗原D匹配的種群并進行特征提取。
要實現(xiàn)垃圾郵件過濾,需將待測郵件數(shù)據(jù)特征轉(zhuǎn)變成計算機可識別的語言,再經(jīng)過一定模式的過濾,實現(xiàn)郵件分類。在郵件樣本中,數(shù)據(jù)經(jīng)過抗原提呈,形成抗原集合,由特定長度的抗原提呈基因庫對郵件進行特征提取,從而得到郵件的特征,即抗原決定基因,存儲在郵件特征向量中。
抗原提呈基因定義為從郵件子集中提取的IM (Information Feature of Mail)[6]。定義長度為l的抗原提呈基因集合ag-l為:
其中:函數(shù)fe執(zhí)行從郵件中提取IM的操作,l為提取的IM的長度,單位為bit,H'、S'為合法郵件和垃圾郵件的子集。即提取郵件子集中的所有長度為l的、不重復(fù)的IM,并將其添加到抗原提呈基因集合ag-l中。
定義郵件(抗原)特征集合為F:
其中:xi(i=1,…,n)為抗原提呈基因庫中的基因; ag-li為提取到的郵件p∈P的特征信息;n代表郵件特征向量的維數(shù),與抗原提呈基因庫大小相等;l為抗原提呈基因庫ag-l中基因片段的大?。缓瘮?shù)fc(p,ag-l,l)為特征信息提取操作,如式(6),即從p∈P郵件類型中提取長度為l的IM字符串,然后計算IM是否在對應(yīng)的抗原提呈基因庫中出現(xiàn),獲取郵件的特征信息。函數(shù)fe(p,j,l)表示從郵件中提取長度為l的IM。用特定的抗原提呈基因庫對郵件進行特征提取,從而組成了郵件特征向量,公式如下:
經(jīng)抗原提呈后,在模型記憶庫中到的郵件特征是一個長度與基因庫大小相同的計算機可識別的二進制串,這樣就完成了程序的抗原提呈的過程。滿足條件的抗原對其進行提呈,符合條的加入到自體庫中,否則加入到非自體庫中,從而保證了選擇的特件征向量對郵件內(nèi)容的代表意義。
測試環(huán)境為:內(nèi)存8GB,操作系統(tǒng)為Windows 7。在模型的郵件傳輸中,因為JAMES(Java Apache Mail Enterprise Server)性能較為穩(wěn)定,可配置性強,選用JAMES開源郵件服務(wù)器。在測試中使用CCERT中文郵件2006年7月份的樣本集,其中包含正常郵件(Ham)9308封,垃圾郵件(Spam)20042封,數(shù)值實驗環(huán)境為MATLAB 2014a。
將數(shù)據(jù)集分為訓(xùn)練集和測試集,選擇3062封郵件(1024封正常郵件和2038垃圾郵件樣本)作為訓(xùn)練集。實驗起始階段選取自體集合大小為50,每次訓(xùn)練生成10個未成熟檢測器。郵件過濾模型每次輸入200個抗原,其中自體與非自體比例為8:2,即郵件過濾模型所發(fā)的10個包中有2個非自體包,得到初始檢測樣本,保存在免疫記憶庫中。然后將剩余的8000封正常郵件和18000封垃圾郵件平均分為10組,組成測試集進行測試。
實驗結(jié)果取10次的平均值作為評判該模型的最后實驗數(shù)據(jù),計算出來的平均值即為模型的效率結(jié)果。
該垃圾郵件過濾模型主要的評價標準:(1)召回率:即垃圾郵件檢出率;(2)正確率:反映過濾模型檢測出垃圾郵件的能力;(3)精確率:模型對所有郵件的判斷正確的概率;(4)虛報率:模型系統(tǒng)將正常郵件錯誤地判斷為垃圾郵件的概率。該模型統(tǒng)計數(shù)據(jù)主要為正確率、精確率、召回率、虛報率四個指標,橫坐標(X軸)為實驗次數(shù),縱坐標為(Y軸)百分比指標值。如圖3所示:
圖3 郵件過濾指標曲線圖
從圖3中可以看出,該模型的正確率比較穩(wěn)定,正確率呈先呈上升趨勢,后部分基本保持穩(wěn)定,正確率都能達到90%以上,說明該模型可以很好地判別出垃圾郵件,穩(wěn)定性較高;精準率在檢測過程亦呈上升趨勢,說明隨著模型中抗體的自我學(xué)習(xí),模型能夠正確判斷垃圾郵件與合法郵件的能力在上升;在召回率方面,當(dāng)郵件出現(xiàn)新的信息特征時,模型具有較好的學(xué)習(xí)和記憶識別能力,對于判斷垃圾郵件的能力有所提升;虛報率比較低較穩(wěn)定,在這種情況下,由于具有多Agent機制及免疫記憶庫,信息之間可以及時交互,郵件很少被誤刪,該模型具有較高的可靠性。
本文給出了基于免疫多Agent的垃圾郵件過濾模型并利用MATLAB實現(xiàn)了該過濾模型的仿真實驗,該模型實現(xiàn)各個Agent的信息交互,并有效的提取垃圾郵件的信息和變異特征。該模型具有較高的召回率和準確率,并且在性能上具有一定的提升,如何再進一步的提升模型的效率,是以后研究的重點方向。
參考文獻:
[1]Clark,J.;Koprinska,I.;Poon,J. A Neural Network Based Approach to Automated E-Mail Classification[C]. Web Intelligence:Proceedings of the 2003 IEEE/WICInternational Conference on Web Intelligence. 2003:13-17.
[2]Qing J J,Mao R L,Bie R F,et al. An AIS-Based E-mail Classification Method[C]. The 2009 International Conference on Intelligent Computing,Ulsan,Korea,2009:492-499.
[3]李濤.基于免疫的網(wǎng)絡(luò)監(jiān)控模型[J].計算機學(xué)報,2006,29(9):1515-1522.
[4]梁剛,劉曉潔,李濤,蔣亞平,楊進,龔勛. NSC:一種新型的垃圾郵件過濾器[J].小型微型計算機系統(tǒng),2008,29(1):158-161.
[5]秦逸.基于行為的垃圾郵件檢測技術(shù)[J].計算機科學(xué),2012,39(11):86-89.
[6]劉海韜,陽潔.云計算平臺下一種新型反垃圾郵件系統(tǒng)的研究[J].中南大學(xué)學(xué)報(自然科學(xué)版),2013,44(5):1869-1874.
梅驍(1990-)男,河南南陽人,碩士研究生,研究方向為信息安全
A Spam Filtering Model of Immune Based on Multi-Agent
JIANG Ya-ping,MEI Xiao
(College of Computer and Communication Engineering,Zhengzhou Institute of Light Industry,Zhengzhou 450000)
Abstract:According to the traditional spam filtering method effectively identify unknown characteristics and variability of the ability is not strong,according to the basic principle of biological immune system and multi agent technology proposed based on immune multi-agent spam filtering model. The model can realize the information exchange of each Agent,enhance the whole model "memory" mechanism,and effectively extract the information and variation characteristics of spam. Spam experimental simulation results show that the model and other models compared has better performance,can effectively improve the correct rate of spam model characteristics and reduce the false alarm rate.
Keywords:Artificial Immune; Spam; Antigen Presentation; Multi-Agent
收稿日期:2016-01-15修稿日期:2016-02-26
作者簡介:蔣亞平(1970-)男,河南永城人,博士副教授,碩士研究生導(dǎo)師,研究方向為網(wǎng)絡(luò)技術(shù)、信息安全
文章編號:1007-1423(2016)10-0017-04
DOI:10.3969/j.issn.1007-1423.2016.10.004