云計算平臺下一種新型反垃圾郵件系統(tǒng)的研究

2013-09-12 02:26劉海韜陽潔中南大學(xué)信息科學(xué)與工程學(xué)院湖南長沙410083

中南大學(xué)學(xué)報（自然科學(xué)版） 2013年5期

劉海韜，陽潔(中南大學(xué) 信息科學(xué)與工程學(xué)院，湖南長沙，410083)

電子郵件因其便捷、快速、價格便宜等特點已逐漸成為目前主要的交流方式之一，但垃圾郵件(spam)[1]問題也日益嚴(yán)重。垃圾郵件嚴(yán)重干擾個人的正常信息交流，浪費大量時間和精力，并占用大量的傳輸和存儲資源，造成網(wǎng)絡(luò)資源的浪費。SMTP(simple mail transfer protocol)[2]中接收方被動接收郵件的缺點是導(dǎo)致垃圾郵件日益泛濫主要原因之一；同時，由于垃圾郵件基于全網(wǎng)發(fā)送的特點，傳統(tǒng)的反垃圾郵件系統(tǒng)無法進(jìn)行集中、統(tǒng)一管理，普遍存在成本昂貴和重復(fù)建設(shè)等問題。因此，面對海量垃圾郵件的威脅，修改SMTP、整合網(wǎng)絡(luò)資源、整體防御垃圾郵件是很有必要的。Duan等[3]在IM2000(internet mail 2000)協(xié)議[4]基礎(chǔ)上提出的DMTP可從根本上解決接收方被動接收郵件的問題，但仍存在SMTA(sender mail transfer agent)類別劃分模糊化問題。云計算[5]的出現(xiàn)和發(fā)展為反垃圾郵件領(lǐng)域提供了新的思路，它可為反垃圾郵件系統(tǒng)提供一體化、可擴(kuò)展的服務(wù)。本文在改進(jìn)DMTP的基礎(chǔ)上，引進(jìn)云計算垃圾郵件防范機(jī)制，設(shè)計云計算平臺下一種新型反垃圾郵件系統(tǒng)。在該系統(tǒng)中，云端反垃圾郵件機(jī)制結(jié)合了多種反垃圾郵件技術(shù)，如黑白名單[6]、貝葉斯算法[7]、基于關(guān)鍵詞和規(guī)則[8]等，克服了單一過濾機(jī)制存在的精準(zhǔn)率低等問題。

1 改進(jìn)型DMTP

DMTP基于SIRP模式設(shè)計，根據(jù)SMTA的IP地址將其劃分為 3類并進(jìn)行不同處理：(1) 黑名單，關(guān)閉會話連接；(2) 白名單，執(zhí)行SMTP的郵件發(fā)送流程；(3) 灰名單，由接收方根據(jù)信封信息(包括郵件編號、發(fā)送方以及接收方地址、郵件簡要內(nèi)容等)判斷是否接收郵件。由于DMTP僅根據(jù)SMTA的IP地址確定發(fā)送方類別，存在分類規(guī)則粒度過大的缺陷。公共郵件服務(wù)器對應(yīng)的用戶群類屬不同類別，導(dǎo)致SMTA類別劃分模糊化。改進(jìn)型DMTP進(jìn)一步細(xì)化了分類規(guī)則粒度，根據(jù)SMTA的IP地址和發(fā)送方的郵件地址2個分類條件確定發(fā)送方類別。改進(jìn)型DMTP在DMTP基礎(chǔ)上添加1個返回碼即254。新定義的返回碼含義如表1所示。

表1 改進(jìn)型DMTP新定義的命令以及返回碼Table 1 New reply code defined in improved DMTP

改進(jìn)型 DMTP中 RMTA(receiver mail transfer agent)處理信息傳輸請求算法如圖1所示。

圖1 改進(jìn)型DMTP中 RMTA處理信息傳輸請求算法Fig.1 Algorithm for RMTA to handle message delivery requests in improved DMTP

2 云計算平臺下一種新型反垃圾郵件系統(tǒng)設(shè)計

2.1 系統(tǒng)結(jié)構(gòu)模型

改進(jìn)型DMTP是一種資源節(jié)約型協(xié)議，可大幅度降低郵件傳輸?shù)木W(wǎng)絡(luò)帶寬。由于接收方查看信封信息時間不確定，SMTA須處于長期連通狀態(tài)，才能實時給接收方傳送郵件，因此，增加了垃圾郵件的發(fā)送成本。云計算[9]是近年來互聯(lián)網(wǎng)領(lǐng)域興起的熱點，實現(xiàn)了計算在客戶間的共享，避免了用戶對信息系統(tǒng)的重復(fù)建設(shè)。本文采用改進(jìn)型DMTP并引入云計算，設(shè)計云計算平臺下一種新型反垃圾郵件系統(tǒng)。該系統(tǒng)模型的體系結(jié)構(gòu)如圖2所示。

圖2 云計算平臺下一種新型反垃圾郵件系統(tǒng)結(jié)構(gòu)模型Fig.2 Structure model of a novel anti-spam system under cloud computing platform

從圖2可以看出：在該系統(tǒng)中，灰名單類郵件加密上傳至云端，由云端分析。RMTA根據(jù)云端分析結(jié)果，決定是否給用戶傳送信封信息。這樣，本文系統(tǒng)通過引入云計算機(jī)制，在減小傳統(tǒng)反垃圾郵件系統(tǒng)負(fù)荷的基礎(chǔ)上，同時也降低了用戶時間消耗。

2.2 系統(tǒng)實現(xiàn)

本原型系統(tǒng)的編程環(huán)境選擇 MyEclipse6.5，主要使用Java編程，中間件全部選取開源項目。整個原型系統(tǒng)的實現(xiàn)主要分為郵件傳輸、云端反垃圾郵件機(jī)制以及系統(tǒng)基于云計算的構(gòu)建共三大塊。

在系統(tǒng)的郵件傳輸中，選擇 JAMES(Java apache mail enterprise server)[10]開源郵件服務(wù)器。JAMES性能穩(wěn)定，可配置性強(qiáng)，實現(xiàn)了 SMTP，POP3和 NNTP等多種郵件相關(guān)協(xié)議。對于本系統(tǒng)中采用的改進(jìn)型DMTP，可通過修改JAMES中SMTP協(xié)議棧的方式擴(kuò)充 JAMES所提供的協(xié)議。在郵件傳輸服務(wù)中生成信封信息這一塊，借鑒了IMAP協(xié)議技術(shù)。

系統(tǒng)中云端反垃圾郵件機(jī)制采用開源郵件過濾器SpamAssassin[11]。SpamAssassin不依賴于操作系統(tǒng)，并已運用到眾多商業(yè)級的反垃圾郵件系統(tǒng)中。SpamAssassin使用大量、不同類型的規(guī)則和權(quán)重判斷垃圾郵件。

對于系統(tǒng)基于云計算的構(gòu)建模型，選擇EUCALYPTUS(elastic utility computing architecture for linking your programs to useful systems)[12-13]。EUCALYPTUS是目前云計算領(lǐng)域發(fā)展快速且成熟的開源軟件基礎(chǔ)設(shè)施之一，主要是用來通過計算集群或工作站群來實現(xiàn)彈性和實用的云計算。

2.3 系統(tǒng)工作流程

采用本文提出的新型反垃圾郵件系統(tǒng)對不同類別的郵件進(jìn)行差分處理，不僅能夠節(jié)約系統(tǒng)資源，而且能提升系統(tǒng)的召回率和精準(zhǔn)率。本文系統(tǒng)對不同類別郵件的處理流程如圖3所示。

圖 3(a)所示為黑名單類郵件處理流程示意圖，當(dāng)郵件被判斷為黑名單類郵件后，RMTA斷開連接；圖3(b)所示為白名單類郵件處理流程示意圖，當(dāng)郵件被判斷為白名單類郵件后，提取指示SMTA操作的數(shù)據(jù)包中的參數(shù)CSAD值，將附件上傳至CSAD存儲，文本信息直接發(fā)送至RMTA；圖3 (c)所示為灰名單類郵件處理流程示意圖，當(dāng)郵件被判斷為灰名單類郵件后，附件保留于本地。提取指示SMTA操作的數(shù)據(jù)包中的參數(shù)CPAD值，出于對安全和隱私考慮，對郵件內(nèi)容進(jìn)行同態(tài)加密[14]，上傳至 CPAD分析處理。最后，RMTA根據(jù)CPAD值讀取云端分析結(jié)果。圖3中指示SMTA操作的數(shù)據(jù)包中包含的參數(shù)如表2所示。

云端反垃圾郵件過濾機(jī)制基于免疫原理[15]設(shè)計，采取多層過濾方式抵擋垃圾郵件。

(1) 垃圾郵件數(shù)據(jù)庫。該數(shù)據(jù)庫中保存已識別的垃圾郵件密文。云端首先將待檢測的郵件密文與垃圾郵件數(shù)據(jù)庫項匹配。若匹配一致，則可確定該郵件為垃圾郵件，直接返回分析結(jié)果；否則，郵件需繼續(xù)檢測。

(2) 行為可信度數(shù)據(jù)庫。該數(shù)據(jù)庫中保存發(fā)送方的行為可信度指數(shù)，若發(fā)送方的行為可信度低于接收方設(shè)定值，則直接判定該郵件為垃圾郵件；否則，交給集群系統(tǒng)繼續(xù)檢測。實時降低被集群系統(tǒng)檢測出的垃圾郵件發(fā)送方可信度。

(3) 反垃圾郵件服務(wù)器群。綜合采用多種不同技術(shù)(如蜜罐技術(shù)[16]、貝葉斯算法[17]、基于關(guān)鍵詞和規(guī)則過濾[18]、URL分析[19]等)的過濾引擎組成龐大服務(wù)器動態(tài)分析平臺。

圖3 3類郵件處理流程示意圖Fig.3 Processes of sending three kinds of emails

表2 郵件操作數(shù)據(jù)包含的參數(shù)Table 2 Parameters contained in data-packet

(4) 結(jié)果整合器。整合過濾引擎群的分析結(jié)果對郵件進(jìn)行判斷，設(shè)定1個閾值，若大于這個閾值，則可判斷該郵件為垃圾郵件，結(jié)果整合器還需包含對過濾引擎群的管理功能。

3 性能評估與數(shù)值實驗

這里采用數(shù)值實驗的方式分別對基于 SMTP，DMTP和改進(jìn)型DMTP 3類郵件系統(tǒng)的性能進(jìn)行評估分析，從用戶處理時間、網(wǎng)絡(luò)流量、垃圾郵件發(fā)送方獲益進(jìn)行討論。數(shù)值實驗環(huán)境為Matlab2010a。

3.1 用戶處理時間

本文系統(tǒng)基于改進(jìn)型DMTP并引進(jìn)了云端反垃圾郵件機(jī)制，通過縮小灰名單范圍和過濾垃圾郵件信封信息2種方式，在基于DMTP郵件系統(tǒng)的基礎(chǔ)上，進(jìn)一步降低郵件處理時間。假定網(wǎng)絡(luò)中郵件地址總數(shù)為N,每個郵件地址向用戶發(fā)送1封郵件，其中合法郵件的概率為p。在 DMTP中，SMTA被劃分為BMTA，WMTA和GMTA3類(含義見表3)，各MTA平均對應(yīng)a個郵件地址。在改進(jìn)型DMTP中，SMTA被劃分為BMTA和WMTA2類。其中，WMTA的郵件地址又可分為BADD，WADD和GADD3類，

各變量含義見表3。

表3 接收方時間耗費模型所需參數(shù)Table 3 Parameters of receiver time-cost model

T定義為郵件處理總時間，基于SMTP郵件系統(tǒng)、基于DMTP郵件系統(tǒng)與本文系統(tǒng)中郵件傳輸所需郵件處理總時間T分別為：

根據(jù)式(1)，GADD＜GMTAa。設(shè)定BMTA對應(yīng)的郵件地址只發(fā)送垃圾郵件。圖4所示為3類郵件系統(tǒng)的接收方時間耗費示意圖。從圖4可見：在3類郵件系統(tǒng)中，有TIDMTP＜TDMTP。改進(jìn)型DMTP可在DMTP基礎(chǔ)上進(jìn)一步降低接收方處理郵件時間。

圖4 3類郵件系統(tǒng)的接收方時間耗費比較Fig.4 Comparison of expected receiver time-cost in three kinds of mail systems

3.2 網(wǎng)絡(luò)流量

本文系統(tǒng)基于改進(jìn)型DMTP，可從根本上克服基于SMTP郵件系統(tǒng)中接收方被動接收信息的缺點，從而減少了不必要的網(wǎng)絡(luò)流量。在本文系統(tǒng)中，灰名單首次連接只需傳遞信封信息。信封信息只包含郵件元數(shù)據(jù)，約為1 kb。參考表3定義的變量，基于SMTP郵件系統(tǒng)、基于DMTP郵件系統(tǒng)與本文系統(tǒng)中郵件傳輸所需網(wǎng)絡(luò)流量L分別為：

圖5所示為3類郵件系統(tǒng)的網(wǎng)絡(luò)流量示意圖。從圖5可見：在3類郵件系統(tǒng)中，有LIDMTP＜LDMTP。改進(jìn)型DMTP算法可在DMTP算法的基礎(chǔ)上進(jìn)一步節(jié)省網(wǎng)絡(luò)帶寬。

3.3 垃圾郵件發(fā)送方獲益

解決垃圾郵件發(fā)送的根本途徑為降低垃圾郵件發(fā)送者的獲益。垃圾郵件發(fā)送方獲益模型所需參數(shù)見表4。本文通過比較垃圾郵件發(fā)送方的獲益來衡量上述3類反垃圾郵件系統(tǒng)性能。假定垃圾郵件服務(wù)器S擁有郵箱地址x個，每個郵箱地址以速度s向N/x郵件地址發(fā)送垃圾郵件，每封郵件獲益g。網(wǎng)絡(luò)中用戶共同維護(hù)實時黑名單列表(RBL)，以速度r提取郵件，處理后向RBL發(fā)送報告的概率為β。RBL收到的報告值為a后將相應(yīng)的服務(wù)器劃入黑名單。服務(wù)器被劃入黑名單后，立即停止發(fā)送，以節(jié)約成本。

圖5 3類郵件系統(tǒng)的網(wǎng)絡(luò)流量的比較Fig.5 Comparison of expected network traffic in three kinds of mail systems

表4 垃圾郵件發(fā)送方獲益模型所需參數(shù)Table 4 Notations used in spammer revenue model

R(t)定義為單位時間t內(nèi)已被提取的垃圾郵件值。云端向 RBL匯報垃圾郵件的概率為 1。基于 DMTP系統(tǒng)與本文系統(tǒng)的R(t)分別為RDMTP(t)和RIDMTP(t)，計算公式為：

其中：f(t) 定義為單位時間t內(nèi)垃圾郵件發(fā)送方發(fā)送的垃圾郵件數(shù)量?；贒MTP郵件系統(tǒng)與本文系統(tǒng)的f(t)分別為fDMTP(t)和fIDMTP(t)，

其中：C(t)為單位時間t內(nèi)垃圾郵件發(fā)送方的成本消耗。垃圾郵件發(fā)送方需N/r時間將信息發(fā)送給所有的接收方，基于 DMTP郵件系統(tǒng)與本文系統(tǒng)分別需(a/β) / （r/x）和(a/ (p1+(1 -p1) ·β)) /(r· (1 -p1)/x)時間將服務(wù)器劃入黑名單?；贒MTP郵件系統(tǒng)與本文系統(tǒng)的C(t)分別為CDMTP(t)和CIDMTP(t)，

其中：U定義為垃圾郵件發(fā)送方獲益值，有U=g·f(t) -C(t)。基于SMTP郵件系統(tǒng)、基于DMTP郵件系統(tǒng)和本文系統(tǒng)的U分別為USMTP，UDMTP和UIDMTP：

比較式(14)～(16)可知：在基于SMTP郵件系統(tǒng)中，垃圾郵件發(fā)送方獲益取決于服務(wù)器發(fā)送速度s，s越大，獲益就越多；在基于DMTP和本文系統(tǒng)中，垃圾郵件發(fā)送方獲益取決于接收方提取垃圾郵件的速度r，r越小，服務(wù)器處于連通狀態(tài)的時間越長，獲益越少。

圖6所示為3類郵件系統(tǒng)的垃圾郵件發(fā)送方獲益示意圖。從圖6可見：在3類郵件系統(tǒng)中，有USMTP＞UDMTP＞UIDMTP?？梢姡涸诨赟MTP郵件系統(tǒng)中，垃圾郵件發(fā)送方只需N/s時間完成垃圾郵件發(fā)送任務(wù)獲得最大收益；在基于DMTP和本文系統(tǒng)中，服務(wù)器需長期處于連通狀態(tài)，等待接收方提取郵件，從而降低了獲益。本文系統(tǒng)結(jié)合了云端垃圾郵件過濾機(jī)制，可在基于DMTP郵件系統(tǒng)的基礎(chǔ)上進(jìn)一步減小垃圾郵件發(fā)送方獲益。

圖6 3類郵件系統(tǒng)的垃圾郵件發(fā)送方獲益的比較Fig.6 Comparison of expected spammer revenue in three kinds of mail systems

圖7所示為召回率p1對垃圾郵件發(fā)送方獲益的影響。從圖7可見：當(dāng)0＜p1＜0.1與0.9＜p1＜1時，垃圾郵件發(fā)送方獲益急劇下降；當(dāng)0.1≤p1≤0.9時，垃圾郵件發(fā)送方獲益下降幅度較?。划?dāng) 0.9＜p1≤1時，垃圾郵件發(fā)送方獲益為負(fù)值。

圖7 召回率p1對垃圾郵件發(fā)送方獲益的影響(設(shè)定t=500 s)Fig.7 Impact of recall rate p1 on spam revenue (t=500 s)

4 結(jié)論

(1) 分析了基于IM2000協(xié)議擴(kuò)展的DMTP的不足，提出了改進(jìn)型DMTP，設(shè)計了云計算平臺下一種新型反垃圾郵件系統(tǒng)。該系統(tǒng)基于改進(jìn)型DMTP設(shè)計并引進(jìn)云端反垃圾郵件機(jī)制，可解決目前SMTP中接收方被動接收郵件的缺點和傳統(tǒng)反垃圾郵件系統(tǒng)無法綜合管理，產(chǎn)生的垃圾郵件發(fā)送成本低和反垃圾郵件系統(tǒng)重復(fù)建設(shè)等問題。

(2) 比較了基于SMTP郵件系統(tǒng)、基于DMTP郵件系統(tǒng)與本文所提出的新型反垃圾郵件系統(tǒng)三類系統(tǒng)中的用戶處理時間、網(wǎng)絡(luò)流量與垃圾郵件獲益值。仿真實驗結(jié)果表明：與基于SMTP郵件系統(tǒng)相比，本文系統(tǒng)在減小用戶處理時間、網(wǎng)絡(luò)流量與垃圾郵件發(fā)送方的獲益值這3個方面都取得很好的效果；對與基于DMTP郵件系統(tǒng)相比，本系統(tǒng)在減小垃圾郵件發(fā)送方的獲益值方面上取得很好的效果，但在減小用戶處理時間與網(wǎng)絡(luò)流量這2個方面效果不顯著。

[1] Gansterer W, Ilger M, Neumayer P, et al. Anti-spam methodsstate-of-the-art[D]. Vienna: Faculty of Computer Science.University of Vienna, 2005: 1-99.

[2] IETF RFC 876, Survey of SMTP implementations[S].

[3] Duan Z H, Dong Y F, kartik G. DMTP: Controlling through message delivery differentiation[J]. Computer Networks, 2007,51(10): 2616-2630.

[4] Bernstein D. Internet mail 2000 (IM2000)[EB/OL].[2012-06-05]. http://cr.yp.to/im2000.html.

[5] Kalagiakos P, Karampelas P. Cloud computing learning[C]//2011 5th International Conference on Application of Information and Communication Technologies (AICT). Baku, 2011: 1-4.

[6] Zhou J Y, Chin W Y, Roman R, et al. An effective multi-layered defense framework against spam[J]. Information Security Technical Report, 2007, 12(3): 179-185.

[7] Vahora S, Hasan M, Lakhani R. Novel approach: Na?ve Bayes with vector space model for spam classification[C]//2011 Nirma University International Conference on Engineering. Ahmedabad,Gujarat, 2011: 1-5.

[8] 林丹寧. 反垃圾郵件關(guān)鍵技術(shù)研究與實現(xiàn)[D]. 杭州: 浙江大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院, 2007: 15-19.

LIN Danning. Research and implementation of the main method of anti-spam[D]. Hangzhou: Zhejiang University. College of Computer Science and Technology, 2007: 15-19.

[9] Khan I, Rehman H, Anwar Z. Design and deployment of a trusted eucalyptus cloud[C]//2011 IEEE International Conference on Cloud Computing. Washington, DC, 2011:380-387.

[10] The Apache SpamAssassin Project[EB/OL]. [2012-06-05].

http://spamassassin. apache.org/.

[11] James project[EB/OL]. [2012-06-05]. http://james.apache.org/.

[12] Nurmi D, Wolski R, Grzegorczyk C, et al. The eucalyptus open-source cloud-computing system[C]//9th IEEE/ACM International Symposium on Cluster Computing and the Grid.Shanghai, 2009: 124-131.

[13] Waqar A, Raza A, Abbas H. User privacy issues in eucalyptus: A private cloud computing environment[C]//2011 IEEE 10thInternational Conference on Trust, Security and Privacy in Computing and Communications (TrustCom). Changsha, China,2011: 927-932.

[14] Gomathisankaran M, Tyagi A, Namuduri K. HORNS: A homomorphic encryption scheme for cloud computing using residue number system[C]//2011 45th Annual Conference on Information Sciences and Systems. Baltimore MD, 2011:1-5.

[15] 張澤明, 羅文堅, 王煦法. 一種基于人工免疫的多層垃圾郵件過濾算法[J]. 電子學(xué)報, 2007, 20(3): 406-414.

ZHANG Zeming, LUO Wenjian, WANG Xufa. A multilevel spam filtering algorithm based on artificial immunity[J]. Chinese Journal of Electronics, 2007, 20(3): 406-414.

[16] LI Hongxia, CHEN Junming, JIN Xin. An outlook on network honey pot[C]//2011 International Conference on Computer Science and Service System. Nanjing, 2011: 1102-1105.

[17] Isaac B, Jap W J, Sutanto J H. Improved Bayesian anti-spam filter implementation and analysis on independent spam corpuses[C]//2009 International Conference on Computer Engineering and Technology. 2009: 326-330.

[18] Almeidal T A, Yamakami A. Content-based spam filtering[C]//2010 International Joint Conference on Neural Networks.Barcelona, 2010: 1-7.

[19] Eleni G, Marios D, Athena S. On the properties of spamadvertised URL addresses[J]. Journal of Network and Computer Applications, 2008, 31(4): 966-985.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡