?
基于垃圾郵件檢測及過濾技術(shù)的研究
鄔江
廣州工商學院510850
[摘要]針對當前互聯(lián)網(wǎng)上垃圾郵件,分析了其危害性及相關(guān)的處理技術(shù)。詳細描述了目前垃圾郵件的處理方法,并分析了每種處理技術(shù)的缺陷。最后得出垃圾郵件處理要采用多種方法,綜合治理的結(jié)論。
[關(guān)鍵詞]垃圾郵件;過濾;基于特征;基于內(nèi)容
網(wǎng)絡時代的發(fā)展,給人們的生活帶來極大的便利,作為現(xiàn)在網(wǎng)絡在人們生活中的最廣泛的應用之一,電子郵件(E-mail)以其安全可靠,快速廉價的優(yōu)勢逐漸取代傳統(tǒng)的郵件形式,成為獲取網(wǎng)絡信息,溝通交流的重要渠道。但是,在正常使用的郵件的同時,幾乎每個人都接收過各種各樣的商業(yè)廣告、非法宣傳甚至反動信息,這給社會和個人都帶來極大的危害。因此,如何將這些垃圾郵件在互聯(lián)網(wǎng)上盡可能的減少,成了學術(shù)界研究的課題。
按照中國電信《中國電信對邊圾郵件處理暫行辦法》的定義,垃圾郵件是指向未主動請求的用戶發(fā)送的電子郵件廣告、刊物或其他資料;有明確的退信方法、發(fā)信人、回信地址等的郵件;利用網(wǎng)絡從事違反其他網(wǎng)絡服務供應商的安全策略或服務條款的行為和其他預計會導致投訴的郵件。
垃圾郵件的危害很大,主要表現(xiàn)在以下幾個方面:1、垃圾郵件的泛濫對計算機存儲資源及網(wǎng)絡帶寬都造成極大的浪費,有可能危害到正常的互聯(lián)網(wǎng)使用。2、垃圾郵件作為病毒傳播、非法商業(yè)宣傳、不良信息等的主要傳播載體對社會及個人產(chǎn)生極大的安全隱患。由于垃圾郵件具有強制接收、反復復制發(fā)送、地址欺騙及快速傳播等特點,嚴重干擾了互聯(lián)網(wǎng)正常秩序及個人的正常生活,少數(shù)別有用心的人,將垃圾郵件作為一個宣傳陣地,對社會穩(wěn)定帶來極大的威脅。
隨著互聯(lián)網(wǎng)的普及,越來越多的人在使用電子郵件,這也使得垃圾郵件的危害覆蓋面更廣。有研究表明,中國是世界上除了美國外垃圾郵件產(chǎn)生和接收最多的國家,形式迫使我們要對垃圾郵件進行圍剿。
目前互聯(lián)網(wǎng)上針對垃圾郵件的過濾所采取的主要措施有:郵件收發(fā)服務器端及客戶端的過濾、白名單及黑名單的過濾、基于郵件特征的過濾、基于內(nèi)容的郵件過濾。
郵件收發(fā)服務器端及客戶端的過濾:用戶的郵件收發(fā)的過程是:首先客戶端經(jīng)郵件用戶代理(MUA,Mail User Agent)把報文送至服務器臨時存儲系統(tǒng),并與服務器郵件傳輸代理(MTA,Mail Transfer Agent)建立連接,然后使用SMTP命令將報文傳送過去(MTA過濾),郵件投遞代理(MDA,Mail Delivery Agent)從MTA取得信件傳送至最終服務器信箱(MDA過濾),最后MUA定期檢查服務器信箱,并通知用戶下載(MDA過濾)。
但是無論是客戶端的過濾,還是服務器端的過濾,都需要對郵件的各部分結(jié)構(gòu)進行分析,才能得出是否垃圾郵件。
白名單及黑名單過濾也是目前常用的一種垃圾郵件過濾方式。白名單中的地址所發(fā)的郵件,用戶都認為是合法的郵件。用戶可以根據(jù)需要來設置自己的白名單,這樣可以防止有效郵件被誤殺。黑名單則是最簡單有效的垃圾郵件過濾技術(shù),用戶將黑名單地址所發(fā)的所有郵件認為是垃圾郵件不予接受。黑名單主要是對過郵件地址、所發(fā)送的服務器(IP)等相關(guān)信息進行識別。
黑名單技術(shù)和白名單技術(shù)在實際使用過程中,存在著諸多技術(shù)上的缺陷。比如在實時黑名單中的查詢中存在著較大的時間延遲問題,垃圾郵件及代理服務器ip地址欺騙等問題。使得過濾規(guī)則需要經(jīng)常做出調(diào)整,既耗費大量時間,實際過濾效果又不足以令人滿意,在使用中逐漸不能滿足過濾要求.
基于郵件特征的垃圾郵件過濾:垃圾郵件在發(fā)送的過程中,為了防止互聯(lián)網(wǎng)的抵制,往往在發(fā)送過程中會采取相應的措施。而基于郵件特征垃圾郵件的過濾技術(shù)就是利用垃圾郵件的反制特征進行過濾。垃圾郵件在發(fā)送的過程中,往往會利用偽造地址,即在經(jīng)過中間服務器時,修改其地址信息。我們可以分析其接收和發(fā)送地址及簽名來分辨是否垃圾郵件。
垃圾郵件為了其宣傳效果最佳及利益最大化,往往會采取群發(fā)技術(shù)。通過監(jiān)測是否大量的群發(fā)郵件可以進行垃圾郵件的過濾。如果一個郵件服務器在短時間內(nèi)收到大量相同發(fā)件人的郵件,或者同一郵件服務器在短時間內(nèi)收到內(nèi)容相同的郵件,則基于特征的垃圾郵件過濾就會啟動。
在基于特征的垃圾郵件過濾中,對關(guān)鍵詞的匹配是技術(shù)簡單且可行性比較高的一種方式。在郵件傳送過程中,可對主題及正文內(nèi)容進行掃描,如果出現(xiàn)大量具有垃圾郵件特征的關(guān)鍵詞時,如賺錢、免費、淫蕩等等,則判定其為垃圾郵件采取過濾。
基于郵件特征的垃圾郵件過濾,由于其技術(shù)相對簡單,且行之有效,在實際應用中使用較多,但是這種過濾技術(shù)有時可能會造成誤殺。
基于內(nèi)容的垃圾郵件過濾技術(shù)。以上所有的垃圾郵件的過濾方法都有其缺陷,再加上垃圾郵件發(fā)送者也在不斷偽裝和變更發(fā)送技術(shù),給垃圾郵件的過濾造成了不少困難。于是基于內(nèi)容的垃圾郵件過濾技術(shù)便產(chǎn)生了,通過對垃圾郵件的內(nèi)容進行分類,從而檢查出垃圾郵件。此技術(shù)是將信息過濾及文本分類相結(jié)合,來實現(xiàn)垃圾郵件的檢測及過濾效果。其突出特點在于能跟蹤垃圾郵件特征變化,并且可以自動獲得垃圾郵件的特征,從而可以大提高垃圾郵件的過濾效果。
綜合以上種種情況,垃圾郵件處理是個長期的過程,在過濾技術(shù)上采取單一的過濾技術(shù)效果往往不好,而且可能造成誤殺的情況。所以垃圾郵件的處理應該采取多種過濾技術(shù)相結(jié)合的情況進行處理,這樣才能達到好的處理效果。
參考文獻
[1]中國電信出臺對垃圾郵件處理的暫行辦法規(guī)范[EB/OL].http://www. people.com.cn/GB/paper39/1320/204610.html.
[2]潘文鋒基于內(nèi)容的垃圾郵件過濾研究.北京:中國科學院計算技術(shù)研究所,2004.
[3]王波,黃迪明.遺傳神經(jīng)網(wǎng)絡在郵件過濾器中的應用電子科技大學學報,2005.
[4]譚營,朱元春.反垃圾電子郵件方法研究進展智能系統(tǒng)學報,2010.