蔣永輝
摘要:隨著手機短信應用日益廣泛,垃圾短信也隨之大量出現(xiàn),并嚴重影響到人們的正常生活及社會的安全與穩(wěn)定。針對現(xiàn)有手機端垃圾過濾系統(tǒng)的不足,該文介紹了一種基于貝葉斯算法的垃圾短信過濾系統(tǒng)的實現(xiàn)方法,以取得更好的過濾效果。
關(guān)鍵詞:垃圾短信過濾;貝葉斯算法
中圖分類號:TP315文獻標識碼:A文章編號:1009-3044(2012)15-3665-03
The Design and Implementation of Junk SMS Filtering System Based on Bayes
JIANG Yong-Hui
(College of Information Science and Technology, Hainan Normal University, Haikou 571158, China)
Abstract: With the increasingly widespread application of SMS,junk SMS appeared in large numbers,and seriously affect the security and stability of peoples normal life and society.For the deficiencies of the existing junk SMS filtering system,this paper proposes a method to fil? ter junk SMS based on Bayes to achieve better filtering effect.
Key words: junk SMS filtering; Bayes
近年來,隨著我國經(jīng)濟和科技的快速發(fā)展,移動通訊設(shè)備已經(jīng)越來越普及,據(jù)工信部統(tǒng)計顯示,截至到2011年底,我國的手機用戶已經(jīng)突破10億,手機正在逐步成為個人通信中心,而作為移動通信的主要業(yè)務之一的短信,也朝著多元化方向發(fā)展。然而,手機短信在給人們帶來極大方便的同時,也帶來了一些負面影響。垃圾短信的泛濫就是其中最為廣泛和最為嚴重的問題之一,據(jù)中國互聯(lián)網(wǎng)組織調(diào)查,2011年手機用戶收到的垃圾短信數(shù)為12.2條/周,如何過濾這些垃圾短信也隨著短信業(yè)務的幾何級數(shù)的增長而日趨重要。
目前,在手機端實現(xiàn)的垃圾短信的過濾技術(shù)主要有黑白名單過濾和基于內(nèi)容過濾兩大類?;诤诎酌麊芜^濾技術(shù)是通過在手機中設(shè)置黑名單號碼來達到拒收短信的目的,其特點是快速、精確,只要短信號碼匹配即可判斷是否是垃圾短信,但是這種過濾短信的方法單一,也無法阻止未識別的手機號碼所發(fā)送的垃圾信息,因而不能夠達到良好的過濾效果?;趦?nèi)容的垃圾短信過濾是通過預先對樣本垃圾短信進行分析、學習然后存儲其中的特征信息的“自我學習”方法,能夠使自己不斷積累垃圾信息特點,對收到的信息進行“智能”分類為垃圾信息和正常信息,常見的分類算法有貝葉斯、KNN和SVM等。本文設(shè)計了一個采用貝葉斯算法并結(jié)合黑白名單過濾的垃圾短信過濾系統(tǒng),以提高系統(tǒng)過濾的準確性,并實現(xiàn)個性化垃圾短信過濾。
基于貝葉斯算法的垃圾短信過濾系統(tǒng)能夠由用戶自己選擇垃圾短信作為訓練集,以制定個性化的過濾方案,且具備自我學習能力和更新能力,彌補了傳統(tǒng)垃圾短信過濾方案缺乏靈活性、準確率不高的問題。隨著技術(shù)的發(fā)展,彩信的應用也日益頻繁,如何過濾垃圾彩信,是我們下一步要解決的問題。