李鋒++萬小強(qiáng)
摘要:短信自動分類一直以來都是學(xué)者研究的熱點(diǎn)問題,伴隨著各種類別短信的出現(xiàn),對于用戶來說,希望盡可能獲取到自己想要看到的短信,因此本文在此問題上提出了利用一種結(jié)合黑白名單及時(shí)間因素的短信分類器,通過實(shí)驗(yàn)表明該分類器可以獲得較好的準(zhǔn)確率及召回率。
關(guān)鍵詞:短信自動分類; 分類器; 黑白名單; 準(zhǔn)確率; 召回率
中圖分類號: TP391
文獻(xiàn)標(biāo)志碼: A
文章編號: 2095-2163(2016)06-0005-04
0引言
[JP2]短信在人們生活中作為一種重要的交流方式,已然獲得了高度廣泛的現(xiàn)實(shí)應(yīng)用。但無可避免地卻會發(fā)現(xiàn):當(dāng)短信進(jìn)入了大批量、各范疇的使用領(lǐng)域時(shí),其中卻瑕瑜互見地混雜有某些經(jīng)由不法商戶制造形成的帶有欺詐行為性質(zhì)的短信內(nèi)容?;诖?,為了杜絕該類事情現(xiàn)象的發(fā)生困擾,同時(shí)更為了助益用戶快速定位到目標(biāo)需求短信,本次研究中通過結(jié)合黑白名單以及時(shí)間因素而設(shè)計(jì)提出了短信分類器,根據(jù)短信的特征將其分為不同類別,這樣一來,用戶就可以通過類別來獲取到自己想要看到的短信。針對這一相關(guān)課題,[JP3]學(xué)界也已展開了一定研究。諸如陳公平、沈明玉等提出基于改進(jìn)貝葉斯的短信分類[1]。蔡永泉等人也隨即給出了基于語序的關(guān)聯(lián)分類算法[2]。王棟則進(jìn)一步探討了基于文本挖掘的短信分類技術(shù)[3]。此后,還有王紅等人深入研究了云計(jì)算在短信分類中的應(yīng)用[4]。李彩雁又重點(diǎn)發(fā)表了云計(jì)算在短信分類中的應(yīng)用淺議[5]。另有崔彩霞也研發(fā)推出了基于字特征的短信分類方法[6]。[JP]
綜上文獻(xiàn)分析可知,已有成果都是利用相關(guān)算法實(shí)現(xiàn)的分類器來對短信進(jìn)行分類,但是考慮到短信的如下特征[7]:
1)短信是一種內(nèi)容比較短的文本;
2)短信沒有完備的數(shù)據(jù)集;
3)短信的語法格式和一般的文本區(qū)別很大。
至此,研究引入了有關(guān)短信特征的具體分析后,本文就將主要利用短信的特征詞對短信進(jìn)行自動分類。
1短信的特征詞提取
在短信分類中,短信中的詞語是一個關(guān)鍵的分類特征,因此選擇合理的特征詞提取方法對于短信自動分類是非常重要的。目前比較常用的特征提取方法主要包括文檔頻率和信息增益[8-10] 。為了敘述上的方便,本文中所提特征詞如無特別標(biāo)注將均不包含停用詞[11]。