国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

短信自動分類的實(shí)現(xiàn)

2017-05-08 10:34李鋒萬小強(qiáng)
關(guān)鍵詞:分類器準(zhǔn)確率

李鋒++萬小強(qiáng)

摘要:短信自動分類一直以來都是學(xué)者研究的熱點(diǎn)問題,伴隨著各種類別短信的出現(xiàn),對于用戶來說,希望盡可能獲取到自己想要看到的短信,因此本文在此問題上提出了利用一種結(jié)合黑白名單及時(shí)間因素的短信分類器,通過實(shí)驗(yàn)表明該分類器可以獲得較好的準(zhǔn)確率及召回率。

關(guān)鍵詞:短信自動分類; 分類器; 黑白名單; 準(zhǔn)確率; 召回率

中圖分類號: TP391

文獻(xiàn)標(biāo)志碼: A

文章編號: 2095-2163(2016)06-0005-04

0引言

[JP2]短信在人們生活中作為一種重要的交流方式,已然獲得了高度廣泛的現(xiàn)實(shí)應(yīng)用。但無可避免地卻會發(fā)現(xiàn):當(dāng)短信進(jìn)入了大批量、各范疇的使用領(lǐng)域時(shí),其中卻瑕瑜互見地混雜有某些經(jīng)由不法商戶制造形成的帶有欺詐行為性質(zhì)的短信內(nèi)容?;诖?,為了杜絕該類事情現(xiàn)象的發(fā)生困擾,同時(shí)更為了助益用戶快速定位到目標(biāo)需求短信,本次研究中通過結(jié)合黑白名單以及時(shí)間因素而設(shè)計(jì)提出了短信分類器,根據(jù)短信的特征將其分為不同類別,這樣一來,用戶就可以通過類別來獲取到自己想要看到的短信。針對這一相關(guān)課題,[JP3]學(xué)界也已展開了一定研究。諸如陳公平、沈明玉等提出基于改進(jìn)貝葉斯的短信分類[1]。蔡永泉等人也隨即給出了基于語序的關(guān)聯(lián)分類算法[2]。王棟則進(jìn)一步探討了基于文本挖掘的短信分類技術(shù)[3]。此后,還有王紅等人深入研究了云計(jì)算在短信分類中的應(yīng)用[4]。李彩雁又重點(diǎn)發(fā)表了云計(jì)算在短信分類中的應(yīng)用淺議[5]。另有崔彩霞也研發(fā)推出了基于字特征的短信分類方法[6]。[JP]

綜上文獻(xiàn)分析可知,已有成果都是利用相關(guān)算法實(shí)現(xiàn)的分類器來對短信進(jìn)行分類,但是考慮到短信的如下特征[7]:

1)短信是一種內(nèi)容比較短的文本;

2)短信沒有完備的數(shù)據(jù)集;

3)短信的語法格式和一般的文本區(qū)別很大。

至此,研究引入了有關(guān)短信特征的具體分析后,本文就將主要利用短信的特征詞對短信進(jìn)行自動分類。

1短信的特征詞提取

在短信分類中,短信中的詞語是一個關(guān)鍵的分類特征,因此選擇合理的特征詞提取方法對于短信自動分類是非常重要的。目前比較常用的特征提取方法主要包括文檔頻率和信息增益[8-10] 。為了敘述上的方便,本文中所提特征詞如無特別標(biāo)注將均不包含停用詞[11]。

猜你喜歡
分類器準(zhǔn)確率
學(xué)貫中西(6):闡述ML分類器的工作流程
我和哆啦A夢過一天
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
血清檢驗(yàn)和細(xì)菌檢驗(yàn)在布魯氏桿菌感染診斷中的效果及準(zhǔn)確率分析
多層螺旋CT技術(shù)診斷急性闌尾炎的效果及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
頸椎病患者使用X線平片和CT影像診斷的臨床準(zhǔn)確率比照觀察
基于AdaBoost算法的在線連續(xù)極限學(xué)習(xí)機(jī)集成算法
一種統(tǒng)計(jì)分類方法的學(xué)習(xí)
企業(yè)財(cái)務(wù)危機(jī)預(yù)警集成預(yù)測模型比較分析研究