基于Adaboost算法與規(guī)則匹配的垃圾評(píng)論識(shí)別

2017-04-07 01:30昝紅英畢銀龍石金銘

鄭州大學(xué)學(xué)報(bào)（理學(xué)版） 2017年1期

關(guān)鍵詞：主題詞垃圾特征

昝紅英，畢銀龍，石金銘

(鄭州大學(xué) 信息工程學(xué)院河南鄭州 450001)

基于Adaboost算法與規(guī)則匹配的垃圾評(píng)論識(shí)別

昝紅英，畢銀龍，石金銘

(鄭州大學(xué) 信息工程學(xué)院河南鄭州 450001)

從評(píng)論的文本特征及元數(shù)據(jù)特征兩個(gè)角度提取特征，避免特征向量過于稀疏.提出了基于隨機(jī)森林的Adaboost算法，以減弱商品評(píng)論數(shù)據(jù)集不平衡性的影響.部分垃圾評(píng)論特征比較顯著，采用規(guī)則匹配進(jìn)一步提高垃圾評(píng)論識(shí)別的召回率.通過在COAE2015任務(wù)4提供的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，取得較好的識(shí)別效果，驗(yàn)證了所提方法的有效性.

垃圾評(píng)論識(shí)別；隨機(jī)森林； Adaboost；集成學(xué)習(xí)算法

0 引言

近年來，隨著電子商務(wù)在我國的蓬勃發(fā)展，越來越多的人傾向于網(wǎng)上購買商品或服務(wù)，同時(shí)消費(fèi)者還可以對(duì)所購買的商品或服務(wù)發(fā)表相關(guān)評(píng)論，供有購買意愿的顧客作為參考.然而，在這些大量的評(píng)論中，往往存在一些與商品無關(guān)的評(píng)論、不真實(shí)的評(píng)論或者廣告等垃圾評(píng)論，這些垃圾評(píng)論不僅容易誤導(dǎo)消費(fèi)者的購買行為，損害消費(fèi)者的利益，而且擾亂了網(wǎng)絡(luò)環(huán)境的正常秩序，嚴(yán)重影響了網(wǎng)絡(luò)市場(chǎng)的正常競爭.因此，識(shí)別出這些垃圾評(píng)論對(duì)正確引導(dǎo)消費(fèi)者的購買行為及凈化網(wǎng)絡(luò)環(huán)境具有十分重要的意義.

目前關(guān)于垃圾評(píng)論的識(shí)別技術(shù)主要是使用分類算法對(duì)評(píng)論進(jìn)行分類，將評(píng)論分為垃圾評(píng)論、正常評(píng)論.Liu等[1]從評(píng)論、評(píng)論人、商品3個(gè)角度提取特征項(xiàng)，使用邏輯回歸模型對(duì)只涉及商品品牌的垃圾評(píng)論及非評(píng)論的無關(guān)文本進(jìn)行識(shí)別.李霄等[2]從評(píng)論、評(píng)論者、被評(píng)論商品3個(gè)方面提取特征，并進(jìn)行不同特征組合的優(yōu)化，最終使用SVM分類模型取得較好的識(shí)別效果.游貴榮等[3]從產(chǎn)品評(píng)論的評(píng)價(jià)句數(shù)量、主題詞、情感傾向、文本結(jié)構(gòu)和作者屬性5個(gè)方面提取特征項(xiàng)，使用SVM分類模型對(duì)評(píng)論進(jìn)行二分類.何瓏等[4]針對(duì)評(píng)論數(shù)據(jù)集的不平衡性，采用平衡隨機(jī)森林和加權(quán)隨機(jī)森林的算法來有效減弱不平衡數(shù)據(jù)集的影響，顯著提高了產(chǎn)品垃圾評(píng)論的識(shí)別精度.

文獻(xiàn)[1-3]雖從多角度提取特征項(xiàng)，但未考慮評(píng)論數(shù)據(jù)集的不平衡性對(duì)分類效果的影響.本文在參考文獻(xiàn)[4-8]的基礎(chǔ)上，從評(píng)論的文本特征及元數(shù)據(jù)特征[9]兩個(gè)角度提取特征項(xiàng)，采用隨機(jī)森林與Adaboost相結(jié)合方法，對(duì)評(píng)論進(jìn)行初步分類.由于部分垃圾評(píng)論特征比較顯著，本文在初步分類的基礎(chǔ)上，對(duì)評(píng)論文本進(jìn)行基于規(guī)則的過濾，進(jìn)一步提高垃圾評(píng)論識(shí)別的召回率.

對(duì)于垃圾評(píng)論，本文主要考慮以下幾種類型：1) 只涉及對(duì)商品品牌的評(píng)論；2) 錯(cuò)評(píng)類評(píng)論；3) 廣告類評(píng)論；4) 非評(píng)論的無關(guān)文本.其中，非評(píng)論的無關(guān)文本主要包括：個(gè)人消費(fèi)經(jīng)歷、涉及對(duì)他人的人身攻擊及其他無關(guān)文本.

1 預(yù)處理

由于網(wǎng)絡(luò)評(píng)論在文本內(nèi)容上存在不規(guī)范，尤其是某些垃圾評(píng)論往往還包含有超鏈接、手機(jī)號(hào)、QQ號(hào)等.在對(duì)評(píng)論文本進(jìn)行分詞前，針對(duì)評(píng)論中存在的不規(guī)范問題，本文進(jìn)行以下處理：1) 將評(píng)論中存在的繁體字均轉(zhuǎn)為簡體字；2) 大寫字母轉(zhuǎn)為小寫字母；3) 將多余的空格去除，以免分詞錯(cuò)誤；4) 對(duì)于評(píng)論中存在的URL超鏈接、手機(jī)號(hào)、QQ號(hào)，使用正則表達(dá)式來匹配并進(jìn)行去除.

2 特征項(xiàng)提取

垃圾評(píng)論識(shí)別的實(shí)質(zhì)是對(duì)評(píng)論進(jìn)行二分類，將評(píng)論分為垃圾評(píng)論、正常評(píng)論.因此，通過選取比較具有類別區(qū)分性的特征來向量化表示評(píng)論文本對(duì)識(shí)別垃圾評(píng)論至關(guān)重要.本文從評(píng)論文本的語義特征、非語義特征、及評(píng)論的元數(shù)據(jù)特征出發(fā)提取特征項(xiàng)：對(duì)于評(píng)論文本共提取8個(gè)特征項(xiàng)，包括主題詞、評(píng)論詞、網(wǎng)絡(luò)低俗詞、廣告詞、長度、是否為重復(fù)評(píng)論、是否錯(cuò)評(píng)、以及是否包含URL、電話號(hào)碼、QQ號(hào)碼、微信號(hào)等；對(duì)于評(píng)論的元數(shù)據(jù)特征，本文將評(píng)論人的打分及評(píng)論的有用性得票數(shù)作為特征項(xiàng).

2.1 語義特征項(xiàng)

2.1.1 主題詞

高質(zhì)量的、有用的、好的評(píng)論定義為：能具體描述商品的特征、性能等信息，輔助潛在用戶做出適當(dāng)決策的評(píng)論[9].因此，一條正常評(píng)論中一般應(yīng)該包括與評(píng)價(jià)主體相關(guān)的屬性名詞，例如一條有關(guān)賓館的正常評(píng)論,“地理位置比較好，衛(wèi)生質(zhì)量不太行，周邊環(huán)境也不錯(cuò)，衛(wèi)生有待提高”就包括3個(gè)與賓館相關(guān)的屬性名詞：“地理位置”、“衛(wèi)生質(zhì)量”、“周邊環(huán)境”.

本文將數(shù)據(jù)集中的3個(gè)評(píng)價(jià)領(lǐng)域：手機(jī)(phone)、賓館(hotel)、餐館(restaurant)分別視為3個(gè)不同的主題，則與評(píng)價(jià)領(lǐng)域內(nèi)所有評(píng)價(jià)主體相關(guān)的屬性名詞即為構(gòu)成對(duì)應(yīng)主題的主題詞.這些主題詞一般都具有較強(qiáng)的領(lǐng)域相關(guān)性，因此，本文通過從網(wǎng)絡(luò)上抓取與評(píng)價(jià)主體相關(guān)的大量評(píng)論，通過分詞、詞性標(biāo)注來篩選與評(píng)價(jià)主體相關(guān)的主題詞，這些主題詞主要是評(píng)論文本中的名詞或名詞短語，來構(gòu)建相應(yīng)的主題詞集合.部分樣例如表1所示.

表1 “主題詞”樣例

對(duì)于與評(píng)價(jià)主體無關(guān)或只涉及品牌的垃圾評(píng)論，一般則很少包含有對(duì)應(yīng)領(lǐng)域的主題詞，故本文通過計(jì)算一條評(píng)論中所包含的主題詞的比例作為識(shí)別該類垃圾評(píng)論的特征項(xiàng).

2.1.2 評(píng)價(jià)詞

一條正常的評(píng)論除了要包括與評(píng)價(jià)對(duì)象相關(guān)的屬性名詞外，一般還應(yīng)包含有針對(duì)該屬性名詞的評(píng)價(jià)詞.例如一條有關(guān)手機(jī)的正常評(píng)論,“非常的劃算，屏幕很大，速度也很快，配置不錯(cuò)”中的“大”、“快”、“不錯(cuò)”分別來修飾屬性“屏幕”、“速度”、“配置”；而另一條針對(duì)手機(jī)的評(píng)論,“好用，實(shí)惠，給力，耐用”雖未明顯指出所評(píng)價(jià)的屬性，但不難理解，該評(píng)論實(shí)際上指的是手機(jī)的功能比較“好用”、價(jià)格“實(shí)惠”且手機(jī)的質(zhì)量好，比較“耐用”.因此，通過計(jì)算一條評(píng)論中所包含的評(píng)價(jià)詞比例，對(duì)于識(shí)別無關(guān)評(píng)論有重要意義.本文通過抽取所抓取評(píng)論語料中緊鄰評(píng)價(jià)屬性的形容詞來構(gòu)建對(duì)應(yīng)主題的評(píng)價(jià)詞集合.

2.1.3 網(wǎng)絡(luò)低俗詞

針對(duì)部分涉及人身攻擊的垃圾評(píng)論通常具有比較顯著的特征，即含有若干網(wǎng)絡(luò)低俗用語，例如“以后誰他媽再評(píng)論這個(gè)是好的誰就是傻逼”中的“他媽”、“傻逼”.針對(duì)這類垃圾評(píng)論，本文收集并整理了共123個(gè)網(wǎng)絡(luò)低俗詞，部分樣例如表2所示.

本文將該類詞語加入分詞工具的自定義詞典中以避免分詞錯(cuò)誤.在本文中，如果一條評(píng)論包含低俗詞，則在該屬性上取值為1，否則為0.

2.1.4 廣告詞

對(duì)于廣告類的垃圾評(píng)論一般都包含一些比較明顯的關(guān)鍵詞，例如一條廣告類的垃圾評(píng)論：“紅紅火火，火鍋城，開業(yè)大酬賓，滿100返20，酒水半價(jià)”，其中就包含與商業(yè)廣告非常相關(guān)的關(guān)鍵詞：“大酬賓”、“滿”、“返”，這些關(guān)鍵詞對(duì)廣告類垃圾評(píng)論的識(shí)別非常重要，故本文將一條評(píng)論中廣告詞的比例作為特征項(xiàng).本文共提取整理廣告詞236個(gè)，部分樣例如表3所示.

表2 “網(wǎng)絡(luò)低俗詞”樣例

表3 “廣告詞”樣例

2.1.5 評(píng)論重復(fù)度

由于一些網(wǎng)站中會(huì)限制評(píng)論的最短評(píng)論長度，所以一些用戶為了滿足該條件，會(huì)把評(píng)論重復(fù)復(fù)制粘貼.因此，通過計(jì)算單條評(píng)論的重復(fù)度可以有效識(shí)別該類垃圾評(píng)論，評(píng)論重復(fù)度=評(píng)論包含的字?jǐn)?shù)/評(píng)論漢字集合的大小.

例如，對(duì)于垃圾評(píng)論“十五字十五字十五字十五字十五字”，評(píng)論包含字?jǐn)?shù)為15，評(píng)論的漢字集合為{十，五，字}，集合大小為3，故其評(píng)論重復(fù)度為5.

2.2 非語義特征項(xiàng)

2.2.1 超鏈接、電話、QQ、微信號(hào)

一般廣告類的垃圾評(píng)論主要以獲取商業(yè)利益為主要目的，所以該類評(píng)論中不僅含有比較明顯關(guān)鍵詞，而且在評(píng)論的最后一般還留有URL超鏈接、電話號(hào)碼、QQ號(hào)、微信號(hào).例如“[淘寶] QCY尖叫7款新意色終于來了，現(xiàn)0.01元訂金火熱預(yù)訂中：http://t.cn/RZkZkqG”、“積分充值：只要給我提供您的7天會(huì)員帳號(hào)、姓名即可充值.2000積分60元.詳情qq230658723”、“有意想提前入住的請(qǐng)聯(lián)系132887247263”.本文通過構(gòu)造正則表達(dá)式來檢驗(yàn)一條評(píng)論中是否存在該類信息，如果一條評(píng)論存在該類信息則該屬性取值為1，否則為0.

2.2.2 是否為重復(fù)評(píng)論

有些垃圾評(píng)論直接來自于上一條垃圾評(píng)論的復(fù)制粘貼，尤其是某些廣告類評(píng)論為增加用戶的見面率，通常被重復(fù)發(fā)表.故本文檢驗(yàn)數(shù)據(jù)集中每條評(píng)論是否存在重復(fù)，如果數(shù)據(jù)集中存在相同評(píng)論，則該屬性取值為1，否則為0.

2.2.3 是否存在錯(cuò)評(píng)

對(duì)于存在錯(cuò)評(píng)的一類垃圾評(píng)論，本文根據(jù)評(píng)價(jià)對(duì)象所屬的不同領(lǐng)域，獲取其評(píng)價(jià)對(duì)象所屬領(lǐng)域的所有品牌，根據(jù)此判斷評(píng)論中是否包含非當(dāng)前品牌的品牌名稱.包含時(shí)值為1，不包含時(shí)值為0.

2.2.4 評(píng)論長度

針對(duì)不同領(lǐng)域的評(píng)論，本文進(jìn)一步考慮評(píng)論文本長度特征，將其作為分類時(shí)的特征項(xiàng).本文在該特征項(xiàng)上的取值為當(dāng)前評(píng)論經(jīng)過預(yù)處理后不同詞語的數(shù)量，這樣在考察正常評(píng)論與垃圾評(píng)論的長度在整體上差異性的同時(shí)，還可以進(jìn)一步結(jié)合“評(píng)論重復(fù)度”特征項(xiàng)來有效識(shí)別直接通過復(fù)制粘貼操作形成的垃圾評(píng)論，例如“很好，不錯(cuò)，很好，不錯(cuò)，很好，不錯(cuò)，很好”.

2.3 評(píng)論的元特征項(xiàng)

本文在提取特征項(xiàng)時(shí)，在考慮以上文本特征即語義特征、非語義特征的同時(shí)，進(jìn)一步考慮評(píng)論的元數(shù)據(jù)特征，從評(píng)論者的角度考察垃圾評(píng)論、正常評(píng)論的差異性.

2.3.1 評(píng)論者的打分

評(píng)論者在購買商品或服務(wù)后，除了可以發(fā)表評(píng)論外，還可以根據(jù)自己的滿意程度對(duì)商品或服務(wù)進(jìn)行打分，取值從1到5.對(duì)于部分垃圾評(píng)論，尤其是涉及人身攻擊類的垃圾評(píng)論，例如“今天吃飯真你媽憋屈旁邊喝酒的真是傻逼”，評(píng)論者的打分通常較低，所以在提取特征項(xiàng)時(shí),本文將評(píng)論者的打分考慮在內(nèi).

2.3.2 評(píng)論的有用性得票數(shù)

評(píng)論的有用性得票數(shù)即來自其他評(píng)論者對(duì)于該條評(píng)論是否有用的標(biāo)記計(jì)數(shù)，一般的垃圾評(píng)論，由于其評(píng)論質(zhì)量較低,一般很難得到其他評(píng)論者的認(rèn)可，因此其有用性得票數(shù)較低，而正常評(píng)論則偏高.

3 基于隨機(jī)森林的Adaboost算法

隨機(jī)森林(RF，random forest)是由Breiman[10]于2001年提出的一種組合分類器算法.該算法采用bootstrap[11]重采樣方法從原始樣本中抽取多個(gè)樣本，對(duì)每個(gè)bootstrap樣本單獨(dú)進(jìn)行決策樹建模，然后組合多棵決策樹的預(yù)測(cè)，即讓所有決策樹參加投票，通過投票得出最終的預(yù)測(cè)結(jié)果.

Adaboost算法是1995年由Freund和Schapire提出的一種提升算法[12].該算法從弱分類算法出發(fā)，通過反復(fù)迭代，得到一系列的弱分類器，然后組合這些弱分類器構(gòu)建一個(gè)最終的強(qiáng)分類器.在每次迭代過程中，不斷更改訓(xùn)練樣本的權(quán)值分布，使下一次迭代更關(guān)注被分錯(cuò)的樣本，并根據(jù)分類效果，賦予每個(gè)基分類器權(quán)重.

在垃圾短信的識(shí)別過程中，本文采用隨機(jī)森林與Adaboost算法相結(jié)合的方法.實(shí)驗(yàn)結(jié)果表明，該方法取得較好的識(shí)別效果.具體算法描述如下：

對(duì)于訓(xùn)練集D={(x1,y1),(x2,y2),…,(xi,yi),…,(xN,yN)}，其中，xi∈Rn為短信實(shí)例，yi∈{1,0}為類標(biāo)記，1表示垃圾短信，0表示正常短信.

步驟1：初始化訓(xùn)練樣本的權(quán)值分布，w1=(w11,w12,…,w1i,…,w1N)，其中，w1i=1/N.

步驟2：使用隨機(jī)森林算法進(jìn)行K次迭代，對(duì)k=1,2,3,…,K：

1) 采用bootstrap重采樣方法，隨機(jī)生成M個(gè)訓(xùn)練子集D1,D2,…,Dj,…,DM；

2) 根據(jù)每個(gè)訓(xùn)練子集Dj，生成對(duì)應(yīng)的決策樹預(yù)測(cè)模型Tj.其中，在每棵決策樹的非葉子節(jié)點(diǎn)上進(jìn)行分裂時(shí)，從當(dāng)前子集的所有特征中隨機(jī)選取部分特征作為候選特征集，然后根據(jù)基尼指數(shù)(GINI)從候選特征集中選出最佳分裂點(diǎn)；

3) 由于訓(xùn)練樣本及特征選擇的隨機(jī)性，每棵樹均完整生長，不進(jìn)行剪枝；

4) 將本次迭代產(chǎn)生的M個(gè)決策樹模型Tj組合生成隨機(jī)森林預(yù)測(cè)模型Mk；

5) 根據(jù)Mk在當(dāng)前訓(xùn)練集D上的分類效果，賦予Mk權(quán)重，并更新訓(xùn)練樣本的權(quán)值分布.

步驟3：將K次迭代產(chǎn)生的預(yù)測(cè)模型序列M1,M2,…,Mk,…,MK進(jìn)行線性組合，構(gòu)成最終的預(yù)測(cè)模型M=α1M1+α2M2+…+αkMk+…+αKMK，其中:αk為基分類器Mk的權(quán)重.

4 實(shí)驗(yàn)結(jié)果及分析

表4 實(shí)驗(yàn)數(shù)據(jù)集

本文使用COAE2015任務(wù)4提供的公開數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)，該數(shù)據(jù)集共包括3個(gè)評(píng)價(jià)領(lǐng)域：賓館(hotel)、手機(jī)(phone)、餐館(restaurant)，每個(gè)評(píng)價(jià)領(lǐng)域包括3個(gè)評(píng)價(jià)對(duì)象，具體規(guī)模如表4所示.

本文使用weka作為實(shí)驗(yàn)平臺(tái)，采用十折交叉驗(yàn)證的方法進(jìn)行實(shí)驗(yàn)，以精確率、召回率、F值、準(zhǔn)確率作為評(píng)價(jià)指標(biāo)，整個(gè)評(píng)價(jià)領(lǐng)域采用微平均(Micro-average)作為評(píng)價(jià)指標(biāo).

本文共設(shè)計(jì)了兩組實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表5所示，其中：Result_0是本文采用基于隨機(jī)森林的Adaboost算法的實(shí)驗(yàn)結(jié)果，Result_1是在Result_0的基礎(chǔ)上進(jìn)一步使用規(guī)則過濾的結(jié)果.

由于部分垃圾評(píng)論的特征較為顯著，故本文在使用基于隨機(jī)森林的Adaboost算法的基礎(chǔ)上，進(jìn)一步使用規(guī)則進(jìn)行過濾，將凡包含網(wǎng)絡(luò)低俗詞、廣告詞、URL、電話、QQ號(hào)等及存在重復(fù)、存在錯(cuò)評(píng)的評(píng)論均視為垃圾評(píng)論.實(shí)驗(yàn)結(jié)果如Result_1所示.

由Result_1可知，經(jīng)過規(guī)則過濾，實(shí)驗(yàn)的各項(xiàng)指標(biāo)得到進(jìn)一步提高，尤其是整體的召回率、準(zhǔn)確率得到較大提升，實(shí)驗(yàn)的整體識(shí)別效果在召回率、F值、準(zhǔn)確率方面均高于result_0，由此證明本文提出規(guī)則的有效性.但是本文在識(shí)別垃圾評(píng)論的精確率方面偏低，且在phone類的識(shí)別效果不及hotel,restaurant.所以在未來的工作中，將考慮如何提高垃圾評(píng)論的識(shí)別精確度及改善phone類垃圾評(píng)論的識(shí)別效果.

表5 垃圾評(píng)論識(shí)別的實(shí)驗(yàn)結(jié)果

[1] JINDAL N, LIU B. Opinion spam and analysis[C]//Proceedings of First ACM International Conference on Web Search and Data Mining. California:Stanford, 2008:219-230.

[2] 李霄,丁晟春.垃圾商品評(píng)論信息的識(shí)別研究[J]. 現(xiàn)代圖書情報(bào)技術(shù),2013,29(1):63-68.

[3] 游貴榮,吳為,錢沄濤. 電子商務(wù)中垃圾評(píng)論檢測(cè)的特征提取方法[J]. 現(xiàn)代圖書情報(bào)技術(shù),2014, 30(10):93-100.

[4] 何瓏. 基于隨機(jī)森林的產(chǎn)品垃圾評(píng)論識(shí)別[J]. 中文信息學(xué)報(bào), 2015, 29(3):150-154.

[5] 楊赫. 垃圾微博信息過濾技術(shù)的研究[D]. 哈爾濱：哈爾濱理工大學(xué), 2015.

[6] 楊凱帆. 微博垃圾信息檢測(cè)[D]. 安徽：中國科學(xué)技術(shù)大學(xué), 2015.

[7] 黃鈴,李學(xué)明. 基于AdaBoost的微博垃圾評(píng)論識(shí)別方法[J]. 計(jì)算機(jī)應(yīng)用, 2013,33(12) :3563-3566.

[8] DEBARR D, WECHSLER H. Spam detection using random boost[J]. Pattern recognition letters, 2012, 33(10):1237-1244.

[9] 林煜明,王曉玲,朱濤,等. 用戶評(píng)論的質(zhì)量檢測(cè)與控制研究綜述[J]. 軟件學(xué)報(bào),2014,25(3):506-527.

[10]BREIMAN L. Random F [J]. Machine learning, 2001, 45(1):5-32.

[11]EFRON B, TIBSHIRANI R J. An introductin to the bootstrap[J]. Journal of great lakes research, 1993, 20(1):1-6.

[12]FREUND Y, SCHAPIRE R E. A decision-theoretic generalization of on-line learning and an application to boosting[C]// European Conference on Computational Learning Theory. Berlin, 1995:119-139.

(責(zé)任編輯：王海科)

Spam Review Identification Based on Adaboost Algorithm and Rules Matching

ZAN Hongying, BI Yinlong, SHI Jinming

(SchoolofInformationEngineering,ZhengzhouUniversity,Zhengzhou450001,China)

Features were extracted from both the text content and meta data of reviews to avoid feature vectors being sparse. Adaboost based on random forest was proposed to reduce the influence of unbalanced product review data set. Because of the very obvious characteristics of some spam reviews, rule matching was applied to further improve the recall rate. The experimental results on the data set provided by COAE2015 task 4 showed that the proposed method was effective.

identification of spam reviews； random forest； Adaboost； ensemble learning algorithm

2016-12-10

國家自然科學(xué)基金項(xiàng)目(61402419)；國家社會(huì)科學(xué)基金項(xiàng)目(14BYY096)；國家重點(diǎn)基礎(chǔ)研究發(fā)展項(xiàng)目(973計(jì)劃)(2014CB340504)；河南科技廳基礎(chǔ)研究項(xiàng)目(142300410231，142300410308)；河南省高等學(xué)校重點(diǎn)科研項(xiàng)目(15A520098)．

昝紅英(1966—)，女，河南焦作人，教授，主要從事自然語言處理研究，E-mail：iehyzan@zzu.edu.cn;通訊作者：畢銀龍(1990—)，男，河南周口人，碩士研究生，主要從事短文本分類算法研究，E-mail：zzubylong@gs.zzu.edu.cn.

TP391

1671-6841(2017)01-0024-05

10.13705/j.issn.1671-6841.2016310

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Adaboost算法與規(guī)則匹配的垃圾評(píng)論識(shí)別

0 引言

1 預(yù)處理

2 特征項(xiàng)提取

3 基于隨機(jī)森林的Adaboost算法

4 實(shí)驗(yàn)結(jié)果及分析