王延飛
摘要:隨著智能手機(jī)的普及,APP軟件越來越流行,隨之而來的是APP軟件用戶評論的增多。在數(shù)量極大的評論中,關(guān)于APP軟件缺陷問題的評論是APP開發(fā)者最關(guān)心的。通過對APP評論的大量閱讀和觀察,發(fā)現(xiàn)APP軟件缺陷問題是分散的??偨Y(jié)了7類缺陷問題,使用改進(jìn)卡方統(tǒng)計(jì)和APP軟件簡介中的名詞和動詞作為特征選擇思路,使用樸素貝葉斯算法對每個(gè)缺陷問題評論進(jìn)行訓(xùn)練學(xué)習(xí)。用8 677條評論進(jìn)行實(shí)驗(yàn),結(jié)果表明該方法的準(zhǔn)確率、召回率和F1值較高。該方法不僅減輕了人工標(biāo)記APP缺陷問題評論的工作量,而且提高了分類準(zhǔn)確度。
關(guān)鍵詞:樸素貝葉斯;APP評論;文本分類
DOIDOI:10.11907/rjdk.181167
中圖分類號:TP301
文獻(xiàn)標(biāo)識碼:A文章編號文章編號:16727800(2018)009005905
英文標(biāo)題Classified Method for APP Software's User Comments of Defect Issues
--副標(biāo)題
英文作者WANG Yanfei
英文作者單位(Department of Information Engineering and Automation,KunmingUniversity of Science and Technology,Kunming 650500,China)
英文摘要Abstract:With the popularity of smart phones,APP software is becoming more and more popular,followed by the increase of APP software users' comments.In a large number of comments, the comments on APP software defects are the core issues APP developers most concern.For the defects of APP software are scattered,7 kinds of defects are summarized,and then the improved Chi square statistics and the nouns and verbs of the introduction of APP software employed as feature selection ideas,and training study of the defects of each comment is conducted by Naive Bayesian algorithm.8677 comments are taken in the experiment and the experimental results show that the accuracy,recall and F1 value of the method are high.It is concluded that this method not only reduces the workload of the comment on APP defects,but also improves the accuracy of the classification.
英文關(guān)鍵詞Key Words:Naive Bayes;APP Comment; text classification
0引言
隨著移動網(wǎng)絡(luò)的發(fā)展,微博、微信等APP開始興起并迅速普及,使用移動網(wǎng)絡(luò)進(jìn)行交流和娛樂逐漸流行,在APP平臺上發(fā)表個(gè)人觀點(diǎn)和想法的越來越多,其長度一般小于60字。這些觀點(diǎn)和想法在話題發(fā)現(xiàn)和APP缺陷分析等方面有一定價(jià)值。在APP軟件問題評論中,大量是關(guān)于APP軟件缺陷問題的評論。白成剛[1]指出,軟件缺陷定義中失效、錯(cuò)誤、故障、缺陷、差錯(cuò)、事故等詞匯的含義非常接近,學(xué)術(shù)界對此解釋很不一致,在軟件領(lǐng)域使用時(shí)更容易混淆。尹國定[2]指出,所謂軟件錯(cuò)誤,是指在開發(fā)階段產(chǎn)生、在調(diào)試和測試階段未被發(fā)現(xiàn)的程序錯(cuò)誤。對APP軟件開發(fā)者而言,從APP評論中分析出APP軟件的缺陷類型非常重要,可據(jù)此對APP軟件作出相應(yīng)修改。
1相關(guān)工作
文本分類指按照預(yù)先定義的主題類別,為文檔集合中每個(gè)文檔確定一個(gè)類別。文本分類是文本挖掘的重要內(nèi)容。文本分類是一個(gè)有指導(dǎo)的學(xué)習(xí)過程,一般包括兩個(gè)步驟:①文本分類器訓(xùn)練,使用已知類別的文本訓(xùn)練集訓(xùn)練分類器;②使用未知類別的文本測試集測試文本分類器。
1.1文本特征選擇算法
所有特征選擇算法都是衡量特征重要程度后再進(jìn)行選擇,而如何量化特征的重要性是各種方法的最大不同??ǚ津?yàn)證是通過預(yù)先設(shè)定一個(gè)原假設(shè),在原假設(shè)成立的情況下觀察實(shí)際值和理論值之間的差值確定假設(shè)是否成立。其差值,即卡方統(tǒng)計(jì)值如式(1)所示。
χ2(t,c)=∑ei=1(xi-E)2E(1)
式(1)中,t代表某個(gè)特征,c代表某個(gè)事件,xi代表xi的時(shí)間觀察值,理論值E為數(shù)學(xué)期望,該原理簡單易懂具有很高的使用價(jià)值。當(dāng)觀察值和理論值偏差很大時(shí)原假設(shè)不成立,當(dāng)觀察值和理論值偏差很小時(shí)原假設(shè)成立。
周愛武等[3]使用卡方統(tǒng)計(jì)法提取文本的特征詞語,并使用SVM算法對文本情感進(jìn)行了分類處理。實(shí)驗(yàn)結(jié)果顯示該方法的精準(zhǔn)度和召回率都在82%以上,達(dá)到了預(yù)期效果,但是沒有考慮多分類類別相關(guān)的處理?xiàng)l件。徐明等[4]提出了基于改進(jìn)的卡方統(tǒng)計(jì)方法,對微博的特征抽取并使用KNN算法分類,在分類效果上有了明顯提高,但還需擴(kuò)大數(shù)據(jù)量,排除單個(gè)特征對分類結(jié)果的影響。張輝宜等[5]考慮了在不均衡數(shù)據(jù)集上詞語的頻度和類別的數(shù)量等因素,以致每個(gè)類別中不能選擇出有效特征。李平等[6]提出了混合卡方統(tǒng)計(jì)的特征選擇方法,在原來的卡方統(tǒng)計(jì)基礎(chǔ)上,引入詞頻和逆文本頻率等因素,以便減少選擇與類別無關(guān)的特征。針對文本分類中出現(xiàn)的特征詞語較少情況,宋鈺婷[7]提出了一種卡方統(tǒng)計(jì)與LDA的主題模型對文本進(jìn)行分類,并與互信息、信息增益特征選擇算法進(jìn)行比較,證明了卡方統(tǒng)計(jì)算法的優(yōu)勢。
1.2基于LDA的文本分類算法
LDA 是Latent Dirichlet Allocation的簡稱,是一種文檔主題生成模型。微博和APP評論比較相似,萬本帥[8]提出一個(gè)基于LDA的微博生成模型MRT-LDA,利用微博之間的轉(zhuǎn)發(fā)、對話等關(guān)系計(jì)算微博之間的相關(guān)性,挖掘微博主題。LDA采用詞袋方法對文檔建模,忽略了詞語之間順序,不適合應(yīng)用在APP評論問題上。
張金瑞等[9]使用LDA主題模型,并引入詞向量對新聞數(shù)據(jù)進(jìn)行分類,但是沒有考慮句子之間和段落之間存在的主題轉(zhuǎn)移問題。APP評論是一種短文本,呂超鎮(zhèn)等[10]使用LDA對文本進(jìn)行預(yù)測,得到了文檔的主題分布,然后把主題中的詞語補(bǔ)充到原文檔中。該方法對文檔的特征詞語進(jìn)行了擴(kuò)充,使得分類效果有所提升。郭克友等[11]使用LDA模型對道路圖像進(jìn)行處理,并結(jié)合LSD算法對道路的車道線進(jìn)行確定,以便準(zhǔn)確分類。謝晨陽等[12]提出改進(jìn)的LDA模型,通過確定主題數(shù)目,并發(fā)掘每個(gè)標(biāo)簽之間的層次關(guān)系,以提高分類效果。
13基于樸素貝葉斯的文本分類算法
近年來,有研究者使用樸素貝葉斯作為文本分類方法。樸素貝葉斯是在貝葉斯原理基礎(chǔ)上加入了特征獨(dú)立的假設(shè)。貝葉斯理論歷史悠久,有著堅(jiān)實(shí)的理論基礎(chǔ),處理很多問題時(shí)直接而又高效,很多高級自然語言處理模型可從它演化而來。樸素貝葉斯是在貝葉斯理論基礎(chǔ)上,假設(shè)特征之間是獨(dú)立互不影響的。雖然“所有特征彼此獨(dú)立”這個(gè)假設(shè)在現(xiàn)實(shí)中不太可能成立,但它可以大大簡化計(jì)算,而且有研究表明對分類結(jié)果的準(zhǔn)確性影響不大。根據(jù)樸素貝葉斯算法計(jì)算每個(gè)文本屬于每個(gè)類別的概率,將文本分類于概率最大的類別。
貝葉斯原理用來描述兩個(gè)條件概率之間的關(guān)系,比如p(Y|X)和P(X|Y)。具體來說,事件Y在事件X發(fā)生的條件下的概率,與事件X在事件Y發(fā)生的條件下的概率是不一樣的,但這兩者有確定關(guān)系,貝葉斯原理就是闡述這兩者關(guān)系的。貝葉斯原理用以下公式闡述:
P(Y|X)=P(Y)P(X|Y)P(X)(2)
P(Y)和P(X)是先驗(yàn)概率,p(Y|X)是后驗(yàn)概率,是事件X發(fā)生的條件下事件Y發(fā)生的概率。貝葉斯算法通過對數(shù)據(jù)集各個(gè)概率計(jì)算,得到每個(gè)特征數(shù)據(jù)問題類型的概率,進(jìn)而得到一個(gè)文本數(shù)據(jù)問題類型的概率,最后得到最大概率即為該文本應(yīng)屬的問題類型。每個(gè)文本特征互不影響,稱作 “文本特征條件獨(dú)立性假設(shè)”,并定義事件Y=(Y1,Y2,… ,Ym),X代表事件所包含的屬性,X=(X1,X2,…,Xn)??蓪⑹剑?)重寫為:
P(Ym|Xn)=P(Ym)P(Xn|Ym)P(Xn)=P(Ym)P(Xn)∏ni=1P(Xi|Ym)(3)
樸素貝葉斯算法基本步驟:
(1)計(jì)算每個(gè)事件的先驗(yàn)概率P(Ym)和P(Xn)。P(Ym)指事件Ym在所有事件Y中的概率。令Dm表示數(shù)據(jù)集D中事件Ym組成的集合,若有充足的獨(dú)立分布樣本,則可容易估算出類先驗(yàn)概率。
P(Ym)=|Dm||D|(4)
計(jì)算先驗(yàn)概率P(Xn)。P(Xn)指每個(gè)事件屬性在所有事件屬性中出現(xiàn)的概率。在給定數(shù)據(jù)集中,該概率與事件類別無關(guān)。
P(Xn)=CouXnCouX(5)
式(5)中,CouXn代表屬性Xn在數(shù)據(jù)集D中出現(xiàn)的次數(shù),CouX代表所有屬性的總數(shù)。
(2)條件概率P(Xn|Ym)指每個(gè)屬性在每個(gè)事件中出現(xiàn)的概率。令DYm,Xn表示DYm在事件Ym的數(shù)據(jù)集上取值為Xn的樣本集合,則條件概率P(Xn|Ym)可估計(jì)為:
P(Xn|Ym)=|DYm,Xn||DYm|(6)
(3)通過計(jì)算得到步驟(1)和步驟(2)中的P(Ym)、P(Xn)和P(Xn|Ym),可計(jì)算得P(Ym|Xn)。
(4)通過計(jì)算一條數(shù)據(jù)中所有屬性的P(Ym|Xn),得到它們和的最大值P(Ym|X),判斷該數(shù)據(jù)屬于事件m。
樸素貝葉斯算法具有原理簡單有效的特點(diǎn),可用于各種文本處理。熊志斌[13]運(yùn)用樸素貝葉斯原理對搜狗實(shí)驗(yàn)室語料進(jìn)行了分類,效果較好,說明樸素貝葉斯在文本分類中的適用性。但這種分類方法還有很多可以改進(jìn)的地方。張雯[14]在樸素貝葉斯基礎(chǔ)上提出了一種屬性加權(quán)的文本集成分類器,并通過十折交叉驗(yàn)證了其在很多文本語料庫中分類效果都較出色。鄧維斌等[15]提出了一種基于粗糙集的加權(quán)樸素貝葉斯郵件過濾算法,相比樸素貝葉斯和支持向量機(jī)算法,其召回率、精確度和準(zhǔn)確度效果都很好。要反映垃圾郵件特征的屬性集,以免實(shí)驗(yàn)將正常郵件識別成垃圾郵件。羅慧欽等[16]根據(jù)樸素貝葉斯的“特征相互獨(dú)立”假設(shè)在現(xiàn)實(shí)中不完全成立的情況下,提出一種隱樸素貝葉斯模型,用于對商品評論的情感分類,該方法有較好的分類效果。
2改進(jìn)特征選擇的樸素貝葉斯分類算法
本文研究的對象是APP缺陷問題評論,使用樸素貝葉斯對APP缺陷問題評論分類,特征選擇算法是必不可少的。卡方統(tǒng)計(jì)廣泛應(yīng)用于文本特征選擇上,其在每個(gè)特殊應(yīng)用領(lǐng)域上的改進(jìn)方式也不盡相同。本文根據(jù)APP缺陷問題評論特點(diǎn),對卡方統(tǒng)計(jì)算法進(jìn)行改進(jìn),以提高文本特征選擇的準(zhǔn)確性。
2.1APP評論獲取與分詞
本文分類所使用的APP評論數(shù)據(jù)來源于安卓市場(網(wǎng)址:www.hiapp.com)。使用爬蟲程序從安卓市場上獲取文本,獲取的APP評論信息包括APP名稱、用戶名、APP評論、APP簡介等信息。漢語和其它語言在表達(dá)方式上有差異,在得到APP評論后,需要對其分詞以便于理解文本。本文采用的分詞工具是中科院的NLPIR漢語分詞系統(tǒng)(網(wǎng)站:http://ictclas.nlpir.org/),分詞后的結(jié)果如表1所示。
2.2停用詞處理
通過對大量APP評論的觀察,發(fā)現(xiàn)存在很多詞語對文本分析作用較小的情況,稱之為“停用詞”。為加快文本分析效率,需對停用詞進(jìn)行一定的篩除。一般的處理方式是采用很多研究者總結(jié)出的停用詞表,例如“哈工大停用詞詞庫”和“四川大學(xué)機(jī)器學(xué)習(xí)智能實(shí)驗(yàn)室停用詞庫”。但由于這些停用詞表綜合了多個(gè)領(lǐng)域的詞語,針對某個(gè)特定領(lǐng)域時(shí)作用不大。文本在借鑒已有停用詞表基礎(chǔ)上引入詞頻元素,步驟如下:
(1)網(wǎng)上有很多用于文本分析而參考的停用詞表,如“哈工大停用詞詞庫”和“四川大學(xué)機(jī)器學(xué)習(xí)智能實(shí)驗(yàn)室停用詞庫”,對兩者內(nèi)容進(jìn)行合并和去重,得到停用詞表S1。
(2)對所有APP評論計(jì)算每個(gè)詞語的詞頻TF,公式為:
TFi,j=ni,j∑knk,j(7)
式(7)中,ni,j是該詞在文件dj中的出現(xiàn)次數(shù),而分母則是在文件dj中所有字詞出現(xiàn)的次數(shù)之和。
通過公式(7)得到所有詞語的TF集合,集合樣式是[w,n],w代表詞語,n代表該詞語的TF值。通過該集合,可以清楚了解詞語的出現(xiàn)情況,然后按照TF值的大小對詞語從大到小排序,得到集合L1。
(3)遍歷集合L1的每個(gè)詞語,把取到的每個(gè)詞語與停用詞表S1進(jìn)行比對。令集合L1當(dāng)前被取到的詞語為Wc,若Wc被包含在停用詞表S1中,則將Wc存入新集合L2中,直至集合L2詞語的個(gè)數(shù)達(dá)到Q個(gè)。實(shí)驗(yàn)顯示當(dāng)Q取20時(shí),得到的停用詞更為準(zhǔn)確。
(4)遍歷集合L2中的所有詞語。若一條APP評論中包含集合L2中的詞語,則將其從APP評論中篩除。
通過以上處理,得到的APP評論更能反映核心表達(dá)內(nèi)容,能提高文本處理效率。
2.3文本特征選擇
本文研究對象是APP缺陷問題評論的特征。若要對其分析出好的效果,文本特征的選擇尤為重要。特征選擇步驟如下:
(1)APP簡介中的信息反映了APP功能,即是特征選擇中提到的特征。APP簡介信息如表1所示。取APP簡介中詞性為名詞和動詞的詞語作為該APP的特征[17],即APP評論分詞以n和v作為后綴的詞語。以表1中的APP簡介分詞為例,“地圖/n”、“功能/n”、“智能/n”、“語音/n”、“美食/n”、“機(jī)票/n” “酒店/n”等詞語作為APP特征。若APP評論出現(xiàn)前面幾個(gè)詞語,將存入APP的特征集Lf1。
(2)雖然文獻(xiàn)[4]使用引入頻度的卡方統(tǒng)計(jì)對微博特征進(jìn)行選擇,但在APP缺陷問題評論中只通過加入頻度,還不能得到較好的特征選擇結(jié)果。通過大量觀察發(fā)現(xiàn),真正能反映APP缺陷問題評論的文本特征具有同時(shí)出現(xiàn)的特點(diǎn),比如在崩潰問題中, “總是”和“崩潰”多同時(shí)出現(xiàn),而且兩個(gè)詞語之間的距離也較近。又比如在APP軟件整體缺陷問題中,“不”和“好”也多同時(shí)出現(xiàn),并且這兩個(gè)詞語在APP評論中的距離很近。根據(jù)這個(gè)特點(diǎn),在使用傳統(tǒng)卡方統(tǒng)計(jì)進(jìn)行特征選擇時(shí),加入詞語同時(shí)出現(xiàn)[18]和詞語距離因素,以提高特征選擇方法的準(zhǔn)確度。
根據(jù)卡方統(tǒng)計(jì)值定義,將公式(1)轉(zhuǎn)化為:
χ2(t,cv)=N·(AD-CB)2(A+C)(B+D)(A+B)(C+D)(8)
且N=A+B+C+D。
式(8)中,N代表所有文本的數(shù)量,t代表特征詞,cv代表某個(gè)文本類別,A代表在類別cv文本集中包含特征詞t的文本數(shù)量,B代表其它類別文本集中包含特征詞t的文本數(shù)量,C代表類別cv文本集中不包含特征詞t的文本數(shù)量,D為其它類別文本集中不包含特征詞t的文本數(shù)量。
根據(jù)步驟(2)對卡方統(tǒng)計(jì)的改進(jìn),將公式(8)轉(zhuǎn)化為:
χ2([tp,tq],cv)=N·(AD-CB)2(A+C)(B+D)(A+B)(C+D)(9)
同樣滿足N=A+B+C+D。
令N表示所有文本特定的數(shù)量,tp和tq代表特征詞,cv代表某個(gè)文本類別,A代表在類別cv文本集中同時(shí)包含特征詞tp和tq的文本數(shù)量,B代表其它類別文本集中包含特征詞tp和tq的文本數(shù)量,C代表類別cv文本集中不包含特征詞tp和tq的文本數(shù)量,D為其它類別文本集中不包含特征詞tp和tq的文本數(shù)量。
算法流程如圖1所示。
為得到所有詞語卡方值,根據(jù)公式(10)找出詞語和各類別卡方值集合中的最大值作為分類系統(tǒng)的卡方值,并選擇一定數(shù)目k1的卡方值存入APP特征集Lf2。
χ2max=maxχ2([tp,tq],cv)(10)
最終APP特征集是Lf= Lf1∪Lf2,本文最終使用的APP特征集是Lf。通過上述步驟,特征選擇效果更好,內(nèi)容更全面準(zhǔn)確。
2.4實(shí)驗(yàn)
2.4.1評價(jià)指標(biāo)
文本分類評價(jià)指標(biāo)主要有召回率(Recall,R)、精準(zhǔn)率(Precision,P)和F1值,F(xiàn)1是精準(zhǔn)率和召回率的調(diào)和平均數(shù),各指標(biāo)計(jì)算公式如下:
P=TPTP+FP(11)
R=TPTP+FN(12)
F1=TP+TNTP+TN+FP+FN(13)
公式(11)、(12)、(13)中,TP表示正確分類的正元組數(shù),F(xiàn)P表示錯(cuò)誤標(biāo)記為正元組的負(fù)元組數(shù),TN表示分類正確的負(fù)元組數(shù),F(xiàn)N表示錯(cuò)誤標(biāo)記為負(fù)元組的正元組數(shù)。
2.4.2實(shí)驗(yàn)分析
本文實(shí)驗(yàn)使用APP缺陷問題評論8 677條,包括7種缺陷問題:①崩潰問題。指評論中提到的“崩潰”類似的問題,如評論“這個(gè)APP老是崩潰”;②響應(yīng)時(shí)間問題。指評論中提到的“反應(yīng)慢”類似的問題,如評論“它老是反應(yīng)慢”;③功能表現(xiàn)不佳問題。指評論中提到的針對APP具體功能出現(xiàn)的問題評論,如評論“QQ不能發(fā)消息了”;④安裝問題。指用戶在安裝APP時(shí)出現(xiàn)的問題,如評論“微信老是安裝不上”;⑤下載問題。指用戶在下載APP時(shí)出現(xiàn)的問題,如評論“這個(gè)下載問題比較嚴(yán)重”;⑥資源問題。指用戶在使用APP過程中出現(xiàn)的智能設(shè)備資源消耗過大問題,如評論“這個(gè)APP耗電太多”;⑦整體缺陷問題。指用戶對APP整體體驗(yàn)較差問題,如評論“這個(gè)太爛”。
實(shí)驗(yàn)的分類算法使用樸素貝葉斯算法,卡方值數(shù)量k1=1 300,在兩個(gè)詞語的距離閾值k2=4時(shí)實(shí)驗(yàn)效果最好,最后通過十折交叉驗(yàn)證。
表2和表3展示在不同類別的APP缺陷問題評論中,本文方法與傳統(tǒng)卡方統(tǒng)計(jì)方法的試驗(yàn)結(jié)果比較??梢钥闯?,在不同指標(biāo)上本文方法都有提高,這是因?yàn)閭鹘y(tǒng)的卡方統(tǒng)計(jì)方法沒有考慮到APP缺陷評論問題特點(diǎn),即能正確反映APP缺陷問題的詞語之間有同時(shí)出現(xiàn)的特點(diǎn)。
APP缺陷問題評論類型的多樣性也是影響分類效果的一個(gè)因素。例如整體缺陷問題的有關(guān)評論,其內(nèi)容較少,不能很好地對其特征進(jìn)行選擇,導(dǎo)致分類效果低于80%。而下載問題的評論,其內(nèi)容格式較為穩(wěn)定,所以分類效果較好。
3結(jié)語
通過對APP缺陷問題評論的分析與研究,本文提出了一種改進(jìn)卡方統(tǒng)計(jì)APP評論特征選擇方法。首先,對APP評論進(jìn)行預(yù)處理,包括分詞和停用詞處理。然后根據(jù)APP缺陷問題評論特點(diǎn),對傳統(tǒng)卡方統(tǒng)計(jì)方法進(jìn)行改進(jìn),加入了詞語共同出現(xiàn)和詞語距離因素。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的特征選擇方法分類效果有所提高。但本文方法對已定義好的7種缺陷問題分類效果較好,而對出現(xiàn)未知的缺陷問題分類效果就不是很好。今后要使分類器具有學(xué)習(xí)功能,使其能對未知問題學(xué)習(xí)并識別未知問題特點(diǎn),能歸成一類或多類。
參考文獻(xiàn)參考文獻(xiàn):
[1]白成剛.基于Bayes網(wǎng)的軟件可靠性研究[D].杭州:浙江大學(xué), 1999.
[2]尹國定.網(wǎng)絡(luò)軟件故障分析[J].計(jì)算機(jī)工程與應(yīng)用, 1987(12):56.
[3]周愛武,馬那那,劉慧婷.基于卡方統(tǒng)計(jì)的情感文本分類[J].微電子學(xué)與計(jì)算機(jī),2017,34(8):5761.
[4]徐明,高翔,許志剛,等.基于改進(jìn)卡方統(tǒng)計(jì)的微博特征提取方法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(19):113117.
[5]張輝宜,謝業(yè)名,袁志祥,等.一種基于概率的卡方特征選擇方法[J].計(jì)算機(jī)工程,2016,42(8):194198.
[6]李平,戴月明,王艷.基于混合卡方統(tǒng)計(jì)量與邏輯回歸的文本情感分析[J].計(jì)算機(jī)工程,2017(12):3536.
[7]宋鈺婷,徐德華.基于LDA和SVM的中文文本分類研究[J].現(xiàn)代計(jì)算機(jī),2016(5):1823.
[8]萬本帥.基于MRTLDA模型的微博文本分類[D].廣州:華南師范大學(xué),2016.
[9]張金瑞,柴玉梅,昝紅英,等.基于LDA的弱監(jiān)督文本分類方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2017,38(1):8691.
[10]呂超鎮(zhèn),姬東鴻,吳飛飛.基于LDA特征擴(kuò)展的短文本分類[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(4):123127.
[11]郭克友,王藝偉,郭曉麗.LDA與LSD相結(jié)合的車道線分類檢測算法[J].計(jì)算機(jī)工程與應(yīng)用,2017,53(24):219225.
[12]謝晨陽,盧焱鑫.基于HDP的監(jiān)督多標(biāo)簽文本分類研究[J].計(jì)算機(jī)工程與應(yīng)用,2017,53(23):1823.
[13]熊志斌,劉冬.樸素貝葉斯在文本分類中的應(yīng)用[J].軟件導(dǎo)刊,2013,12(2):4951.
[14]張雯,張化祥.屬性加權(quán)的樸素貝葉斯集成分類器[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(29):144146.
[15]鄧維斌,王國胤,洪智勇.基于粗糙集的加權(quán)樸素貝葉斯郵件過濾方法[J].計(jì)算機(jī)科學(xué),2011,38(2):218221.
[16]羅慧欽,陸向艷,張雄寶,等.基于隱樸素貝葉斯的商品評論情感分類方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2017,38(1):203208.
[17]冉猛,姜瑛.APP軟件的用戶評論模式分析方法[J].計(jì)算機(jī)科學(xué),2017,44(11):181186.
[18]時(shí)永賓,余青松.基于共現(xiàn)詞卡方值的關(guān)鍵詞提取算法[J].計(jì)算機(jī)工程,2016,42(6):191195.
責(zé)任編輯(責(zé)任編輯:杜能鋼)