国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于主題模型的改進(jìn)隨機(jī)森林算法在文本分類中的應(yīng)用

2017-08-12 12:22張曦煌
關(guān)鍵詞:決策樹語料庫文檔

姚 立 張曦煌

(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院 江蘇 無錫 214122)

?

基于主題模型的改進(jìn)隨機(jī)森林算法在文本分類中的應(yīng)用

姚 立 張曦煌

(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院 江蘇 無錫 214122)

針對(duì)傳統(tǒng)隨機(jī)森林算法在維度高、噪聲大的文本分類上出現(xiàn)計(jì)算復(fù)雜度高和分類效果較差的問題,提出一種基于隱狄利克雷分配(LDA)主題模型的改進(jìn)隨機(jī)森林算法。該算法利用LDA主題模型對(duì)原始文本建立模型,將原始文本映射到主題空間上,保證了文本主旨與原始文本的一致性,同時(shí)也大大降低了文本噪聲對(duì)分類的影響;并且針對(duì)隨機(jī)森林中決策樹特征的隨機(jī)選擇方法,提出在決策樹生成過程中,利用對(duì)稱不確定計(jì)算各個(gè)特征之間的相關(guān)性,從而可以降低不同決策樹之間的關(guān)聯(lián)度。最終在主題空間上利用改進(jìn)的隨機(jī)森林算法對(duì)文本進(jìn)行分類。經(jīng)過實(shí)驗(yàn)證明,該算法在文本分類上具有良好的優(yōu)越性。

隱狄利克雷模型 主題模型 隨機(jī)森林 特征評(píng)估 文本分類

0 引 言

目前超過80%的信息都是以文本的形式存儲(chǔ)的[1],因此對(duì)于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘來說,如何有效地組織大量的文本信息已經(jīng)成為當(dāng)前一個(gè)重要的課題。文本分類是鑒別文檔類別的一種預(yù)測(cè)算法。傳統(tǒng)的文本分類技術(shù)主要有決策樹、樸素貝葉斯、支持向量機(jī)、k-鄰近、神經(jīng)網(wǎng)絡(luò)等算法。

在文本分類的應(yīng)用研究上,許多學(xué)者提出了自己的算法。周慶平等[2]提出基于聚類的改進(jìn) KNN 算法。算法開始之前采用改進(jìn)χ2統(tǒng)計(jì)量方法進(jìn)行文本特征提取,再依據(jù)聚類方法將文本集聚類成幾個(gè)簇,最后利用改進(jìn)的 KNN 方法對(duì)簇類進(jìn)行文本分類。Yang[3]提出了一種組合特征選擇函數(shù),將常用的特征選擇函數(shù)通過準(zhǔn)確度系數(shù)連接起來構(gòu)成一個(gè)新的特征選擇函數(shù),最后在SVM 分類器進(jìn)行文本分類。Zhou[4]提出了一種基于k-means聚類特征選擇的文本分類算法。該算法使用k-means算法獲取每個(gè)類別的聚類中心,然后選擇高頻詞作為文本特征的中心來進(jìn)行文本分類。張翔等[5]提出了一種Bagging中文文本分類器的改進(jìn)算法。其算法針對(duì)弱分類器的分類結(jié)果進(jìn)行可信度計(jì)算從而得到每個(gè)弱分類器的權(quán)重,最后將權(quán)重應(yīng)用于Attribute Bagging算法。

在文獻(xiàn)[6]中,作者將LDA模型應(yīng)用到文本分類中,并且通過實(shí)驗(yàn)表明采用基于LDA的SVM算法比用VSM結(jié)合SVM和LSI結(jié)合SVM相比具有較好的分類效果。而在文獻(xiàn)[7]中提出在其測(cè)試的179種分類器中,并行化的隨機(jī)森林算法在眾多的分類器中的綜合表現(xiàn)最優(yōu)。因此本文提出了基于LDA的主題模型的改進(jìn)隨機(jī)森林文本分類算法(LDA-iRF),通過使用LDA主題模型的主題分布表示原始文本,使用LDA在降維后的低維特征空間可以有效減少隨機(jī)森林的計(jì)算時(shí)間;并且在主題選擇上進(jìn)行改進(jìn),淘汰掉低權(quán)重的主題;最后在隨機(jī)森林的決策樹生成過程中考慮不同特征之間的相關(guān)性,從而降低各個(gè)決策樹之間的關(guān)聯(lián)度。最終,通過實(shí)驗(yàn)證明了該分類方法的優(yōu)越性。

1 相關(guān)說明

1.1 LDA模型

傳統(tǒng)的文檔表示方法有向量空間模型[8](VSM)、概率潛語義分析[9](PLSA)等。其中VSM方法將文章抽象成一個(gè)向量,以關(guān)鍵字為基本單位,其文章間相似度取決于兩篇文章的共同的詞匯量,所以無法避免一詞多義給文章帶來語義模糊性;而PLSA又會(huì)由于訓(xùn)練數(shù)據(jù)存在噪聲,會(huì)出現(xiàn)過擬合現(xiàn)象,為了解決此問題,PLSA采用最大似然估計(jì)的方法。但是PLSA可以生成原始文檔集的模型,卻無法生成新的文檔模型。

LDA模型是Blei等[10]提出的一種處理像文本文檔的這類離散數(shù)據(jù)的生成概率模型。LDA是三層生成式的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),其有向概率圖模型,如圖1所示。

圖1 LDA模型有向概率圖

根據(jù)LDA的圖模型,可以寫出所有變量的聯(lián)合分布如公式中所示:

(1)

其等價(jià)于公式如下:

(2)

LDA概率主題模型的一篇文檔生成方式如下:

1) 按照先驗(yàn)概率P(di)選擇一篇文檔di。

2) 從Dirichlet分布中取樣生成文檔di的主題分布θ。

3) 從主題的多項(xiàng)式分布θi中取樣生成文檔di第j個(gè)詞的主題zi,j。

4) 從Dirichlet分布β中取樣生成主題zi,j對(duì)應(yīng)的詞語分布。

5) 從詞語的多項(xiàng)式分布φi,j中采樣最終生成詞語wi,j。

LDA模型參數(shù)的估計(jì)方法有多種,Blei在其論文中使用的是變分-最大期望算法,后來Griffiths發(fā)現(xiàn)使用吉布斯采樣方法效果更好[11]。吉布斯采樣是馬爾科夫鏈蒙特卡羅理論(MCMC)中用來獲取一系列近似等于指定多維概率分布觀察樣本的算法。

對(duì)于吉布斯采樣,其核心思想是,先排除當(dāng)前主題分配,然后利用其它主題分配和詞匯來計(jì)算當(dāng)前主題分配的概率。其算法見式(3):

(3)

式中,zi代表第i個(gè)詞匯所設(shè)置對(duì)應(yīng)的主題;i代表排除第i個(gè)詞匯;表示主題k中出現(xiàn)了多少次詞匯t;βt是詞匯t的Dirichlet先驗(yàn)超參數(shù);表示在文檔m中出現(xiàn)主題k的次數(shù);αk是主題k的Dirichlet先驗(yàn)超參數(shù)。

在獲得每個(gè)單詞的主題標(biāo)號(hào)后,需要的參數(shù)可以由以下公式推導(dǎo)得:

(4)

(5)

式(4)和式(5)中,φk,t表示主題k中詞項(xiàng)t的概率;θm,k表示文本m中主題k的概率。

1.2 隨機(jī)森林

隨機(jī)森林[12](RF)構(gòu)建在多棵決策樹基礎(chǔ)上,采用Bagging的集成學(xué)習(xí)思想,在決策樹的訓(xùn)練過程中采用了隨機(jī)特征選擇。其算法步驟是,首先使用Bootstrap方法從原始的數(shù)據(jù)集合中隨機(jī)選擇N個(gè)樣本,然后對(duì)這N個(gè)樣本進(jìn)行決策樹算法訓(xùn)練,從而得到N棵決策樹。因?yàn)楸疚氖褂秒S機(jī)森林是用來處理分類問題,故將測(cè)試集記錄使用這N棵決策樹進(jìn)行預(yù)測(cè),針對(duì)最后的每棵決策樹的預(yù)測(cè)結(jié)果進(jìn)行投票決定最終分類。最終的分類決策如公式所示:

(6)

其中,H(x)表示分類器的模型,hi是單個(gè)決策樹,Y表示輸出變量(或稱目標(biāo)變量),I(·)為指示函數(shù)[13]。

2 基于LDA的改進(jìn)隨機(jī)森林算法

2.1 主題選取策略

由于LDA是一個(gè)非監(jiān)督的機(jī)器學(xué)習(xí)方法,文檔-主題矩陣是建立的所有的文檔之上,許多跟文檔無關(guān)的主題也會(huì)被分配到較低的權(quán)重,所以如果直接使用訓(xùn)練后的文檔-主題矩陣將會(huì)降低分類效果。針對(duì)此問題,采用設(shè)定文檔-主題矩陣閾值的方法將低權(quán)重的主題淘汰。每篇文章的主題選取的閾值采用式(7)計(jì)算,其中Td表示文章d的主題閾值,∑Wd表示文章d所設(shè)定的所有主題的權(quán)重之和,K表示主題的數(shù)目。

(7)

最終,改進(jìn)的隨機(jī)森林算法將會(huì)建立在經(jīng)以上步驟處理后的文檔-主題矩陣之上。

2.2 改進(jìn)的隨機(jī)森林算法

傳統(tǒng)隨機(jī)森林的決策樹特征選擇是隨機(jī)選取的,而沒有考慮到相關(guān)特征之間的關(guān)系,而在文獻(xiàn)[14]中提出:如果不同的決策樹之間關(guān)聯(lián)程度越小,那么隨機(jī)森林的分類效果越好。因此本文提出了基于特征評(píng)估的改進(jìn)隨機(jī)森林算法。

2.2.1 改進(jìn)方法1:基于熵的改進(jìn)連續(xù)屬性離散化方法

經(jīng)過LDA算法對(duì)原始文檔進(jìn)行處理后得到的文檔-主題矩陣的值為連續(xù)值,所以必須對(duì)其進(jìn)行離散化處理。

定義1設(shè)閾值T將集合S分成兩個(gè)集合S1和S2,并設(shè)有k個(gè)類別C1,C2,…,Ck,使用P(Ci,S)表示S中有類別Ck的比例,那么定義集合S的熵為:

(8)

定義2對(duì)于集合S,如果有特征A和閾值T,現(xiàn)在閾值T按特征A的值小于等于T或者大于T將集合分成兩個(gè)子集合S1和S2,那么定義特征A對(duì)集合S的條件熵為:

(9)

傳統(tǒng)的基于熵的連續(xù)屬性離散化方法是按二元?jiǎng)澐郑?jì)算每個(gè)可能的數(shù)據(jù)劃分點(diǎn),即如果有N條數(shù)據(jù),那么需要進(jìn)行N-1次計(jì)算,最后選取最小的那個(gè)劃分點(diǎn),因此這種算法開銷較高。而文獻(xiàn)[15]提出并證明:不管數(shù)據(jù)集合有多少類別,而且不管這些數(shù)據(jù)是如何分布的,那么數(shù)據(jù)劃分點(diǎn)總是在兩個(gè)類別的邊界點(diǎn)上。基于以上思想,改進(jìn)的連續(xù)屬性離散化算法步驟如下:

步驟一將文檔-主題的特征列按從低到高排序。并按照式(8)計(jì)算Entropy(S)。

步驟二按照式(9)計(jì)算兩個(gè)不同類別相鄰邊界點(diǎn)上的條件熵。

步驟四對(duì)步驟二上求出的各個(gè)邊界點(diǎn)上的條件熵與步驟三的條件熵的平均值作比較,保留低于平均熵的邊界點(diǎn),即將這些點(diǎn)作為屬性劃分點(diǎn)。

2.2.2 改進(jìn)方法2:基于對(duì)稱不確定的特征評(píng)估方法

定義3信息增益的計(jì)算公式為:

gain=Entropy(S)-E(A,T,S)

(10)

因?yàn)榛谛畔⒃鲆娴奶卣髟u(píng)估方法對(duì)于數(shù)據(jù)不多的特征效果欠缺,所以采用對(duì)稱不確定來計(jì)算兩個(gè)特征A與B之間的關(guān)系:

(11)

式(11)表明,如果SU(A,B)值越大,那么表明兩個(gè)特征之間越相關(guān),反之表明兩個(gè)特征之間關(guān)聯(lián)越小。

綜上所述改進(jìn)的隨機(jī)森林具體步驟如下所述:

算法1改進(jìn)的隨機(jī)森林算法

輸入:設(shè)S={x1,y1},{x2,y2},…,{xm,ym},其中|x1,x2,…,xm|T表示經(jīng)過改進(jìn)方法1離散化后的文檔-主題矩陣φm,k,|y1,y2,…,ym|T表示文檔的類別。

輸出:隨機(jī)森林RF

1. 設(shè)N為隨機(jī)森林中決策樹的數(shù)量

2. 設(shè)k=log2n[16]為決策樹中節(jié)點(diǎn)的個(gè)數(shù)

3. 設(shè)builded_trees為構(gòu)建好的隨機(jī)森林決策樹集合,初始為空

4. 設(shè)矩陣mat[i,j]用于存儲(chǔ)不同特征之間的SU值

5. For 特征i In 特征集合:

6. For 特征j In 特征集合:

7. 根據(jù)式(11)計(jì)算特征i和特征j之間的對(duì)稱不確定的值,并將值存入mat[i,j]

8. End For

9. End For

10.

11. For i In N:

12. 為正在構(gòu)建的決策樹i隨機(jī)選擇n/3個(gè)特征

13. 設(shè)sumSU=+∞

14. For j In builded_trees:

15. For node_i In j:

16. 在矩陣中獲取與node_i對(duì)應(yīng)的n/3個(gè)特征的SU值

17. 選擇k個(gè)最小SU值對(duì)應(yīng)的特征,選擇規(guī)則如下:

18. 如果node_i有多個(gè)對(duì)應(yīng)的SU相同,則在這些特征中隨機(jī)選擇

19. 如果某個(gè)特征已經(jīng)被之前的節(jié)點(diǎn)選中,則選擇下一個(gè)特征

20. End For //以上會(huì)獲取k個(gè)SU值

21. 設(shè)tempSumSU為k個(gè)SU值的和

22. 如果tempSumSU小于sumSu,則sumSu=tempSumSU,并記錄這k個(gè)特征

23. End For

24. 根據(jù)選擇的k個(gè)特征構(gòu)造CART決策樹

25. 將該決策樹添加到builded_trees中

26. End For

27. return builded_trees;

2.3 基于LDA的改進(jìn)隨機(jī)森林算法步驟描述

LDA-iRF算法主要包括文本預(yù)處理、使用LDA建立模型、主題選取處理、隨機(jī)森林訓(xùn)練分類器、對(duì)測(cè)試集預(yù)測(cè)和對(duì)分類效果進(jìn)行對(duì)比。具體步驟如下:

步驟一文本的預(yù)處理。將訓(xùn)練文本集和測(cè)試文本集使用中科院的ICTCLAS分詞系統(tǒng)進(jìn)行分詞,并采用哈工大停用詞表以去除沒有對(duì)分類效果沒有意義的停用詞、數(shù)字和標(biāo)點(diǎn)符號(hào)。

步驟二利用LDA建模。先利用Perplexiy選擇出合適的主題數(shù)量。再使用LDA對(duì)訓(xùn)練集文本建模,獲得訓(xùn)練集的文檔-主題矩陣θm,k和主題-詞匯矩陣φk,t。接著對(duì)測(cè)試集使用在訓(xùn)練集上建立的LDA模型進(jìn)行推斷,得到測(cè)試集的文檔-主題矩陣。最后,采用主題選擇策略以淘汰低權(quán)重的主題。

步驟三構(gòu)造改進(jìn)的隨機(jī)森林分類器。對(duì)訓(xùn)練集的文檔-主題矩陣和每篇文章對(duì)應(yīng)的分類別進(jìn)行建模,先使用改進(jìn)方法1對(duì)文檔-主題矩陣進(jìn)行離散化,再使用算法1構(gòu)造文本分類器。

步驟四對(duì)預(yù)測(cè)結(jié)果進(jìn)行分類。采用簡單投票法對(duì)隨機(jī)森林中的每棵決策樹預(yù)測(cè)的的結(jié)果進(jìn)行表決獲得最后結(jié)果。

步驟五對(duì)分類的結(jié)果進(jìn)行對(duì)比評(píng)估。在不同的數(shù)據(jù)集上進(jìn)行比較。利用分類指標(biāo)對(duì)分類器的結(jié)果進(jìn)行評(píng)估。

2.4 時(shí)間復(fù)雜度分析

設(shè)文本的數(shù)量是N,第n篇文章的單詞數(shù)目為Mn,主題數(shù)目為K。在算法初始化階段的時(shí)間復(fù)雜度為O(N·Mn)。在LDA算法對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練階段的時(shí)間復(fù)雜度是O(N·Mn·K)。文檔-主題矩陣離散化時(shí)間復(fù)雜度為O(N·K)。而利用對(duì)稱不確定性評(píng)估不同特征之間的時(shí)間復(fù)雜度為O(K·K)。

在建立決策樹階段,設(shè)Ntrees為隨機(jī)森林中決策樹的數(shù)量,設(shè)V是決策樹中節(jié)點(diǎn)的個(gè)數(shù),則構(gòu)建一顆決策樹的時(shí)間復(fù)雜度是O(V·Ntrees+V·Nlog(N)),那么構(gòu)建隨機(jī)森林的時(shí)間復(fù)雜度是O(Ntree·(V·Ntrees+V·Nlog(N)))。

綜上述,本文算法的時(shí)間復(fù)雜度是:O(N·Mn·K)+O(N·K)+O(K2)+O(Ntrees·(V·Ntrees+V·Nlog(N)))。

3 實(shí)驗(yàn)設(shè)計(jì)和結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境

本文的實(shí)驗(yàn)計(jì)算機(jī)使用的是Intel i5-2500 CPU,主頻為3.3 GHz,操作系統(tǒng)是Windows 8.1,16 GB內(nèi)存。所有的實(shí)驗(yàn)代碼均采用Java語言實(shí)現(xiàn)。

3.2 數(shù)據(jù)集介紹以及評(píng)價(jià)方法

本文采用了搜狗新聞公開語料庫與復(fù)旦大學(xué)語料庫兩種不同的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。其中搜狗新聞?wù)Z料庫的隨機(jī)選擇了商業(yè)、旅行、健康和房產(chǎn)四個(gè)類目各400篇訓(xùn)練文本和100篇測(cè)試文本。另外,復(fù)旦語料庫隨機(jī)選擇了計(jì)算機(jī)、環(huán)境、農(nóng)業(yè)、經(jīng)濟(jì)和體育五個(gè)類目各400篇訓(xùn)練文本和100篇測(cè)試文本。

文本分類通常采用的評(píng)價(jià)方式是精確率(P=TP/(TP+FP))和召回率(R=TP/(TP+FN)),其中TP、FN和FP分別表示真正例、假反例和假正例的數(shù)量。為了綜合考慮精確率和召回率,將實(shí)驗(yàn)進(jìn)行了很多次,每次實(shí)驗(yàn)產(chǎn)生的精確率和召回率記為(P1,R1),(P2,R2),…,(Pn,Rn),則可以采用宏F1(macro-F1)和微F1(micro-F1)來綜合評(píng)價(jià)分類性能,其計(jì)算公式如下。

(12)

(13)

3.3 實(shí)驗(yàn)結(jié)果與分析

3.3.1 LDA主題模型參數(shù)選取實(shí)驗(yàn)

LDA模型的參數(shù)有超參數(shù)α、β和主題數(shù)目K。本文中α根據(jù)主題的數(shù)目設(shè)定,即采用α=50/K;β取常數(shù)0.01[17]。實(shí)驗(yàn)中的迭代次數(shù)為1 000次。

LDA主題的數(shù)目K能直接影響到后續(xù)的分類精確程度,如果主題數(shù)目過多,會(huì)導(dǎo)致各個(gè)主題之間的詞匯相互重合;而如果主題過少,就會(huì)導(dǎo)致不能完全表達(dá)原始文本的主旨,從而導(dǎo)致分類效果差。本文采用的是基于Perplexity的主題個(gè)數(shù)選取方法。該方法通過式(14)計(jì)算不同主題個(gè)數(shù)下的Perplexity值。

(14)

將兩個(gè)語料庫進(jìn)行詞匯預(yù)處理之后,搜狗語料庫共有58 897個(gè)詞匯,復(fù)旦語料庫共有148 021個(gè)詞匯。實(shí)驗(yàn)中主題的個(gè)數(shù)選取從10到100以5遞增,實(shí)驗(yàn)數(shù)據(jù)如圖2所示。

圖2 Perplexity與主題數(shù)目的關(guān)系

根據(jù)Perplexity曲線圖可以看出,對(duì)于復(fù)旦語料庫與搜狗語料庫,其主題數(shù)目分別取50和40后,Perplexity值趨于平穩(wěn)。

3.3.2 文本分類實(shí)驗(yàn)

本文的實(shí)驗(yàn)設(shè)計(jì)采用以下四種算法模型進(jìn)行比較實(shí)驗(yàn),它們分別是基于LDA的改進(jìn)隨機(jī)森林算法(LDA_iRF)、基于LDA的隨機(jī)森林算法(LDA_RF)、基于LDA的SVM算法(LDA_SVM)和隨機(jī)森林算法(RF)。隨機(jī)森林中決策樹的數(shù)量為100棵;LDA_SVM算法采用的LIBSVM[18]所作為SVM分類器,其使用的是徑向基RBF核函數(shù)。將以上四個(gè)算法對(duì)訓(xùn)練文本和測(cè)試文本分別運(yùn)行10次并按分類評(píng)價(jià)方法計(jì)算得到實(shí)驗(yàn)結(jié)果,如圖3-圖6所示。

圖3 復(fù)旦語料庫下四種算法的macro_F1值比較

圖4 復(fù)旦語料庫下四種算法的micro_F1值比較

圖5 搜狗語料庫下四種算法的macro_F1值比較

圖6 搜狗語料庫下四種算法的micro_F1值比較

由圖3-圖6可以看出,由于實(shí)驗(yàn)數(shù)據(jù)是采用的均衡數(shù)據(jù),macro_F1和micro_F1兩種指標(biāo)在不同的語料庫下表現(xiàn)基本一致。而且不管是在復(fù)旦語料庫還是搜狗語料庫,LDA_iRF的macro_F1值和macro_F1值均高于其他三種算法,且比LDA_RF算法的macro_F1和micro_F1在兩個(gè)語料庫上分別平均高出2.192%和2.144%。另外,LDA_RF和LDA_SVM算法相比,前者比后者的分類指標(biāo)略有提升但相差不大。而傳統(tǒng)的RF算法在高維度的文本處理上確實(shí)存在不足。通過以上實(shí)驗(yàn)可以得出,基于LDA的改進(jìn)隨機(jī)森林算法在文本分類上macro_F1值和micro_F1值較之前的文本分類算法相比有一定的提高,從而驗(yàn)證了該算法的有效性。

4 結(jié) 語

本文提出了基于LDA主題模型的改進(jìn)隨機(jī)森林文本分類算法,通過在實(shí)驗(yàn)部分與當(dāng)前主流的文本分類算法進(jìn)行對(duì)比,其預(yù)測(cè)分類的效果得到明顯提升。然而在對(duì)比過程中發(fā)現(xiàn),隨著文檔的數(shù)量增多,LDA模型中字典中的詞也越來越多,這樣就會(huì)導(dǎo)致吉布斯采樣運(yùn)算迭代次數(shù)的增多,以致運(yùn)算時(shí)間大大增加。所以在下一步工作中,將研究如何將吉布斯算法并行化,以減少模型的訓(xùn)練時(shí)間。

[1] Korde V,Mahender C N.Text classification and classifiers:A survey[J].International Journal of Artificial Intelligence & Applications,2012,3(2):85.

[2] 周慶平,譚長庚,王宏君,等.基于聚類改進(jìn)的KNN文本分類算法[J].計(jì)算機(jī)應(yīng)用研究,2016,33(11):3374-3377.

[3] Yang Y.Are-examination of text categorization methods[C]//International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,1999:42-49.

[4] Zhou X,Hu Y,Guo L.Text categorization based on clustering feature selection[J].Procedia Computer Science,2014,31:398-405.

[5] 張翔,周明全,耿國華.Bagging中文文本分類器的改進(jìn)方法研究[J].小型微型計(jì)算機(jī)系統(tǒng),2010,31(2):281-284.

[6] 姚全珠,宋志理,彭程.基于LDA模型的文本分類研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(13):150-153.

[7] Fernández-Delgado M,Cernadas E,Barro S,et al.Do we need hundreds of classifiers to solve real world classification problems[J].Journal of Machine Learning Research,2014,15(1):3133-3181.

[8] Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(11):613-620.

[9] Hofmann T.Probabilistic latent semantic indexing[C]//Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval.ACM,1999:50-57.

[10] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

[11] Griffiths T L,Steyvers M.Finding scientific topics[J].Proceedings of the National Academy of Sciences of the United States of America,2004,101(S1):5228-5235.

[12] Breiman L.Random Forests[J].Machine Learning,2001,45(1):5-32.

[13] 方匡南,吳見彬,朱建平,等.信貸信息不對(duì)稱下的信用卡信用風(fēng)險(xiǎn)研究[J].經(jīng)濟(jì)研究,2010(S1):97-107.

[14] Xu B,Huang J Z,Williams G,et al.Classifying very high-dimensional data with random forests built from small subspaces[J].International Journal of Data Warehousing and Mining (IJDWM),2012,8(2):44-63.

[15] Fayyad U M.Multi-Interval Discretization of Continuous-Valued Attributes for Classification Learning[C]//International Joint Conference on Artificial Intelligence,1993:1022-1027.

[16] 周志華.機(jī)器學(xué)習(xí)[M].清華大學(xué)出版社,2016:180.

[17] Steyvers M,Griffiths T.Probabilistic topic models[J].Handbook of latent semantic analysis,2007,427(7):424-440.

[18] Chang C C,Lin C J.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology (TIST),2011,2(3):27.

IMPROVEDRANDOMFORESTSALGORITHMBASEDONTOPICMODELANDITSAPPLICATIONINTEXTCLASSIFICATION

Yao Li Zhang Xihuang
(SchoolofIOTEngineering,JiangnanUniversity,Wuxi214122,Jiangsu,China)

In view of some problem emerged in text classification which has high dimension and big noise, the traditional random forest algorithm has exposed the defect of the computational complexity and the poor classification performance. We present an improved random forest algorithm based on LDA. This algorithm uses the LDA to model the original text, maps the original text to the topic space, ensures the consistency of the purport between text and the original text, and greatly reduces the impact of text noise on the classification. Moreover, to solve the problem of the random selection method for the features of decision tree in random forests, a method which utilizes the symmetrical uncertainty to calculate the correlation between all features is presented during the generation process of decision trees and reduces the correlation between different decision trees. Finally, we used the improved random forests algorithm in topic space for text classification. The experiment shows that the algorithm has good superiority classification ability in text.

Latent Diriehlet Allocation (LDA) Topic model Random forest Feature evaluation Text categorization

2016-11-15。江蘇省產(chǎn)學(xué)研合作項(xiàng)目(BY2015019-30)。姚立,碩士,主研領(lǐng)域:數(shù)據(jù)挖掘,文本分類。張曦煌,教授。

TP391.1

A

10.3969/j.issn.1000-386x.2017.08.031

猜你喜歡
決策樹語料庫文檔
淺談Matlab與Word文檔的應(yīng)用接口
有人一聲不吭向你扔了個(gè)文檔
平行語料庫在翻譯教學(xué)中的應(yīng)用研究
《語料庫翻譯文體學(xué)》評(píng)介
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
Word文檔 高效分合有高招
決策樹學(xué)習(xí)的剪枝方法
決策樹多元分類模型預(yù)測(cè)森林植被覆蓋
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
語篇元功能的語料庫支撐范式介入