李小三 雷康
【摘 要】LDA是生成式概率模型,從理論上說(shuō),具有其他模型無(wú)可比擬的建模優(yōu)點(diǎn);SVM分類算法在文本分類上具有獨(dú)特的優(yōu)異性能,本文將前者良好的文本表示性能、降維效果與后者強(qiáng)大的分類能力結(jié)合起來(lái)。實(shí)驗(yàn)表明,該方法克服了傳統(tǒng)選擇方法帶來(lái)的分類性能受損問(wèn)題,并且能夠在降低數(shù)據(jù)維度的條件下提高分類的正確率。
【關(guān)鍵詞】LDA模型;文本分類;SVM算法;主題分析;Gibbs抽樣
隱含狄利克雷分配(LDA)模型是近年來(lái)提出的一種表示文本主題能力的非監(jiān)督學(xué)習(xí)模型[1]。LDA對(duì)文檔建模,降低了計(jì)算的維度,簡(jiǎn)化了問(wèn)題的復(fù)雜性,同時(shí)也為模型的改進(jìn)提供了契機(jī)。每篇文檔是由若干個(gè)主題構(gòu)成,不同類別的文檔由概率各不相同的主題隨機(jī)混合構(gòu)成,同理,同一類別的文檔具有相似的主題概率分布,LDA是一個(gè)主題模型的例子,可以用圖的模型來(lái)表示[2]。本實(shí)驗(yàn)首先經(jīng)過(guò)一系列的文本預(yù)處理后,通過(guò)Gibbs抽樣生成文檔的LDA模型,然后結(jié)合分類性能出色的SVM算法,對(duì)降維后的文本數(shù)據(jù)進(jìn)行分類。
1.LDA模型
在文本分類中,分類方法的選擇與實(shí)現(xiàn)是分類系統(tǒng)的核心部分,如何選擇一個(gè)合適的分類模型是一個(gè)重要的問(wèn)題[3]。目前的概率主題模型一般基于同樣的思想:文本是若干主題的隨機(jī)混合,不同的模型會(huì)進(jìn)一步做不同的統(tǒng)計(jì)假設(shè),以不同的方式獲取模型參數(shù)。
1.1 模型概況
LDA是一種概率主題模型[4],我們以P(z)代表主題z在一個(gè)特定文檔上的分布,P(w|z)代表主題z上單詞的概率分布。該模型將主題混合權(quán)重視為k維參數(shù)的潛在隨機(jī)變量,而非與訓(xùn)練數(shù)據(jù)直接聯(lián)系的個(gè)體參數(shù)集合,推理上采用Laplace近似、變分近似以及期望-擴(kuò)散[5]等方法獲取參數(shù)值。P(zi=j)表示在第j個(gè)主題抽取第i個(gè)單詞的概率。P(wi|zi=j)表示單詞wi在主題j下的概率。在一個(gè)文檔中單詞的分布概率如下:
T是主題總數(shù)。為了簡(jiǎn)化模型,以φ(j)=
P(w|z=j)來(lái)表示主題j的多項(xiàng)式分布我們以θ(d)=P(z)來(lái)表示文檔d的主題多項(xiàng)式分布。在多項(xiàng)式分布p=(p1,…,pT)上的T維度的狄利克雷分布的被定義為:
1.2 支持向量機(jī)算法
支持向量機(jī)(Support Vector Machines,SVM)是二十世紀(jì)九十年代中期在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上發(fā)展起來(lái)的一種新型機(jī)器學(xué)習(xí)算法,采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則訓(xùn)練學(xué)習(xí)機(jī)器[6]。
2.文檔建模
我們通過(guò)一系列詞索引wi和文檔di來(lái)表現(xiàn)一系列的文檔。我們寫這個(gè)條件概率分布為P(zi=j|z-i,wi,di,.),zi=j代表詞i分配給主題j,z-i代表其它所有詞的主題分配,α和β代表超參數(shù)。條件分布公式如下:
和分別是W*T和D*T維的計(jì)數(shù)矩陣,表示詞w賦值給j的數(shù)目,包含了賦給文檔d中的一些詞的主題的數(shù)目,不包括當(dāng)前的實(shí)例i。
2.1 Gibbs抽樣過(guò)程
抽樣算法給了每一個(gè)詞的直接估計(jì),然而許多模型例子需要估計(jì)主題-詞分布φ和文檔-主題分布θ,這可以通過(guò)下面的計(jì)數(shù)矩陣獲得。
2.2 LDA模型的矩陣表示法
LDA模型可以用矩陣分解的方式表達(dá)出來(lái),通過(guò)矩陣分解,我們可以構(gòu)造出LDA的概率模型。LDA模型的矩陣表示法如下:
C代表文檔-詞組分布矩陣,φ代表主題-詞組矩陣,Θ代表文檔-主題模型,利用上面的矩陣模型,結(jié)合上面的公式,我們就可以構(gòu)造Gibbs抽樣的LDA概率主題模型。
3.基于LDA模型的文本分類
3.1 文本分類方法
基于LDA模型的文本分類方法使用LDA作為語(yǔ)料庫(kù)及文本建模。主要包括預(yù)處理,模型選擇,語(yǔ)料庫(kù)建模,分類方法,效果評(píng)估5個(gè)部分。文檔數(shù)據(jù)如下表。
3.2 試驗(yàn)結(jié)果分析
中文語(yǔ)料庫(kù)經(jīng)過(guò)分詞,去除停用詞后,采用LDA模型對(duì)整個(gè)文檔進(jìn)行主題建模,=50/T,=0.01,文檔集T取50,迭代500次。每個(gè)文本表示為包含50個(gè)主題的主題集上的多項(xiàng)式分布,得到文檔集的隱含主題-文本矩陣,在該矩陣上構(gòu)造SVM分類器。得到的主題-文本矩陣如下:
4.總結(jié)
本文利用LDA為所給的語(yǔ)料庫(kù)建立模型,由于LDA是完全的生成型,所以理論上有其他模型無(wú)可比擬的建模優(yōu)點(diǎn)。利用本方法能夠識(shí)別包含一系列詞組的文檔的隱含結(jié)構(gòu),基于LDA模型的文本分類方法,采用Gibbs抽樣進(jìn)行參數(shù)推理和估計(jì),采用SVM分類算法,對(duì)文檔集合進(jìn)行分類獲得了較好的分類效果,體現(xiàn)了本方法的有效性和優(yōu)越性。下一步的工作將要嘗試一些方法來(lái)提高大規(guī)模主題建模的速度。
參考文獻(xiàn):
[1]Blei,David M.Ng,Andrew Y.Jordan,M.I.(January 2003).Latent Dirichlet allocation[J].Journal of Machine Learning Research,3,993-1022.
[2]石晶,范猛,李萬(wàn)龍.基于LDA模型的主題分析[J].自動(dòng)化學(xué)報(bào),2009,35(12):1586-1592.
[3]張華平.中文信息處理技術(shù)發(fā)展簡(jiǎn)史[EB/OL].http://www.nlp.org.cn,中國(guó)科學(xué)院計(jì)算技術(shù)研究所軟件實(shí)驗(yàn)室,2002.
[4]Steyvers M,Griffiths T.Probabilistic topic models.Hand-book of Latent Semantic Analysis[M].New Jersey:Springer,2007.
[5]Minka Thomas,Lafferty John.Expectation-propagation for the generative spect model[J].Proceedings of the Uncertainty in Artificial Intelligence.(UAI)Edmonton,Alberta,Canada,2002:352-359.
[6]Chih-Chung Chang and Chih-Jen Lin.LIBSVM:a library for support vector machines[J].ACM Transationson Intelligent Systems and Technology,Vol2.USA,ACM:2011.
作者簡(jiǎn)介:
李小三(1987-),男,河南武陟人,長(zhǎng)安大學(xué)2011級(jí)信號(hào)與信息處理專業(yè)研究生,研究方向:信息檢索技術(shù)。
雷康(1986—),男,陜西岐山人,長(zhǎng)安大學(xué)2011級(jí)智能交通及信息系統(tǒng)工程專業(yè)研究生,研究方向:物聯(lián)網(wǎng)Zigbee技術(shù)。