,
(蘭州財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)學(xué)院,蘭州 730020)
隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,各式各樣的文本數(shù)據(jù)大量產(chǎn)生。據(jù)相關(guān)統(tǒng)計(jì)資料顯示,社交網(wǎng)站Twitter每天新出現(xiàn)推文數(shù)量達(dá)到5億條[1]。傳統(tǒng)的文本分析方法是基于詞典對(duì)文檔進(jìn)行分類,但是在數(shù)據(jù)量龐大的現(xiàn)今社會(huì),這種方法無(wú)法完成數(shù)據(jù)的降維和分析數(shù)據(jù)潛在的語(yǔ)意[2],因此不能滿足人們的需求。隨著大數(shù)據(jù)技術(shù)的發(fā)展,文本分類方法結(jié)合計(jì)算機(jī)技術(shù)開(kāi)始逐漸受到廣大學(xué)者的關(guān)注。如何從海量信息中提取有用的文本數(shù)據(jù)成為目前數(shù)據(jù)分析的迫切需求,這一現(xiàn)實(shí)問(wèn)題也促使了文本分類技術(shù)的不斷發(fā)展[3]。
目前,文本分析的主流方法主要有基于規(guī)則和基于統(tǒng)計(jì)這兩大類[4-5]。但是,網(wǎng)絡(luò)文本具有表達(dá)方式多樣、表達(dá)形式不規(guī)范等特點(diǎn),以及基于規(guī)則的分析方法在規(guī)則的總結(jié)和制定上成本高,耗時(shí)長(zhǎng),并且不具有良好的可擴(kuò)展性。因此,在海量網(wǎng)絡(luò)文本作為數(shù)據(jù)基礎(chǔ)的背景下,越來(lái)越多的學(xué)者傾向于采用基于統(tǒng)計(jì)的方法。統(tǒng)計(jì)方法的基本思路是挖掘文本的主題信息,典型代表有隱語(yǔ)義索引(LSI)方法及其概率化的PLSI[6]。LSI方法在文本分類中的應(yīng)用得到了深入的研究,盡管其降維作用較為顯著,但是分類精度較低。另外,這類模型的參數(shù)空間和訓(xùn)練數(shù)據(jù)呈正比,不利于對(duì)大規(guī)?;騽?dòng)態(tài)增長(zhǎng)的語(yǔ)料庫(kù)進(jìn)行建模。文獻(xiàn)[7]提出的帶標(biāo)簽的有監(jiān)督LDA(sl-LDA)模型是基于L-LDA模型進(jìn)行的改進(jìn),并對(duì)L-LDA模型存在的不足提出改進(jìn),提高了模型的分類精度。本文提出的帶標(biāo)簽的有監(jiān)督隱狄里克雷分配模型(sl-LDA)是在文獻(xiàn)[8]提出有監(jiān)督的LDA(s-LDA)主題模型基礎(chǔ)上進(jìn)行的改進(jìn)。由于s-LDA模型存在特殊類別標(biāo)記方式,在進(jìn)行分類時(shí)不能夠處理多標(biāo)簽問(wèn)題[2],并且s-LDA模型在分類時(shí)還存在主題未正確分配的問(wèn)題。
為解決s-LDA模型存在的上述問(wèn)題,本文在s-LDA模型基礎(chǔ)上加入類別標(biāo)簽,并對(duì)改進(jìn)模型進(jìn)行實(shí)驗(yàn)驗(yàn)證。
LDA模型是文獻(xiàn)[9]提出的一種概率生成模型,它的基本出發(fā)點(diǎn)是認(rèn)為文檔是一個(gè)詞包(bag of word)的集合,即認(rèn)為文檔是詞的集合,忽略任何語(yǔ)法或者詞匯出現(xiàn)的順序關(guān)系。而且LDA模型的參數(shù)空間不會(huì)隨著訓(xùn)練文檔數(shù)量增加而增加。因此,它具有優(yōu)良的語(yǔ)義挖掘和主題分析能力,尤其適用于含有大量文檔數(shù)據(jù)的挖掘分析。文獻(xiàn)[10]的研究表明,在文本分類上面LDA模型的分類效果表現(xiàn)并不突出。因此,LDA模型在主題分類精度上有不足之處。
目前,人們對(duì)LDA模型提出較多改進(jìn)的應(yīng)用模型[11-17]。一些無(wú)監(jiān)督LDA模型、有監(jiān)督LDA模型相繼被提出。
文獻(xiàn)[18]提出基于帶標(biāo)簽的LDA(L-LDA)模型,在傳統(tǒng)的LDA模型基礎(chǔ)上加入標(biāo)簽因素,從而解決LDA強(qiáng)制分配隱主題的問(wèn)題。但是加入類別信息,必須考慮到標(biāo)簽與主題之間的聯(lián)系,L-LDA模型定義了主題和類別標(biāo)簽之間一一對(duì)應(yīng)的關(guān)系,并將每一個(gè)文檔分配到預(yù)先定義的標(biāo)簽集合,這種方式使得該模型缺乏處理潛在類別標(biāo)簽以及含有共同語(yǔ)義文檔的機(jī)制,同時(shí)在含有最小基數(shù)的文本集合中分類效果不佳[7]。為了改變主題和類別標(biāo)簽之間一一對(duì)應(yīng)的關(guān)系,文獻(xiàn)[2]提出用于多標(biāo)簽分類的改進(jìn)Labeled LDA模型,對(duì)文檔加入文檔類別、作者等信息。該模型在文檔類別判定過(guò)程中通過(guò)聯(lián)合獨(dú)享主題和共享主題對(duì)類別進(jìn)行預(yù)測(cè),從而提高了多標(biāo)簽主題分類的精度。從文檔內(nèi)容方面考慮,文獻(xiàn)[19]提出連續(xù)的LDA(SeqLDA)模型,該模型基于文檔內(nèi)容的興趣點(diǎn)等進(jìn)行分析,此外采用分層雙參數(shù)泊松-狄里克雷分布進(jìn)行建模,表現(xiàn)出良好的分類精度。
為了提高LDA模型的分類精度,文獻(xiàn)[8]提出有監(jiān)督的LDA主題模型(s-LDA)。該模型通過(guò)對(duì)文檔類別標(biāo)記將對(duì)應(yīng)的連續(xù)變量映射為由主題混合方式產(chǎn)生的響應(yīng)變量來(lái)實(shí)現(xiàn)文檔的類別判定和連續(xù)數(shù)據(jù)的回歸分析,并構(gòu)造響應(yīng)變量分析潛在主題。
基于以上描述,考慮到對(duì)LDA模型改進(jìn)主要是加入標(biāo)簽因素以及進(jìn)行有監(jiān)督或者無(wú)監(jiān)督建模的優(yōu)點(diǎn)和缺點(diǎn),本文基于s-LDA模型提出帶標(biāo)簽的有監(jiān)督的隱狄里克雷分配(sl-LDA)模型。
文獻(xiàn)[9]提出的s-LDA模型是一種有監(jiān)督的主題模型分類方法。與傳統(tǒng)LDA模型不同的是,s-LDA模型對(duì)LDA模型中的每一個(gè)文檔加入響應(yīng)變量,這個(gè)變量可以適應(yīng)許多變量類型。舉例來(lái)講,變量是某部電影中明星的數(shù)量,也可以是論壇用戶對(duì)某一篇文章中訪問(wèn)次數(shù)的統(tǒng)計(jì)[8]。而且s-LDA模型改進(jìn)了lasso回歸方法,可以進(jìn)一步提高分類的精度。s-LDA圖模型如圖1所示。
圖1 s-LDA圖模型
文獻(xiàn)[9]提出的s-LDA模型在LDA模型的基礎(chǔ)上加入響應(yīng)變量,而且s-LDA模型改進(jìn)了lasso回歸方法。然而s-LDA模型對(duì)文檔進(jìn)行主題分配過(guò)程中存在一些問(wèn)題:一方面,只能處理含有一個(gè)類別標(biāo)記的文檔[2];另一方面,從實(shí)驗(yàn)分析角度看,s-LDA模型在進(jìn)行主題分配時(shí),部分主題未進(jìn)行正確分配,從而導(dǎo)致了文檔分配主題精確度下降。
鑒于s-LDA模型存在的問(wèn)題,本文對(duì)s-LDA模型進(jìn)行改進(jìn),從而嘗試解決s-LDA模型在進(jìn)行主題分配時(shí),部分主題未進(jìn)行正確分配的問(wèn)題。本文在s-LDA模型基礎(chǔ)上加入標(biāo)簽因素,提出帶標(biāo)簽的有監(jiān)督的隱狄里克雷分配(sl-LDA)模型。該模型對(duì)s-LDA模型主題層與文檔層的映射關(guān)系進(jìn)行了改進(jìn),通過(guò)加入類別標(biāo)簽降低主題被錯(cuò)誤分配的可能性,提高了分類的精確度。同時(shí)加入類別標(biāo)簽也可以提高文本分類的性能[18]。在第3節(jié)對(duì)本文的模型進(jìn)行實(shí)例驗(yàn)證,并與s-LDA模型比較。從比較結(jié)果來(lái)看,本文的模型能夠提高文本分類精確度。
具體來(lái)講,在對(duì)文檔中主題進(jìn)行分類時(shí),若所分配的主題存在于訓(xùn)練過(guò)程中所選擇的主題,則保留該主題,否則拋棄。即在分配主題時(shí)加入狄拉克函數(shù)δ(x),該函數(shù)在x=0時(shí)函數(shù)值為1,在x≠0時(shí)函數(shù)值為0。為此,本文的sl-LDA圖模型形式如圖2所示。
圖2 sl-LDA圖模型
參數(shù)的分布表示形式如下:
1)對(duì)于每個(gè)主題θ有θ|αl~Dirichlet(αl)(l=1,2,…,C)。
2)對(duì)于每個(gè)詞w中的主題z有zn|θ~Multnormal(θ)。
3)對(duì)于每個(gè)詞w有wn|zn,βl,1∶K~Multnormal(β)(l=1,2,…,C)。
s-LDA模型的概率模型為:
(1)
通過(guò)最大化證據(jù)下界l(g)構(gòu)造變分函數(shù),對(duì)于每一個(gè)文檔有:
logap(w,y|α,β)≥(γ,φ,α,β)=
E[logap(y|Z1∶N)]+H(q)
(2)
其中,q表示變分分布函數(shù),且:
(3)
其中,γ為變分Dirichlet參數(shù)。
E步:
由式(1)~式(3)得到:
[logap(y|Z1∶N)]=
(4)
其中:
由式(2)可知,變分Dirichlet參數(shù)γ與響應(yīng)變量y無(wú)關(guān),對(duì)式(4)采用坐標(biāo)上升法[8]得到:
(5)
φl(shuí),j∝exp(E[logaθ|γ]+
E[logap(wj|βl,1∶K)(δC-l(d))]+
(6)
M步:
(7)
(8)
利用E步選擇的變分分布參數(shù),求矩陣A的期望,通過(guò)擴(kuò)展內(nèi)積,利用線性期望和η的一階條件,可以得到:
E[ATA]=E[A]Ty?
(9)
(10)
本文在參數(shù)估計(jì)E步中,在s-LDA模型參數(shù)估計(jì)的基礎(chǔ)上對(duì)參數(shù)γnew和φj分別加入類別標(biāo)簽c,并使用狄拉克函數(shù)δ(x)。具體而言,當(dāng)文檔集合上隱主題與文檔類別匹配時(shí),δC-l(d)的值為1,否則為0,這使得s-LDA模型對(duì)訓(xùn)練主題進(jìn)行分配時(shí)主題未正確分配這一問(wèn)題得以改善。在M步估計(jì)中,由于β=(β1,β2,…,βC),則對(duì)β的估計(jì)與s-LDA模型也不同,加入類別標(biāo)簽后,文檔中的詞在進(jìn)行主題選擇時(shí)會(huì)有區(qū)別地選擇主題。比如“引力波”這個(gè)詞,它會(huì)傾向于選擇“科技”這類主題。對(duì)“引力波”加入類別標(biāo)簽“科技”,可以使其更準(zhǔn)確地選擇正確的主題,從而改善文本主題分類的精度。
為驗(yàn)證sl-LDA模型的分類精度,本文使用復(fù)旦大學(xué)中文新聞?wù)Z料庫(kù)和英文新聞?wù)Z料庫(kù)進(jìn)行實(shí)驗(yàn)。其中中文新聞?wù)Z料庫(kù)包含2 815篇文章,共10個(gè)主題;英文新聞?wù)Z料庫(kù)包含18 744篇文章,共20個(gè)主題。匯總結(jié)果如表1~表3所示。
表1 中文新聞?wù)Z料庫(kù)
表2 英文新聞?wù)Z料庫(kù)
表3 英文新聞?wù)Z料庫(kù)詞條統(tǒng)計(jì)
本文利用R語(yǔ)言中的LDA包和topicmodels包對(duì)數(shù)據(jù)進(jìn)行建模。首先對(duì)原始語(yǔ)料庫(kù)進(jìn)行數(shù)據(jù)清洗,為了便于建模,本文在建模過(guò)程中利用正則表達(dá)式進(jìn)行數(shù)據(jù)的預(yù)處理。數(shù)據(jù)清洗完成后,利用R語(yǔ)言中的rJava、Rwordseg包對(duì)每一篇文檔進(jìn)行分詞和詞頻統(tǒng)計(jì),統(tǒng)計(jì)部分結(jié)果見(jiàn)表4,最后依據(jù)新聞?wù)Z料庫(kù)中的主題類型對(duì)每個(gè)詞進(jìn)行分類。
表4 中文新聞詞頻統(tǒng)計(jì)結(jié)果(部分)
本文從中文新聞?wù)Z料庫(kù)抽取75%作為訓(xùn)練集,25%作為測(cè)試集進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)分兩組進(jìn)行,采用的模型分別是s-LDA模型和sl-LDA模型,參數(shù)估計(jì)方法采用變分EM算法。本文利用建立混淆矩陣(confused matrix)[20]的方法來(lái)計(jì)算s-LDA模型和sl-LDA模型的精確度。
分詞過(guò)程完成后,本文利用R語(yǔ)言對(duì)這2個(gè)模型進(jìn)行編程,并改變迭代次數(shù)以分別統(tǒng)計(jì)每次迭代混淆矩陣計(jì)算的精確度。s-LDA模型與sl-LDA模型中文新聞?wù)Z料庫(kù)迭代次數(shù)對(duì)比結(jié)果見(jiàn)表5,模型迭代次數(shù)對(duì)比見(jiàn)圖3,其中,橫坐標(biāo)表示迭代次數(shù),縱坐標(biāo)表示精確度。sl-LDA模型與sl-LDA模型英文新聞?wù)Z料庫(kù)迭代次數(shù)對(duì)比結(jié)果見(jiàn)表6,模型迭代次數(shù)對(duì)比見(jiàn)圖4,其中,橫坐標(biāo)表示迭代次數(shù),縱坐標(biāo)表示精確度。從圖3和圖4的結(jié)果可以看出:在迭代次數(shù)相同情況下,sl-LDA模型的預(yù)測(cè)精確度高于s-LDA模型的預(yù)測(cè)結(jié)果,隨著迭代次數(shù)的增加,兩者的預(yù)測(cè)精度趨于近似。
表5 中文新聞精確度對(duì)比
圖3 中文新聞模型精確度對(duì)比
迭代次數(shù)s-LDA模型預(yù)測(cè)精確度sl-LDA模型預(yù)測(cè)精確度E∶5,M∶20.5320.618E∶10,M∶40.6730.708E∶15,M∶90.6870.719E∶20,M∶140.7380.768E∶25,M∶190.7380.780E∶30,M∶240.7620.785E∶35,M∶290.7730.793
圖4 英文新聞模型精確度對(duì)比
從圖3中的中文新聞?wù)Z料庫(kù)和圖4中的英文新聞?wù)Z料庫(kù)的對(duì)比分析看出,本文提出的sl-LDA模型與s-LDA模型相比,在迭代次數(shù)相同的情況下,精確度要優(yōu)于s-LDA模型。隨著迭代次數(shù)的增加,兩者分配精度都有所提升,但是本文提出的sl-LDA模型依然保持較好的分配精度。這說(shuō)明在有監(jiān)督的情況下,相對(duì)于未加入標(biāo)簽因素,加入標(biāo)簽因素在模型分類精度上有所提升。針對(duì)s-LDA模型在對(duì)主題進(jìn)行分配過(guò)程中只能處理含有一個(gè)類別標(biāo)記的文檔[2]及通過(guò)s-LDA模型分配的部分主題不存在于訓(xùn)練過(guò)程中所選擇的主題,從而導(dǎo)致了對(duì)文檔分配主題精確度下降等問(wèn)題。本文提出的sl-LDA模型通過(guò)增加類別信息來(lái)解決這些問(wèn)題。為了驗(yàn)證模型的主題分類精度,本文分別就中文新聞?wù)Z料庫(kù)和英文新聞?wù)Z料庫(kù)進(jìn)行主題分類實(shí)驗(yàn),并通過(guò)建立混淆矩陣來(lái)計(jì)算每次迭代下模型的分類精確性。從上文的實(shí)驗(yàn)結(jié)果來(lái)看,在中文和英文新聞?wù)Z料庫(kù)的對(duì)比實(shí)驗(yàn)中,英文新聞?wù)Z料庫(kù)分類精度提高了約3.80%,中文新聞?wù)Z料庫(kù)分類精度提高了約1.77%。
本文針對(duì)s-LDA模型在主題分配過(guò)程中只能處理含有一個(gè)類別標(biāo)記的文檔[2]及s-LDA模型部分主題未進(jìn)行正確分配,從而導(dǎo)致文檔分配主題精確度下降的問(wèn)題,提出一種帶標(biāo)簽的有監(jiān)督的隱狄里克雷分配(sl-LDA)模型。首先介紹s-LDA主題模型的分類方法,隨后分析了s-LDA主題模型存在只能處理含有一個(gè)類別標(biāo)記文檔等問(wèn)題。為驗(yàn)證模型的主題分類精度,本文分別對(duì)中文新聞?wù)Z料庫(kù)和英文新聞?wù)Z料庫(kù)進(jìn)行主題分類實(shí)驗(yàn),并通過(guò)建立混淆矩陣計(jì)算每次迭代下模型的分類精確性。實(shí)驗(yàn)結(jié)果表明,在中文和英文新聞?wù)Z料庫(kù)的對(duì)比實(shí)驗(yàn)中,英文新聞?wù)Z料庫(kù)分類精度提高了約3.80%,中文新聞?wù)Z料庫(kù)分類精度提高了約1.77%。下一步將研究改進(jìn)s-LDA模型對(duì)其他類型文本的分類效果,在無(wú)監(jiān)督學(xué)習(xí)下,分析主題模型的分類精度并與本文的改進(jìn)模型進(jìn)行對(duì)比。
[1] SEBASTIANI F.Machine Learning in Automated Text Categorization[J].ACM Computing Surveys,2002,34(1):1-47.
[2] 江雨燕,李 平,王 清.用于多標(biāo)簽分類的改進(jìn)Labeled LDA模型[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,49(4):425-432.
[3] STEYVERS M,GRIFFITHS T.Probabilistic Topic Models[J].Handbook of Latent Semantic Analysis,2007,427(7):424-440.
[4] MEDHAT W,HASSAN A,KORASHY H.Sentiment Analysis Algorithms and Applications:A Survey[J].Ain Shams Engineering Journal,2014,5(4):1093-1113.
[5] TANEJA H,DHURIA S.A Survey on Sentiment Analysis and Opinion Mining[J].Journal of Emerging Technologies in Web Intelligence,2013,5(4):53-65.
[6] DEERWESTER S,DUMAIS S T,FURNAS G W,et al.Indexing by Latent Semantic Analysis[J].Journal of the American Society for Information Science,1990,41(6):391-407.
[7] LI Ximing,OUYANG Jihong,ZHOU Xiaotang,et al.Supervised Labeled Latent Dirichlet Allocation for Document Categorization[J].Applied Intelligence,2015,42(3):581-593.
[8] BLEI D M,MCAULIFFE J D.Supervised Topic Models[J].Advances in Neural Information Processing Systems,2010,3(1):327-332.
[9] BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3(3):993-1022.
[10] LI W,MCCALLUM A.DAG-structured Mixture Models of Topic Correlations[C]//Proceedings of International Conference on Machine Learning.Washington D.C.,USA:IEEE Press,2006:577-584.
[11] TADDY M,GARDNER M,CHEN L,et al.A Nonparametric Bayesian Analysis of Heterogeneous Treatment Effects in Digital Experimentation[J].Journal of Business & Economic Statistics,2016,65(3):193-211.
[12] 宋鈺婷,徐德華.基于LDA和SVM的中文文本分類研究[J].現(xiàn)代計(jì)算機(jī),2016(5):18-23.
[13] 陳 攀,楊 浩,呂 品,等.基于LDA模型的文本相似度研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2016,26(4):82-85.
[14] 李 博,陳志剛,黃 瑞,等.基于LDA模型的音樂(lè)推薦算法[J].計(jì)算機(jī)工程,2016,42(6):175-179.
[15] 李 琮,袁 方,劉 宇,等.基于LDA模型和T-OPTICS算法的中文新聞話題檢測(cè)[J].河北大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,36(1):106-112.
[16] 張 亮.基于LDA主題模型的標(biāo)簽推薦方法研究[J].現(xiàn)代情報(bào),2016,36(2):53-56.
[17] 石 晶,李萬(wàn)龍.基于LDA模型的主題詞抽取方法[J].計(jì)算機(jī)工程,2010,36(19):81-83.
[18] 李文波,孫 樂(lè),張大鯤.基于Labeled-LDA模型的文本分類新算法[J].計(jì)算機(jī)學(xué)報(bào),2008,31(4):620-627.
[19] DU L,BUNTINNE W,JIN H,et al.Sequential Latent Dirichlet Allocation[J].Knowledge & Information Systems,2012,31(3):475-503.
[20] FORBES A D.Classification-algorithm Evaluation:Five Performance Measures Based on Confusion Matrices[J].Journal of Clinical Monitoring and Computing,1995,11(3):189-206.