劉 凱,張立民,張建廷,馬 超
(海軍航空工程學(xué)院電子信息工程系,山東煙臺(tái)264001)
文本分析目的在于準(zhǔn)確、高效的提取文檔信息和分析文本語義。RBM[1]作為克服傳統(tǒng)概率主題模型[2-4]后驗(yàn)概率難以推斷缺點(diǎn)的無向圖模型,受到越來越多的關(guān)注。RAP[5]將詞匯視為泊松分布樣本,較好的實(shí)現(xiàn)文本信息特征的提取,但存在處理不同長(zhǎng)度文本計(jì)算難度大的問題。RSM[6]克服了RAP的缺點(diǎn)并衍變諸多模型如Document NADE[7,8]、Over Softmax Model[9]等。但上述算法均為無監(jiān)督學(xué)習(xí)方法,對(duì)于存在類別屬性的文檔并沒有考慮類別信息對(duì)于文本特征提取的影響,本文針對(duì)這一問題,在RSM的基礎(chǔ)增加類別信息處理,并提出了基于監(jiān)督的RSM-sRSM。新模型將不僅提高學(xué)習(xí)的收斂速度與收斂精度,而且對(duì)于文本表達(dá)更加準(zhǔn)確。
受限玻爾茲曼機(jī)(RBM)是在玻爾茲曼機(jī)的基礎(chǔ)上增加了限定條件形成的,即層內(nèi)單元無連接、層間單元全連的兩層結(jié)構(gòu)(可見層和隱藏層)的雙向連接馬爾可夫隨機(jī)場(chǎng)(MRF),其網(wǎng)絡(luò)連接如圖1所示。
圖1 RBM單元連接
RBM的能量形式請(qǐng)參見文獻(xiàn)[1],如下所示
由于層間單元是無連接的,可以很方便的推導(dǎo)出隱單元和可見單元的后驗(yàn)概率分布,分別如下所示[10]
其中sigm(x)=1/(1+exp (-x))。
Ruslan Salakhutdinov在文獻(xiàn)[6]中提出了RSM,是在RBM的基礎(chǔ)上通過將可見單元設(shè)定為多項(xiàng)分布樣本,實(shí)現(xiàn)了文本的有效表示。RSM中,將每一個(gè)文本作為一個(gè)RBM的訓(xùn)練樣本,設(shè)定v∈{1,…,K }D,其中K是詞匯單詞的數(shù)量,D是文本的大小,隱單元h∈{0,1 }F代表潛在語義,故可見層為一個(gè)K×D的二值矩陣(=1表示在可見單元i的位置上出現(xiàn)的是第k個(gè)詞匯),其能量形式如下所示
其可見單元和隱單元的后驗(yàn)概率分別為式(6)和式(7)
RSM模型的單元連接形式如圖2所示。
圖2 RSM連接
RBM可以通過極大似然法則進(jìn)行無監(jiān)督學(xué)習(xí),即最大化數(shù)據(jù)出現(xiàn)的概率,但由于剖分函數(shù)難以計(jì)算,因此Hinton于2002年提出了CD算法[11],通過執(zhí)行block Gibbs采樣,提高數(shù)據(jù)的后驗(yàn)概率分布下限,實(shí)現(xiàn)訓(xùn)練目標(biāo)。
算法介紹(CD=1):
ε是CD中隨機(jī)梯度下降的學(xué)習(xí)速率
W是RBM的權(quán)重矩陣
b是RBM的輸入偏置
c是RBM的隱單元偏置
對(duì)于所有的隱單元節(jié)點(diǎn)i
從后驗(yàn)概率Q hi|X()
對(duì)于所有的可見單元j
從后驗(yàn)概率P (x-j|H+)采樣x-j∈{0,1}
對(duì)于所有的隱單元節(jié)點(diǎn)i
權(quán)值更新
由于RSM為無監(jiān)督學(xué)習(xí)模型,對(duì)于帶有類別信息的數(shù)據(jù)并不十分適用,因此提出一種基于監(jiān)督的RSM,新模型通過增加類別單元,影響隱單元的后驗(yàn)概率分布,實(shí)現(xiàn)帶有類別信息的文本特征的提取。新模型不僅可以適用于帶有類別信息的數(shù)據(jù),而且對(duì)于無類別屬性的數(shù)據(jù)也可以直接應(yīng)用,其使用的廣泛性有利于模型的推廣。
基于監(jiān)督的RSM(sRSM)如圖3所示。類別單元為類別信息的二進(jìn)制編碼表示。sRSM通過新增類別單元以后,其能量形式如下所示
基于這個(gè)能量函數(shù),那么v,(l)的聯(lián)合概率分布見式(10),其中Z為歸一化因子(剖分函數(shù))+采樣h+i∈0,{1}
圖3 sRSM模型
隱單元、可見單元與類別單元的激活概率分別見式(11)、式(12)和式(13)
可見單元和類別單元能夠同時(shí)參與生成數(shù)據(jù),若數(shù)據(jù)為無類別數(shù)據(jù),則類別單元L為零向量,即為標(biāo)準(zhǔn)的RSM模型。
針對(duì)于sRSM算法,其學(xué)習(xí)過程(CD=1)改進(jìn)為:輸入:對(duì)于一條帶類別信息的文本訓(xùn)練數(shù)據(jù)
ε是CD中隨機(jī)梯度下降的學(xué)習(xí)速率
W是RSM的隱單元與可見單元的連接權(quán)重矩陣
b是RSM的可見單元偏置
c是RSM的隱單元偏置
WL是RSM的隱單元與類別單元的連接權(quán)重矩陣
a是RSM的類別單元偏置
對(duì)于所有的隱單元節(jié)點(diǎn)i
從后驗(yàn)概率Q (hi|X+)采樣h+i∈{0,1}
對(duì)于所有的可見單元j
對(duì)x-j進(jìn)行多項(xiàng)采樣,得到新的X-
從后驗(yàn)概率Q (ll=1|h+)采樣l-i∈{0,1}
對(duì)于所有的隱單元節(jié)點(diǎn)i
權(quán)值更新
對(duì)于RBM通常通過重構(gòu)誤差[12]來對(duì)其進(jìn)行評(píng)價(jià)。
從圖4可以得出,sRSM模型的重構(gòu)誤差下降速度要高于RSM,其模型收斂效率和學(xué)習(xí)能力要強(qiáng)于RSM模型。
圖4 RSM與sRSM重構(gòu)誤差對(duì)比
在設(shè)計(jì)完成sRSM模型以后,采用具有類別屬性的20-newgroups作為文本訓(xùn)練集對(duì)模型的文本表示性能進(jìn)行測(cè)試。
20-newgroups文檔集共包含18845篇文章,整個(gè)文檔集被分為20個(gè)不同的新聞組,每一個(gè)新聞組包含不同的主題。整個(gè)數(shù)據(jù)被分為11314個(gè)訓(xùn)練樣本和7531個(gè)測(cè)試樣本。首先對(duì)文本去除停用詞和無用詞;再次提取信息增益最大的前5000個(gè)詞匯整合為字典庫(kù);最后將每個(gè)文本轉(zhuǎn)變?yōu)橄蛄康男问健?/p>
模型對(duì)文本表達(dá)能力的檢測(cè)可以通過簡(jiǎn)單的文本檢索指標(biāo)進(jìn)行判斷。通常評(píng)價(jià)文本模型在信息檢索的效能指標(biāo)有兩個(gè)
由于Ruslan Salakhutdinov在文獻(xiàn)[6]中已經(jīng)表明RSM模型對(duì)文本的表示能力已經(jīng)優(yōu)于目前常見的文本表示模型LDA[13],因此新模型sRSM只需要與標(biāo)準(zhǔn)的RSM進(jìn)行比較即可。
在實(shí)驗(yàn)中,均將隱單元個(gè)數(shù)設(shè)置為120,即M=120;由于20-newgroups中類別個(gè)數(shù)為20,則sRSM中的類別單元個(gè)數(shù)為5,即L=5,類別數(shù)據(jù)對(duì)應(yīng)的類別單元的值即為其二進(jìn)制編碼。
由于數(shù)據(jù)集較為簡(jiǎn)單,在實(shí)驗(yàn)中,判斷文檔集中的文本是否與查詢文本相關(guān)的判斷標(biāo)準(zhǔn)是兩個(gè)文本是否具有的相同的類別標(biāo)簽。對(duì)于一個(gè)給定的測(cè)試文檔,所有的訓(xùn)練文檔按照cosine相似度進(jìn)行排列,然后依次計(jì)算檢索出最相關(guān)的1,2,4,8,16,…篇文檔的查準(zhǔn)率和查全率;并且對(duì)所有測(cè)試文本的計(jì)算結(jié)果進(jìn)行平均化,得到其查全—查準(zhǔn)曲線(RPC)如圖5所示。
圖5 sRSM和RSM的RPC
由圖5可以看出,sRSM要優(yōu)于RSM,特別是針對(duì)小樣本選擇的情況。
本文采用基于監(jiān)督的sRSM,實(shí)現(xiàn)了對(duì)帶有類別屬性的文本信息的有效提取。相對(duì)于已有的文本信息提取方法,該方法既保留了標(biāo)準(zhǔn)RSM模型簡(jiǎn)單、計(jì)算隱單元(主題單元)概率快速的優(yōu)點(diǎn),又能夠利用類別單元實(shí)現(xiàn)更迅速的學(xué)習(xí)。此外該模型還可以應(yīng)用到無類別屬性的文本信息處理,具有較廣的應(yīng)用范圍和較高的工程價(jià)值。
[1]LeCun Y,Chopra S,Hadsell R.A tutorial on energy-based learning[J].Predicting Structured Data,2006,20(111):489-548.
[2]Andriy Mnih,Hinton G E.A scalable hierarchical distributed language model[C]//Vancouver:Advances in Neural Information Processing System,2008:1081-1088.
[3]Sungjin Ahn,Anoop Korattikara,Max Welling.Bayesian posterior sampling via stochastic gradient fisher scoring[C]//Edinburgh:Proceedings of the 29th International Conference on Machine Learning,2012:1552-1560.
[4]Salakhutdinov R,Hinton G E.Semantic hashing[J].International Journal of Approximate Reasoning,2009,50(7):969-978.
[5]Gehler P V,Holub A D,Welling M.The rate adapting poisson model for information retrieval and object recognition[C]//Montreal:Proceedings of the 23rd international conference on Machine learning,2006:337-344.
[6]Hinton G E,Salakhutdinov R.Replicated softmax:An undirected topic model[C]//Vancouver:Advances in Neural Information Processing Systems,2009:1607-1614.
[7]Hugo Larochelle,Ian Murray.The neural autoregressive distribution estimator[C]//Fort Lauderdale:Proceedings of the 14th International Conference on Artificial Intelligence and Statistics,2011:29-37.
[8]Larochelle H,Lauly S.A neural autoregressive topic model[C]//Lake Tahoe:Advances in Neural Information Processing Systems,2012:2717-2725.
[9]Srivastava N,Salakhutdinov R,Hinton G E.Fast inference and learning for modeling documents with a deep boltzmann machine[C]//Atlanta:Proceedings of the 30th International Conference on Machine Learning.2012:493-510.
[10]Hinton G E.A practical guide to training restricted Boltzmann machines[R].Toronto:Machine Learning Group University of Toronto,2010:129-136.
[11]Hinton G E.Training products of experts by minimizing contrastive divergence[J].Neural Computation,2002,14(8):1711-1800.
[12]Wallach H,Murray I,Salakhutdinov R,et al.Evaluation methods for topic models[C]//Montreal:Proceedings of the 26th International Conference on Machine Learning,2009:1105-1112.
[13]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].The Journal of Machine Learning Research,2003,3(10):993-1022.