基于監(jiān)督的RSM改進(jìn)研究

2014-02-09 07:46:40張立民張建廷

計(jì)算機(jī)工程與設(shè)計(jì) 2014年4期

劉凱，張立民，張建廷，馬超

（海軍航空工程學(xué)院電子信息工程系，山東煙臺(tái)264001）

0 引言

文本分析目的在于準(zhǔn)確、高效的提取文檔信息和分析文本語義。RBM［1］作為克服傳統(tǒng)概率主題模型［2－4］后驗(yàn)概率難以推斷缺點(diǎn)的無向圖模型，受到越來越多的關(guān)注。RAP［5］將詞匯視為泊松分布樣本，較好的實(shí)現(xiàn)文本信息特征的提取，但存在處理不同長(zhǎng)度文本計(jì)算難度大的問題。RSM［6］克服了RAP的缺點(diǎn)并衍變諸多模型如Document NADE［7，8］、Over Softmax Model［9］等。但上述算法均為無監(jiān)督學(xué)習(xí)方法，對(duì)于存在類別屬性的文檔并沒有考慮類別信息對(duì)于文本特征提取的影響，本文針對(duì)這一問題，在RSM的基礎(chǔ)增加類別信息處理，并提出了基于監(jiān)督的RSM－sRSM。新模型將不僅提高學(xué)習(xí)的收斂速度與收斂精度，而且對(duì)于文本表達(dá)更加準(zhǔn)確。

1 RSM模型

1.1 受限玻爾茲曼機(jī)

受限玻爾茲曼機(jī)（RBM）是在玻爾茲曼機(jī)的基礎(chǔ)上增加了限定條件形成的，即層內(nèi)單元無連接、層間單元全連的兩層結(jié)構(gòu)（可見層和隱藏層）的雙向連接馬爾可夫隨機(jī)場(chǎng)（MRF），其網(wǎng)絡(luò)連接如圖1所示。

圖1 RBM單元連接

RBM的能量形式請(qǐng)參見文獻(xiàn)［1］，如下所示

由于層間單元是無連接的，可以很方便的推導(dǎo)出隱單元和可見單元的后驗(yàn)概率分布，分別如下所示［10］

其中sigm（x）＝1/（1＋exp （－x））。

1.2 RSM模型

Ruslan Salakhutdinov在文獻(xiàn)［6］中提出了RSM，是在RBM的基礎(chǔ)上通過將可見單元設(shè)定為多項(xiàng)分布樣本，實(shí)現(xiàn)了文本的有效表示。RSM中，將每一個(gè)文本作為一個(gè)RBM的訓(xùn)練樣本，設(shè)定v∈｛1，…，K ｝D，其中K是詞匯單詞的數(shù)量，D是文本的大小，隱單元h∈｛0，1 ｝F代表潛在語義，故可見層為一個(gè)K×D的二值矩陣（＝1表示在可見單元i的位置上出現(xiàn)的是第k個(gè)詞匯），其能量形式如下所示

其可見單元和隱單元的后驗(yàn)概率分別為式（6）和式（7）

RSM模型的單元連接形式如圖2所示。

圖2 RSM連接

1.3 CD算法

RBM可以通過極大似然法則進(jìn)行無監(jiān)督學(xué)習(xí)，即最大化數(shù)據(jù)出現(xiàn)的概率，但由于剖分函數(shù)難以計(jì)算，因此Hinton于2002年提出了CD算法［11］，通過執(zhí)行block Gibbs采樣，提高數(shù)據(jù)的后驗(yàn)概率分布下限，實(shí)現(xiàn)訓(xùn)練目標(biāo)。

算法介紹（CD＝1）:

ε是CD中隨機(jī)梯度下降的學(xué)習(xí)速率

W是RBM的權(quán)重矩陣

b是RBM的輸入偏置

c是RBM的隱單元偏置

對(duì)于所有的隱單元節(jié)點(diǎn)i

從后驗(yàn)概率Q hi｜X（）

對(duì)于所有的可見單元j

從后驗(yàn)概率P （x－j｜H＋）采樣x－j∈｛0，1｝

對(duì)于所有的隱單元節(jié)點(diǎn)i

權(quán)值更新

2 sRSM模型

2.1 基于監(jiān)督的RSM模型

由于RSM為無監(jiān)督學(xué)習(xí)模型，對(duì)于帶有類別信息的數(shù)據(jù)并不十分適用，因此提出一種基于監(jiān)督的RSM，新模型通過增加類別單元，影響隱單元的后驗(yàn)概率分布，實(shí)現(xiàn)帶有類別信息的文本特征的提取。新模型不僅可以適用于帶有類別信息的數(shù)據(jù)，而且對(duì)于無類別屬性的數(shù)據(jù)也可以直接應(yīng)用，其使用的廣泛性有利于模型的推廣。

基于監(jiān)督的RSM（sRSM）如圖3所示。類別單元為類別信息的二進(jìn)制編碼表示。sRSM通過新增類別單元以后，其能量形式如下所示

基于這個(gè)能量函數(shù)，那么v，（l）的聯(lián)合概率分布見式（10），其中Z為歸一化因子（剖分函數(shù)）＋采樣h＋i∈0，｛1｝

圖3 sRSM模型

隱單元、可見單元與類別單元的激活概率分別見式（11）、式（12）和式（13）

可見單元和類別單元能夠同時(shí)參與生成數(shù)據(jù)，若數(shù)據(jù)為無類別數(shù)據(jù)，則類別單元L為零向量，即為標(biāo)準(zhǔn)的RSM模型。

2.2 學(xué)習(xí)算法

針對(duì)于sRSM算法，其學(xué)習(xí)過程（CD＝1）改進(jìn)為:輸入:對(duì)于一條帶類別信息的文本訓(xùn)練數(shù)據(jù)

ε是CD中隨機(jī)梯度下降的學(xué)習(xí)速率

W是RSM的隱單元與可見單元的連接權(quán)重矩陣

b是RSM的可見單元偏置

c是RSM的隱單元偏置

WL是RSM的隱單元與類別單元的連接權(quán)重矩陣

a是RSM的類別單元偏置

對(duì)于所有的隱單元節(jié)點(diǎn)i

從后驗(yàn)概率Q （hi｜X＋）采樣h＋i∈｛0，1｝

對(duì)于所有的可見單元j

對(duì)x－j進(jìn)行多項(xiàng)采樣，得到新的X－

從后驗(yàn)概率Q （ll＝1｜h＋）采樣l－i∈｛0，1｝

對(duì)于所有的隱單元節(jié)點(diǎn)i

權(quán)值更新

3 實(shí)驗(yàn)結(jié)果及分析

3.1 重構(gòu)率實(shí)驗(yàn)

對(duì)于RBM通常通過重構(gòu)誤差［12］來對(duì)其進(jìn)行評(píng)價(jià)。

從圖4可以得出，sRSM模型的重構(gòu)誤差下降速度要高于RSM，其模型收斂效率和學(xué)習(xí)能力要強(qiáng)于RSM模型。

圖4 RSM與sRSM重構(gòu)誤差對(duì)比

3.2 文本檢索實(shí)驗(yàn)

在設(shè)計(jì)完成sRSM模型以后，采用具有類別屬性的20－newgroups作為文本訓(xùn)練集對(duì)模型的文本表示性能進(jìn)行測(cè)試。

20－newgroups文檔集共包含18845篇文章，整個(gè)文檔集被分為20個(gè)不同的新聞組，每一個(gè)新聞組包含不同的主題。整個(gè)數(shù)據(jù)被分為11314個(gè)訓(xùn)練樣本和7531個(gè)測(cè)試樣本。首先對(duì)文本去除停用詞和無用詞；再次提取信息增益最大的前5000個(gè)詞匯整合為字典庫(kù)；最后將每個(gè)文本轉(zhuǎn)變?yōu)橄蛄康男问健?/p>

模型對(duì)文本表達(dá)能力的檢測(cè)可以通過簡(jiǎn)單的文本檢索指標(biāo)進(jìn)行判斷。通常評(píng)價(jià)文本模型在信息檢索的效能指標(biāo)有兩個(gè)

由于Ruslan Salakhutdinov在文獻(xiàn)［6］中已經(jīng)表明RSM模型對(duì)文本的表示能力已經(jīng)優(yōu)于目前常見的文本表示模型LDA［13］，因此新模型sRSM只需要與標(biāo)準(zhǔn)的RSM進(jìn)行比較即可。

在實(shí)驗(yàn)中，均將隱單元個(gè)數(shù)設(shè)置為120，即M＝120；由于20－newgroups中類別個(gè)數(shù)為20，則sRSM中的類別單元個(gè)數(shù)為5，即L＝5，類別數(shù)據(jù)對(duì)應(yīng)的類別單元的值即為其二進(jìn)制編碼。

由于數(shù)據(jù)集較為簡(jiǎn)單，在實(shí)驗(yàn)中，判斷文檔集中的文本是否與查詢文本相關(guān)的判斷標(biāo)準(zhǔn)是兩個(gè)文本是否具有的相同的類別標(biāo)簽。對(duì)于一個(gè)給定的測(cè)試文檔，所有的訓(xùn)練文檔按照cosine相似度進(jìn)行排列，然后依次計(jì)算檢索出最相關(guān)的1，2，4，8，16，…篇文檔的查準(zhǔn)率和查全率；并且對(duì)所有測(cè)試文本的計(jì)算結(jié)果進(jìn)行平均化，得到其查全—查準(zhǔn)曲線（RPC）如圖5所示。

圖5 sRSM和RSM的RPC

由圖5可以看出，sRSM要優(yōu)于RSM，特別是針對(duì)小樣本選擇的情況。

4 結(jié)束語

本文采用基于監(jiān)督的sRSM，實(shí)現(xiàn)了對(duì)帶有類別屬性的文本信息的有效提取。相對(duì)于已有的文本信息提取方法，該方法既保留了標(biāo)準(zhǔn)RSM模型簡(jiǎn)單、計(jì)算隱單元（主題單元）概率快速的優(yōu)點(diǎn)，又能夠利用類別單元實(shí)現(xiàn)更迅速的學(xué)習(xí)。此外該模型還可以應(yīng)用到無類別屬性的文本信息處理，具有較廣的應(yīng)用范圍和較高的工程價(jià)值。

［1］LeCun Y，Chopra S，Hadsell R.A tutorial on energy－based learning［J］.Predicting Structured Data，2006，20（111）:489－548.

［2］Andriy Mnih，Hinton G E.A scalable hierarchical distributed language model［C］//Vancouver:Advances in Neural Information Processing System，2008:1081－1088.

［3］Sungjin Ahn，Anoop Korattikara，Max Welling.Bayesian posterior sampling via stochastic gradient fisher scoring［C］//Edinburgh:Proceedings of the 29th International Conference on Machine Learning，2012:1552－1560.

［4］Salakhutdinov R，Hinton G E.Semantic hashing［J］.International Journal of Approximate Reasoning，2009，50（7）:969－978.

［5］Gehler P V，Holub A D，Welling M.The rate adapting poisson model for information retrieval and object recognition［C］//Montreal:Proceedings of the 23rd international conference on Machine learning，2006:337－344.

［6］Hinton G E，Salakhutdinov R.Replicated softmax:An undirected topic model［C］//Vancouver:Advances in Neural Information Processing Systems，2009:1607－1614.

［7］Hugo Larochelle，Ian Murray.The neural autoregressive distribution estimator［C］//Fort Lauderdale:Proceedings of the 14th International Conference on Artificial Intelligence and Statistics，2011:29－37.

［8］Larochelle H，Lauly S.A neural autoregressive topic model［C］//Lake Tahoe:Advances in Neural Information Processing Systems，2012:2717－2725.

［9］Srivastava N，Salakhutdinov R，Hinton G E.Fast inference and learning for modeling documents with a deep boltzmann machine［C］//Atlanta:Proceedings of the 30th International Conference on Machine Learning.2012:493－510.

［10］Hinton G E.A practical guide to training restricted Boltzmann machines［R］.Toronto:Machine Learning Group University of Toronto，2010:129－136.

［11］Hinton G E.Training products of experts by minimizing contrastive divergence［J］.Neural Computation，2002，14（8）:1711－1800.

［12］Wallach H，Murray I，Salakhutdinov R，et al.Evaluation methods for topic models［C］//Montreal:Proceedings of the 26th International Conference on Machine Learning，2009:1105－1112.

［13］Blei D M，Ng A Y，Jordan M I.Latent dirichlet allocation［J］.The Journal of Machine Learning Research，2003，3（10）:993－1022.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于監(jiān)督的RSM改進(jìn)研究

0 引 言

1 RSM模型

1.1 受限玻爾茲曼機(jī)

1.2 RSM模型

1.3 CD算法

2 sRSM模型

2.1 基于監(jiān)督的RSM模型

2.2 學(xué)習(xí)算法

3 實(shí)驗(yàn)結(jié)果及分析

3.1 重構(gòu)率實(shí)驗(yàn)

3.2 文本檢索實(shí)驗(yàn)

4 結(jié)束語

0 引言