国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于監(jiān)督的RSM改進(jìn)研究

2014-02-09 07:46:40張立民張建廷
關(guān)鍵詞:后驗(yàn)偏置類別

劉 凱,張立民,張建廷,馬 超

(海軍航空工程學(xué)院電子信息工程系,山東煙臺(tái)264001)

0 引 言

文本分析目的在于準(zhǔn)確、高效的提取文檔信息和分析文本語義。RBM[1]作為克服傳統(tǒng)概率主題模型[2-4]后驗(yàn)概率難以推斷缺點(diǎn)的無向圖模型,受到越來越多的關(guān)注。RAP[5]將詞匯視為泊松分布樣本,較好的實(shí)現(xiàn)文本信息特征的提取,但存在處理不同長(zhǎng)度文本計(jì)算難度大的問題。RSM[6]克服了RAP的缺點(diǎn)并衍變諸多模型如Document NADE[7,8]、Over Softmax Model[9]等。但上述算法均為無監(jiān)督學(xué)習(xí)方法,對(duì)于存在類別屬性的文檔并沒有考慮類別信息對(duì)于文本特征提取的影響,本文針對(duì)這一問題,在RSM的基礎(chǔ)增加類別信息處理,并提出了基于監(jiān)督的RSM-sRSM。新模型將不僅提高學(xué)習(xí)的收斂速度與收斂精度,而且對(duì)于文本表達(dá)更加準(zhǔn)確。

1 RSM模型

1.1 受限玻爾茲曼機(jī)

受限玻爾茲曼機(jī)(RBM)是在玻爾茲曼機(jī)的基礎(chǔ)上增加了限定條件形成的,即層內(nèi)單元無連接、層間單元全連的兩層結(jié)構(gòu)(可見層和隱藏層)的雙向連接馬爾可夫隨機(jī)場(chǎng)(MRF),其網(wǎng)絡(luò)連接如圖1所示。

圖1 RBM單元連接

RBM的能量形式請(qǐng)參見文獻(xiàn)[1],如下所示

由于層間單元是無連接的,可以很方便的推導(dǎo)出隱單元和可見單元的后驗(yàn)概率分布,分別如下所示[10]

其中sigm(x)=1/(1+exp (-x))。

1.2 RSM模型

Ruslan Salakhutdinov在文獻(xiàn)[6]中提出了RSM,是在RBM的基礎(chǔ)上通過將可見單元設(shè)定為多項(xiàng)分布樣本,實(shí)現(xiàn)了文本的有效表示。RSM中,將每一個(gè)文本作為一個(gè)RBM的訓(xùn)練樣本,設(shè)定v∈{1,…,K }D,其中K是詞匯單詞的數(shù)量,D是文本的大小,隱單元h∈{0,1 }F代表潛在語義,故可見層為一個(gè)K×D的二值矩陣(=1表示在可見單元i的位置上出現(xiàn)的是第k個(gè)詞匯),其能量形式如下所示

其可見單元和隱單元的后驗(yàn)概率分別為式(6)和式(7)

RSM模型的單元連接形式如圖2所示。

圖2 RSM連接

1.3 CD算法

RBM可以通過極大似然法則進(jìn)行無監(jiān)督學(xué)習(xí),即最大化數(shù)據(jù)出現(xiàn)的概率,但由于剖分函數(shù)難以計(jì)算,因此Hinton于2002年提出了CD算法[11],通過執(zhí)行block Gibbs采樣,提高數(shù)據(jù)的后驗(yàn)概率分布下限,實(shí)現(xiàn)訓(xùn)練目標(biāo)。

算法介紹(CD=1):

ε是CD中隨機(jī)梯度下降的學(xué)習(xí)速率

W是RBM的權(quán)重矩陣

b是RBM的輸入偏置

c是RBM的隱單元偏置

對(duì)于所有的隱單元節(jié)點(diǎn)i

從后驗(yàn)概率Q hi|X()

對(duì)于所有的可見單元j

從后驗(yàn)概率P (x-j|H+)采樣x-j∈{0,1}

對(duì)于所有的隱單元節(jié)點(diǎn)i

權(quán)值更新

2 sRSM模型

2.1 基于監(jiān)督的RSM模型

由于RSM為無監(jiān)督學(xué)習(xí)模型,對(duì)于帶有類別信息的數(shù)據(jù)并不十分適用,因此提出一種基于監(jiān)督的RSM,新模型通過增加類別單元,影響隱單元的后驗(yàn)概率分布,實(shí)現(xiàn)帶有類別信息的文本特征的提取。新模型不僅可以適用于帶有類別信息的數(shù)據(jù),而且對(duì)于無類別屬性的數(shù)據(jù)也可以直接應(yīng)用,其使用的廣泛性有利于模型的推廣。

基于監(jiān)督的RSM(sRSM)如圖3所示。類別單元為類別信息的二進(jìn)制編碼表示。sRSM通過新增類別單元以后,其能量形式如下所示

基于這個(gè)能量函數(shù),那么v,(l)的聯(lián)合概率分布見式(10),其中Z為歸一化因子(剖分函數(shù))+采樣h+i∈0,{1}

圖3 sRSM模型

隱單元、可見單元與類別單元的激活概率分別見式(11)、式(12)和式(13)

可見單元和類別單元能夠同時(shí)參與生成數(shù)據(jù),若數(shù)據(jù)為無類別數(shù)據(jù),則類別單元L為零向量,即為標(biāo)準(zhǔn)的RSM模型。

2.2 學(xué)習(xí)算法

針對(duì)于sRSM算法,其學(xué)習(xí)過程(CD=1)改進(jìn)為:輸入:對(duì)于一條帶類別信息的文本訓(xùn)練數(shù)據(jù)

ε是CD中隨機(jī)梯度下降的學(xué)習(xí)速率

W是RSM的隱單元與可見單元的連接權(quán)重矩陣

b是RSM的可見單元偏置

c是RSM的隱單元偏置

WL是RSM的隱單元與類別單元的連接權(quán)重矩陣

a是RSM的類別單元偏置

對(duì)于所有的隱單元節(jié)點(diǎn)i

從后驗(yàn)概率Q (hi|X+)采樣h+i∈{0,1}

對(duì)于所有的可見單元j

對(duì)x-j進(jìn)行多項(xiàng)采樣,得到新的X-

從后驗(yàn)概率Q (ll=1|h+)采樣l-i∈{0,1}

對(duì)于所有的隱單元節(jié)點(diǎn)i

權(quán)值更新

3 實(shí)驗(yàn)結(jié)果及分析

3.1 重構(gòu)率實(shí)驗(yàn)

對(duì)于RBM通常通過重構(gòu)誤差[12]來對(duì)其進(jìn)行評(píng)價(jià)。

從圖4可以得出,sRSM模型的重構(gòu)誤差下降速度要高于RSM,其模型收斂效率和學(xué)習(xí)能力要強(qiáng)于RSM模型。

圖4 RSM與sRSM重構(gòu)誤差對(duì)比

3.2 文本檢索實(shí)驗(yàn)

在設(shè)計(jì)完成sRSM模型以后,采用具有類別屬性的20-newgroups作為文本訓(xùn)練集對(duì)模型的文本表示性能進(jìn)行測(cè)試。

20-newgroups文檔集共包含18845篇文章,整個(gè)文檔集被分為20個(gè)不同的新聞組,每一個(gè)新聞組包含不同的主題。整個(gè)數(shù)據(jù)被分為11314個(gè)訓(xùn)練樣本和7531個(gè)測(cè)試樣本。首先對(duì)文本去除停用詞和無用詞;再次提取信息增益最大的前5000個(gè)詞匯整合為字典庫(kù);最后將每個(gè)文本轉(zhuǎn)變?yōu)橄蛄康男问健?/p>

模型對(duì)文本表達(dá)能力的檢測(cè)可以通過簡(jiǎn)單的文本檢索指標(biāo)進(jìn)行判斷。通常評(píng)價(jià)文本模型在信息檢索的效能指標(biāo)有兩個(gè)

由于Ruslan Salakhutdinov在文獻(xiàn)[6]中已經(jīng)表明RSM模型對(duì)文本的表示能力已經(jīng)優(yōu)于目前常見的文本表示模型LDA[13],因此新模型sRSM只需要與標(biāo)準(zhǔn)的RSM進(jìn)行比較即可。

在實(shí)驗(yàn)中,均將隱單元個(gè)數(shù)設(shè)置為120,即M=120;由于20-newgroups中類別個(gè)數(shù)為20,則sRSM中的類別單元個(gè)數(shù)為5,即L=5,類別數(shù)據(jù)對(duì)應(yīng)的類別單元的值即為其二進(jìn)制編碼。

由于數(shù)據(jù)集較為簡(jiǎn)單,在實(shí)驗(yàn)中,判斷文檔集中的文本是否與查詢文本相關(guān)的判斷標(biāo)準(zhǔn)是兩個(gè)文本是否具有的相同的類別標(biāo)簽。對(duì)于一個(gè)給定的測(cè)試文檔,所有的訓(xùn)練文檔按照cosine相似度進(jìn)行排列,然后依次計(jì)算檢索出最相關(guān)的1,2,4,8,16,…篇文檔的查準(zhǔn)率和查全率;并且對(duì)所有測(cè)試文本的計(jì)算結(jié)果進(jìn)行平均化,得到其查全—查準(zhǔn)曲線(RPC)如圖5所示。

圖5 sRSM和RSM的RPC

由圖5可以看出,sRSM要優(yōu)于RSM,特別是針對(duì)小樣本選擇的情況。

4 結(jié)束語

本文采用基于監(jiān)督的sRSM,實(shí)現(xiàn)了對(duì)帶有類別屬性的文本信息的有效提取。相對(duì)于已有的文本信息提取方法,該方法既保留了標(biāo)準(zhǔn)RSM模型簡(jiǎn)單、計(jì)算隱單元(主題單元)概率快速的優(yōu)點(diǎn),又能夠利用類別單元實(shí)現(xiàn)更迅速的學(xué)習(xí)。此外該模型還可以應(yīng)用到無類別屬性的文本信息處理,具有較廣的應(yīng)用范圍和較高的工程價(jià)值。

[1]LeCun Y,Chopra S,Hadsell R.A tutorial on energy-based learning[J].Predicting Structured Data,2006,20(111):489-548.

[2]Andriy Mnih,Hinton G E.A scalable hierarchical distributed language model[C]//Vancouver:Advances in Neural Information Processing System,2008:1081-1088.

[3]Sungjin Ahn,Anoop Korattikara,Max Welling.Bayesian posterior sampling via stochastic gradient fisher scoring[C]//Edinburgh:Proceedings of the 29th International Conference on Machine Learning,2012:1552-1560.

[4]Salakhutdinov R,Hinton G E.Semantic hashing[J].International Journal of Approximate Reasoning,2009,50(7):969-978.

[5]Gehler P V,Holub A D,Welling M.The rate adapting poisson model for information retrieval and object recognition[C]//Montreal:Proceedings of the 23rd international conference on Machine learning,2006:337-344.

[6]Hinton G E,Salakhutdinov R.Replicated softmax:An undirected topic model[C]//Vancouver:Advances in Neural Information Processing Systems,2009:1607-1614.

[7]Hugo Larochelle,Ian Murray.The neural autoregressive distribution estimator[C]//Fort Lauderdale:Proceedings of the 14th International Conference on Artificial Intelligence and Statistics,2011:29-37.

[8]Larochelle H,Lauly S.A neural autoregressive topic model[C]//Lake Tahoe:Advances in Neural Information Processing Systems,2012:2717-2725.

[9]Srivastava N,Salakhutdinov R,Hinton G E.Fast inference and learning for modeling documents with a deep boltzmann machine[C]//Atlanta:Proceedings of the 30th International Conference on Machine Learning.2012:493-510.

[10]Hinton G E.A practical guide to training restricted Boltzmann machines[R].Toronto:Machine Learning Group University of Toronto,2010:129-136.

[11]Hinton G E.Training products of experts by minimizing contrastive divergence[J].Neural Computation,2002,14(8):1711-1800.

[12]Wallach H,Murray I,Salakhutdinov R,et al.Evaluation methods for topic models[C]//Montreal:Proceedings of the 26th International Conference on Machine Learning,2009:1105-1112.

[13]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].The Journal of Machine Learning Research,2003,3(10):993-1022.

猜你喜歡
后驗(yàn)偏置類別
基于40%正面偏置碰撞的某車型仿真及結(jié)構(gòu)優(yōu)化
基于雙向線性插值的車道輔助系統(tǒng)障礙避讓研究
基于對(duì)偶理論的橢圓變分不等式的后驗(yàn)誤差分析(英)
貝葉斯統(tǒng)計(jì)中單參數(shù)后驗(yàn)分布的精確計(jì)算方法
一種基于最大后驗(yàn)框架的聚類分析多基線干涉SAR高度重建算法
一級(jí)旋流偏置對(duì)雙旋流杯下游流場(chǎng)的影響
服務(wù)類別
論類別股東會(huì)
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
基于貝葉斯后驗(yàn)?zāi)P偷木植可鐖F(tuán)發(fā)現(xiàn)
阿图什市| 广灵县| 盘山县| 疏附县| 疏勒县| 宝鸡市| 绥芬河市| 宁海县| 文成县| 兴义市| 逊克县| 鲜城| 南雄市| 安徽省| 沧源| 永修县| 桂东县| 永平县| 宕昌县| 抚松县| 芮城县| 新巴尔虎右旗| 商河县| 瓦房店市| 鄂托克前旗| 北宁市| 安西县| 汉中市| 宣城市| 吉木萨尔县| 阳山县| 涿州市| 平武县| 康平县| 平远县| 施秉县| 德格县| 射阳县| 漾濞| 府谷县| 东明县|