国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

非監(jiān)督式層次話題情感模型在網(wǎng)絡(luò)評論主題發(fā)現(xiàn)中的應(yīng)用

2015-08-01 02:50:04陳永恒姚桂杰林耀進
東北石油大學學報 2015年1期
關(guān)鍵詞:層次結(jié)構(gòu)精確度極性

陳永恒,姚桂杰,林耀進

(1.閩南師范大學計算機學院,福建漳州 363000; 2.中國石油天然氣股份有限公司大港石化分公司,天津 300280)

非監(jiān)督式層次話題情感模型在網(wǎng)絡(luò)評論主題發(fā)現(xiàn)中的應(yīng)用

陳永恒1,姚桂杰2,林耀進1

(1.閩南師范大學計算機學院,福建漳州 363000; 2.中國石油天然氣股份有限公司大港石化分公司,天津 300280)

自動發(fā)現(xiàn)話題的隱含結(jié)構(gòu)、情感的極性及其關(guān)系,可以方便用戶從海量網(wǎng)絡(luò)評論集中快速獲得他們關(guān)注的主要觀點.提出一種基于非監(jiān)督式的層次話題的情感(Unsupervised Level Aspect-Sentiment,ULAS)模型,利用貝葉斯非參數(shù)性模型作為先驗知識,實現(xiàn)非監(jiān)督式發(fā)現(xiàn)未標記評論文本集話題的層次結(jié)構(gòu),分析層次話題的情感極性.實驗結(jié)果表明,相比傳統(tǒng)的JST和ASUM模型,ULAS模型具備較高的分類精確度和較強的模型泛化能力,能夠解決傳統(tǒng)話題情感模型只能在單一粒度話題層進行情感分析的問題,實現(xiàn)多粒度話題層的情感分析,滿足用戶對于評論對象不同粒度話題的情感信息需求.

非監(jiān)督式層次話題情感模型;隱藏狄利克雷分配;文本分析;網(wǎng)絡(luò)評論;主題發(fā)現(xiàn);主題模型;非參貝葉斯模型

0 引言

網(wǎng)絡(luò)評論文本集中隱含產(chǎn)品話題及消費者情感極性信息,如在筆記本電腦的評論信息中,一般包含筆記本電腦的質(zhì)量、電池、屏幕及CPU等比較集中的話題信息.在購買筆記本電腦前,消費者希望通過查看其他用戶的評論信息,了解產(chǎn)品各話題的情感信息,主要包括產(chǎn)品是否值得購買及產(chǎn)品各話題信息的情感傾向等.面對海量且無結(jié)構(gòu)化的網(wǎng)絡(luò)評論信息,人們難以獲得準確的產(chǎn)品特征情感信息[1].近年來,作為非結(jié)構(gòu)化信息挖掘的一個新興領(lǐng)域——網(wǎng)絡(luò)評論的挖掘受到人們關(guān)注[2].

大部分網(wǎng)絡(luò)評論挖掘研究忽視話題情感的層次結(jié)構(gòu),但不論是從消費者還是從技術(shù)角度,話題情感的層次結(jié)構(gòu)對于網(wǎng)絡(luò)評論挖掘具有重要作用:(1)從消費者角度分析,不同消費者需要不同粒度的話題情感信息,如有些消費者比較關(guān)注屏幕和CPU等較粗粒度的話題信息,有些消費者比較關(guān)注CPU主頻和Cache緩存等較細粒度的話題信息.傳統(tǒng)的話題情感模型只能進行單一粒度層的話題情感分析,不能滿足所有消費者對不同粒度層話題的情感信息需求,而且消費者需要具有層次結(jié)構(gòu)的話題和情感,找到關(guān)注的話題及情感評論.(2)從技術(shù)角度分析,層次結(jié)構(gòu)的話題和情感便于情感分析.情感詞的識別對于情感分析的精確性非常重要,但不同情感詞在表達不同話題時,呈現(xiàn)不同的情感極性[3],如情感詞“快”,在CPU話題的評論中具有褒義情感極性,在電池話題的評論中具有貶義情感極性,該問題在基于話題的情感分析模型、尤其是非監(jiān)督模型中常常難以處理.此外,具有明顯情感極性但不依賴話題的一般情感詞,如“好”、“壞”等,對話題的情感評價作用非常有限[2].現(xiàn)有非監(jiān)督模型通過分析一般情感詞在某段文本中的共現(xiàn)統(tǒng)計,將一般情感詞的極性傳遞給話題情感詞,但當一般情感詞在話題中出現(xiàn)數(shù)量非常少時,一般情感詞的極性難以傳遞給話題情感詞[4].根據(jù)發(fā)現(xiàn)話題及情感極性的層次結(jié)構(gòu),情感極性可以沿著從一般到特殊的路徑傳遞,進而能夠發(fā)現(xiàn)準確表達話題情感的情感極性詞.

目前,缺少利用話題的層次結(jié)構(gòu)信息實現(xiàn)不同粒度層話題的情感分析的相關(guān)文獻.筆者提出一種非監(jiān)督式層次話題情感(Unsupervised Level Aspect-Sentiment,ULAS)模型,實現(xiàn)無標注網(wǎng)絡(luò)評論文本集中話題情感的層次發(fā)現(xiàn),克服傳統(tǒng)話題情感模型只能在單一粒度話題層進行情感分析的缺點.ULAS模型整體結(jié)構(gòu)為一棵樹,樹的每個節(jié)點為一棵兩層節(jié)點樹,節(jié)點的樹根代表該節(jié)點的話題,第二層子節(jié)點集合代表該話題的情感極性分布.為了通過非監(jiān)督形式自動發(fā)現(xiàn)語料庫中隱含的層次樹,使用非參貝葉斯(Bayesian)(recursive Chinese Restaurant Process,rCRP)模型作為先驗,構(gòu)建話題情感樹.

1 層次主題模型

由Lin C等提出的JST(Joint Sentiment/Topic)模型是對隱藏狄利克雷分布(Latent Dirichlet Allocation,LDA)模型的一種拓展[4-5].與LDA模型相似,JST模型同樣用于文本分析的概率生成模型并遵循詞袋假設(shè);不同的是,JST模型除分析文本的主題屬性外,還可以分析文本的情感色彩.通過對文本中的主題和情感信息建模,JST模型可以同時獲得文本中隱含的主題和情感極性[1].Jo Y等提出層次情感模型(Aspect and Sentiment Unification Model,ASUM),將文本中的句子作為情感表達的最小單位,句子中包含的詞具有相同的情感極性[6];與LDA模型不同,ASUM模型和JST模型一樣,可以同時對文本中的主題和情感信息建模,并分析文本的主題屬性和情感極性[5];ASUM模型和JST模型的不同在于,后者中每個詞可能來源于不同的語言模型,前者約束一個單句中的詞來源于相同的語言模型,因此推測的每一個語言模型更注重于在文檔局部范圍內(nèi)共同出現(xiàn)[1].JST和ASUM模型雖然能夠同時獲取評論的主題和主題的情感信息,但不能保證獲取每個主題的2個對立的情感信息[7].為解決該問題,文獻[1]提出主題—對立情感挖掘模型,采用“文檔—主題—情感—詞”4層產(chǎn)生式結(jié)構(gòu),實現(xiàn)每個主題下2個對立的情感信息的挖掘.

LDA、JST和ASUM模型能夠提高網(wǎng)絡(luò)評論文本話題情感分析性能,但沒有考慮話題本身固有的層次結(jié)構(gòu).人們研究層次主題模型,如Blei D M和Kim J H等分別提出基于rCRP的分層主題模型[8-9],能夠發(fā)現(xiàn)文本中隱含主題的層次結(jié)構(gòu),但是該模型沒有建立主題與情感極性的關(guān)聯(lián),進而應(yīng)用到情感分析中.

2 層次話題情感模型

根據(jù)網(wǎng)絡(luò)評論語料庫中隱含話題和情感的層次結(jié)構(gòu),定義用于表述該層次結(jié)構(gòu)的話題情感樹T,將層次結(jié)構(gòu)自動組織成層次結(jié)構(gòu)樹,層次結(jié)構(gòu)樹中每個節(jié)點由話題和情感極性組成,利用非參貝葉斯方法從文本集中學習和構(gòu)建T.

圖1 話題情感樹Fig.1 Subject emotional tree

2.1 話題情感樹

話題情感樹中每個節(jié)點為一棵二層樹,稱為話題情感節(jié)點.每個話題情感節(jié)點由話題及話題情感極性組成,話題情感極性為情感詞字典的多項式分布.根據(jù)話題情感節(jié)點的遞歸定義,話題情感樹區(qū)分話題(話題情感節(jié)點的根節(jié)點)和依賴話題的情感極性(話題情感節(jié)點包含的子節(jié)點集合),實現(xiàn)主題從粗粒度到細粒度的情感極性表達(見圖1).由圖1可以看出,T中每個節(jié)點θi為一顆二層樹,樹的根節(jié)點為節(jié)點θi的話題,集合{,,…}為話題的情感極性詞分布,其中S為情感極性詞的數(shù)量.

2.2 文本生成

層次話題情感模型為分層貝葉斯網(wǎng)絡(luò)模型,由網(wǎng)絡(luò)評論文本、話題、情感和詞組成.對于每篇評論文本d,通過參數(shù)η的Dirichlet先驗分布得到其情感分布π,η為π的超參數(shù).在ULAS模型的分層貝葉斯網(wǎng)絡(luò)模型中,文本、句子和詞條件相互獨立,其概率圖模型見圖2.其中Nd為評論文本集包含的文本數(shù)量,Ns為文本包含句子的數(shù)量,Nw為文本包含詞的數(shù)量,γ和β分別為T、的超參數(shù).利用(S+1)×∞表示無限個詞的情感分布.每個詞在確定3個參數(shù),即詞所在句子的情感極性s、話題情感節(jié)點c及詞的主觀標識p的前提下,通過分布獲取.

ULAS模型的生成過程為概率抽樣過程,對于網(wǎng)絡(luò)評論語料庫中網(wǎng)絡(luò)評論文本d∈{d1,d2,…dNd}的每個句子i,di為評論文本集中的第i個文本,生成過程為

(1)根據(jù)話題情感樹T獲取句子i的話題情感節(jié)點c,即c~T,其中T~rCRP(γ);

(2)根據(jù)情感分布π的多項式分布獲取情感極性s,即s~Multinomial(π);

(3)通過超參數(shù)α的Beta分布得到句子i的情感主觀分布θ,即θ~Beta(α);

(4)對于句子i中每個詞j,獲取j的主觀標識p,即p~Binomial(1,θ);

ULAS模型將句子作為情感極性分配的最小單位,每個句子都具有一個情感極性.對于具有情感極性s的句子i包含的每個單詞w,在獲得w的主觀標識p的基礎(chǔ)上,模型利用s×p得到w的情感極性.主觀標識p用于表示單詞是否具有主觀情感,其中p∈{0,1},如在負情感極性的句子中情感詞“glare”的主觀標識p為1,該單詞由歸屬的話題情感極性產(chǎn)生;非主觀情感詞“screen”的主觀標識p為0,在任何情感極性的句子中都由話題產(chǎn)生.

3 模型推理和學習

直接求解ULAS模型困難,采用相對簡單的基于馬爾科夫鏈蒙特卡羅(MCMC)方法的吉布斯抽樣(Gibbs Sampling)算法進行求解.該算法由多元概率分布(兩個或多個隨機樣本的聯(lián)合概率分布)中獲取一系列隨機樣本組成一個馬爾科夫鏈[10],可以降低推導復雜度,將參數(shù)計算轉(zhuǎn)化為簡化的計算和抽樣過程.

首先,由吉布斯抽樣算法估計目標文本中采樣詞的情感極性的后驗分布.設(shè)采樣詞w包含于文本d的第i個句子di中,則為i分配情感極性k的概率為

其次,由吉布斯抽樣算法估計目標文本中采樣詞的主觀性的后驗分布.設(shè)采樣詞w為文本d中第i個句子的第j個詞dij,由話題節(jié)點θk生成s的主觀性值p,則為pdij分配主觀性的概率為

最后,采用rCRP采樣方法為每個句子關(guān)聯(lián)話題.目標文本中每個句子都包含情感極性和詞的主觀性信息,在為句子分配話題過程中可以維持信息.設(shè)當前話題節(jié)點為θk,則文本d中第i個句子關(guān)聯(lián)話題存在3種可能的分配方案:

child(θk)函數(shù)表示話題情感樹中某一節(jié)點的遞歸子節(jié)點;p(childnew)表示創(chuàng)建一個新節(jié)點的概率;Mc表示分配給節(jié)點c及其子節(jié)點的句子數(shù).

其中文本d句子i中詞w的生成概率為

式中:Γ為伽馬函數(shù).

4 實驗

為驗證ULAS模型的分類精確度及泛化能力,利用實驗測試ASUM、JST及ULAS模型.

4.1 實驗設(shè)置

實驗數(shù)據(jù)集為Epinions產(chǎn)品評論數(shù)據(jù)集,包含10個主要領(lǐng)域的產(chǎn)品評論,文中采用臺式PC產(chǎn)品評論數(shù)據(jù)集訓練和測試層次話題情感模型.在刪除停用詞、標點符號及詞頻較低詞后,語料庫中包括2 847篇文本和24 219個互異詞匯.設(shè)置ULAS模型中初始值α=10.0,β={10-7,0.01,2.5},η=1.0,r=0.1.2種情感極性詞(正、負)的主觀值為1;話題主題的主觀值為0.情感種子詞在Paradiams[11]、Mutual Information(MI)[12]和MPQA情感詞典[13]中選取,其情感極性詞數(shù)量見表1.

4.2 模型分類精確度

比較采用不同情感字典時3種模型的分類精確度(見表2).由表2可以看出,使用包含21個正、負情感極性詞的Paradiams情感字典,JST和ASUM模型在臺式PC產(chǎn)品評論數(shù)據(jù)集的分類精確度為67.85%和71.85%;ULAS模型的分類精確度高于JST和ASUM模型的.結(jié)合Paradiams和MI情感字典在臺式PC數(shù)據(jù)集的實驗結(jié)果表明,JST和ASUM模型的分類精確度提高7%;ULAS模型的分類精確度提高12%,為86.5%,優(yōu)于JST和ASUM模型的.3種模型分類精確度的提高與同情感詞字典的增加呈非正比關(guān)系.在MPQA情感字典上測試3個模型的分類精確度,基于臺式PC產(chǎn)品評論數(shù)據(jù)集的實驗結(jié)果表明,3種模型的分類精確度分別降低3%、4%和7%,但ULAS模型的分類精確度好于其他2種模型的(見表2).

表1 情感字典的情感極性詞數(shù)量Table 1 The number of emotional polarity word in the emotional dictionary

表2 采用不同情感字典的模型分類精確度Table 2 The model classification accuracy with different emotional dictionary

在臺式PC產(chǎn)品評論數(shù)據(jù)集上,分析ULAS模型采用不同情感詞典時話題數(shù)量和模型分類精確度的關(guān)系,結(jié)果見圖3.由圖3可以看出,當話題的數(shù)量為1時,ULAS模型變?yōu)榫哂蠸個主題的LDA層次模型,并且忽略話題和情感極性詞之間的關(guān)系.采用Paradigm、Paradigm和MI情感詞典的ULAS模型的平均分類精確度為上升曲線,當話題數(shù)量為1時,模型分類性能最差.采用MPQA情感詞典的ULAS模型的平均分類精確度,當話題數(shù)量小于85時為上升曲線,當大于85時為下降曲線,當話題數(shù)量為60時模型分類性能最差.實驗結(jié)果表明,不同情感詞典的話題數(shù)量影響ULAS模型的分類精確度.

4.3 模型泛化能力

泛化能力是衡量模型對未知數(shù)據(jù)的預測能力,為研究語言主題模型過程中的重要指標,將語言主體模型中評判準則困惑度(perplexity)作為評價模型泛化能力的標準[14].通過perplexity評價ULAS模型,即由訓練數(shù)據(jù)中學習的層次話題情感模型在測試集上建模的泛化能力.已知訓練集合Dtrain,測試文本d∈Dtest包含的詞匯wd的perplexity定義為

圖3 ULAS模型采用不同情感詞典時話題數(shù)量和分類精確度關(guān)系Fig.3 The relationship between number of topics and classification accuracy when using different emotional dictionary in ULAS model

一般情況下,perplexity越小模型泛化能力越強.訓練時,為保證模型收斂,每次訓練迭代次數(shù)為1 000次[15].在臺式PC產(chǎn)品評論數(shù)據(jù)集中抽取2 000篇文本作為訓練集合,抽取847篇作為測試集,測試集包括7 236個互異詞匯.perplexity測試結(jié)果見圖4.由圖4可以看出,ULAS模型比JST和ASUM模型具有更低的perplexity值,即ULAS模型比JST和ASUM模型具有更強的泛化能力.說明ULAS模型在JST和ASUM模型的基礎(chǔ)上,將非參貝葉斯(Bayesian)模型rCRP作為先驗,細化話題分類,能夠構(gòu)建話題情感樹,提高模型預測的準確性.

圖4 不同情感模型的模型泛化能力Fig.4 The generalization ability of the model with different emotional model

5 結(jié)束語

文中提出基于一種非監(jiān)督式層次話題情感(ULAS)模型,實現(xiàn)情感、層次話題、句子和詞之間的關(guān)聯(lián)關(guān)系.該模型利用非參貝葉斯(Bayesian)模型實現(xiàn)話題的層次分類,將模型應(yīng)用到句子級的情感模型中,實現(xiàn)網(wǎng)絡(luò)評論文本話題情感的隱含層次結(jié)構(gòu)的發(fā)現(xiàn).相比JST和ASUM模型,ULAS模型能夠提高層次話題情感模型分類的精確度,并且具有較高的模型泛化能力.

(References):

[1] 張倩,瞿有利.用于網(wǎng)絡(luò)評論分析的主題—對立情感挖掘模型[J].計算機科學與探索,2013,7(7):620-629.

Zhang Qian,Qu Youli.Topic-opposite sentiment mining model for online review analysis[J].Journal of Frontiers of Computer Science and Technology,2013,7(7):620-629.

[2] Moghaddam S,Ester M.Aspect-based opinion mining from online reviews[C].Tutorial at SIGIR Conference,2012.

[3] Li F,Huang M,Zhu X.Sentiment analysis with global topics and local dependency[C].Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence,2010:1371-1376.

[4] Lin C,He Y.Joint sentiment/topic model for sentiment analysis[C].Proceedings of the 18th ACM Conference on Information and Knowledge Management,2009:375-384.

[5] 單斌,李芳.基于LDA話題演化研究方法綜述[J].中文信息學報,2010,24(6):43-49.

Shan Bin,Li Fang.A survey of topic evolution based on LDA[J].Journal of Chinese Information Processing,2010,24(6):43-49.

[6] Jo Y,Oh A H.Aspect and sentiment unification model for online review analysis[C].Proceedings of the Fourth ACM International Conference on Web Search and Data Mining,2011:815-824.

[7] Mukherjee A,Liu B.Aspect extraction through semi-supervised modeling[C]//Proceedings of the 50th annual meeting of the association for computational linguistics.Jeju:Association for Computational Linguistics,2012:339-348.

[8] Blei D M,Griffiths T L,Jordan M I.The nested chinese restaurant process and Bayesian nonparametric inference of topic hierarchies[J].Journal of the ACM,2010,57(2):7.

[9] Kim J H,Kim D,Kim S,et al.Modeling topic hierarchies with the recursive chinese restaurant process[C].ACM:Proceedings of the 21st ACM International Conference on Information and Knowledge Management,2012:783-792.

[10] Blei D M.Probabilistic Topic Models[C]//Communications of the ACM.ACM,2012,55(4):77-84.

[11] Pang B,Lee L,Vaithyanathan S.Thumbs up:sentiment classification using machine learning techniques[C]//Proceedings of the 2002conference on Empirical methods in natural language processing.Morristown:Association for Computational Linguistics,2002:79-86.

[12] Maes F,Collignon A,Vandermeulen D.Multimodality image registration by maximization of mutual information[J].IEEE Trans.on Medical Imaging,1997,17(16):187-198.

[13] Wilson T,Wiebe J,Hoffmann P.Recognizing contextual polarity in phrase-level sentiment analysis[C]//The conference on human language technology and empirical methods in natural language processing.Vancouver:ACL,2005.

[14] Hu P F,Liu W.Latent topic model for audio retrieval[J].Pattern Recognition,2014,3(47):303-315.

[15] Pang Bao,Lee Lillian.Opinion mining and sentiment analysis[J].Foundations and Trends in Information Retrieval,2008,2(1/2):1-135.

DOI 10.3969/j.issn.2095-4107.2015.01.015

TP181;TP301.2

A

2095-4107(2015)01-0112-06

2014-12-23;編輯:張兆虹

國家自然科學基金項目(60373099,60973040,61303131);福建省教育廳科技A類項目(JA13196)

陳永恒(1980-),男,博士,副教授,主要從事機器學習、數(shù)據(jù)挖掘和推薦系統(tǒng)方面的研究.

book=117,ebook=120

猜你喜歡
層次結(jié)構(gòu)精確度極性
基于級聯(lián)網(wǎng)絡(luò)和語義層次結(jié)構(gòu)的圖像自動標注方法
研究核心素養(yǎng)呈現(xiàn)特征提高復習教學精確度
“硬核”定位系統(tǒng)入駐兗礦集團,精確度以厘米計算
跟蹤導練(四)
論立法修辭功能的層次結(jié)構(gòu)
法律方法(2017年2期)2017-04-18 09:00:37
建構(gòu)利益相關(guān)者管理的三層次結(jié)構(gòu)分析
表用無極性RS485應(yīng)用技術(shù)探討
一種新型的雙極性脈沖電流源
層次結(jié)構(gòu)數(shù)據(jù)在組合框中樹形效果的動態(tài)實現(xiàn)
計算機時代(2012年7期)2012-04-29 00:44:03
鍵的極性與分子極性判斷的探究
西贡区| 都安| 西乡县| 灵台县| 阿拉善盟| 泸溪县| 阜平县| 孝义市| 峨山| 英山县| 若尔盖县| 衡水市| 滕州市| 济阳县| 囊谦县| 天台县| 商水县| 周口市| 颍上县| 阳谷县| 嘉荫县| 体育| 若尔盖县| 浦县| 广昌县| 芜湖市| 宜都市| 博客| 赣榆县| 山丹县| 闽清县| 富宁县| 诏安县| 龙胜| 乌拉特前旗| 玉龙| 渭源县| 中西区| 涿鹿县| 东丰县| 江源县|