劉納 王新
摘要:基于機(jī)器學(xué)習(xí)的情感分類方法已經(jīng)取得了較大進(jìn)展,但在大量情感分類方法中,往往都是結(jié)合詞嵌入和傳統(tǒng)的機(jī)器學(xué)習(xí)方法,缺乏對(duì)文本主題以及時(shí)序關(guān)系等因素的有效利用。針對(duì)上述問(wèn)題,提出了一種基于主題流與深度學(xué)習(xí)的情感分類算法,通過(guò)分析文本的主題分布,并引入時(shí)序關(guān)系,在此基礎(chǔ)上利用適合的長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法進(jìn)行情感分類。實(shí)驗(yàn)證明,基于主題流與深度學(xué)習(xí)的情感分類算法性能較好。
關(guān)鍵詞:NLP;情感分析;深度學(xué)習(xí);主題流
DOIDOI:10.11907/rjdk.181487
中圖分類號(hào):TP312
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2018)008-0028-03
英文摘要Abstract:At present,sentiment classification method based on machine learning has made great progress,but among the a large number of sentiment classification methods,word combination and traditional machine learning methods are often used,and there is a lack of effective use of such factors as text topics and sequence relationships in a large number of sentiment classification methods.In order to solve the problems,this paper presents a sentiment classification algorithm based on topic flow and deep learning,it analyzes the topic distribution of the text and introduces the sequence relationship and uses deep learning methods such as long short-term memory neural networks to classify the sentiment.Experiments show that the sentiment classification algorithm based on topic stream and deep learning proposed in this paper has better performance.
英文關(guān)鍵詞Key Words:NLP; sentiment analysis; deep learning; topic flow
0 引言
隨著互聯(lián)網(wǎng)及電子商務(wù)的快速發(fā)展,人們?cè)诰€上的活動(dòng)越來(lái)越多,產(chǎn)生了大量帶有主觀色彩的信息。這些帶有主觀性的信息可以是用戶對(duì)某次活動(dòng)或服務(wù)的評(píng)價(jià),或者是某新聞事件或文章的觀點(diǎn)等,對(duì)這些信息進(jìn)行挖掘,可使政府部門了解相關(guān)輿情,輔助決策,對(duì)用戶進(jìn)行個(gè)性化推薦以及對(duì)虛假評(píng)論進(jìn)行檢測(cè)。僅靠人工對(duì)這些信息進(jìn)行分析將耗費(fèi)大量的人力物力和時(shí)間,通過(guò)計(jì)算機(jī)進(jìn)行數(shù)據(jù)挖掘和分析是一個(gè)熱點(diǎn),而情感分析是其中重要的分支[1-4]。
目前,情感分析的主要研究方法是傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法,如貝葉斯分類、SVM以及聚類等[5-6],這些算法主要分監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)[7-8]。監(jiān)督學(xué)習(xí)需要靠大量的人工標(biāo)注,代價(jià)較高。相反,無(wú)監(jiān)督學(xué)習(xí)不需要人工標(biāo)注數(shù)據(jù),可降低標(biāo)注代價(jià),但效果完全依賴于訓(xùn)練結(jié)果,無(wú)法有效提高性能。
本文對(duì)文本信息進(jìn)行了深入研究,通過(guò)挖掘文本的主題分布和時(shí)序關(guān)系,采用深度學(xué)習(xí)方法進(jìn)行情感分類。
1 相關(guān)工作
情感分析從2002年提出就受到廣泛關(guān)注,在中英文情感文本中得到廣泛應(yīng)用,特別在線上評(píng)論和新聞評(píng)論的情感分析有了很大的發(fā)展。機(jī)器學(xué)習(xí)在情感分析中的應(yīng)用受到研究者青睞[9-10]。Sida等[11]提出了采用樸素貝葉斯和SVM相結(jié)合的方法,實(shí)驗(yàn)證明該方法取得了不錯(cuò)的結(jié)果。Deriu等[12]提出利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行情感分析,與其它傳統(tǒng)方法相比效果較好。Catal等[13]提出了一種基于模糊聚類的方法,它是一種無(wú)監(jiān)督學(xué)習(xí)方法,在減少人工標(biāo)注的情況下取得了滿意的準(zhǔn)確率。Xia等[14]提出了一種集成技術(shù),集合詞性和詞關(guān)系等多種特征,并結(jié)合貝葉斯、信息熵以及SVM等方法進(jìn)行廣泛的對(duì)比試驗(yàn),取得了一定進(jìn)展和較好的實(shí)驗(yàn)結(jié)果。本文研究了基于機(jī)器學(xué)習(xí)的情感分析方法,如樸素貝葉斯、支持向量機(jī)(SVM,Support Vector Machines)、神經(jīng)網(wǎng)絡(luò)模型[15]以及聚類等。通過(guò)分析文本特征,將文本映射為特征向量的表示形式,然后通過(guò)機(jī)器學(xué)習(xí)模型進(jìn)行分類和預(yù)測(cè)。
文本分析的一個(gè)重要研究方向就是自然語(yǔ)言處理。詞是文本的基本組成單元,主題分析(LDA,Latent Dirichlet Allocation)是其中一個(gè)重要分支[16],不少研究者在該領(lǐng)域進(jìn)行了大量的研究工作。王偉等[17]提出基于LDA主題模型的評(píng)論文本情感分類。該文結(jié)合情感詞典,提出情感詞和上、下文,然后利用LDA挖掘情感特征,最后利用機(jī)器學(xué)習(xí)實(shí)現(xiàn)情感分類。該方法降低了情感特征的向量維度,取得了很好的分類效果。黃發(fā)良等[18]提出基于多特征融合的主題情感分析方法,挖掘多種文本特征進(jìn)行情感分析。本文研究了主題分析在文檔中的應(yīng)用,并在此基礎(chǔ)上結(jié)合深度學(xué)習(xí)方法應(yīng)用于情感分析。
2 算法理論
2.1 LDA主題分析模型
LDA是Blei等[19]于2003年提出的基于貝葉斯概率的主題模型,該模型屬于無(wú)監(jiān)督的機(jī)器學(xué)習(xí)模型,目的是以無(wú)監(jiān)督的學(xué)習(xí)方式去挖掘文本中包含的主題信息,即“Topic”。該算法實(shí)質(zhì)就是利用文本中詞語(yǔ)的共有隱含特征分析文本的Topic結(jié)構(gòu),主要對(duì)“一詞多義”和“一義多詞”兩種語(yǔ)言現(xiàn)象進(jìn)行建模,模型表示如圖1所示。
圖1中,K表示主題個(gè)數(shù),M表示文檔總數(shù),Nm 表示第m篇文檔的單詞總數(shù),β是每個(gè)主題Topic中詞的多項(xiàng)分布的Dirichlet先驗(yàn)參數(shù),α是每個(gè)文檔下Topic的多項(xiàng)分布Dirichlet先驗(yàn)參數(shù),zm,n是第m篇文檔中第n個(gè)詞的主題,wm,n是m篇文檔中的第n個(gè)詞。本文使用的主題模型LDA算法步驟如下:
LDA算法:
算法輸入:分詞之后的文檔,通常一篇文章一行,每行包含若干詞。
主題數(shù)K,超參數(shù)α和β
算法輸出:
每篇文檔的各個(gè)詞所屬的主題,model-tassign.txt
每篇文檔的主題概率分布:model-theta.txt
每個(gè)主題下的詞概率分布:model-phi.txt
每個(gè)主題下詞概率從高到低排序:model-tword.txt
2.2 深度學(xué)習(xí)模型
使用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM,Long Short-Term Memory)作為本文算法的深度學(xué)習(xí)部分。LSTM最早由Hochreiter等\[20\]于1997年提出,是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,Recurrent neural network),可以學(xué)習(xí)長(zhǎng)期依賴信息。后來(lái)該算法得到了改良,在許多問(wèn)題上得到應(yīng)用。
所有 RNN 都具有一種重復(fù)神經(jīng)網(wǎng)絡(luò)模塊的鏈?zhǔn)叫问?。在?biāo)準(zhǔn)的 RNN 中,這個(gè)重復(fù)模塊只有一個(gè)非常簡(jiǎn)單的結(jié)構(gòu),如一個(gè) tanh 層,見(jiàn)圖2。
LSTM 同樣是這樣的結(jié)構(gòu),但是重復(fù)的模塊擁有不同的結(jié)構(gòu)。不同于RNN單一神經(jīng)網(wǎng)絡(luò)層,LSTM有4個(gè),以一種非常特殊的方式進(jìn)行交互,見(jiàn)圖3。
2.3 基于主題流與深度學(xué)習(xí)的情感分析算法
在上述基礎(chǔ)上本文提出基于主題流與深度學(xué)習(xí)的情感分析算法,簡(jiǎn)稱TFDL-SA算法。本算法引入時(shí)序關(guān)系,首先對(duì)中文文本進(jìn)行分詞,考慮詞的時(shí)序關(guān)系,利用LDA主題模型生成主題流,即Xi=t1,t2,…tn。其中Xi表示第i篇文檔的主題流,tj表示文檔中第j個(gè)詞的主題。文檔對(duì)應(yīng)的標(biāo)簽向量矩陣為y=[l1,l2,…,lm],其中l(wèi)i表示每篇文檔主題流Xi對(duì)應(yīng)的標(biāo)簽。然后將M篇文檔的主題流與標(biāo)簽X,y作為L(zhǎng)STM深度學(xué)習(xí)模型的輸入特征,完成深度學(xué)習(xí)分類。
TFDL-SA算法步驟如下:
輸入:(X,y),其中X表示文檔的主題流,y表示文檔對(duì)應(yīng)的標(biāo)簽
輸出:分類結(jié)果,1表示積極,0表示消極
jieba分詞,生成帶有次序的詞字典
LDA主題生成模型,生成文檔的主題流向量表示
while 不收斂 doLSTM訓(xùn)練end while
3 實(shí)驗(yàn)結(jié)果及分析
為驗(yàn)證算法性能設(shè)計(jì)如下實(shí)驗(yàn):數(shù)據(jù)集選用斯坦福大學(xué)Stanford Sentiment Treebank標(biāo)準(zhǔn)數(shù)據(jù)集,共兩種:一種是標(biāo)注了兩種情感的數(shù)據(jù)(negative,positive);一種是標(biāo)注了5種情感的數(shù)據(jù)(very negative,negative,neutral,positive,very positive),選用9 645個(gè)訓(xùn)練集,2 210個(gè)測(cè)試集。
本實(shí)驗(yàn)設(shè)置二分類和五分類兩種場(chǎng)景,使用準(zhǔn)確率(accuracy)、綜合評(píng)價(jià)指標(biāo)(F-score)作為衡量指標(biāo)。實(shí)驗(yàn)過(guò)程中加入對(duì)比實(shí)驗(yàn),分別是結(jié)合詞嵌入單純使用LSTM算法進(jìn)行分類(簡(jiǎn)稱Basic LSTM)、使用主題流分別與CNN和RNN算法進(jìn)行分類(分別簡(jiǎn)稱Topicflow + CNN和Topicflow + RNN)和本文提出的TFDL-SA算法分類。實(shí)驗(yàn)結(jié)果如表1和表2所示。
實(shí)驗(yàn)結(jié)果分析表明,本文提出的TFDL-SA算法在二分類和五分類時(shí)效果更好,準(zhǔn)確率和F值都大于其它幾種算法,原因是本文算法考慮了文本中詞語(yǔ)所屬主題以及時(shí)序關(guān)系,包含更多的詞語(yǔ)本身詞性、語(yǔ)義等信息。在深度學(xué)習(xí)訓(xùn)練時(shí),使用LSTM可以更好地處理包含時(shí)間序列等信息的事件,多種因素結(jié)合使TFDL-SA算法具有較好性能。
4 結(jié)語(yǔ)
大量情感分類方法中缺乏對(duì)文本主題以及時(shí)序關(guān)系等因素的有效利用,為此本文提出了基于主題流與深度學(xué)習(xí)的情感分析算法。首先,該算法提出了主題流模式,引入文檔中詞的時(shí)序關(guān)系生成主題流,作為深度學(xué)習(xí)模型的輸入特征;其次,深度學(xué)習(xí)使用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò),適合處理包含時(shí)間序列等信息事件。實(shí)驗(yàn)結(jié)果表明,本文提出的情感分析算法具有較好的性能,優(yōu)于目前幾種主流的算法分類結(jié)果。
本文基于主題生成模型和深度學(xué)習(xí)模型對(duì)情感分析進(jìn)行了研究,但在詞所屬某個(gè)主題的選擇上未進(jìn)行進(jìn)一步研究,下一步將研究不同主題選擇對(duì)情感分析的影響。
參考文獻(xiàn):
[1] AKKAYA C.Sentiment classification[M].New York:Springer ,2014.
[2] GO A,BHAYANI R,HUANG L.Twitter sentiment classification using distant supervision[J].Cs224n Project Report,2009(6):168-172.
[3] MAZZONELLO V,GAGLIO S,AUGELLO A,et al.A study on classification methods applied to sentiment analysis[C].IEEE Seventh International Conference on Semantic Computing,2013:426-431.
[4] LAVANYA S K,VARTHINI B P.Sentiment classification of web opinion documents[C].International Conference on Electronics and Communication Systems.IEEE,2014:1-5.
[5] BESPALOV D,QI Y,BAI B,et al.Sentiment classification with supervised sequence embedding[C].European Conference on Machine Learning and Knowledge Discovery in Databases,2012:159-174.
[6] LI T,XIAO X,XUE Q.An unsupervised approach for sentiment classification[C].Robotics and Applications.IEEE,2012:638-640.
[7] 唐慧豐,譚松波,程學(xué)旗.基于監(jiān)督學(xué)習(xí)的情感分類技術(shù)比較研究[J].中文信息學(xué)報(bào),2007,21(6):88-94.
[8] 代大明,王中卿,李壽山,等.基于情緒詞的非監(jiān)督情感分類方法研究[J].中文信息學(xué)報(bào),2012,26(4):103-108.
[9] 孫建旺,呂學(xué)強(qiáng),張雷瀚.基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(7):177-181.
[10] XIA R,ZONG C,LI S.Ensemble of feature sets and classification algorithms for sentiment classification[J].Information Sciences,2011,181(6):1138-1152.
[11] WANG S,MANNING C D.Baselines and bigrams: simple,good sentiment and topic classification[C].Meeting of the Association for Computational Linguistics: Short Papers.Association for Computational Linguistics,2012:90-94.
[12] DERIU J,GONZENBACH M,UZDILLI F,et al.SwissCheese at SemEval-2016 Task 4: Sentiment Classification Using an Ensemble of Convolutional Neural Networks with Distant Supervision[C].International Workshop on Semantic Evaluation.2016:1124-1128.
[13] PHU V N,DAT N D,TRAN V T N,et al.Fuzzy C-means for english sentiment classification in a distributed system[J].Applied Intelligence,2017,46(3):717-738.
[14] XIA R,ZONG C,LI S.Ensemble of feature sets and classification algorithms for sentiment classification[J].Information Sciences,2011,181(6):1138-1152.
[15] 陳釗,徐睿峰,桂林,等.結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和詞語(yǔ)情感序列特征的情感分析[J].中文信息學(xué)報(bào),2015,29(6):172-178.
[16] WEI X,CROFT W B.LDA-based document models for ad-hoc retrieval[J].International Conference on Neural Information Processing Systems ,2006(2):178-185.
[17] 王偉,周詠梅,陽(yáng)愛(ài)民,等.一種基于LDA主題模型的評(píng)論文本情感分類方法[J].數(shù)據(jù)采集與處理,2017,32(3):629-635.
[18] 黃發(fā)良,馮時(shí),王大玲,等.基于多特征融合的微博主題情感挖掘[J].計(jì)算機(jī)學(xué)報(bào),2017,40(4):872-888.
[19] BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].J Machine Learning Research Archive,2003(3):993-1022.
[20] HOCHREITER S,SCHMIDHUBER J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.
(責(zé)任編輯:杜能鋼)