楊丹 張夢 朱毅
摘要:網(wǎng)絡(luò)中充斥著許多帶有強烈情感的評論和信息,對這些信息的分析成為了解人們意見的主要途徑。情感分析是自然語言處理(natural language processing, NLP)的一個方向,用來判斷文本描述的情緒類型。通過建立用戶自身的情感標(biāo)志模型來識別語句的情感特征,并將設(shè)計好的模型利用深度學(xué)習(xí)框架進行情感分析,最終得到各模型的準(zhǔn)確率。利用TensorFlow深度學(xué)習(xí)框架,對公開數(shù)據(jù)集分別采用CNN、LSTM模型進行情感分析和比較研究。驗結(jié)果表明,LSTM模型在實驗中表現(xiàn)較佳并可為相關(guān)情感分析模型的優(yōu)化提供一定的意義。
關(guān)鍵詞: 情感分析;卷積神經(jīng)網(wǎng)絡(luò);長短期記憶神經(jīng)網(wǎng)絡(luò)
中圖分類號: TP391? ? ? ? 文獻標(biāo)識碼:A
文章編號:1009-3044(2019)21-0188-00
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
Abstract:In the Internet there are full of comments and information with strong emotions, and the analysis of such information becomes the main way to know people's opinions. Emotion analysis is a direction of natural language processing (NLP), which is used to judge the types of emotions described in text. The emotional feature of the sentence is identified by building the user's own emotional model, and the designed model is used for emotional analysis with the deep learning framework. Finally, the accuracy of each model is obtained. Using the TensorFlow deep learning framework, the open data sets were analyzed and compared using CNN and LSTM models. The experimental results show that the LSTM model performs better in the experiment and can provide some significance for the optimization of related emotion analysis model.
Key words:sentiment analysis;convolutional neural network;long short-term memory network.
隨著電子信息技術(shù)的蓬勃發(fā)展,人們在日常生活當(dāng)中的情感需求不斷增加,進而微信、微博等社交網(wǎng)絡(luò)的使用人數(shù)也在不斷增長,這些帶有情感的交流信息也在逐漸引起學(xué)者們的關(guān)注。近年來,由于人們不斷研究的神經(jīng)網(wǎng)絡(luò)的推進,及深度學(xué)習(xí)的發(fā)展,在CNN、RNN等模型下進行自然語言情感分析也取得了許多突破。情感分析顧名思義即是將信息發(fā)送者所傳遞的信息通過一定方法進行分析得到其中隱藏的觀點及其態(tài)度。目前情感信息分類的首要目標(biāo)為:基于情感詞的標(biāo)注[1]。其主要將表示情感的詞分為,正面情感詞和負(fù)面情感詞,通過比較一句話中正負(fù)情感詞的相對數(shù)量,來判斷句子的情感。目前,市面上已經(jīng)浮現(xiàn)出大量有關(guān)于情感分析的方法,如:基于情感詞典切分類方法[2],是機器學(xué)習(xí)在情感分析方面從零到有的突破;CNN模型[3],使用詞向量分類文本;RNN模型[4],利用上下文構(gòu)建模型;遞歸神經(jīng)網(wǎng)絡(luò)模型[5],發(fā)掘隱含特征,大大提升分類的準(zhǔn)確性;在日新月異今天,越來越多的研究人員選擇使用深度學(xué)習(xí)技術(shù)來對文本進行分析,但在繽紛多樣的方法中,我們將通過比較得出最有效的方法進行情感分析。
在以往的分析方法中,研究者的關(guān)注點往往落在CNN模型與LSTM模型上,這兩種不分伯仲的研究方法各自在各自的領(lǐng)域發(fā)揮著無比強大的作用,CNN模型利用詞向量對文本進行分類,LSTM模型利用正反向量進行處理,顯而易見LSTM模型作為新一代的模型,在功能完善方面已經(jīng)遠(yuǎn)遠(yuǎn)超過CNN模型,但在情感分析孰輕孰重我們還應(yīng)該再做進一步的比較。
本文運用CNN和LSTM兩種分析模型進行對比,通過在公開數(shù)據(jù)集上的相關(guān)實驗,證明 LSTM模型在情感分析方面的有利及重要性。
1? 情感分析模型
1.1 CNN模型
CNN(Convolutional neural network,CNN,卷積神經(jīng)網(wǎng)絡(luò))是一個多層的神經(jīng)網(wǎng)絡(luò),它作為當(dāng)時具有突破性的模型被研發(fā)出來,其基本結(jié)構(gòu)為輸入層、卷積層、池化層、全連接層、輸出[6],如圖1所示。
傳統(tǒng)中文文本分類采用支持向量機(SVM)模型,該模型的缺點是:只統(tǒng)計文本出現(xiàn)的頻率,不考慮詞語之前的序列關(guān)系。
CNN模型首先需要進行預(yù)處理,將樣本轉(zhuǎn)換為詞向量, 句子中的每個詞語對應(yīng)一個向量機。通過分析句子長度較短、結(jié)構(gòu),采用詞嵌入向量表示, 使得 CNN 模型在處理文本情感分析這一類問題上成為可能。
通常一個卷積神經(jīng)網(wǎng)絡(luò)模型分為三層:
① 卷積層。卷積層為模型的輸入層。其功能是對數(shù)據(jù)進行特征提取,內(nèi)部包含多個卷積核,通過卷積核中的每個元素都對應(yīng)一個權(quán)重系數(shù)。卷積運算包含一個濾波器,通過濾波器將每個詞按序排列,將初始的句子矩陣轉(zhuǎn)化為詞向量。
②? 池化層。池化層的主要作用為下采樣,通過對 feature map進行采樣分析,濾除非重要成分,簡化系統(tǒng)參數(shù)數(shù)量,從而提高運算效率。本文采用最大池化來提取關(guān)鍵特征。
③? 全連接層。選擇 ReLU 作為其激活函數(shù). 其目的是為防止過度擬合,需要設(shè)置Dropout= 0.5. 最終提取的特征傳到分類器, 采用 Softmax 函數(shù)計算每個標(biāo)簽的概率。
1.2 LSTM模型
LSTM(LongShort-TermMemory,長短期記憶網(wǎng)絡(luò))是由RNN(Recurrent neural network,循環(huán)神經(jīng)網(wǎng)絡(luò))演變而來[7],但它的有效性遠(yuǎn)遠(yuǎn)大于RNN。解決了RNN數(shù)據(jù)距離較長難以收斂的問題,通過加入判斷信息是否有用的處理器有效地解決了其他神經(jīng)網(wǎng)絡(luò)的長距離依賴問題。并且在一定的程度上解決了兩大問題:RNN梯度消失及梯度爆炸,他在CNN與RNN的基礎(chǔ)上都更進了一步。
一個處理器(cell)包含遺忘門(forget gate)、輸入門(input gate)和輸出門(output gate)三扇門,如圖2所示。
遺忘門:在遺忘門連接上一個處理器ht-1的輸出,并通過在本單元輸入的xt在[ht-1,xt]內(nèi)產(chǎn)生一個[0,1]以內(nèi)的值,從而控制上一單元的遺忘程度。
輸入門:輸入門主要控制信息的輸入,輸入門通過yanh函數(shù)差生一個新的候選向量C來控制信息被加入的多少。
輸出門:輸出門控制當(dāng)前處理器有多少信息被過濾掉,先激活當(dāng)前單元,然后控制過濾的程度。
LSTM這種三門細(xì)胞的設(shè)計,使得LSTM可以記憶、更新長距離的信息,從而可以實現(xiàn)對長距離信息的處理。每扇門都利用xt和ht-1作為輸入,利用這些輸入計算一些中間狀態(tài),并將信息匯總到ht。這些門作為不同的模塊,執(zhí)行不同的功能。輸入門決定在每個輸入上增加多少信息,遺忘門決定丟棄什么信息,輸出門則根據(jù)中間狀態(tài)來進行輸出[8]。從抽象的角度來看,LSTM能更好地保存文本種測長期依賴關(guān)系,這也是LSTM在進行情感文本分析時的優(yōu)勢所在。
2.實驗與分析
2.1數(shù)據(jù)集
本文中采用(ChnSentiCorp_htl_ba_2000)公開數(shù)據(jù)集中“有關(guān)中文情感挖掘的酒店評論語料”[9]作為訓(xùn)練集與測試集,選用正負(fù)各1000的平衡語料作為數(shù)據(jù)集進行分析。數(shù)據(jù)集樣例見表 1。在這里停用詞使用的是中科院計算所中文自然語言處理開放平臺所發(fā)布的中文停用詞表,其中包含了1208個停用詞。
表 1? ?數(shù)據(jù)集樣例
2.2 數(shù)據(jù)預(yù)處理
采用Jieba分詞分別對正向語料詞匯及負(fù)向語料詞匯進行分類分詞處理。分類分詞處理結(jié)束后利用停用詞表分別對正負(fù)預(yù)料過濾停用詞。刪除評論中的無用詞、無效符號和標(biāo)點符號。取最后利用Wiki中文語料的Word2vec模型[10]將文本信息轉(zhuǎn)化為特征詞向量。
2.3 實驗結(jié)果分析
CNN、LSTM模型的正確率分別為0.82和0.856。實驗橫向?qū)Ρ攘藘煞N模型的正確率,前期數(shù)據(jù)處理后各個模型性能表現(xiàn)基本一致,充分證明了深度學(xué)習(xí)對于情感分析研究的可行性。LSTM就結(jié)果而言效果略優(yōu)于CNN模型。
3 結(jié)論
經(jīng)過上述實驗及對比分析結(jié)果表明:
①本文基于深度學(xué)習(xí)主要介紹了常見神經(jīng)網(wǎng)絡(luò)模型,比較兩個深度學(xué)習(xí)模型的差異,驗證了本文思路的正確性。
②采用分詞預(yù)處理詞向量方法進行實驗,使得詞向量質(zhì)量的提高,進而提高模型的準(zhǔn)確率。CNN模型就結(jié)果而言并不能體現(xiàn)出自身的優(yōu)勢。
③基于上述LSTM模型處理中文情感分析有較好的性能的特點,利用LSTM及其相關(guān)模型解決其他語言的情感分析,能否找到類似的模型作為下一步研究工作的重點。
參考文獻:
[1] 孟仕林,趙蘊龍.一種融合情感與語義信息的情感分析方法[J].計算機應(yīng)用,2019(9).
[2] 伍行素,陳錦回.基于LSTM深度神經(jīng)網(wǎng)絡(luò)的情感分析方法[J].上饒師范學(xué)院學(xué)報,2018(8).
[3]KIMY.ConferenceonEmpiricalMethodsinNaturalLanguageProcessing[C].Doha:ACL Press,2014:1746-1751
[4] Siwei Lai, Liheng Xu, Kang Liu, et al. Recurrent convolutional neural networks for text classification[C].
Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence, 2015: 2267-2273.
[5]SOCHERR,PERELYGINA,WUJY,etal.Seattle,WA,USA:ProceedingsofConferenceonEmpiricalMethodsinNatu- ralLanguageProcessing[C],Seattle:ACLPress,2013:1631-1642.
[6] 周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計算機學(xué)報,2017(40)1229-1251.
[7] 李楓林,柯佳.基于深度學(xué)習(xí)框架的實體關(guān)系抽取研究進展[J].情報科學(xué),2018(8).
[8] 蘆金宇.tensorflow項目實戰(zhàn)(LSTM情感分析)(2018-03-03).https://blog.csdn.net/ch1209498273.
[9] 情感分析 訓(xùn)練集數(shù)據(jù) 中文情感挖掘的酒店評論.https://download.csdn.net/download/qzwdh/9874251.
[10] 利用Python實現(xiàn)wiki中文語料的word2vec模型構(gòu)建.http://www.jianshu.com/p/ec27062bd453.
【通聯(lián)編輯:唐一東】