劉宇澤 葉青 劉建平
長(zhǎng)沙理工大學(xué)電氣與信息工程學(xué)院,長(zhǎng)沙 410114
隨著社會(huì)經(jīng)濟(jì)和旅游業(yè)的發(fā)展,游客選擇旅游景點(diǎn)時(shí)依賴于該景點(diǎn)的評(píng)論信息。評(píng)價(jià)信息既可以分析消費(fèi)者的旅游感受,又可以影響其他潛在游客的景點(diǎn)選擇,而如何有效地分析景點(diǎn)評(píng)論的情感成為了一項(xiàng)非常有意義的任務(wù)。
情感分析是指通過(guò)分析用戶形容某件事件的文本而確定用戶對(duì)該事情的看法和評(píng)估?;谥С窒蛄繖C(jī)、樸素貝葉斯、最大熵、K鄰近等傳統(tǒng)的機(jī)器學(xué)習(xí)方法都可以用來(lái)解決情感分析問(wèn)題[1]。PANG B等人[2]采用樸素貝葉斯分類的方法來(lái)計(jì)算文本的情感極性。LI D等人[3]研究了長(zhǎng)短期記憶網(wǎng)絡(luò)在文本情感分類任務(wù)中的效果。PENGHUA Z等人[4]通過(guò)結(jié)合BiGRU和注意力機(jī)制并將其應(yīng)用于情感分類任務(wù),獲得了良好的分類結(jié)果。與以往的神經(jīng)網(wǎng)絡(luò)比較,預(yù)訓(xùn)練模型在許多 NLP任務(wù)中都有較好的作用。ELMo[5]、Transformer[6]、基于轉(zhuǎn)換器的雙向編碼表征BERT[7]等豐富的預(yù)訓(xùn)練模型接踵舉出??爸救旱热薣8]將BERT與BiLSTM結(jié)合,BERT模型采用了一種特殊的調(diào)整方案,可以在學(xué)習(xí)過(guò)程中不斷地學(xué)習(xí)領(lǐng)域的知識(shí),并通過(guò)神經(jīng)網(wǎng)絡(luò)的反饋對(duì)原有的模型進(jìn)行參數(shù)的更正,在微博數(shù)據(jù)的觀點(diǎn)分析方面獲得了不錯(cuò)的成效。胡任遠(yuǎn)等人[9]提出了多層次語(yǔ)義協(xié)同模型,在不同數(shù)據(jù)集上驗(yàn)證了該模型的優(yōu)越性。上述文獻(xiàn)對(duì)語(yǔ)篇序列情感極性的研究表明,BERT模型難以對(duì)文本情感進(jìn)行多角度的分析學(xué)習(xí),在語(yǔ)句級(jí)別的文本情感分類中,BERT自身就是多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)結(jié)合易出現(xiàn)退化的問(wèn)題。
因此,本文提出一種將連結(jié)殘差網(wǎng)絡(luò)與BERT模型相結(jié)合的模型,該模型由不同維度的卷積神經(jīng)網(wǎng)絡(luò)通過(guò)殘差連接組成,可以使每一維的語(yǔ)義特點(diǎn)都包括原始文本信息,并且特征信息互不相同,再結(jié)合雙向長(zhǎng)短期記憶網(wǎng)絡(luò),從而使模型學(xué)習(xí)更全面的語(yǔ)義信息。
1.1.1 BERT模型
傳統(tǒng)的產(chǎn)生詞向量工具(如Word2vec)都是建立在淺層網(wǎng)絡(luò)模型基礎(chǔ)上,而 BERT則是將模型整合到下游工作中,并能根據(jù)具體的任務(wù)進(jìn)行改動(dòng)。BERT是一種基于雙向轉(zhuǎn)換模式的雙向轉(zhuǎn)換編碼器,它的運(yùn)算主要選取代碼模塊,如圖1所示。使用MLM遮蔽語(yǔ)言模型進(jìn)行建模,使其輸出序列能夠更完全地了解各個(gè)方面的文字信息,利于為后續(xù)的更改選取更好的參數(shù)。
1.1.2 Transformer
Transformer模型的編碼部分由多頭注意力機(jī)制(Multi-Head Attention)和一個(gè)完全連接的前向神經(jīng)網(wǎng)絡(luò)組成,兩個(gè)模塊都對(duì)數(shù)據(jù)進(jìn)行了規(guī)范化處理。為了處理神經(jīng)網(wǎng)絡(luò)的退化問(wèn)題,模型中各子模塊都加入殘差相接?;赟eq2Seq結(jié)構(gòu)的 Transformer模型,它變化了傳統(tǒng)的Encoder-Decoder結(jié)構(gòu),只使用注意力機(jī)制和完全連通的神經(jīng)網(wǎng)絡(luò),利用位置編碼和單詞內(nèi)嵌,學(xué)習(xí)了文本序列之間的位置關(guān)系,并利用多頭自注意力機(jī)制,探索文字間的語(yǔ)義,如圖2所示。
虛線為殘差連接,能使前面信息準(zhǔn)確傳送到后面一層,其中注意力的計(jì)算如式(1)和式(2)所示。
其中,注意力層的輸入為Q,K,V,通過(guò)隨機(jī)初始化來(lái)取值,歸一化函數(shù)中用來(lái)調(diào)整模型大小。
其中,W0作用使模型學(xué)習(xí)更多的特征信息,將每個(gè)head學(xué)習(xí)到的注意力矩陣進(jìn)行拼接。
1997年,HOCHREITER S等人[10]提出了一個(gè)新型網(wǎng)絡(luò)——LSTM。該網(wǎng)絡(luò)是針對(duì)RNN算法的一種改進(jìn),它可以有效地克服RNN在訓(xùn)練時(shí)的梯度消失現(xiàn)象,通過(guò)采取單元狀態(tài)和門控機(jī)制,將上一階段的數(shù)據(jù)存儲(chǔ),并將接收到的數(shù)據(jù)進(jìn)行下一步傳遞,如圖3所示。
LSTM的計(jì)算如下式所示:
其中,i、o、f分別為輸入門、輸出門和遺忘門;c記載細(xì)胞狀態(tài)的改變;t時(shí)網(wǎng)絡(luò)接收到當(dāng)前輸入xt和上一時(shí)間點(diǎn)信息向量ht-1作為3個(gè)門的輸入;it、ot、ft分別為輸入門、輸出門、遺忘門在t時(shí)間點(diǎn)計(jì)算得出。σ為非線性激活函數(shù)sigmoid();tanh為非線性激活函數(shù)tanh();圖中Wf、Wi、Wo、Wc和Uf、Ui、Uo、Uc分別為遺忘門、輸入門、輸出門和記憶細(xì)胞所對(duì)應(yīng)的權(quán)重矩陣;bf、bi、bo、bc是偏置量,通過(guò)實(shí)驗(yàn)得到。
本文在 BERT基礎(chǔ)上搭建了一個(gè)多頭殘差網(wǎng)絡(luò)模型,如圖4所示。為了克服BERT模型在情緒分析方面的不足,利用 BiLSTM來(lái)獲取上下文關(guān)系,該模型能從多個(gè)角度學(xué)習(xí)序列中的情緒特點(diǎn),并且阻止深度神經(jīng)網(wǎng)絡(luò)出現(xiàn)信息丟失的情況,最后通過(guò)特征融合,克服了由于網(wǎng)絡(luò)深度造成的梯度消失、信息丟失等問(wèn)題。本文所確立的BERT-MRN模型能夠區(qū)別情感分類問(wèn)題中的序列關(guān)系和各種程度的情感,從而更適宜于對(duì)文本情感分類。
該模型利用多個(gè)卷積核的一維卷積神經(jīng)網(wǎng)絡(luò)CNN構(gòu)成了多頭殘差結(jié)構(gòu)的語(yǔ)義學(xué)習(xí)器,能夠選擇合適數(shù)量的殘差結(jié)構(gòu),能夠更好地學(xué)習(xí)文本句子的情感特征,使用殘差連接避免了序列結(jié)構(gòu)中的深度神經(jīng)網(wǎng)絡(luò)的梯度消失。
雙向長(zhǎng)短期記憶網(wǎng)絡(luò)BiLSTM能夠兼顧全文從上至下的語(yǔ)境,把所收到的信號(hào)傳遞給兩個(gè)反向時(shí)序的 LSTM網(wǎng)絡(luò),獲得上下文的信息,再使用向量拼接獲得最后序列的隱含表達(dá)。在每個(gè)迭代進(jìn)程中,對(duì)隱藏層中的局部神經(jīng)元進(jìn)行隨機(jī)削減,從而得到一定的正則化效應(yīng),其組成如圖5所示。將E1,E2,…,En作為輸入,通過(guò)BiLSTM的正向和反向網(wǎng)絡(luò)得到hL和hR,如公式(9)和公式(10)所示:
將hL和hR進(jìn)行拼接后計(jì)算出hi(i=1, 2, …,n)。
該模型能夠從多個(gè)層面上對(duì)情緒態(tài)度進(jìn)行研究,因此,本模型能夠應(yīng)用于各種語(yǔ)料庫(kù)的情緒分類。
該模型經(jīng)過(guò)特征融合層的輸出,使用sigmoid激活函數(shù)得出需要進(jìn)行情感分類的情感極性,如式(11)所示:
其中,W為權(quán)重矩陣;b為偏置量;x為拼接后的輸出數(shù)據(jù);為 網(wǎng)絡(luò)模型的預(yù)估輸出。本文選取了反向傳播來(lái)訓(xùn)練網(wǎng)絡(luò)模型,情感分類的函數(shù)選擇交叉熵函數(shù),如式(12)所示,y為實(shí)際結(jié)果。
本文選擇旅行網(wǎng)站作為評(píng)論數(shù)據(jù)的出處,通過(guò)爬蟲爬取旅行網(wǎng)站的400個(gè)景點(diǎn)評(píng)論信息,在數(shù)據(jù)庫(kù)中整理數(shù)據(jù)集,首先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,削減評(píng)論信息中的無(wú)用評(píng)論和特有的、無(wú)意義的符號(hào),經(jīng)過(guò)預(yù)處理后得到4,000條評(píng)論,其中正向評(píng)論2,600條,負(fù)向評(píng)論1,400條。
開始先刪除中文文字?jǐn)?shù)據(jù)中的停用詞和無(wú)意義的符號(hào),然后選取情感分析方面最常見的詞來(lái)制定詞典,生成相應(yīng)的序列輸入。BERT模型中的輸入是詞向量、段向量、位置向量加權(quán)求和的矩陣。位置向量是指在不同位置出現(xiàn)的詞語(yǔ)所具備的語(yǔ)義信息(例如“風(fēng)景很好”、“很好風(fēng)景”),所以BERT模型會(huì)將其各自加入到差別的向量中,如圖6所示。
實(shí)驗(yàn)選擇控制變量法,選擇不同優(yōu)化器優(yōu)化函數(shù),使用專門針對(duì)中文的預(yù)訓(xùn)練BERT模型。通過(guò)多次比較實(shí)驗(yàn),發(fā)現(xiàn)取表1參數(shù)時(shí),BERTMRN分類能力最好。
表1 參數(shù)設(shè)置
本文采用的評(píng)估指標(biāo)包括:精確率、召回率、F1分?jǐn)?shù)。其中精確率是表示預(yù)測(cè)為正的樣本中實(shí)際的正樣本的數(shù)量所占比例,召回率是實(shí)際為正的樣本被判斷為正樣本的比例。文中將綜合度量指數(shù)F1作為評(píng)估模型的一個(gè)評(píng)估準(zhǔn)則,如下方公式(13)~公式(15)所示:
其中,TP(True Positive)表示正樣本判定為正的個(gè)數(shù);FP(False Positive)表示負(fù)樣本判定為正的個(gè)數(shù);FN(False Negative)表示正樣本判定為負(fù)的個(gè)數(shù)。
通過(guò)對(duì)預(yù)處理后的景點(diǎn)評(píng)論進(jìn)行中文文本情感分析,在不同種模型的對(duì)比試驗(yàn)中,驗(yàn)證本文方法的可行性,實(shí)驗(yàn)結(jié)果如表2所示。
表2 對(duì)比試驗(yàn)
本文模型能夠較好地分析景點(diǎn)評(píng)論的情感極性,在對(duì)比傳統(tǒng)模型和BERT模型中,均有不錯(cuò)的表現(xiàn)。其中對(duì)比BERT模型,F(xiàn)1分?jǐn)?shù)增加了8個(gè)百分點(diǎn)。
同時(shí),本文對(duì)MRN中的殘差結(jié)構(gòu)進(jìn)行對(duì)比選擇實(shí)驗(yàn),如圖7所示。分別使用雙殘差、三殘差和四殘差結(jié)構(gòu)進(jìn)行實(shí)驗(yàn),其中,三殘差結(jié)構(gòu)的F1分?jǐn)?shù)最高,得出殘差結(jié)構(gòu)多會(huì)使模型的時(shí)間成本變多,模型分類效果不會(huì)有明顯增加,而殘差結(jié)構(gòu)少會(huì)影響模型的分類結(jié)果的可靠性,故本文選取三殘差結(jié)構(gòu)來(lái)提取評(píng)論情感特征。
本文介紹了BERT模型和BiLSTM,針對(duì)景點(diǎn)情感分析領(lǐng)域中深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型BERT與傳統(tǒng)網(wǎng)絡(luò)結(jié)合容易出現(xiàn)網(wǎng)絡(luò)退化的問(wèn)題,提出了多頭殘差網(wǎng)絡(luò)模型。通過(guò)和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型以及一部分基于遷移學(xué)習(xí)思想的模型在情感分類任務(wù)中比較,驗(yàn)證了BERT-MRN模型具備不錯(cuò)的情感分類能力,能夠更好地分析景點(diǎn)評(píng)論情感,在景點(diǎn)推薦領(lǐng)域有好的應(yīng)用價(jià)值,對(duì)于游客選擇景點(diǎn)出行有著輔助意義。本文研究的實(shí)驗(yàn)內(nèi)容主要指二分類問(wèn)題,后續(xù)要針對(duì)多分類問(wèn)題進(jìn)一步探究該模型的適用性。