周孝輝
【摘要】? ? 近些年中國電影市場飛速發(fā)展,僅2021年春節(jié)檔電影票房就破百億,國內(nèi)用戶選擇影片觀影時會參考豆瓣電影評分,也會表發(fā)影評并打分,由于智能手機的普及,人們大多習慣在各類手機APP或者網(wǎng)站上發(fā)表評論,這類評論多為短文本,本文旨在通過對影評的情感分析,結(jié)合用戶對電影的評分計算出一個更符合用戶真實想法的電影評分。該評分可以供用戶和影院參考,協(xié)助其做出觀影決策和排片。相比傳統(tǒng)CNN模型,膠囊網(wǎng)絡(luò)在小型數(shù)據(jù)集上可以取得更好的效果,并且有更好的魯棒性以及擬合特征能力。我們先用網(wǎng)絡(luò)爬蟲技術(shù)爬取豆瓣影評數(shù)據(jù)并進行預處理,然后將處理好的數(shù)據(jù)輸入到ALBERT層進行序列化,再將ALBERT層輸出的文本特征分別輸入到Bi-GRU層和膠囊網(wǎng)絡(luò)層獲取句子全局特征和局部特征并進行特征融合,再經(jīng)過全連接層進行線性降維,然后將全連接層的輸出結(jié)果輸入到Softmax層進行分類得到對應情感類別,最后結(jié)合電影的星級評分計算電影的綜合評分。
【關(guān)鍵字】? ? 短文本? ? 情感分析? ? Bi-GRU? ? 膠囊網(wǎng)絡(luò)
引言:
情感分析,也稱為觀點挖掘、意見挖掘、極性分類,本質(zhì)上是一個情感分類問題,主要研究人們對實體的看法、態(tài)度和情感,是自然語言處理領(lǐng)域中的一個重要研究方向。傳統(tǒng)的情感分析方法主要是基于機器學習,需要復雜的特征工程,且泛化能力較差,近年來崛起的深度學習方法很好的彌補了基于機器學習方法的缺陷,成為了情感分析的主流方法。
主流的深度學習方法,大多基于CNN模型或者RNN模型,存在著諸多不足:CNN獲取信息能力取決于卷積核窗口長度,捕獲能力有限,且不能學習上下文信息;RNN容易出現(xiàn)梯度消失或者梯度爆炸現(xiàn)象。由于這些原因,膠囊網(wǎng)絡(luò)(Capsule Network)、長短期記憶網(wǎng)絡(luò)(LSTM)、門控循環(huán)單元(GRU)、雙向長短期記憶網(wǎng)絡(luò)(Bi-LSTM)等變體開始流行。本文提出一種基于深度學習的短文本情感分析方法。
一、模型結(jié)構(gòu)
情感分析屬于自然語言處理領(lǐng)域,本文提出的模型結(jié)構(gòu)如圖1所示,主要分為以下模塊:
1.文本預處理模塊:通過網(wǎng)絡(luò)爬蟲技術(shù)爬取豆瓣影評T,進行清洗和預處理操作使文本結(jié)構(gòu)化得到數(shù)據(jù)T1,預處理操作包括去特殊符號、去英文、去數(shù)字、去停用詞和中文分詞。
2.詞向量嵌入模塊:使用預訓練好的ALBERT模型對結(jié)構(gòu)化數(shù)據(jù)進行序列化,得到文本對應的序列S。
3.征提取模塊:包括Bi-GRU層、膠囊網(wǎng)絡(luò)層和特征融合層,其中Bi-GRU層提取文本的全局特征,將序列S分別輸入前向GRU層和后向GRU層中進行訓練得到向量表示和,將兩者疊加得到向量F1;膠囊網(wǎng)絡(luò)層用于提取文本的局部特征,將序列S輸入到膠囊網(wǎng)絡(luò)層,使用動態(tài)路由算法進行特征提取,得到特征向量F2;特征融合層,將特征向量F1和F2向量進行特征融合,得到新的特征向量F3。
4.全連接層:用于將上一層輸出F3全連接至本層的輸出神經(jīng)元,輸出一個特征向量V。
5.Softmax分類層:用于將全連接層輸出的特征向量V進行歸一化,得到文本對應每一類的概率矩陣M,M的最大值索引即文本對應的情感標簽,包括好評,中評和差評,分別對應數(shù)值“5”,“3”和“1”。
6.輸出層:綜合用戶對影片的評分和文本對應的情感標簽對影片進行評價,用戶對影片的打分為X1,如果評分缺失設(shè)定X1為0,基于情感分析的影評評分為X2,影片的最終評分計算公式如下:
二、算法介紹
2.1 文本預處理
2.1.1網(wǎng)絡(luò)爬蟲
網(wǎng)絡(luò)爬蟲技術(shù),也叫爬蟲程序,是自動搜索并下載互聯(lián)網(wǎng)資源的程序或腳本。通??梢苑譃樗念悾褐黝}網(wǎng)絡(luò)爬蟲、通用網(wǎng)絡(luò)爬蟲、增量式爬蟲和深層網(wǎng)絡(luò)爬蟲。本方法使用的主題爬蟲能只抓取預定義主題相關(guān)的頁面,避免了無效信息的干擾。
網(wǎng)絡(luò)爬蟲可以用JAVA、PHP、Python等各種語言實現(xiàn),由于Python擁有腳本語言中最豐富的類庫,我們使用Python的Selenium庫模擬主流瀏覽器的運行,實現(xiàn)模擬登陸、自動翻頁,自動點擊等交互操作。
2.1.2去停用詞
文本中存在著大量與文章主題無關(guān)的字母、標點、助詞等,如“你”、“了”、“的”等,進行預處理時將這些刪除以免對文本分類結(jié)果造成影響。
2.1.3中文分詞
詞對于中文來說是表示語義的最小單元,和英文用空格隔開不同,詞與詞之間沒有天然分隔,對于計算機理解較困難,分詞尤為重要。我們選用的jieba分詞工具,是一種免費開源的分詞工具,支持精確模式、全模式和搜索引擎模式三種分詞模式:精確模式, 試圖將句子最精確地切開,適合文本分析;全模式,把句子中所有的可以成詞的詞語都掃描出來,速度非??欤遣荒芙鉀Q歧義;搜索引擎模式,在精確模式的基礎(chǔ)上,對長詞再詞切分,提高召回率,適合用于搜索引擎分詞。
2.2 ALBERT
常用的Word2Vec模型只考慮了文本的局部信息,Pennington等為了克服其缺陷提出的Glove模型,雖然同時考慮了局部與整體信息,但本質(zhì)上仍然是靜態(tài)的詞向量,舍棄了大量的位置信息。Devlin等人2018年提出的BERT(Bidirectional Encoder Representations from Transformers)是一種動態(tài)詞嵌入技術(shù),在NLP領(lǐng)域的11個方向大幅刷新了精度,但是其所需訓練時間較長,會導致內(nèi)存不足等問題。
ALBERT(A Lite BERT)模型是基于BERT模型的一種輕量級預訓練語言模型,其和BERT一樣采用雙向Transformer獲取文本特征表示,但通過嵌入層參數(shù)因式分解和跨層參數(shù)共享大幅減少了模型參數(shù),降低了訓練時的內(nèi)存開銷并提升了訓練速度。
2.3 Bi-GRU
RNN(Recurrent Neural Network)容易出現(xiàn)梯度消失或者梯度爆炸現(xiàn)象,LSTM(Long Short-Term Memory)和Bi-GRU(Bidirectional Gated Recurrent Unit)通過引入門控機制緩解了這兩個問題。GRU相較LSTM只有更新門zt和重置門rt兩個門控單元,模型訓練時間更短。
本方法使用的Bi-GRU,是一種雙向的基于門控的循環(huán)神經(jīng)網(wǎng)絡(luò),由前向GRU和后向GRU組成,通過兩個方向遍歷文本,得到包含文本上下文的信息,解決了GRU模型只能包含上文信息的問題,同時速度相比其他序列模型有一定提升。
2.4 膠囊網(wǎng)絡(luò)
2011年Hinton等首次提出膠囊網(wǎng)絡(luò)的概念,其用向量膠囊代替卷積神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元、動態(tài)路由機制代替池化操作、Squash函數(shù)代替ReLU激活函數(shù),在圖像識別領(lǐng)域取得了很好的效果。
近年來,人們開始嘗試將膠囊網(wǎng)絡(luò)用于自然語言處理領(lǐng)域,并逐步取得不錯的效果,本方法中膠囊網(wǎng)絡(luò)的動態(tài)路由算法可以動態(tài)學習神經(jīng)網(wǎng)絡(luò)層之間的關(guān)系并保留句子中出現(xiàn)概率較小的語義特征,保證特征信息的完整性,且其相比CNN有更好的魯棒性以及擬合特征能力。
三、結(jié)束語
本文提出了一種基于深度學習的短文本情感分析方法,本方法使用ALBERT預訓練的動態(tài)詞向量代替?zhèn)鹘y(tǒng)的靜態(tài)詞向量,提升了詞向量的表征能力,為之后的分類奠定了很好的基礎(chǔ),很大程度上提高了分類的準確性;本文使用Bi-GRU負責全局特征提取,相比常用的單層或者雙層神經(jīng)網(wǎng)絡(luò)可以得到更好的效果;本文使用膠囊網(wǎng)絡(luò)負責局部特征提取,保證特征信息的完整性,速度和魯棒性相比傳統(tǒng)方法有一定提高。
參? 考? 文? 獻
[1] Pawe? Cichosz. A Case Study in Text Mining of Discussion Forum Posts: Classification with Bag of Words and Global Vectors[J]. International Journal of Applied Mathematics and Computer Science,2018,28(4).
[2] LAN Z,CHEN M,GOODMAN S,et al.ALBERT:a lite BERT for self-supervised learning of language representation.
[3]冀文光. 基于Attention-Based Bi-GRU模型的文本分類方法研究[D].電子科技大學,2019.
[4]薛煒明,侯霞,李寧.一種基于word2vec的文本分類方法[J].北京信息科技大學學報(自然科學版),2018,33(01):71-75.