基于深度學習的短文本情感分析

2021-08-04 21:51周孝輝

中國新通信 2021年8期

周孝輝

【摘要】? ? 近些年中國電影市場飛速發(fā)展，僅2021年春節(jié)檔電影票房就破百億，國內(nèi)用戶選擇影片觀影時會參考豆瓣電影評分，也會表發(fā)影評并打分，由于智能手機的普及，人們大多習慣在各類手機APP或者網(wǎng)站上發(fā)表評論，這類評論多為短文本，本文旨在通過對影評的情感分析，結(jié)合用戶對電影的評分計算出一個更符合用戶真實想法的電影評分。該評分可以供用戶和影院參考，協(xié)助其做出觀影決策和排片。相比傳統(tǒng)CNN模型，膠囊網(wǎng)絡(luò)在小型數(shù)據(jù)集上可以取得更好的效果，并且有更好的魯棒性以及擬合特征能力。我們先用網(wǎng)絡(luò)爬蟲技術(shù)爬取豆瓣影評數(shù)據(jù)并進行預處理，然后將處理好的數(shù)據(jù)輸入到ALBERT層進行序列化，再將ALBERT層輸出的文本特征分別輸入到Bi-GRU層和膠囊網(wǎng)絡(luò)層獲取句子全局特征和局部特征并進行特征融合，再經(jīng)過全連接層進行線性降維，然后將全連接層的輸出結(jié)果輸入到Softmax層進行分類得到對應情感類別，最后結(jié)合電影的星級評分計算電影的綜合評分。

【關(guān)鍵字】? ? 短文本? ? 情感分析? ? Bi-GRU? ? 膠囊網(wǎng)絡(luò)

引言：

情感分析，也稱為觀點挖掘、意見挖掘、極性分類，本質(zhì)上是一個情感分類問題，主要研究人們對實體的看法、態(tài)度和情感，是自然語言處理領(lǐng)域中的一個重要研究方向。傳統(tǒng)的情感分析方法主要是基于機器學習，需要復雜的特征工程，且泛化能力較差，近年來崛起的深度學習方法很好的彌補了基于機器學習方法的缺陷，成為了情感分析的主流方法。

主流的深度學習方法，大多基于CNN模型或者RNN模型，存在著諸多不足：CNN獲取信息能力取決于卷積核窗口長度，捕獲能力有限，且不能學習上下文信息;RNN容易出現(xiàn)梯度消失或者梯度爆炸現(xiàn)象。由于這些原因，膠囊網(wǎng)絡(luò)（Capsule Network）、長短期記憶網(wǎng)絡(luò)（LSTM）、門控循環(huán)單元（GRU）、雙向長短期記憶網(wǎng)絡(luò)（Bi-LSTM）等變體開始流行。本文提出一種基于深度學習的短文本情感分析方法。

一、模型結(jié)構(gòu)

情感分析屬于自然語言處理領(lǐng)域，本文提出的模型結(jié)構(gòu)如圖1所示，主要分為以下模塊：

1.文本預處理模塊：通過網(wǎng)絡(luò)爬蟲技術(shù)爬取豆瓣影評T，進行清洗和預處理操作使文本結(jié)構(gòu)化得到數(shù)據(jù)T1，預處理操作包括去特殊符號、去英文、去數(shù)字、去停用詞和中文分詞。

2.詞向量嵌入模塊：使用預訓練好的ALBERT模型對結(jié)構(gòu)化數(shù)據(jù)進行序列化，得到文本對應的序列S。

3.征提取模塊：包括Bi-GRU層、膠囊網(wǎng)絡(luò)層和特征融合層，其中Bi-GRU層提取文本的全局特征，將序列S分別輸入前向GRU層和后向GRU層中進行訓練得到向量表示和，將兩者疊加得到向量F1;膠囊網(wǎng)絡(luò)層用于提取文本的局部特征，將序列S輸入到膠囊網(wǎng)絡(luò)層，使用動態(tài)路由算法進行特征提取，得到特征向量F2;特征融合層，將特征向量F1和F2向量進行特征融合，得到新的特征向量F3。

4.全連接層：用于將上一層輸出F3全連接至本層的輸出神經(jīng)元，輸出一個特征向量V。

5.Softmax分類層：用于將全連接層輸出的特征向量V進行歸一化，得到文本對應每一類的概率矩陣M，M的最大值索引即文本對應的情感標簽，包括好評，中評和差評，分別對應數(shù)值“5”，“3”和“1”。

6.輸出層：綜合用戶對影片的評分和文本對應的情感標簽對影片進行評價，用戶對影片的打分為X1，如果評分缺失設(shè)定X1為0，基于情感分析的影評評分為X2，影片的最終評分計算公式如下：

二、算法介紹

2.1 文本預處理

2.1.1網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲技術(shù)，也叫爬蟲程序，是自動搜索并下載互聯(lián)網(wǎng)資源的程序或腳本。通?？梢苑譃樗念悾褐黝}網(wǎng)絡(luò)爬蟲、通用網(wǎng)絡(luò)爬蟲、增量式爬蟲和深層網(wǎng)絡(luò)爬蟲。本方法使用的主題爬蟲能只抓取預定義主題相關(guān)的頁面，避免了無效信息的干擾。

網(wǎng)絡(luò)爬蟲可以用JAVA、PHP、Python等各種語言實現(xiàn)，由于Python擁有腳本語言中最豐富的類庫，我們使用Python的Selenium庫模擬主流瀏覽器的運行，實現(xiàn)模擬登陸、自動翻頁，自動點擊等交互操作。

2.1.2去停用詞

文本中存在著大量與文章主題無關(guān)的字母、標點、助詞等，如“你”、“了”、“的”等，進行預處理時將這些刪除以免對文本分類結(jié)果造成影響。

2.1.3中文分詞

詞對于中文來說是表示語義的最小單元，和英文用空格隔開不同，詞與詞之間沒有天然分隔，對于計算機理解較困難，分詞尤為重要。我們選用的jieba分詞工具，是一種免費開源的分詞工具，支持精確模式、全模式和搜索引擎模式三種分詞模式：精確模式，試圖將句子最精確地切開，適合文本分析;全模式，把句子中所有的可以成詞的詞語都掃描出來，速度非?？欤遣荒芙鉀Q歧義;搜索引擎模式，在精確模式的基礎(chǔ)上，對長詞再詞切分，提高召回率，適合用于搜索引擎分詞。

2.2 ALBERT

常用的Word2Vec模型只考慮了文本的局部信息，Pennington等為了克服其缺陷提出的Glove模型，雖然同時考慮了局部與整體信息，但本質(zhì)上仍然是靜態(tài)的詞向量，舍棄了大量的位置信息。Devlin等人2018年提出的BERT（Bidirectional Encoder Representations from Transformers）是一種動態(tài)詞嵌入技術(shù)，在NLP領(lǐng)域的11個方向大幅刷新了精度，但是其所需訓練時間較長，會導致內(nèi)存不足等問題。

ALBERT（A Lite BERT）模型是基于BERT模型的一種輕量級預訓練語言模型，其和BERT一樣采用雙向Transformer獲取文本特征表示，但通過嵌入層參數(shù)因式分解和跨層參數(shù)共享大幅減少了模型參數(shù)，降低了訓練時的內(nèi)存開銷并提升了訓練速度。

2.3 Bi-GRU

RNN（Recurrent Neural Network）容易出現(xiàn)梯度消失或者梯度爆炸現(xiàn)象，LSTM（Long Short-Term Memory）和Bi-GRU（Bidirectional Gated Recurrent Unit）通過引入門控機制緩解了這兩個問題。GRU相較LSTM只有更新門zt和重置門rt兩個門控單元，模型訓練時間更短。

本方法使用的Bi-GRU，是一種雙向的基于門控的循環(huán)神經(jīng)網(wǎng)絡(luò)，由前向GRU和后向GRU組成，通過兩個方向遍歷文本，得到包含文本上下文的信息，解決了GRU模型只能包含上文信息的問題，同時速度相比其他序列模型有一定提升。

2.4 膠囊網(wǎng)絡(luò)

2011年Hinton等首次提出膠囊網(wǎng)絡(luò)的概念，其用向量膠囊代替卷積神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元、動態(tài)路由機制代替池化操作、Squash函數(shù)代替ReLU激活函數(shù)，在圖像識別領(lǐng)域取得了很好的效果。

近年來，人們開始嘗試將膠囊網(wǎng)絡(luò)用于自然語言處理領(lǐng)域，并逐步取得不錯的效果，本方法中膠囊網(wǎng)絡(luò)的動態(tài)路由算法可以動態(tài)學習神經(jīng)網(wǎng)絡(luò)層之間的關(guān)系并保留句子中出現(xiàn)概率較小的語義特征，保證特征信息的完整性，且其相比CNN有更好的魯棒性以及擬合特征能力。

三、結(jié)束語

本文提出了一種基于深度學習的短文本情感分析方法，本方法使用ALBERT預訓練的動態(tài)詞向量代替?zhèn)鹘y(tǒng)的靜態(tài)詞向量，提升了詞向量的表征能力，為之后的分類奠定了很好的基礎(chǔ)，很大程度上提高了分類的準確性;本文使用Bi-GRU負責全局特征提取，相比常用的單層或者雙層神經(jīng)網(wǎng)絡(luò)可以得到更好的效果;本文使用膠囊網(wǎng)絡(luò)負責局部特征提取，保證特征信息的完整性，速度和魯棒性相比傳統(tǒng)方法有一定提高。

參? 考? 文? 獻

[1] Pawe? Cichosz. A Case Study in Text Mining of Discussion Forum Posts： Classification with Bag of Words and Global Vectors[J]. International Journal of Applied Mathematics and Computer Science，2018，28（4）.

[2] LAN Z，CHEN M，GOODMAN S，et al.ALBERT：a lite BERT for self-supervised learning of language representation.

[3]冀文光. 基于Attention-Based Bi-GRU模型的文本分類方法研究[D].電子科技大學，2019.

[4]薛煒明，侯霞，李寧.一種基于word2vec的文本分類方法[J].北京信息科技大學學報（自然科學版），2018，33（01）：71-75.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度學習的短文本情感分析