基于深度學(xué)習(xí)的商品評論情感分類

2019-12-19 02:07嚴(yán)鵬

軟件 2019年11期

嚴(yán)鵬

摘? 要：近年來，隨著互聯(lián)網(wǎng)技術(shù)的進步，我國電子商務(wù)也有了快速的發(fā)展，越來越多的人選擇網(wǎng)絡(luò)購物，顧客利用互聯(lián)網(wǎng)平臺對所購產(chǎn)品進行文字評價或數(shù)字評分已成為一種常態(tài)。商品評論的情感分類是獲取顧客對該商品直接反饋的一個重要方式?，F(xiàn)階段，在情感分類研究中最常用的是基于機器學(xué)習(xí)和情感詞典的傳統(tǒng)方法，但這些方法都存在一些不足之處。因此，本文主要采用深度學(xué)習(xí)中的LSTM網(wǎng)絡(luò)對某品牌電視的評論進行模型構(gòu)建與數(shù)據(jù)分析，并與基于機器學(xué)習(xí)的SVM方法進行對比分析。

關(guān)鍵詞：情感分類;商品評論;深度學(xué)習(xí);LSTM;Word Embedding

【Abstract】： In recent years， with the progress of Internet technology， China's e-commerce has also had a rapid development， more and more people choose shopping network， customers using the Internet platform to buy products for text evaluation or digital score has become a normal. Emotional classification of product reviews is an important way to obtain customers' direct feedback on the product. At present， the traditional methods based on machine learning and emotion dictionary are most commonly used in the research of emotion classification， but these methods have some shortcomings. Therefore， this paper mainly USES LSTM network in deep learning to conduct model construction and data analysis on the comments of a certain brand of TV， and conducts comparative analysis with SVM method based on machine learning.

【Key words】： Emotional classification; Product reviews; Deep learning; LSTM; Word embedding

0? 引言

情感分類又稱做觀點挖掘，其研究目標(biāo)就是分析文本中人們對所評論事物（如產(chǎn)品，服務(wù)，時事話題等）的情感、觀點或者具體態(tài)度。情感分類在成為自然語言處理中的一個研究主題后，迅速成為了熱點研究領(lǐng)域[1-3]。情感分類作為一種特殊的分類問題，既有一般模式分類的共性問題，也有其特殊性，如情感信息表達的隱蔽性、多義性和極性不明顯等。針對這些問題人們做了大量研究，提出了很多分類方法。這些方法主要按機器學(xué)習(xí)方法歸類與按情感詞典方法劃分[4]。

基于機器學(xué)習(xí)的方法[5]中，根據(jù)所使用訓(xùn)練樣本的標(biāo)注情況，情感文本分類可以大致分為有監(jiān)督學(xué)習(xí)方法、半監(jiān)督學(xué)習(xí)方法和無監(jiān)督學(xué)習(xí)方法三類?；谟斜O(jiān)督學(xué)習(xí)的情感分類方法使用機器學(xué)習(xí)方法來訓(xùn)練大量標(biāo)注樣本?；诎氡O(jiān)督學(xué)習(xí)的情感分類方法是通過在少量標(biāo)注樣本上訓(xùn)練，并在大量未標(biāo)注樣本上進行學(xué)習(xí)的方式構(gòu)建分類模型。基于無監(jiān)督學(xué)習(xí)的情感分類方法是指僅使用非標(biāo)注樣本進行情感分類建模。

基于詞典的方法[6]主要通過制定一系列的情感詞典和規(guī)則，對文本進行拆句、分析及匹配詞典（一般有詞性分析，句法依存分析）來計算情感值，最后通過情感值來作為文本的情感傾向判斷的依據(jù)。

除了基于機器學(xué)習(xí)和詞典的傳統(tǒng)方法，基于深度學(xué)習(xí)的方法也是近期學(xué)者的研究方向，并被廣泛應(yīng)用于情感分類任務(wù)中。

電子商務(wù)網(wǎng)站的商品評論數(shù)據(jù)豐富，情感特征較為明顯。以商品評論文本為對象，進行情感分類既有現(xiàn)實基礎(chǔ)，也有積極的應(yīng)用前景[7-13]。情感分類應(yīng)用于商品評論的主要任務(wù)是識別出用戶的評論文本所流露的情感信息。通過識別出的情感信息，我們能有效判別該商品在顧客心中的喜好，并可以借此推斷出該商品的優(yōu)劣。

根據(jù)文本的粒度不同，文本的情感分類可以被分成篇章級別情感分類、句子級別情感分類以及詞語級別情感分類三種[14-16]。本文主要針對句子級別情感分類，并且采用基于深度學(xué)習(xí)的LSTM（Long Short-Term Memory，長短期記憶）方法來進行情感分類。

1? 相關(guān)工作

1.1? Word Embedding

Word embedding（詞嵌入）[17]是NLP（自然語言處理）中一組語言模型（language modeling）和特征學(xué)習(xí)技術(shù)（feature learning techniques）的總稱，這些技術(shù)會把詞匯表中的單詞或者短語映射成由實數(shù)構(gòu)成的向量上。

Word embedding具體獲取的方式有兩種：

（1）在神經(jīng)網(wǎng)絡(luò)中添加embedding層去學(xué)習(xí)word embedding，它是在詞向量之間反映出語義關(guān)系，將人類自然語言映射到幾何空間中。

另一種方式是利用預(yù)訓(xùn)練的word embedding，尤其是適用于擁有少量的訓(xùn)練數(shù)據(jù)的情況下，重利用在復(fù)雜問題上學(xué)習(xí)到的特征應(yīng)用到自己的任務(wù)中，這是一種簡單而有效的方法。我們在預(yù)訓(xùn)練中采用已有的word embedding預(yù)計算的數(shù)據(jù)庫，例如，word2vec[18]，Glove。目前，最常用的是Google開源的Word2Vec，用高維的向量來表示詞語，并把具有相近意思的詞語放在相近的位置，且固定詞向量的維度，就可以通過實數(shù)向量來訓(xùn)練模型，以此獲得詞語的詞向量表示。具體來說，Word2Vec中涉及到了兩種算法，一個是CBOW，一個是Skip- Gram[19-20]。

二者模型如圖1、2所示。

1.2? LSTM （Long Short-Term Memory）

由S.Hochreiter等[21]提出的長短時記憶神經(jīng)網(wǎng)絡(luò)LSTM是一種時間遞歸神經(jīng)網(wǎng)絡(luò)，可以解決較長的序列數(shù)據(jù)，主要是為了解決長序列訓(xùn)練過程中的梯度消失和梯度爆炸問題。簡單來說，就是相比普通的RNN，LSTM能夠在更長的序列中有更好的表現(xiàn)。LSTM解決了RNN[22]的長期依賴問題，其特點是在RNN各層結(jié)構(gòu)單元中添加了輸入門、遺忘門和輸出門等閘門[23]。LSTM結(jié)構(gòu)如圖3所示。

三個控制閥門組成了LSTM的基本單元，稱為cell，下圖是LSTM神經(jīng)網(wǎng)絡(luò)一個單元的基本結(jié)構(gòu)，其中fn表示遺忘門，in表示輸入門，on表示輸出門，hn表示當(dāng)前單元狀態(tài)。

LSTM神經(jīng)網(wǎng)絡(luò)cell的基本結(jié)構(gòu)如圖4所示。

其中表示函數(shù)，作用于三個門上，其輸出為[0，1]，每個值表示對應(yīng)的部分信息是否應(yīng)該通過。0值表示不允許信息通過，1值表示讓所有信息通過。而函數(shù)用在了狀態(tài)和輸出。為權(quán)重，如為遺忘門對應(yīng)的上一時態(tài)輸出信息的權(quán)重，表示偏置。

2? 模型

2.1? 文本獲取

本文以京東網(wǎng)站上某品牌電視評論作為數(shù)據(jù)集來進行情感分類[24]。通過從京東網(wǎng)站爬取用戶評論文本，并使用人工標(biāo)注的方法將文本進行初步情感分類。在本模型中，情感分為正面情感和負(fù)面情感兩類。在標(biāo)注成功之后將文本分成兩部分，一部分為訓(xùn)練數(shù)據(jù)集，一部分為測試數(shù)據(jù)集，其中訓(xùn)練數(shù)據(jù)集用于訓(xùn)練模型，測試數(shù)據(jù)集用于測試模型。本文共收集4283條評論。樣例如表1、2所示。

2.2? 文本分析

評論文本標(biāo)注之后，對文本進行數(shù)據(jù)分析，研究其情感分布和評論句子長度分布。其中正面情感評論1908條，負(fù)面情感評論2375條，由此可看出數(shù)據(jù)集中正負(fù)情感分類數(shù)目相差不多。

句子長度及出現(xiàn)頻數(shù)統(tǒng)計如圖5所示。

句子長度累積分布函數(shù)如圖6所示。

從上圖中可以看出，大多數(shù)樣本的句子長度集中在1-200之間。因此，句子長度累計頻率取0.91分位點，則長度為183左右。

2.3? 模型構(gòu)建

Keras提供了一個嵌入層，適用于文本數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)，這個嵌入層就是embedding層。它是一個靈活的圖層，可以以多種方式使用，本文將它用作深度學(xué)習(xí)模型的一部分，將該層嵌入于模型本身一起學(xué)習(xí)。數(shù)據(jù)經(jīng)過embedding層之后就方便地轉(zhuǎn)換為了可以由LSTM進一步處理的格式，且經(jīng)過embedding層處理后，數(shù)據(jù)進行了一定程度的降維，由此加快了模型的數(shù)據(jù)處理速度。

使用embedding層+LSTM網(wǎng)絡(luò)+Softmax函數(shù)構(gòu)建模型。

將embedding層添加到模型中進行數(shù)據(jù)集的詞向量生成。

生成詞向量后，搭建LSTM網(wǎng)絡(luò)，將已經(jīng)得到的詞向量通過LSTM網(wǎng)絡(luò)進行文本的特征提取。

最后將LSTM網(wǎng)絡(luò)提取出的文本特征使用softmax函數(shù)進行預(yù)測，得出最終結(jié)果。

3? 實驗與結(jié)果分析

我們將數(shù)據(jù)集分為訓(xùn)練集和測試集，其中訓(xùn)練集和測試集的比例為9∶1。訓(xùn)練集用于訓(xùn)練LSTM模型，測試集用于測試模型的分類效果。使用訓(xùn)練集將LSTM模型訓(xùn)練5次，可以看出，該模型在訓(xùn)練集上的準(zhǔn)確率在95%以上。隨后，使用訓(xùn)練好的LSTM模型對測試集進行測試。

本次實驗還與基于機器學(xué)習(xí)的SVM方法進行對比。本實驗采用的評估分類模型的主要指標(biāo)為模型分類的準(zhǔn)確率，具體計算公式如下：

其中，a表示情感分類模型判斷文本類別正確的數(shù)目;b表示情感分類模型判斷錯誤將本不屬于此類的文本分到本類別的數(shù)目。實驗結(jié)果如表3所示。

上表中可以輕易看出使用Embedding+LSTM的深度學(xué)習(xí)模型的準(zhǔn)確率明顯要高于基于傳統(tǒng)機器學(xué)習(xí)的SVM模型。采用基于機器學(xué)習(xí)的方法由于需要進行特征的選擇和降維操作仍需要較大的工作量，由此可以證實本文提出的LSTM模型對商品評論的情感分類具有較好的實用性和較高的準(zhǔn)確性。

4? 總結(jié)

本次實驗主要采用將embedding層嵌入LSTM神經(jīng)網(wǎng)絡(luò)的方法來構(gòu)建LSTM模型。該模型較于傳統(tǒng)情感詞典和機器學(xué)習(xí)方法有很大優(yōu)勢，克服了傳統(tǒng)情感詞典方法的領(lǐng)域詞典不足的情況，也不用人為的提取特征，在訓(xùn)練結(jié)果上也得到了很大的提升，這也證明了該模型的可行性。由于條件限制，本文主要使用LSTM網(wǎng)絡(luò)進行模型構(gòu)建，以此對文本情感分類，尚未與其余基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型進行研究和對比實驗。在未來的工作中，可以圍繞這一點進行展開研究。

參考文獻

[1]王仲遠，程健鵬，王海勛，文繼榮. 短文本理解研究[J]. 計算機研究與發(fā)展， 2016， 53（02）： 262-269.

[2]耿斌. 在線評論對用戶購買行為的影響研究[D]. 南京：南京大學(xué)， 2019.

[3]左梅，荊曉遠. 基于深度記憶網(wǎng)絡(luò)的特定目標(biāo)情感分類[J]. 計算機應(yīng)用究： 2019-07-3， 1-6.

[4]PANDARACHALILR， SENDHILKUMA RS， MAHALAK SHMI G. Twitter sentiment analysis for large-scale data： an unsupervised approach[J]. Cognitive Computation， 2015， 7（2）： 254-262.

[5]PANG B， LEE L， VAITHYANATHAN S. Thumbs up？： sentiment classification using machine learning techni ques[C]. Proceedings of the 2002 Empirical Methods in Natural Language Processing. Cambridge， MA： MIT Press， 2002： 79-86.

[6]Lunwei Ku， Tungho Wu， Liying Lee， et al. Construction of an Evaluation Corpus for Opinion Extraction[C]. NTCIR-5 Japan 2005： 513-520.

[7]張紫瓊，葉強，李一軍. 互聯(lián)網(wǎng)商品評論情感分析研究綜述[J]. 管理科學(xué)學(xué)報， 2010， 13（06）： 84-96.

[8]葉強，張紫瓊，羅振雄. 面向互聯(lián)網(wǎng)評論情感分析的中文主觀性自動判別方法研究[J]. 信息系統(tǒng)學(xué)報， 2007（01）： 79-91.

[9]陸文星，王燕飛. 中文文本情感分析研究綜述[J]. 計算機應(yīng)用研究， 2012， 29（06）： 2014-2017.

[10]趙妍妍，秦兵，劉挺. 文本情感分析[J]. 軟件學(xué)報， 2010， 21（08）： 1834-1848.

[11]周立柱，賀宇凱，王建勇. 情感分析研究綜述[J]. 計算機應(yīng)用， 2008（11）： 2725-2728.

[12]謝法舉，劉臣，唐莉. 在線評論情感分析研究綜述[J]. 軟件導(dǎo)刊， 2018， 17（02）： 1-4+7.

[13]靳文利，張建. 電子商務(wù)對傳統(tǒng)企業(yè)的影響及對策[J]. 軟件， 2015， 36（6）： 158-162.

[14]張英. 基于深度神經(jīng)網(wǎng)絡(luò)的微博短文本情感分析研究[D]. 鄭州：中原工學(xué)院， 2017.

[15]江周峰，楊俊，鄂海紅. 結(jié)合社會化標(biāo)簽的基于內(nèi)容的推薦算法[J]. 軟件， 2015， 36（1）： 1-5.

[16]陳磊磊. 不同距離測度的K-Means 文本聚類研究[J]. 軟件， 2015， 36（1）： 56-61.

[17]Mikolov T， Sutskever I， Chen K， et al. Distributed Repre sentations of Words and Phrases and Their Composi tion ality[C]. Proceedings of the Advances in Neural Information Processing Systems. Currant Associates， 2013： 3111-3119.

[18]王云龍. 基于Word2Vec新詞識別的評論情感分析系統(tǒng)的研究與實現(xiàn)[D]. 哈爾濱：哈爾濱工業(yè)大學(xué)， 2018.

[19]MIKOLOV T， CHEN Kai， COR RADO G， et al. Efficient estimation of word representations in vector space[J]. Computer Science， 2013， 2（12）： 27-35.

[20]BENGIO Y， DUCHARME R， VINCENT P， et al. A neural probabilistic language model[J]. Journal of Machine Learning Research， 2003， 3： 1137-1155.

[21]HOCH REITE R S， SCHMIDHUBER J. Long short-term memory[J]. Neural Computation， 1997， 9（8）： 1735.

[22]Jain A， Zamir A R， Savarese S， et al. Structural-RNN： Deep Learning on Spatio-Temporal Graphs[C]. IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society， 2016： 5308-5317.

[23]張玉環(huán)，錢江. 基于兩種 LSTM 結(jié)構(gòu)的文本情感分析[J]. 軟件， 2018， 39（1）： 116-120.

[24]王鐵剛. 社交媒體數(shù)據(jù)的獲取分析[J]. 軟件， 2015， 36（2）： 86-91.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度學(xué)習(xí)的商品評論情感分類