傳統(tǒng)情感分類方法與基于深度學習的情感分類方法對比分析

2018-02-01 00:30段傳明

軟件導刊 2018年1期

段傳明

摘要：

情感分類是自然語言處理的一個重要分支，情感分類方法包括傳統(tǒng)的基于情感詞典的方法和基于機器學習的方法，以及最新的基于深度學習的方法。為了探索情感分類的實現(xiàn)方法和研究進展，對傳統(tǒng)的情感分類方法和基于深度學習的情感分類方法進行對比，并對深度學習LSTM原理進行了簡要描述，可以發(fā)現(xiàn)基于深度學習的情感分類方法在情感分類上具有更大優(yōu)勢。

關鍵詞：

情感分類；神經(jīng)網(wǎng)絡；深度學習；詞向量；word2vec；LSTM

DOIDOI：10.11907/rjdk.172867

中圖分類號：TP301

文獻標識碼：A文章編號文章編號：16727800（2018）001002203

Abstract：Sentiment classification is an important branch of natural language processing.Sentiment classification methods include traditional methods， including the semantic lexicon method，and the machine learning method， and the latest method is based on deep learning. In order to explore the realization method and research progress of sentiment classification， compares the traditional methods and the latest method based on deep learning， and gives a brief description of LSTM principle of deep learning， It can be found that the sentiment classification based on deep learning has a greater advantage.

Key Words：sentiment classification； neural network； deep learning； word embedding； word2vec； LSTM

0引言

情感分類一直是自然語言處理的一個重要分支，其目的是為了找出評論者或作者在某些話題上或針對某一產(chǎn)品的觀點態(tài)度。情感分析在輿情監(jiān)控、金融投資等方面均有廣泛應用。傳統(tǒng)的情感分類主要有基于情感詞典的方法和基于機器學習的方法，其中基于情感詞典的方法在很多方面受限于情感詞典的質(zhì)量和覆蓋度，而基于機器學習的方法又受限于由人工構建、抽取的特征。隨著近幾年深度學習技術在自然語言處理領域取得了巨大進展，越來越多的研究人員開始采用深度學習處理文本分類方法。

1基于情感詞典的文本情感分類

在情感詞典的研究方面，2008年，林鴻飛教授等[1]在已頗具成果的研究基礎上，構建了一個中文情感詞語本題庫?；谇楦性~典的文本分類是對人腦的簡單模擬，其核心模式是基于詞典和規(guī)則，即以情感詞典作為判斷評論情感極性的主要依據(jù)[2]。如圖1所示，它是根據(jù)以往經(jīng)驗對現(xiàn)有詞匯作出評價的一種模型。比如在生活中，通常把糟糕、膩煩歸為消極詞，把開心、愉悅作為積極詞。通過一個句子中出現(xiàn)的感情詞，從而判斷該句子的感情極性。

根據(jù)圖1所示的基于情感詞典的情感分類方法可以看出，基于情感詞典的文本情感分類是容易實現(xiàn)的，其核心在于情感詞典（類似于大腦語料庫）的訓練?；谇楦性~典感情分類主要依賴于情感詞典構建和判斷規(guī)則質(zhì)量。而詞典構建和判斷規(guī)則質(zhì)量兩者都需要耗費很多人力，包括人工設計和人們的先驗知識。

2基于機器學習的情感分類

Pang等[3]于2002年初次提出使用標準的機器學習方法解決情感分類問題。由圖2可以看出，基于機器學習技術的情感分類研究工作主要需要進行模型的訓練。情感分類中常用的特征有Ngram特征、句法特征等[4]。這類方法仍然依賴于人工設計，研究過程中也容易受到人為因素影響。而且人工設計的特征具有領域限制性，在某一領域的特征集不一定適應另一個領域。此外，模型的訓練依賴于標注數(shù)據(jù)集的質(zhì)量，這些高質(zhì)量的數(shù)據(jù)集也需要投入大量人工成本。

3基于深度學習模型的情感分類

隨著神經(jīng)網(wǎng)絡成為目前關注的熱點，越來越多學者開始嘗試使用深度學習解決情感分類問題。深度學習模型在不同應用問題上的推廣能力已得到一定驗證[5]，情感分析作為自然語言理解的重要應用之一，也受到人們關注。傳統(tǒng)神經(jīng)網(wǎng)絡無法處理前后關聯(lián)的問題（例如一個句子），而深度學習模型RNN解決了該問題。然而，隨著距離與先驗知識的增加，RNN會出現(xiàn)梯度消息或梯度爆炸的情況，因而無法解決長久依賴的問題。而長短記憶神經(jīng)網(wǎng)絡的引入——通常稱為LSTM，解決了以上問題?，F(xiàn)有的深度學習方法主要分為兩個步驟：①將需要分類的評論語料表達稱為語義詞向量（Word Embedding）；②通過不同的語義合成方法用詞向量得到所對應句子或文檔的特征表達式，最后通過深度神經(jīng)網(wǎng)絡進行分類。具體過程如圖3所示。

3.1語義詞向量表達

在自然語言處理中，很重要的一個問題是如何將一個句子用向量表示。傳統(tǒng)的文檔表示方法幾乎都是基于BOW（Bag of Words）的方法。詞袋模型最初用在文本分類中，將文檔表示成一種特征矢量。它的核心思想是對于一個文本，假定忽略文本中的次序和語法、句法，僅看成這些詞匯的排列組合，并且文本中的詞匯沒有任何關系。簡單而言就是將每篇文檔都看成一個袋子，然后看袋子里有些什么詞匯，并將其分類。所以傳統(tǒng)的詞袋模型方法存在以下問題：①極高的維度。文本向量的維數(shù)與訓練數(shù)據(jù)集中出現(xiàn)的所有單詞數(shù)目一樣多，會造成維度過高，而且如果某一詞匯在訓練集中未出現(xiàn)過，則會忽視這個詞，在測試集中無法成為該文本特征；②基于詞袋表示的文檔向量極度稀疏，不利于一些自然語言處理任務；③由于詞袋法認為詞與詞之間沒有關系，因此它很難表示一個句子或一篇短文的語義；④在不同的語境下，詞袋法很難區(qū)分同一個詞的意義[6]。endprint

隨著深度學習的發(fā)展，研究人員Mikolov[78]提出了word2vec模型，使傳統(tǒng)的詞袋模型問題在很大程度上得到改善。Word2vec的思想概括而言即通過高維向量表示詞語，而且相近詞語會放在相近位置。所以word2vec適合處理序列數(shù)據(jù)，因為序列局部間的數(shù)據(jù)有著很大關聯(lián)。通過word2vec即可訓練語料庫模型，獲得詞向量，而且詞向量的高維性解決了詞語多方向發(fā)散問題，從而保證了模型的穩(wěn)定性。

Word2vec模型有兩種，分別是CBOW模型與Skipgram模型。其中CBOW模型通過上下文估測當前詞，Skip_gram模型則相反，通過當前詞估測上下文[78]。

3.2句子向量

通過不同的語義合成（Semantic Composition）方法用詞向量得到所對應句子或文檔的特征表達?，F(xiàn)有合成方法主要基于語義合成性原理（Principle of Compositionality）[9]，該原理指出，長文本（如一個句子、一篇文檔）的語義由其子成分（如詞匯、短語）語義按不同規(guī)則組合而成。本質(zhì)上講，語義合成就是利用原始詞向量合成更高層次的文本特征向量[10]。

3.3LSTM

LSTM是一種RNN的特殊類型，可以學習長久依賴信息。所有RNN都具有一種重復神經(jīng)網(wǎng)絡模塊的鏈式形式。在標準的 RNN 中，該重復模塊只有一個非常簡單的結構，例如一個Tanh層，如圖4所示。而LSTM的“記憶細胞”通過刻意設計避免了長期依賴問題，如圖5所示。

LSTM通過一種精心設計稱為門（gate）的結構控制cell狀態(tài)，直接在整個并向中刪減或增加信息。一個LSTM有3個門控制cell的狀態(tài)，關鍵門的主要操作有以下步驟，其中it、ft、ot和Ct分別表示t時刻對應的3種門結構和細胞狀態(tài)。

第一步：忘記門，決定從“細胞狀態(tài)中丟棄什么信息”，這個決定是通過 sigmoid 中的“遺忘層”實現(xiàn)的。以當前層的輸入xt和上一層的輸出ht-1作為輸入，在t-1時刻的細胞狀態(tài)輸出為：

由于LSTM通過各種“門”從細胞狀態(tài)中忘記、更新信息，從而可以更好地解決長期依賴問題，對于一段文字也可以更好地學習句子前后的語義，因而已被成功應用于情感分類問題中。

4傳統(tǒng)情感分類與深度學習情感分類比較

傳統(tǒng)情感分類與基于深度學習的情感分類總結如表1所示。

5結語

本文對傳統(tǒng)情感分類方法與基于深度學習的情感分類方法進行對比分析，可以得到以下結論：①基于情感詞典的文本情感分類方法過度依賴于情感詞典質(zhì)量，此外情感詞典的構建費時又費力，而基于機器學習的情感分類方法需要高質(zhì)量的特征構造和選取。這些都是傳統(tǒng)情感分類的一些弊端；②基于深度學習抽象特征，可避免人工提取特征的工作，而且通過word2vec技術模擬詞語之間的聯(lián)系，有局部特征抽象化以及記憶功能，在情感分類中具有很大優(yōu)勢。

參考文獻：

[1]徐琳宏，林鴻飛，趙晶. 情感語料庫的構建和分析[J]. 中文信息學報，2008（1）：116122.

[2]NASUKAWA T，YI J.Sentiment analysis： capturing favorability using natural language processing[C].Proc of Int Conf on Knowledge Capture.New York：ACM，2003：7077.

[3]PANG B， LEE L， VAITHYANATHAN S. Thumbs up？：sentiment classification using machine learning techniques[C].Proc of Empirical Methods in Natural Language Processing. Cambridge， MA：MIT Press，2002： 7986.

[4]余凱，賈磊，陳雨強，等. 深度學習的昨天、今天和明天[J]. 計算機研究與發(fā)展，2013，50（9）：17991804.

[5]馮時，付永陳，陽鋒，等.基于依存句法的博文情感傾向分析研究[J].計算機研究與發(fā)展，2012，49（11）：23952406.

[6]唐明，朱磊，鄒顯春.基于Word2Vec的一種文檔向量表示[J]. 計算機科學，2016，43（6）：214217，269.

[7]MIKOLOV T，CHEN K， CORRADO G， et al.Efficient estimation of word representations in vector space[J].Computer Science，2013.

[8]MIKOLOV T，YIH W，ZWEIG G.Liguistic regularities in continuous space word representations[C].HLTNAACL，2013：746751.

[9]FREGE G.On sense and nominatum[J]. Philosophy of Science，1949，59（16）：3539.

[10]陳龍，管子玉，何金紅，等. 情感分類研究進展[J]. 計算機研究與發(fā)展，2017，54（6）：11501170.

（責任編輯：黃?。〆ndprint

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

傳統(tǒng)情感分類方法與基于深度學習的情感分類方法對比分析