王磊
摘? 要: 針對語句級的情感傾向性研究多數(shù)是利用情感詞典、語言學知識和機器學習等方法,其研究范圍也限定于所分析的句子中。但是,整篇文章的上下文對語句情感傾向的判別影響巨大。文章利用主題特征來識別語句中情感詞的情感傾向強度,通過計算詞語的主題概率,將主題信息轉(zhuǎn)化為情感先驗信息,并融合否定詞、程度副詞和連接詞等語法特征,提出一個基于特征融合的語句級情感傾向識別方法,對文本中語句的多標記情感傾向進行識別。實驗結(jié)果表明,該方法在語句情感傾向識別上取得了令人滿意的效果。
關(guān)鍵詞: 情感分析; 主題特征; 特征融合; 情感傾向
中圖分類號:TP391? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2020)10-19-04
Abstract: At present, there have been lots of researches on sentence sentiment orientation, most of them involve the use of emotional lexicon, language knowledge and machine learning, with the scope limited to the sentence analyzed. However, the whole context has great effects on sentence sentiment orientation recognition. In this paper, the topic features are used to adjust the emotion orientation intensity of the emotional words in sentences, the topic information is transformed into emotional prior information by calculating word topic probability, with the fusion of some grammar features, such as negation, degree adverb and conjunction, thus putting forward a sentence sentiment orientation recognition method with the fusion of multiple features for identification of the multi-label sentiment orientation of sentences. Experimental results show that this method achieves satisfactory effects in recognizing sentiment polarity of words.
Key words: sentiment analysis; topic feature; feature fusion; sentiment polarity
0 引言
隨著電子商務(wù)與網(wǎng)絡(luò)社交的迅速發(fā)展,互聯(lián)網(wǎng)上涌現(xiàn)出大量文本信息,如博客、微博、時事評論和購物點評等。這些文本基本都由若干帶有情感色彩的語句構(gòu)成,這些語句在一定程度上表達了人們對客觀事物的喜好或反映了個體當時的情感、情緒。因此,語句級情感傾向分析研究得到國內(nèi)外許多學者的關(guān)注,也為段落或短文本級情感傾向分析甚至為篇章級情感傾向分析提供幫助。
詞或短語是詞語情感分析的研究對象,而在上下文環(huán)境中的語句則是語句級情感分析的研究對象。語句情感分析不僅僅只是識別語句的情感傾向,還包括對語句中各種主觀性信息的分析與提取。Hu和Liu[1]利用WordNet的同義與反義關(guān)系,識別詞語的情感傾向,并將語句中情感傾向占優(yōu)勢的情感傾向作為語句的情感傾向。Yang[2]等人將上下文語句融入條件隨機場模型中,提出一種基于上下文語境的情感分析方法。Narayanan[3]等人針對條件句進行了情感分析研究。趙妍妍[4]等融合文本間與文本內(nèi)的因素,來提供語句情感分析精度。大連理工宋銳等[5]人對中文比較句進行研究,并采用CRF模型進行情感分類。
本文將語句的情感傾向分析問題作為研究重點,將上下文中的主題特征引入語句的多標記情感傾向判別中,并融合否定詞、程度副詞和連接詞等語法特征,提出一個多特征融合的語句情感傾向識別方法。
1 基于情感詞的語句情感分析
針對語句情感傾向識別問題,最簡單、最常用的方法是基于規(guī)則的情感詞求和分析方法,該方法也常常應(yīng)用于篇章級情感傾向分析研究中?;谝?guī)則的情感詞求和分析方法的基本思想[6]是:將語句中情感詞或情感短語進行加權(quán)求和,如果某類情感的情感詞越多,情感強度越大,求和后,該類情感的累加值就越大,則語句具有該類情感的可能性就越高。
利用基于規(guī)則的情感詞求和方法來識別語句或篇章的情感傾向,方法簡單,并能取得不錯的識別效果。但是,該方法存在以下兩點不足。
⑴ 特征單一:僅僅利用到語句中的情感詞或情感短語,其他詞語都被忽略。
⑵ 語句結(jié)構(gòu)無法分析:對復(fù)雜句等句法結(jié)構(gòu)復(fù)雜的語句,該方法就凸顯出其不足。
2 多特征融合的語句情感分析
2.1 基本框架
本文提出的多特征融合的語句情感傾向分析方法框架如圖1所示,虛線表示部分為訓練過程,其目的是構(gòu)建多標記情感傾向分類器。該方法的重點是抽取語句中的多種特征,并用這些特征來表示相應(yīng)語句。從圖1框架可以看出,特征抽取過程離不開各類詞典,如情感詞典、否定詞詞典、連詞詞典等。同時,語句句法特征在一定程度上也影響語句的情感。
2.2 情感向量空間模型
為了精確識別語句的多標記情感傾向,我們盡可能的從語句或文本中抽取大量的特征,用于語句情感傾向分析過程。在對語句進行分詞、詞性標注、中性詞和停用詞去除后,僅保留語句中的情感詞。
在Ren-CECps中文情感語料庫[7]中,每個情感詞都標注了情感傾向及情感強度,抽取該語料庫訓練數(shù)據(jù)中的所有情感詞構(gòu)建情感詞典,并將情感詞典應(yīng)用于語句情感傾向分析中。
依據(jù)“BOW”模型,將語句看作一個由情感詞組成的情感詞集合,則語句可以表示為如下形式:
2.3 基于主題的情感向量空間模型
在一篇文章中,語句的情感傾向應(yīng)該由最能反映文本主題的核心情感詞來決定。本文將主題特征引入語句的情感傾向判別過程中,利用主題特征來調(diào)整情感詞語的情感強度,進而調(diào)整語句的情感傾向及強度。
隱含狄列克雷分布LDA是Blei等人[8]在2003年提出,是一個“文本-主題-詞”的三層貝葉斯生成式模型。隨后Griffiths等[9]對主題-詞的概率分布也引入一個超參數(shù)使其服從Dirichlet分布,從而得到一個完整的生成模型。
LDA模型的參數(shù)個數(shù)只與主題數(shù)和詞語數(shù)有關(guān),而與語料庫大小無關(guān),適合于處理大規(guī)模語料庫。
將潛在主題特征融入語句情感傾向判別過程中,針對文檔[D]引入LDA模型,得到[T]個隱含主題[T={t1,t2,…,tT}]以及主題-詞的概率分布[φ],利用“文本-主題-詞”之間的概率分布來識別符合文本主題特征的情感詞。從[T]個隱含主題中找出概率權(quán)重最大的主題[tm],將其應(yīng)用于語句情感傾向判別公式⑶中,得到含有主題特征的語句情感傾向判別公式,公式表示如下:
2.4 語句情感傾向分析
在一個語句中,除去情感詞語外,還會包含其他有意義的詞語,這些詞語會影響甚至改變語句的情感傾向。為了更好的識別語句情感傾向,我們進一步從語句中提取一些附加特征,用于語句情感傾向判別。這些附加特征是:否定特征、程度特征和轉(zhuǎn)折特征。
⑴ 否定特征
否定特征是語句中一個重要的語法特征,否定詞可以改變請轄域范圍內(nèi)情感詞語的情感傾向,從而改變語句的情感[10-12]。否定詞的轄域一般是從否定詞后開始直至句尾,修飾對象一般直接位于否定詞后面。否定詞的選擇將直接影響語句情感傾向的識別,我們基于HowNet詞典構(gòu)建否定詞詞典。
在本文語句情感傾向識別任務(wù)中,我們采用鄰近原則,即否定詞僅僅修飾其后的第一個情感詞語。本章直接采用一種相對簡單的處理規(guī)則,調(diào)節(jié)被否定詞修飾的情感詞語的情感傾向強度,從而改變語句的情感傾向。
當情感詞wi前存在奇數(shù)個否定詞時,情感詞wi的情感傾向強度發(fā)生變化;當情感詞wi前沒有否定詞或存在偶數(shù)個否定詞時,情感詞wi的情感傾向強度不變。
⑵ 程度特征
在副詞中有一類特別的副詞就是程度副詞,一般修飾動詞和形容詞。程度詞語不能改變所修飾的情感詞語的情感傾向,但會影響情感詞語的情感強度,主要表現(xiàn)在增強或減弱所修飾情感詞語的情感強度。
依據(jù)HowNet詞典中中文程度級別詞語整理出一個程度詞典,共含有140個程度副詞。為每一個程度副詞設(shè)定相應(yīng)的等級,等級取值為2、3、4、5。
⑶ 轉(zhuǎn)折特征
理解語句的結(jié)構(gòu)關(guān)系將有助于語句情感傾向的判別。根據(jù)語句結(jié)構(gòu)特征,中文語句一般可以分為簡單句和復(fù)合句。簡單句的情感傾向識別相對簡單,可以直接利用前面介紹的方法進行識別。復(fù)合句比較復(fù)雜。
復(fù)合句子之間的主從關(guān)系可以分為并列關(guān)系、因果關(guān)系和轉(zhuǎn)折關(guān)系。對于并列關(guān)系的復(fù)合句,子句之間關(guān)系平等,表達的情感傾向也保持一致。因果關(guān)系的復(fù)合句反映子句之間的因果關(guān)系,子句之間情感傾向保持一致,但情感傾向強度存在差異。對于蘊含轉(zhuǎn)折關(guān)系的復(fù)合句,子句之間表達相互矛盾或截然相反的意義,導(dǎo)致子句之間的情感傾向完全相反,整個語句的情感傾向由最后一個子句的情感傾向所決定。
3 實驗結(jié)果與分析
3.1 實驗數(shù)據(jù)
本章實驗數(shù)據(jù)主要來自三個數(shù)據(jù)集,其中兩個是中科院譚松波提供的中文情感挖掘語料,使用其中去重后正負類各2000篇的酒店類評論語料和去重后正負各2000篇的圖書評論語料,句子的情感傾向為正負2類;另一個是Ren-CECps中文情感語料庫,語句的情感傾向分為8類,針對語句進行多標記情感傾向識別。上述數(shù)據(jù)集的統(tǒng)計信息如表1所示。
本文主要進行兩類實驗,一個實驗是利用酒店評論語料和圖書評論語料,來識別語句情感的正負性,屬于一個情感傾向單標記分類問題研究;另一個實驗是在Ren-CECps語料庫中識別語句的多個情感傾向,屬于情感傾向多標記分類問題研究。
在實驗中,將傳統(tǒng)詞袋模型判別語句情感傾向方法記作BOW,將主題特征融入語句情感傾向識別的方法記作TM,將多種特征融合進行語句情感傾向識別方法記作Combine。
3.2 實驗結(jié)果
⑴ Tan數(shù)據(jù)集實驗結(jié)果
針對該實驗,從酒店評論語料中隨機選擇20條語句構(gòu)成一個文本,共生成200篇短文本。同理,對圖書評論語料進行同樣操作,生成200篇短文本。將400篇酒店與圖書評論文本作為實驗一的數(shù)據(jù)集,隨機選取300篇作為訓練數(shù)據(jù),100篇作為測試數(shù)據(jù)。預(yù)處理階段采用ICTCLAS對數(shù)據(jù)集進行分詞和詞性標注。情感詞典采用HowNet情感詞(2090個)和HowNet評價詞(6846個)構(gòu)成基本情感詞典,去除其中的單字情感詞。
將文本主題特征應(yīng)用于語句情感傾向性識別過程中,圖2反映了語句情感傾向識別正確率與主題特征之間的關(guān)系。
從圖2中可以看出,在兩個數(shù)據(jù)集中,當主題數(shù)量從1增加到10時,情感傾向識別正確率提高最快,隨后正確率增長緩慢。當主題數(shù)量處于30以上時,語句情感傾向識別正確率都不再提高,甚至有時會下降。同時,我們看到,基于Ren-CECps語料數(shù)據(jù)的多標記情感傾向識別正確率高于Tan語料數(shù)據(jù)的單標記情感傾向識別。分析數(shù)據(jù)集特點后,認為主要原因是在Ren-CECps數(shù)據(jù)集中,文本中語句關(guān)系更緊密,主題特征更加突出,對情感詞作用較大,而Tan數(shù)據(jù)集中文本是從原始語料中隨機抽取生成的,可能構(gòu)成文本的若干語句之間在主題特征上毫無關(guān)系,從而導(dǎo)致主題特征作用不明顯。
⑵ Ren-CECps數(shù)據(jù)集實驗結(jié)果
在實驗中,對Ren-CECps語料庫進行多標記語句情感傾向判別。Ren-CECps中文情感語料庫中每個語句的情感傾向被標記為驚訝,悲傷,喜愛,高興,憎恨,期待,焦慮,生氣8類情感類別的一個子集。選取Ren-CECps中文情感語料庫中1000篇文本作為數(shù)據(jù)集,去除數(shù)據(jù)中少量中性情感的句子,從中隨機選取800篇作為訓練數(shù)據(jù),200篇作為測試數(shù)據(jù)。從訓練數(shù)據(jù)中抽取情感詞語構(gòu)建實驗所需的情感詞典。利用LDA模型進行主題特征發(fā)現(xiàn)。
針對Ren-CECps數(shù)據(jù)集,我們進行以下兩個語句多標記情感傾向識別實驗。
⑴ 正確識別語句多標記情感傾向中的任何一個。
⑵ 正確識別語句多標記情感傾向中強度最高的情感傾向。
在實驗⑴中,采用宏平均和微平均值來對比BOW、TM和Combine方法識別語句多標記情感傾向效果,如表2所示。
表2表明,主題特征對于文中語句情感傾向識別影響較大,融入主題特征后,情感傾向識別效果有明顯提高。同時,當輔助特征也融入語句情感傾向識別后,情感傾向識別效果又進一步提高,說明這些輔助特征也是影響語句情感傾向識別的因素。
在實驗⑵中,采用宏平均F1、微平均F1、宏平均正確率和微平均正確率來衡量三種方法在識別情感強度最高的情感傾向中的效果,如表3所示。
表3表明,主題特征在與情感傾向強度有關(guān)的情感識別過程中發(fā)揮重要作用,多特征融合方法也取得了較好的實驗效果。對比實驗⑴發(fā)現(xiàn),宏平均正確率和微平均正確率都有所下降,這說明識別語句多標記情感傾向中的一類或幾類情感傾向相對容易,但識別情感強度最高的情感相對困難。
3.3 實驗結(jié)果分析
對于語句情感傾向識別問題,借助詞袋模型,通過情感詞語來識別語句的情感傾向,但無論在Tan語料或Ren-CECps語料中語句情感傾向識別效率都很一般。在此基礎(chǔ)上,將主題特征融入語句情感傾向判別中,判別效果獲得了較大提高。否定詞、程度副詞和連接詞等輔助特征的應(yīng)用,識別效果獲得進一步提高。實驗結(jié)果說明情感詞語、主題特征、否定詞、程度副詞和連接詞等特征有助于語句情感傾向識別,因此本文提出的多特征融合的語句情感傾向分析方法是有效的。
對于語句情感傾向識別中產(chǎn)生的錯誤,可能引起的原因有以下四點:
⑴ 情感詞語的情感傾向及強度判斷錯誤。
⑵ 否定詞作用范圍判斷不準確。
⑶ 部分連接詞無法識別,從而導(dǎo)致語句情感傾向判別錯誤。
⑷ 人類情感具有主觀性和復(fù)雜性,一種情感的產(chǎn)生往往會引發(fā)產(chǎn)生另一種情感,不同情感傾向之間存在一定的依賴關(guān)系。
4 結(jié)束語
本文分析了語句的多標記情感傾向識別問題,提出一種多特征融合的語句情感傾向識別方法,充分利用情感詞語、主題特征和其他輔助特征來識別語句多標記情感傾向。
在語句情感分析研究中,語句的情感傾向主要分為褒貶兩類。近年來,有學者意識到情感的復(fù)雜性,僅僅用褒貶兩類情感傾向無法完全描述全部情感傾向,開始研究多標記情感傾向問題。研究方法主要有基于詞典方法和基于語料方法,前者需要構(gòu)建豐富的情感詞典,利用該詞典來識別語句情感傾向,后者借鑒機器學習方法,利用語料的統(tǒng)計信息來識別語句情感傾向。本文將詞典信息和語料統(tǒng)計信息相結(jié)合,從而吸取兩種方法的優(yōu)點,實現(xiàn)語句多標記情感傾向識別。
本文研究一般語句的多標記情感傾向識別問題,但文本中也存在很多特殊語句,如否定句、條件句、比較句等。特殊語句往往都蘊含一些自身特有的特征信息,這些特征有助于識別特殊語句的情感傾向。特殊語句的多標記情感傾向識別將是未來研究的一個熱點問題,值得進一步探索和研究。
參考文獻(References):
[1] Hu M, Liu B. Mining and summarizing customer reviews.Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, NY, USA: ACM,2004:168-177
[2] YangBishan, Cardie Claire. Context-aware learning for?sentence-level sentiment analysis with posterior regularization. Proceedings of the ACL 2014, Baltimore, ACL, 2014:325-335
[3] Narayanan R, Liu B, Choudhary A. Sentiment analysis of conditional sentences. Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, Stroudsburg,PA,USA:ACL,2009:180-189
[4] ZhaoYanyan, Qin Bing, Liu Ting. Integrating Intra- and Inter- document Evidences for Improving Sentence Sentiment Classification.ACTA AUTOMATICA SINICA,2010.36(10):1417-1425
[5] 宋銳,林鴻飛,常富洋.中文比較句識別及比較關(guān)系抽取[J].中文信息學報,2009.23(2):102-107
[6]? Hu M, Liu B. Mining and summarizing customer reviews.Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, NY, USA: ACM,2004:168-177
[7]? Quan C, Ren F. A blog emotion corpus for emotional expression analysis in Chinese. Computer Speech and Language,2010.24(4):726-749
[8] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation.?Journal of Machine Learning Research,2003.3:993-1022
[9] Griffths T L, Steyvers M. Finding scientific topics.?Proceedings of the National Academy of Sciences of the United States of America,2004.101(1):5228-5235
[10] LillianeHaegeman.The Syntax of Negation. Cambridge Press, New York,1995.
[11] 陳莉,李寶倫,潘海華.漢語否定詞“不”的句法地位[J].語言科學,2013.12(4):337-348
[12] Ren Fuji, Quanchangqin. Automatic annotation of word emotion in sentences based on ren-cecps.Proceedings of the 9th International Conference on Language Resources and Evaluation, Malta,2010.