李毅捷 段利國(guó) 李愛(ài)萍
摘 要: 目前,網(wǎng)絡(luò)文本中主觀內(nèi)容的情感傾向性識(shí)別成為文本信息處理的研究熱點(diǎn)。針對(duì)漢語(yǔ)中復(fù)雜句式的結(jié)構(gòu)特點(diǎn)以及對(duì)多種復(fù)雜句式的有效分析,基于word2vec進(jìn)行情感詞典的擴(kuò)建,將擴(kuò)充后的情感詞典、關(guān)聯(lián)詞表、否定詞表進(jìn)行特征提取,得到有效的特征詞序列,構(gòu)建新的復(fù)雜句式模型并結(jié)合SVM進(jìn)行訓(xùn)練和預(yù)測(cè),完成復(fù)雜句式情感分類。實(shí)驗(yàn)結(jié)果表明,提出的復(fù)雜句式情感分類模型在處理精度方面比傳統(tǒng)的句子級(jí)情感分類方法有了明顯的提高,獲得良好的情感分析效果。
關(guān)鍵詞: 文本信息處理; 情感分析; 復(fù)雜句式; word2vec; 情感分類模型; SVM
中圖分類號(hào): TN911?34; TP391.1 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2018)22?0182?05
Abstract: The sentiment tendency recognition of the subjective content in the current network text is a hot research topic of text information processing. In allusion to the structure characteristics of complex sentence patterns in Chinese and effective analysis of various complex sentence patterns, the sentiment dictionary is expanded based on the word2vec. Feature extraction is conducted for the expanded sentiment dictionary, associated word list, and negative word list, so as to obtain the effective sequence of feature words. The new model of complex sentence patterns is established, which is trained and predicted by combining with the SVM, so as to complete sentiment classification of complex sentence patterns. The experimental results show that, in comparison with the traditional sentence?level sentiment classification method, the proposed sentiment classification model of complex sentence patterns has a significant improvement in processing accuracy and can obtain a good sentiment analysis effect.
Keywords: text information processing; sentiment analysis; complex sentence patterns; word2vec; sentiment classification model; SVM
隨著互聯(lián)網(wǎng)的興起及迅速普及,開(kāi)放性不斷提高,人們通過(guò)微博等網(wǎng)絡(luò)平臺(tái)和電子商務(wù)等網(wǎng)站發(fā)表對(duì)時(shí)事新聞、熱門話題、各種商品的觀點(diǎn)和看法,用戶龐大而穩(wěn)固。交互的便捷使網(wǎng)絡(luò)成為了人們?cè)絹?lái)越喜歡表達(dá)自己觀點(diǎn)和相互交流的主要方式之一。隨之而來(lái)網(wǎng)絡(luò)上產(chǎn)生的主觀性文本包含大量有用情感信息[1],因此對(duì)復(fù)雜句式的情感分析需要不斷探索與學(xué)習(xí)。
目前,對(duì)復(fù)雜句式的情感傾向性分析主要是基于機(jī)器學(xué)習(xí)的方法[2],吳曉吟研究了基于篇章情感分析中條件句、轉(zhuǎn)折句、比較句對(duì)情感分析的影響,提出這三種句型的情感分析算法使篇章級(jí)情感分析準(zhǔn)確率有所提高[3]。楊富平等人提出基于SVM和復(fù)雜句式的情感分類方法,通過(guò)分析漢語(yǔ)復(fù)雜句的結(jié)構(gòu)特點(diǎn),比較各類特征組合的情感分類正確率[4]。Song Rui等人通過(guò)建立比較句式模型利用條件隨機(jī)場(chǎng)(CRF)進(jìn)行比較句提取與分析[5]。Ramanathan Narayanan等人研究條件句情感分析,建立基于主題的監(jiān)督學(xué)習(xí)模型從5個(gè)不同領(lǐng)域的條件句證明所提方法的有效性[6]。針對(duì)目前文本表達(dá)方式自由與多樣等問(wèn)題造成的復(fù)雜句式影響句子級(jí)情感分析的問(wèn)題,本文對(duì)各種中文復(fù)雜句式進(jìn)行詳細(xì)情感分析,提出一種針對(duì)復(fù)雜句式的情感分類準(zhǔn)則以及基于word2vec的情感詞典擴(kuò)展方法,結(jié)合SVM分類器完成復(fù)雜句式的情感分類。
2.1 復(fù)雜句式簡(jiǎn)介
漢語(yǔ)中復(fù)雜句由幾個(gè)分句組成,含有多個(gè)主謂(賓)結(jié)構(gòu)陳述兩件或兩件以上事情,重點(diǎn)在主句陳述的事情而分句的出現(xiàn)是為了更全面地闡釋主句的含義,總結(jié)常見(jiàn)復(fù)雜句式:假設(shè)句式是某種情況下所產(chǎn)生的結(jié)果。例句:“如果不隨便扔垃圾,環(huán)境就會(huì)變好?!卑x詞“變好”影響句子情感極性,假設(shè)條件或特定條件下子句表達(dá)的情況不一定會(huì)發(fā)生。常用關(guān)聯(lián)詞:如果,只要……就;只有……才;即便、即使、就算、哪怕、縱使……還,也等。條件句式提出特定條件產(chǎn)生特定結(jié)果,或不管任何條件都產(chǎn)生某種結(jié)果。例句“不管這條道路多艱苦,我都會(huì)付出我的熱情?!敝小捌D苦”與“熱情”褒貶情感詞的出現(xiàn)對(duì)分類的判定產(chǎn)生影響,后一分句中的情感詞是重點(diǎn)。常用關(guān)聯(lián)詞:無(wú)論、不管、不論……都。
轉(zhuǎn)折句式前后分句意思完全相對(duì)或部分相對(duì)。例句:“雖然生活水平提高,但是不能奢侈浪費(fèi)?!鞭D(zhuǎn)折句中“雖然”引導(dǎo)的分句不是整句話的重點(diǎn),“但是”引導(dǎo)的分句情感是整句話的重點(diǎn)。常用關(guān)聯(lián)詞:雖然、雖說(shuō)、雖是、盡管……但、但是、然而、可是、不過(guò)……。
說(shuō)明因果句式前后分句分別闡明原因和闡釋結(jié)果,前后分句都是客觀真相。推論因果句式前后分句分別提出一個(gè)前提和由該前提推導(dǎo)出的結(jié)論,結(jié)論句中的情感詞更能代表句子的情感傾向。常用關(guān)聯(lián)詞:因?yàn)椤?;原?lái)、因此……;既然……就。
并列句式由多個(gè)簡(jiǎn)單句不分主次不分從屬關(guān)系并列組成,前后分句都是客觀事實(shí)。常用關(guān)聯(lián)詞:又……又……;既……又……;一邊……一邊……;那么……那么……。
選擇句式分句分別列舉多種情況并從中選出一種情況,例句:“你喜歡游泳,還是喜歡打球。”褒義情感詞“喜歡”對(duì)情感分類的判定產(chǎn)生影響。常用關(guān)聯(lián)詞:是……還是……;與其……不如……;或者……要么……。遞進(jìn)句式前后分句的關(guān)系在意義上進(jìn)一層次,前后分句都是客觀事實(shí)。常用關(guān)聯(lián)詞:不但、不僅……。
2.2 復(fù)雜句式處理
本文根據(jù)各種復(fù)雜句式的特點(diǎn),將引導(dǎo)復(fù)雜句式的關(guān)聯(lián)詞歸納為三類,如表1所示。
若復(fù)雜句式包含否定詞,則前后分句分別統(tǒng)計(jì)否定詞數(shù)量,句中含有奇數(shù)重否定會(huì)改變句子的情感傾向,含有偶數(shù)重否定與句子表達(dá)情感傾向相同[7]。本文總結(jié)常見(jiàn)否定詞:未、從未、難以、絕非、不宜、沒(méi)有、非、不曾、莫、不夠、毋、否、不大、不太、顛覆、不、未曾、并非、未必、休、不要、沒(méi)、否認(rèn)、勿、沒(méi)法、無(wú)、無(wú)法、不便、別、不許、不是。本文不僅通過(guò)關(guān)聯(lián)詞識(shí)別,還考慮關(guān)聯(lián)詞的詞性、復(fù)雜句式模型來(lái)識(shí)別復(fù)雜句。根據(jù)表1對(duì)復(fù)雜句式的分類,結(jié)合否定詞,將第一、二、三類關(guān)聯(lián)詞用[WA,WB,WC]表示,奇數(shù)和偶數(shù)重否定分別用[DO,DE]表示,情感詞用[WS]表示,總結(jié)復(fù)雜句式匹配模型如下:
3.1 情感詞典
情感詞典的建立和擴(kuò)展是文本情感分析研究工作的基礎(chǔ)。情感詞典[8]的完善對(duì)提高情感分析準(zhǔn)確率有很大幫助。中文情感分析領(lǐng)域當(dāng)前沒(méi)有統(tǒng)一標(biāo)準(zhǔn)化的情感詞典,本文選取的中文情感詞典:將HowNet中文情感詞典進(jìn)行整理有褒義詞(4 566個(gè))貶義詞(4 370個(gè))。大連理工大學(xué)情感詞典對(duì)中文詞匯、短語(yǔ)進(jìn)行詳細(xì)描述,將詞語(yǔ)情感分為7大類21小類,本文選取11 229個(gè)褒義詞匯、10 783個(gè)貶義詞匯以及5 375個(gè)中性詞匯。網(wǎng)絡(luò)文本中大量帶有情感傾向的新詞會(huì)影響分詞的性能,進(jìn)而影響文本情感分類結(jié)果。為了提高文本情感分類的準(zhǔn)確率,本文經(jīng)收集整理網(wǎng)絡(luò)資源摘選出464個(gè)帶有情感傾向的網(wǎng)絡(luò)詞匯構(gòu)建網(wǎng)絡(luò)熱點(diǎn)詞情感詞典,如表2所示。
3.2 word2vec原理
word2vec(word to vector)能夠?qū)W習(xí)含有上億條語(yǔ)句的語(yǔ)料庫(kù)并輸出適度維度空間中的詞向量,通過(guò)這些詞向量之間的運(yùn)算完成各種自然語(yǔ)言處理的計(jì)算任務(wù),許多文本處理把詞語(yǔ)作為原子單位,但詞語(yǔ)之間沒(méi)有語(yǔ)義相似這一概念,使處理文本任務(wù)時(shí)有一定局限性,word2vec能從龐大數(shù)據(jù)集中計(jì)算出高維詞向量空間中包含上下文語(yǔ)義信息,有利于挖掘更多情感信息。本文采用基于Hierarchical Softmax的CBOW模型進(jìn)行訓(xùn)練,該模型比傳統(tǒng)神經(jīng)概率語(yǔ)言模型去掉了投影層,輸出層對(duì)應(yīng)一個(gè)二叉樹(shù),改用了Huffman樹(shù),降低了計(jì)算復(fù)雜度,提高了計(jì)算速度[9]。
通過(guò)分析有些詞語(yǔ)不是輸入詞語(yǔ)的相近詞,例如“疼痛”“狀態(tài)”“疾病”等,為了將更精確的相近詞擴(kuò)充到基礎(chǔ)情感詞典,本文使用改進(jìn)的基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算方法[10]。對(duì)上一步產(chǎn)生的詞語(yǔ)集進(jìn)行過(guò)濾,計(jì)算輸入情感詞與相近詞集中每個(gè)詞的語(yǔ)義相似度,定義語(yǔ)義相似度取值為[0,1]內(nèi)實(shí)數(shù),當(dāng)兩個(gè)情感詞相似度值等于1則語(yǔ)義完全相同。本文設(shè)定閾值為1,保留和種子詞語(yǔ)義相似度值為1的詞語(yǔ)作為最終入選的相近詞,如表4所示。
將已構(gòu)建的基礎(chǔ)情感詞典中情感詞作種子詞,通過(guò)上述方法,去除基礎(chǔ)情感詞典中已存在的重復(fù)詞,經(jīng)過(guò)人工整理,最終褒義情感詞擴(kuò)充465個(gè),貶義情感詞擴(kuò)充510個(gè),中性情感詞擴(kuò)充105個(gè)。
3.3 復(fù)雜句式情感分析
本文使用了豆瓣電影七大分類各100部電影共20 000條影評(píng)作為數(shù)據(jù)集,除去重復(fù)和無(wú)價(jià)值數(shù)據(jù),剩余17 542條影評(píng),進(jìn)行情感極性標(biāo)注,將分類數(shù)據(jù)集按比例1∶1用于訓(xùn)練與測(cè)試。本文將情感傾向分為褒貶中三類,實(shí)驗(yàn)分別使用傳統(tǒng)SVM分類器和加入本文構(gòu)建的復(fù)雜句式情感評(píng)判規(guī)則進(jìn)行情感傾向性研究,本文以準(zhǔn)確率、召回率、F值作為實(shí)驗(yàn)的評(píng)價(jià)指標(biāo),單位為%,實(shí)驗(yàn)結(jié)果如表5和圖1所示。
根據(jù)實(shí)驗(yàn)結(jié)果得出7種復(fù)雜句式在準(zhǔn)確率、召回率、F值三方面都有不同程度的提高,遞進(jìn)句式和并列句式提高程度略低。本文繼續(xù)驗(yàn)證擴(kuò)展后情感詞典對(duì)情感傾向性影響,設(shè)基礎(chǔ)詞典:關(guān)聯(lián)詞典+否定詞典+網(wǎng)絡(luò)熱點(diǎn)詞詞典。特征詞典1:HowNet詞典+基礎(chǔ)詞典。特征詞典2:大連理工大學(xué)情感詞典+基礎(chǔ)詞典。特征詞典3:HowNet詞典+大連理工大學(xué)情感詞典+基礎(chǔ)詞典。特征詞典4:擴(kuò)展后情感詞典+基礎(chǔ)詞典。實(shí)驗(yàn)結(jié)果如表6所示。
通過(guò)實(shí)驗(yàn)結(jié)果分析,擴(kuò)充后的情感詞典在情感分類準(zhǔn)確率、召回率、F值三方面都有明顯提高,擴(kuò)充后情感詞典包含了豐富的語(yǔ)義信息,挖掘到詞語(yǔ)間更多的語(yǔ)義關(guān)系,可以得到更完善的領(lǐng)域詞、網(wǎng)絡(luò)新詞、情感詞。綜合以上優(yōu)勢(shì)本文提出的復(fù)雜句式情感傾向性分析方法有更好的分類效果,展現(xiàn)出優(yōu)良的性能。
中文文本中涵蓋豐富的情感信息,情感分析所使用的方法要考慮是否能正確判斷出作者要傳達(dá)的所有情感,有些詞語(yǔ)同時(shí)具備褒貶性,例如“好事”,可以表示一件令人快樂(lè)的事件,也可以表示對(duì)他人的貶責(zé)。分詞對(duì)情感傾向性的判別也很重要,例如“我與其余人不同”,若沒(méi)識(shí)別出“其余”而識(shí)別成“與其”則影響情感分析結(jié)果。有些關(guān)聯(lián)詞的識(shí)別,例如“他不如你好看”中“不如”分詞系統(tǒng)標(biāo)注是動(dòng)詞,不是連詞,例如“她不管你了”中“不管”雖標(biāo)注成連詞,但不符合復(fù)雜句式的匹配模式。有些日常詞語(yǔ)單獨(dú)使用不具備情感,搭配后具有情感傾向,例如“成績(jī)上漲”表達(dá)快樂(lè),“物價(jià)上漲”表達(dá)不滿。這些問(wèn)題都會(huì)影響情感傾向性的判斷,未來(lái)工作要繼續(xù)對(duì)文本情感分析進(jìn)行更加深入的學(xué)習(xí)與研究。
參考文獻(xiàn)
[1] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834?1848.
ZHAO Yanyan, QIN Bing, LIN Ting. Text sentiment analysis [J]. Journal of software, 2010, 21(8): 1834?1848.
[2] PANG B, LEE L, VAITHYANATHAN S. Thumbs up? sentiment classification using machine learning techniques [C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Philadelphia: Association for Computational Linguistics, 2002: 79?86.
[3] 吳曉吟.中文復(fù)雜句型的情感分析研究[EB/OL]. [2013?03?15].http://www.doc88.com/p?1738770331623.html.
WU Xiaoyin. Sentiment analysis of complex sentences for Chinese document [EB/OL]. [2013?03?15]. http://www.doc88.com/p?1738770331623.html.
[4] 楊富平,黃志勇.基于SVM和復(fù)雜句式的中文微博情感分析[EB/OL].[2016?01?12].http://www.doc88.com/p?3317610703317.html.
YANG Fuping, HUANG Zhiyong. Chinese micro?blog sentiment classification based on SVM and complex phrasing [EB/OL]. [2016?01?12]. http://www.doc88.com/p?3317610703317.html.
[5] 宋銳,林鴻飛,常富洋.中文比較句識(shí)別及比較關(guān)系抽取[J].中文信息學(xué)報(bào),2009,23(2):102?107.
SONG Rui, LIN Hongfei, CHANG Fuyang. Chinese comparative sentences identification and comparative relations extraction [J]. Journal of Chinese information processing, 2009, 23(2): 102?107.
[6] NARAYANAN R, LIU B, CHOUDHARY A. Sentiment analysis of conditional sentences [C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Singapore: Association for Computational Linguistics, 2009: 180?189.
[7] 李愛(ài)萍,邸鵬,段利國(guó).基于句子情感加權(quán)算法的篇章情感分析[J].小型微型計(jì)算機(jī)系統(tǒng),2015,36(10):2252?2256.
LI Aiping, DI Peng, DUAN Liguo. Document sentiment orientation analysis based on sentence weighted algorithm [J]. Journal of Chinese computer systems, 2015, 36(10): 2252?2256.
[8] BACCIANELLA S, ESULI A, SEBASTIANI F. SentiWordNet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining [C]// Proceedings of the International Conference on Language Resources and Evaluation. Valletta: European Language Resources Association, 2010: 2200?2204.
[9] LILLEBERG J, ZHU Y, ZHANG Y. Support vector machines and word2vec for text classification with semantic features [C]// Proceedings of 14th International Conference on Cognitive Informatics & Cognitive Computing. Beijing: IEEE, 2015: 136?140.
[10] 江敏,肖詩(shī)斌,王弘蔚,等.一種改進(jìn)的基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度計(jì)算[J].中文信息學(xué)報(bào),2008,22(5):84?89.
JIANG Min, XIAO Shibin, WANG Hongwei, et al. An improved word similarity computing method based on HowNet [J]. Journal of Chinese information processing, 2008, 22(5): 84?89.
[11] 邸鵬,段利國(guó).基于復(fù)雜句式的文本情感傾向性分析[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(11):57?61.
DI Peng, DUAN Liguo. Text sentiment polarity analysis based on complex sentences [J]. Computer applications and software, 2015, 32(11): 57?61.