宛艷萍,孟竹,唐家明,谷佳真,張芳
一種融合情感規(guī)則與機器學(xué)習(xí)的情感分類方法
宛艷萍,孟竹,唐家明,谷佳真,張芳
(河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401)
針對評論型長文本的情感傾向性問題,提出了一種融合情感規(guī)則與機器學(xué)習(xí)的分類方法.基于情感規(guī)則得出評論的情感得分,該方法將文本分解為一組子句,以詞匯為基本顆粒進行分數(shù)計算,得出最佳位置權(quán)重系數(shù).同時,不同類型句式共歸納出4類關(guān)聯(lián)詞與之對應(yīng).將所得權(quán)重系數(shù)與關(guān)聯(lián)詞得分相結(jié)合,總結(jié)出情感計算公式.然后將所得情感得分作為特征融合到機器學(xué)習(xí)分類器的輸入矩陣中,構(gòu)造最優(yōu)情感分類器.實驗所得最優(yōu)分類器準確率為0.979,高于同類算法.
情感傾向性;情感規(guī)則;權(quán)重調(diào)優(yōu);關(guān)聯(lián)詞;特征融合;最優(yōu)情感分類器
情感分析通過對文本語義信息進行挖掘,能夠識別出文本所蘊含的積極或消極的情感.現(xiàn)今用戶通過發(fā)布售后評論、電影評論等來表達自己的情感,這些評論都包含著豐富的觀點信息,可供商家和消費者參考而做出更加合理的判斷.
朱嫣嵐[1]等提出了詞匯語義傾向的概念,將重點放在詞匯情感傾向上.劉知遠[2]等基于不同規(guī)模的詞典語料庫建立了漢語詞同現(xiàn)網(wǎng).張磊[3]通過條件隨機場算法提取核心句并計算相應(yīng)的情感權(quán)值.經(jīng)閱讀大量文獻發(fā)現(xiàn),當(dāng)前的情感分析研究大致分為2種.第1種方法,通過設(shè)定一系列語義規(guī)則并構(gòu)建情感詞典[4-6],對文本進行分級處理,計算整體情感分值,其情感分析的基礎(chǔ)對象是單個詞匯.第2種方法,基于機器學(xué)習(xí).首先對訓(xùn)練數(shù)據(jù)進行預(yù)處理,然后結(jié)合TF-IDF等方法提取特征向量,構(gòu)建向量特征空間,但對一些特殊句式不能準確識別其情感傾向,所以本文將兩者特征融合,來構(gòu)造最優(yōu)情感分類器.
本文以數(shù)碼產(chǎn)品的售后跟蹤與評價為例,從評論中獲取用戶的情感信息,準確地分析出用戶評論中的情感傾向性,有利于商家準確地了解市場情感,推出大眾更容易接受和喜愛的產(chǎn)品.
情感詞典需要不斷整理歸納,本文整合基礎(chǔ)詞典、網(wǎng)絡(luò)熱點詞詞典、專業(yè)領(lǐng)域詞典以及表情符號詞典,最終得到覆蓋領(lǐng)域較大的中文情感詞典.
本文選取的中文情感詞典包括:HowNet情感詞典和NTUSD情感詞典[7],將HowNet中文情感詞典進行整理后有褒義詞4 560個,貶義詞4 370個;NTUSD包含褒義詞2 810個,貶義詞8 270個.
在如今信息時代,網(wǎng)絡(luò)用語日新月異,基礎(chǔ)情感詞典已經(jīng)不能滿足要求,如檸檬精、筆芯等詞帶有明顯的情感傾向,為了提高情感分類的準確度,構(gòu)建了網(wǎng)絡(luò)熱點詞情感詞典.本文在網(wǎng)絡(luò)熱詞發(fā)現(xiàn)過程中利用互信息合并候選字符串,結(jié)合了N-gram算法發(fā)現(xiàn)新詞并更新詞典,收集網(wǎng)絡(luò)熱點詞完成情感詞典的構(gòu)建.其中包括褒義網(wǎng)絡(luò)詞,如小確幸、中國夢、逆襲等280個;貶義網(wǎng)絡(luò)詞,如玻璃心、檸檬精、坑爹等250個.
由于在線評論中有很多專業(yè)詞語,基礎(chǔ)情感詞典難以識別,本文構(gòu)造了專屬領(lǐng)域情感詞典,其中包括手機、相機以及筆記本電腦領(lǐng)域的專業(yè)詞匯.領(lǐng)域詞典包括順暢、清晰、畫質(zhì)高、顆粒感等240個褒義詞;黑屏、死機、卡頓、Bug等180個貶義詞.
從最基本的詞匯粒度出發(fā),將一篇評論文本劃分為不同的部分并給予不同的權(quán)重,再以詞匯為基本顆粒進行分數(shù)計算.一篇文本的每個部分重要程度不同,對于一段評論文本,設(shè)定‘Head_num’,‘Tail_num’這2個參數(shù),分別代表文本[0:Head_num]句和[Tail_num-1:]句.一般來說這2部分分數(shù)的權(quán)重相比于中間部分[Head_num:Tail_num]的權(quán)重更高.可以按文本長度設(shè)定參數(shù)的值,本文經(jīng)過反復(fù)實驗比較,設(shè)定參數(shù)值為2,即首2句和末2句.
若評論文本過短,本文認為其不夠長度來進行分塊,即[0:Head_num]∩[Tail_num -1:]≠?,此時全文則采用統(tǒng)一權(quán)重來計算分數(shù).為了減少首尾權(quán)重對于文本整體的影響過大,以至于算法忽略文本中間部分的分數(shù),將首尾部分得出的分數(shù)乘以對應(yīng)的頻率,公式為
表1 積極評論準確率
表2 消極評論準確率
在中文句式表達中,程度副詞不可或缺,可以加強或削弱用戶表達的語義情感[8].人工收集整理出70個程度副詞,根據(jù)它們不同的語義表達將其細化為7個層次,程度副詞強度值分布見表3.
表3 程度副詞詞表
根據(jù)程度副詞不同的強度值賦予句子不同的情感得分,具體方法是在情感詞的位置處向前搜索1~2個位置,根據(jù)其強度值,對分數(shù)乘以不同的系數(shù).為了提高算法質(zhì)量,降低程序在判定子分支語句方面的時間損耗.本文采用哈夫曼樹的優(yōu)化思想:將條件分支‘if-else’看成二叉樹的結(jié)構(gòu),根據(jù)程度副詞在日常用語中出現(xiàn)的頻率,首先判斷‘very’和‘over’,再依次判斷‘more’‘most’和‘some’‘ish’和‘inverse’,來達到樹的加權(quán)路徑最小的目的.
經(jīng)過對大量句式研究總結(jié),本文將句式分為9類.其情感傾向主要通過關(guān)聯(lián)詞后的情感詞體現(xiàn),本文共總結(jié)為4類關(guān)聯(lián)詞R1,R2,R3,R4分別對應(yīng)幾類句式,具體分布見表4.
表4 關(guān)聯(lián)詞
第1類關(guān)聯(lián)詞引導(dǎo)的分句通常與用戶真正想表達的情感意圖相反;第2類關(guān)聯(lián)詞引導(dǎo)的分句通常與用戶真正想表達的意圖情感相同;第3類則是用戶情感意識的加強表達,如關(guān)聯(lián)詞“而且”“又…又”增加了句子相應(yīng)的情感分數(shù);第4類是直接將該總結(jié)句的情感判別為整個文本的情感.同時,否定詞語對判定文本整體的情感非常重要.通過總結(jié)其在日常用語中出現(xiàn)的頻次,本文收集55個否定詞,構(gòu)建了否定詞典.
基于機器學(xué)習(xí)算法構(gòu)建情感分類器,在對數(shù)據(jù)集進行相關(guān)的預(yù)處理過后,運用卡方統(tǒng)計方法進行特征提取,之后進行向量化,將所得到的特征詞組(1,2,…,X)作為獨立屬性輸入到各分類器中進行情感分類.?dāng)?shù)據(jù)集是從京東網(wǎng)站抓取的不同品牌的電子商品評論數(shù)據(jù),人工標注后存儲到不同的Excel表格中.選取8 000條有價值的電商售后評論,使用正、負評價集作為語料庫,訓(xùn)練情感分類器,使用Python的Nltk api進行分類任務(wù).本文比對了多個分類器的分類結(jié)果,實驗結(jié)果見圖1.
圖1 不同分類器的分類準確率
由圖1可知,當(dāng)特征維數(shù)為2 000維時LinearSVC分類準確率最高,為97.54%;當(dāng)特征維數(shù)為2 500維時BernoulliNB分類準確率最高,為95.57%.
本文數(shù)據(jù)是從京東網(wǎng)站抓取的不同品牌的電子商品評論數(shù)據(jù),如華為、小米、Canon、Lenovo等,進行數(shù)據(jù)的去重、去噪等數(shù)據(jù)清洗工作,人工標注后存儲到不同的Excel表格中.選取8 000條有價值的電商售后評論,其中手機品牌的4 000條,相機和筆記本各2 000條.
為了進行對比,先后實現(xiàn)了李愛萍[9]等提出的句子情感加權(quán)算法和基于關(guān)鍵句分析的微博情感傾向性(SOAS)算法(見表5)[10].由表5可知,本文提出的權(quán)重調(diào)優(yōu)及特殊句式處理算法在各評價指標中均高于其它方法.
表5 情感分析對比結(jié)果
歸一化就是要把需要處理的數(shù)據(jù)經(jīng)過處理后限制在需要的一定范圍內(nèi).本文是將評論分數(shù)歸一化到(-1,+1)之間,是對原始數(shù)據(jù)的線性變換,使結(jié)果落到[-1,1]區(qū)間,公式為
由圖2可知,融合特征后各分類器準確率基本提高,在各個維度SVM的分類準確率普遍較高;當(dāng)特征維數(shù)為2 000維時,LinearSVC分類準確率最高,為97.9%.整體情感分析過程見圖3.
圖2 融合特征后的分類準確率
表4 關(guān)聯(lián)詞
本文構(gòu)建了情感詞典,包括網(wǎng)絡(luò)熱詞詞典、領(lǐng)域?qū)僭~典等,并通過N-gram算法進行網(wǎng)絡(luò)新詞發(fā)現(xiàn)更新情感詞典.對文本進行分塊處理權(quán)重調(diào)優(yōu),文本不同部分賦予不同的位置權(quán)重,進一步提出特殊句式情感計算規(guī)則,將特殊句式分為9類,不同類型的特殊句式所具有的關(guān)聯(lián)詞對文本有不同的影響,本文共總結(jié)為4類關(guān)聯(lián)詞.將權(quán)重調(diào)優(yōu)實驗所得最佳位置權(quán)重與特殊句式情感計算規(guī)則相結(jié)合,依次判定各評論文本所得情感分數(shù),總結(jié)出情感計算公式.在對電商售后評論的情感分析中得到了較高的準確率.同時實現(xiàn)基于機器學(xué)習(xí)算法的情感分類,將所得評論情感分數(shù)歸一化后作為特征融合到SVM,NB分類器中訓(xùn)練得到最優(yōu)情感分類器,進一步提升了分類器的準確率.但仍存在不足之處,如有時一句話可能表達反義.因此,還需進一步研究確定不同句式表達對整個文本情感的影響.
[1] 朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語義傾向計算[J].中文信息學(xué)報,2006,20(1):16-22
[2] 劉知遠,孫茂松.漢語詞同現(xiàn)網(wǎng)絡(luò)的小世界效應(yīng)和無標度特性[J].中文信息學(xué)報,2007,21(6):52-58
[3] 張磊.基于機器學(xué)習(xí)的情感分析方法研究[D].成都:電子科技大學(xué),2018
[4] Xu Weidi,Tan Ying.Semi-supervised target-oriented sentiment classification[J].Neurocomputing,2019,337(14):120-128
[5] 楊歡.文本情感分類預(yù)處理研究[J].計算機技術(shù)應(yīng)用,2016(10):187
[6] 盧興.基于統(tǒng)計方法的中文短文本情感分析[D].北京:北京理工大學(xué),2016
[7] Zhai Zhongwu,Xu Hua,Kang Bada,et al.Exploiting effective features for Chinese sentiment classification[J].Expert Systems with Applications,2014,38(8):9139-9146
[8] 林江豪,顧也力,周詠梅.基于表情符號的情感詞典的構(gòu)建研究[J].計算機技術(shù)與發(fā)展,2019,29(6):182-185
[9] 李愛萍,邸鵬,段利國.基于句子情感加權(quán)算法的篇章情感分析[J].小型微型計算機系統(tǒng),2015,10(10):2252-2256
[10] 邵帥,劉學(xué)軍,李斌.基于關(guān)鍵句分析的微博情感傾向性研究[J].計算機應(yīng)用研究,2018(4):983-987
A method of emotion classification which combines emotion rules and machine learning
WAN Yanping,MENG Zhu,TANG Jiaming,GU Jiazhen,ZHANG Fang
(School of Artificial Intelligence and Data Science,Hebei University of Technology,Tianjin 300401,China)
A classification method combining emotional rules and machine learning is proposed to solve the problem of emotional orientation of long critical texts.First of all,the emotional score of the comment is obtained based on the emotional rules,the method refines the text into a set of clauses,with vocabulary as the basic particle scores calculated,it is concluded that the best position weight coefficient.Meanwhile,there are four types of related words corresponding to different types of sentence patterns.Combining the weight coefficient with the score of related words,the formula of emotion calculation is summarized.Then,the obtained emotion score is integrated into the input matrix of machine learning classifier to construct the optimal emotion classifier.The accuracy of the optimal classifier is 0.979,higher than the similar algorithm.
emotional tendency;emotional rules;weight tuning;relative term;feature fusion;optimal emotion classifier
TP391
A
10.3969/j.issn.1007-9831.2020.06.007
1007-9831(2020)06-0031-05
2020-01-03
河北省高等學(xué)??茖W(xué)技術(shù)研究重點項目(ZD2014051)
宛艷萍(1968-),女,河北文安人,副教授,碩士,從事大數(shù)據(jù)處理與智能計算研究.E-mail:wanyp_ok@126.com