趙 樂(lè),麥范金,張興旺
1(桂林理工大學(xué) 信息科學(xué)與工程學(xué)院,機(jī)械與控制工程學(xué)院,廣西 桂林 541006)2(桂林理工大學(xué) 圖書(shū)館,廣西 桂林 541006)
利用機(jī)器學(xué)習(xí)對(duì)評(píng)論文本進(jìn)行情感分類(lèi)是目前情感分析研究的主流方法之一.如何有效地對(duì)這些評(píng)論文本進(jìn)行分析處理,挖掘出有價(jià)值的信息,更好地為人們服務(wù)?近幾年,深度學(xué)習(xí)算法應(yīng)用于自然語(yǔ)言處理,促進(jìn)了文本情感分類(lèi)技術(shù)的發(fā)展.何躍[1]等人基于微博情感詞、表情符號(hào)、否定詞、程度副詞等情感知識(shí)分類(lèi)算法和傳統(tǒng)的機(jī)器學(xué)習(xí)算法,解決了機(jī)器學(xué)習(xí)算法在情感分類(lèi)時(shí)樣本數(shù)據(jù)分布不均的問(wèn)題.姜杰[2]等人將多樣化情感信息進(jìn)行轉(zhuǎn)化,形成更有效的多特征融合模形,提高了微博情感分類(lèi)的性能.
目前的機(jī)器學(xué)習(xí)算法,如支持向量機(jī)、樸素貝葉斯和神經(jīng)網(wǎng)絡(luò)等已經(jīng)在情感分類(lèi)中取得了良好的分類(lèi)效果,但由于文本句式的復(fù)雜性和情感特征的多樣化,因此情感分類(lèi)的研究還有待進(jìn)一步提高.隨機(jī)梯度下降算法在情感分類(lèi)中很少應(yīng)用,但實(shí)驗(yàn)發(fā)現(xiàn)其分類(lèi)性能較好.因此本文結(jié)合詞性特征和語(yǔ)法特征進(jìn)行特征融合,然后使用軟投票機(jī)制,結(jié)合隨機(jī)梯度下降、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)分類(lèi)器等算法,提出了一種多特征融合的Voting-SRM情感分類(lèi)方法.通過(guò)在IMDB電影評(píng)論數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),對(duì)其進(jìn)行二分類(lèi)研究,實(shí)驗(yàn)結(jié)果表明該方法能有效提高情感分類(lèi)精度.
目前,文本情感分類(lèi)的方法主要有三種:基于詞典和規(guī)則的分類(lèi),基于機(jī)器學(xué)習(xí)的分類(lèi)和基于深度學(xué)習(xí)的分類(lèi).
基于詞典和規(guī)則的方法,主要是根據(jù)現(xiàn)有情感詞典獲取文本中的情感元素,然后利用規(guī)則進(jìn)行特征抽取和權(quán)重計(jì)算,隨后利用累加求和計(jì)算出句子的情感傾向值,進(jìn)而計(jì)算篇章情感得分.閆曉東[3]等人通過(guò)構(gòu)建極性詞典和轉(zhuǎn)折詞詞典,然后將其組合構(gòu)建極性短語(yǔ)作為基本情感單元,重點(diǎn)分析了轉(zhuǎn)折詞對(duì)句子情感極性的影響.劉德喜[4]等人對(duì)比分析中英兩種語(yǔ)言微博中情感詞分布的差異,自動(dòng)構(gòu)建訓(xùn)練數(shù)據(jù)、訓(xùn)練分類(lèi)器,最后采用投票機(jī)制確定候選詞的情感極性.唐曉波[5]等人首先對(duì)中文文本進(jìn)行依存句法分析,通過(guò)構(gòu)建識(shí)別規(guī)則,提取情感單元,然后對(duì)情感單元進(jìn)語(yǔ)言翻譯轉(zhuǎn)換,最后通過(guò)與英文情感詞的匹配分析,完成了對(duì)情感評(píng)價(jià)單元的極性判定.
基于機(jī)器學(xué)習(xí)的分類(lèi)方法,主要是利用機(jī)器學(xué)習(xí)的方法,抽取出文本中的情感特征,然后訓(xùn)練分類(lèi)器來(lái)完成情感分類(lèi)任務(wù).何躍[1]等人基于微博情感詞、表情符號(hào)、否定詞、程度副詞等情感知識(shí)分類(lèi)算法和傳統(tǒng)的機(jī)器學(xué)習(xí)算法,解決了機(jī)器學(xué)習(xí)算法在情感分類(lèi)時(shí)樣本數(shù)據(jù)分布不均的問(wèn)題.姜杰[2]等人將多樣化情感信息進(jìn)行轉(zhuǎn)化,形成更有效的融合特征模板,提高了微博情感分類(lèi)的性能.
基于深度學(xué)習(xí)的分類(lèi)方法.隨著近年來(lái)深度學(xué)習(xí)技術(shù)的快速發(fā)展,其在大規(guī)模文本數(shù)據(jù)上表現(xiàn)出了獨(dú)特優(yōu)勢(shì),更好地用于情感分類(lèi).現(xiàn)有研究工作主要是從評(píng)論文本中學(xué)習(xí)出語(yǔ)義詞向量,然后通過(guò)不同的語(yǔ)義合成方法用詞向量得到所對(duì)應(yīng)句子或是文檔的特征表達(dá)[6],以此來(lái)進(jìn)行學(xué)習(xí),從而進(jìn)行情感分類(lèi).李杰[7]等人以情感標(biāo)簽標(biāo)注評(píng)論中的產(chǎn)品特征詞,并利用詞向量對(duì)產(chǎn)品特征有效聚類(lèi),提高了特征提取和分類(lèi)的準(zhǔn)確率.楊艷[8]等人針對(duì)文本中長(zhǎng)句和短句具有不同建模特點(diǎn),提出了一種基于聯(lián)合深度學(xué)習(xí)的情感分類(lèi)方法,在COAE2016測(cè)評(píng)任務(wù)中取得最高的系統(tǒng)準(zhǔn)確率.
通過(guò)研究發(fā)現(xiàn),隨機(jī)梯度下降算法在情感分類(lèi)中很少應(yīng)用,但實(shí)驗(yàn)發(fā)現(xiàn)其分類(lèi)性能較好.因此本文結(jié)合詞性特征和語(yǔ)法特征進(jìn)行特征融合,然后使用軟投票機(jī)制,結(jié)合隨機(jī)梯度下降,隨機(jī)森林,神經(jīng)網(wǎng)絡(luò)分類(lèi)器等算法,提出了一種多特征融合的Voting-SRM情感分類(lèi)方法.通過(guò)在IMDB電影評(píng)論數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),對(duì)其進(jìn)行二分類(lèi)研究,實(shí)驗(yàn)結(jié)果表明該方法能有效提高情感分類(lèi)精度.
本文對(duì)評(píng)論文本進(jìn)行詞性標(biāo)注,抽取出名詞、動(dòng)詞、形容詞和副詞,并結(jié)合二元語(yǔ)法進(jìn)行特征抽取,構(gòu)建向量空間模型,然后基于軟投票機(jī)制,對(duì)隨機(jī)梯度下降算法,隨機(jī)森林算法,神經(jīng)網(wǎng)絡(luò)算法進(jìn)行集成,構(gòu)建情感分類(lèi)模型進(jìn)行情感分析.
特征選擇是使用分類(lèi)器進(jìn)行情感分類(lèi)的重要環(huán)節(jié),分類(lèi)結(jié)果的正確率、查準(zhǔn)率、查全率等都取決于選擇的特征的有效性.黃發(fā)良[9]等人將微博表情符號(hào)與用戶性格情緒特征融合進(jìn)圖模型中,實(shí)現(xiàn)了微博主題與情感的同步推導(dǎo).王汝嬌[10]等人結(jié)合Twitter語(yǔ)言特性和詞典設(shè)計(jì)語(yǔ)料和詞典特征,使用卷積神經(jīng)網(wǎng)絡(luò)得到詞向量特征,將3種特征融合,取得了較好的分類(lèi)效果.何躍[1]等人將情感知識(shí)和機(jī)器學(xué)習(xí)算法組合,提出了一種組合分類(lèi)算法,解決了樣本數(shù)據(jù)分布不均的問(wèn)題.由于不同的評(píng)論文本在語(yǔ)義和語(yǔ)法結(jié)構(gòu)上均有不同特征,本文通過(guò)分析研究,決定從詞性特征,語(yǔ)法特征兩個(gè)方面進(jìn)行特征選擇.
3.1.1 詞性特征
詞性標(biāo)注是在特定的語(yǔ)境中確定分詞的詞性,由于詞匯傾向性可以在一定程度上決定文本傾向性,因此情感傾向性分類(lèi)需要進(jìn)行詞性標(biāo)注.本文分析了影評(píng)文本特性,發(fā)現(xiàn)名詞、動(dòng)詞、形容詞、副詞在一定程度上決定了文本整體情感,所以選擇這四類(lèi)特征作為詞性特征.詞性標(biāo)注類(lèi)別如表1所示.這里考慮到英文詞匯在進(jìn)行詞干化處理的時(shí)候會(huì)出現(xiàn)不合理截?cái)嗷蚴清e(cuò)誤現(xiàn)象,所以選取了形容詞、副詞、動(dòng)詞、名詞的所有形式,以盡可能全的選擇詞性特征.
表1 詞性標(biāo)注類(lèi)別
Table 1 Part of speech tagging category
詞性標(biāo)注形容詞JJ,JJR,JJS副詞RB,RBR,RBS,RP,WRB動(dòng)詞VB,VBD,VBG,VBN,VBP,VBZ名詞NN,NNS,NNP,NNPS
3.1.2 語(yǔ)法特征
n元語(yǔ)法模型(N-gram)近似假設(shè)一個(gè)詞的概率只依賴(lài)于它前面的n-1個(gè)詞,而與其他詞無(wú)關(guān)來(lái)推斷句子的結(jié)構(gòu)關(guān)系.本文在基于語(yǔ)料進(jìn)行實(shí)驗(yàn)分析后,發(fā)現(xiàn)二元語(yǔ)法模型(Bi-gram)特征在分類(lèi)時(shí)性能優(yōu)于一元語(yǔ)法(Unigram)和三元語(yǔ)法(Trigram).因此本文選取二元語(yǔ)法模型進(jìn)行特征表征.
3.2.1 SGD隨機(jī)梯度下降分類(lèi)器
隨機(jī)梯度下降算法(Stochastic Gradient Descent,SGD)是一種簡(jiǎn)單、高效的方法,主要用于凸損失函數(shù)下線性分類(lèi)器的判別式學(xué)習(xí),例如線性支持向量機(jī)和Logistic回歸.SGD算法是一個(gè)基于梯度下降的改進(jìn)算法,其核心思想是:首先計(jì)算出損失函數(shù)的梯度,然后根據(jù)梯度計(jì)算出函數(shù)損失值,并且按照梯度的方向使函數(shù)損失值逐漸減少,當(dāng)函數(shù)損失值最小時(shí),得到最優(yōu)梯度值[11].
給定一組訓(xùn)練樣本S={(xi,yi),i=1,…,n},其中xi∈Rm是一個(gè)m維輸入向量,yi∈{-1,1}是第i個(gè)訓(xùn)練樣例的類(lèi)標(biāo),目標(biāo)是一個(gè)線性評(píng)價(jià)函數(shù)(Scoring function)f(x)=wTx+b,其中模型參數(shù)w∈Rm,截距b∈R.只需要看f(x)的符號(hào).找到模型參數(shù)的一般選擇是通過(guò)最小化由以下式子給出的正則化訓(xùn)練誤差.
(1)
其中L衡量模型擬合程度的損失函數(shù):
L(yi,f(xi))=max{0,1-yif(xi)}
(2)
首先,將w1置為零向量,然后均勻隨機(jī)選取訓(xùn)練集中一個(gè)訓(xùn)練樣例(xit,yit),其中it∈{1,…,n}是通過(guò)第t次迭代選擇的訓(xùn)練樣例下標(biāo).然后將公式(1)用下式近似替換:
(3)
對(duì)公式(3)求梯度得:
t+1=αwt-λtyitxit
(4)
其中,
(5)
w的公式更新為:
wt+1←wt-ηtt+1
(6)
(7)
w更新完畢后,再隨機(jī)選取一個(gè)訓(xùn)練樣例用式(7)進(jìn)行更新,進(jìn)行T次迭代,最后得到的wT+1即為算法所求的最終解.
SGD分類(lèi)器實(shí)現(xiàn)了一個(gè)一階SGD學(xué)習(xí)程序(first-order SGD learning routine).算法在訓(xùn)練樣本上遍歷,并且對(duì)每個(gè)樣本根據(jù)以上公式給出的更新規(guī)則來(lái)更新模型參數(shù).本文中算法選取Logisitic回歸作為算法的損失函數(shù),L2正則化作為懲罰函數(shù),來(lái)完成SGD分類(lèi)器參數(shù)的構(gòu)造.
3.2.2 Voting軟投票分類(lèi)器
目前基于集成學(xué)習(xí)進(jìn)行情感分類(lèi)的研究很多,徐禹洪[12]等人考慮到即時(shí)性文本信息具有已標(biāo)注數(shù)據(jù)規(guī)模小的特點(diǎn),提出了基于優(yōu)化樣本分部抽樣集成學(xué)習(xí)的半監(jiān)督文本分類(lèi)算法,提高了分類(lèi)性能.黃偉[13]等人通過(guò)構(gòu)建子分類(lèi)器,每輪投票選出置信度最高的樣本使訓(xùn)練集擴(kuò)大一倍并更新訓(xùn)練模型,提出了基于多分類(lèi)器投票集成的半監(jiān)督情感分類(lèi)方法.本文使用加權(quán)平均概率,即為軟投票,它是結(jié)合多個(gè)不同分類(lèi)器,并且為各分類(lèi)器設(shè)定相應(yīng)的權(quán)值,然后利用二值函數(shù)乘其權(quán)重進(jìn)行匯總,并且采用平均預(yù)測(cè)概率的方式來(lái)預(yù)測(cè)分類(lèi)標(biāo)簽,最終得到情感分類(lèi)傾向值.
對(duì)于m個(gè)類(lèi)別L=(l1,…,lm),存在n個(gè)不同的基分類(lèi)器{cls1,…,clsn},其對(duì)應(yīng)的權(quán)值為{w1,…,wn},則:
(8)
(9)
其中P(lj|wi)表示分類(lèi)器clsi對(duì)類(lèi)別lj的輸出概率,P(lj)表示類(lèi)別的先驗(yàn)概率,P(wi)表示分類(lèi)器clsi的性能權(quán)重.Δw即為最終輸出結(jié)果.
本文算法使用三個(gè)分類(lèi)器,如SGD隨機(jī)梯度下降,隨機(jī)森林,神經(jīng)網(wǎng)絡(luò).因此分類(lèi)器性能權(quán)重可以設(shè)置為2:2:1,所以本文分類(lèi)器標(biāo)記為Voting-SRM.由于隨機(jī)森林算法和神經(jīng)網(wǎng)絡(luò)模型被廣泛使用,本文不再詳細(xì)介紹其算法原理.
本文選取的是IMDB電影評(píng)論數(shù)據(jù)[14],這是一個(gè)用于二分類(lèi)的電影評(píng)論數(shù)據(jù)集,選取已標(biāo)注的25000條評(píng)論,并隨機(jī)分為訓(xùn)練集和測(cè)試集,其中80%為訓(xùn)練集,20%為測(cè)試集,正面情感標(biāo)注為1,負(fù)面情感標(biāo)注為0.性能評(píng)價(jià)指標(biāo)主要包括正確率(Accuracy)、查準(zhǔn)率(Precision)、查全率(Recall)和F測(cè)度值(F-score).其中查準(zhǔn)率衡量分類(lèi)效果,查全率衡量分類(lèi)效率,F測(cè)度值主要衡量情感分類(lèi)方法性能[5].公式如下:
(10)
(11)
其中TP表示正確預(yù)測(cè)的正樣本數(shù),TN表示正確預(yù)測(cè)的負(fù)樣本數(shù),FP表示錯(cuò)誤預(yù)測(cè)的正樣本數(shù),FN表示錯(cuò)誤預(yù)測(cè)的負(fù)樣本數(shù)[15].
根據(jù)3.1中特征選擇的詞性特征和語(yǔ)法特征,設(shè)置不同的組合形式,并進(jìn)行實(shí)驗(yàn)驗(yàn)證,分類(lèi)比較其在情感分類(lèi)中的作用和分類(lèi)性能.其分類(lèi)結(jié)果如表2所示.
表2 不同特征集合分類(lèi)
Table 2 Different feature set classification
特征集合形容詞+副詞(adj+adv)形容詞+副詞+名詞(adj+adv+n)形容詞+副詞+動(dòng)詞(adj+adv+v)形容詞+副詞+名詞+動(dòng)詞(adj+adv+n+v)
根據(jù)以上性能評(píng)價(jià)指標(biāo)進(jìn)行試驗(yàn),評(píng)測(cè)Voting-SRM方法在IMDB影評(píng)數(shù)據(jù)上情感分類(lèi)性能,并觀察在不同特征集上的各評(píng)測(cè)指標(biāo)的精度.其實(shí)驗(yàn)結(jié)果如表3所示.
表3 不同特征集下的分類(lèi)正確率
Table 3 Classification accuracy under different feature sets
評(píng)估指標(biāo)分類(lèi)模型特征集合adj+advadj+adv+nadj+adv+vadj+adv+n+vAccSVM0.82500.85440.84580.8682RM0.77530.77240.77180.7685MLP0.80850.82930.81770.8309SGD0.83620.86510.85630.8765Voting-SRM0.83700.86640.85880.8775
在實(shí)驗(yàn)中使用十折交叉驗(yàn)證計(jì)算分類(lèi)正確率,從表3可以看出,隨著特征種類(lèi)的增多,五種方法的分類(lèi)正確率都有所提升,其中本文提出的Voting-SRM算法分類(lèi)正確率最高,由此可見(jiàn)該方法的有效性.從表中還可以看出形容詞+副詞+名詞的特征集比形容詞+副詞+動(dòng)詞的特征集分類(lèi)正確率較高,由此可見(jiàn)名詞在情感分類(lèi)中的情感影響較大.整體來(lái)看五種分類(lèi)方法的正確率,除隨機(jī)森林外,其他四種模型的的精度在不同特征集下都高于82%,因此分類(lèi)效果,效率和分類(lèi)方法的性能都取得了較好的成績(jī).
表4 不同特征集下的查準(zhǔn)率
Table 4 Precision rate under different feature sets
評(píng)估指標(biāo)分類(lèi)模型特征集合adj+advadj+adv+nadj+adv+vadj+adv+n+vPSVMRMMLPSGDVoting-SRM0.82580.77530.79550.84000.84500.85750.78630.87430.86960.87270.84400.77950.81090.86120.86360.86860.78200.83970.88200.8858
從表4、表5、表6中可以看出,隨著特征種類(lèi)的增加,五種方法的總體查全率、查準(zhǔn)率和F-測(cè)度值都得到提高.本文提出得到Voting-SRM算法分類(lèi)模型具有最高的分類(lèi)精度,由此可見(jiàn)該方法是有效的.從表中還可以看出,形容詞+副詞+名詞的特征集各種分類(lèi)性能均高于形容詞+副詞+動(dòng)詞的特征集,表示名詞在情感分類(lèi)中具有更大的影響.因此在以后的研究中應(yīng)該更加深入的研究不同詞性組合對(duì)情感分類(lèi)的影響.
表5 不同特征集下的查全率
Table 5 Recall rate under different feature sets
評(píng)估指標(biāo)分類(lèi)模型特征集合adj+advadj+adv+nadj+adv+vadj+adv+n+vRSVMRMMLPSGDVoting-SRM0.82580.77240.79540.83960.84500.85740.78160.87420.86960.87260.84400.77620.81080.86120.86360.86860.77520.83960.88200.8816
表6 不同特征集下的F-測(cè)度值Table 6 F-score values under different feature sets
為了更直觀的觀察和分析各種評(píng)測(cè)指標(biāo),使用折線圖來(lái)展示比較五種方法在不同特征集上的分類(lèi)結(jié)果. 從圖1- 圖4
圖1 不同特征集下的正確率Fig.1 Accuary rate under different feature sets
可以看出本文提出的方法,在各種評(píng)測(cè)指標(biāo)上均優(yōu)于SVM算法.從圖中可以看出,神經(jīng)網(wǎng)絡(luò)模型在查全率,查準(zhǔn)率和F-測(cè)度值上均存在較大波動(dòng),顯示為不穩(wěn)定狀態(tài).當(dāng)提取少量特征時(shí),本文算法在各種性能上和SGD方法相當(dāng),但在提取了多種特征時(shí),本文提出的方法能有效提高分類(lèi)效果,分類(lèi)效率和分類(lèi)性能,這四種評(píng)測(cè)指標(biāo)均優(yōu)于SGD算法.因此本文提出的方法在文本情感分類(lèi)中是可行的,且分類(lèi)性能較好.
圖2 不同特征集下的平均查準(zhǔn)率評(píng)價(jià)結(jié)果Fig.2 Average precision under different feature sets
圖3 不同特征集下的平均查全率評(píng)價(jià)結(jié)果Fig.3 Average recall rate under different feature sets
圖4 不同特征集下的F-測(cè)度值評(píng)價(jià)結(jié)果Fig.4 F-score values under different feature sets
本文研究使用軟投票機(jī)制集成SGD隨機(jī)梯度下降,隨機(jī)森林算法和神經(jīng)網(wǎng)絡(luò)算法,并提取不同特征集在IMDB影評(píng)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明該方法有效提高了文本情感分類(lèi)性能.情感分類(lèi)精度的提高在于在情感特征中引入了詞性特征和語(yǔ)法特征,并使用詞頻逆文檔頻率進(jìn)行特征抽取,構(gòu)建向量空間模型,在同等條件下,實(shí)驗(yàn)結(jié)果表明該方法優(yōu)于支持向量機(jī)算法.但本文在抽取特征時(shí)只考慮了詞性和語(yǔ)法特征,并未考慮加入情感詞典、句法特征和依存語(yǔ)法特征,因此在以后的工作中會(huì)進(jìn)一步擴(kuò)展特征抽取過(guò)程,考慮更多影響文本情感傾向的因素,進(jìn)一步提高文本情感分類(lèi)性能.