王景中,龐丹丹
(北方工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,北京 100144)
情感分類是情感分析的具體任務(wù),通過分析統(tǒng)計(jì)帶主觀傾向性文本,明晰發(fā)表者關(guān)于某事物態(tài)度,同時(shí)把文本區(qū)別成正、負(fù)情感極性。在電子商務(wù)蓬勃發(fā)展的網(wǎng)絡(luò)環(huán)境下,產(chǎn)品的評論數(shù)據(jù)已經(jīng)成為商家提高產(chǎn)品及服務(wù)質(zhì)量的重要數(shù)據(jù)來源。這些評論中包含用戶對產(chǎn)品各方面的情感傾向,對其進(jìn)行情感分類不僅可以幫助生產(chǎn)廠商和銷售商通過反饋信息來提高產(chǎn)品質(zhì)量、改善服務(wù)、提高競爭力,還可為潛在消費(fèi)者提供網(wǎng)購指導(dǎo)。文本情感分類能夠根據(jù)給定的文本數(shù)據(jù)自動(dòng)的判別出用戶觀點(diǎn)的情感極性[1],具有非常重要的學(xué)術(shù)研究及實(shí)際應(yīng)用價(jià)值,也受到廣大學(xué)術(shù)研究者及商家、企業(yè)的關(guān)注。結(jié)合現(xiàn)狀來看,主要包含基于規(guī)則的、基于機(jī)器學(xué)習(xí)的、基于深度學(xué)習(xí)的3類情感分類研究。
上述分類方法主要通過向量空間模型完成特征表示,也就是把文本結(jié)構(gòu)化轉(zhuǎn)變成向量形式來計(jì)算,而把詞當(dāng)作文本特征后,會造成特征高維情況,一旦訓(xùn)練次數(shù)有所失誤,高維數(shù)據(jù)更可能引起過擬合問題,文本分類器泛化能力隨之下降。本文基于張量空間模型,將文本數(shù)據(jù)映射到空間內(nèi),同時(shí)完成相關(guān)計(jì)算,面對以上情況時(shí),有助于降低過擬合可能性。除此之外,利用支持張量機(jī)(STM)、LSTM神經(jīng)網(wǎng)絡(luò)構(gòu)造出L-STM算法模型,科學(xué)設(shè)置超平面參數(shù),由此減少計(jì)算期間迭代次數(shù),加快文本訓(xùn)練速度。實(shí)驗(yàn)結(jié)果表明,L-STM模型較傳統(tǒng)文本分類模型具有更高的分類準(zhǔn)確率。本文創(chuàng)新點(diǎn)與意義如下:利用張量空間模型使文本數(shù)據(jù)張量化,有助于規(guī)避高維數(shù)據(jù)過擬合現(xiàn)象;基于STM算法提出L-STM算法模型,有效減少了求解最優(yōu)解的迭代次數(shù),進(jìn)而縮短了文本的訓(xùn)練時(shí)間;3組實(shí)驗(yàn)結(jié)果表明本文方法的有效性、可行性。
引入詞向量的目的是將語言中的詞進(jìn)行數(shù)學(xué)化,即將詞轉(zhuǎn)化為計(jì)算機(jī)能夠識別的形式,從而可通過各種算法完成自然語言處理任務(wù)。文獻(xiàn)[2]介紹了一種經(jīng)典的詞向量表示方法One-hot repre-sentation,但其缺點(diǎn)是維度過高且不能很好的表達(dá)詞與詞之間的語義關(guān)系。
Word2Vec[3]作為Google于2013年開源的工具包,重點(diǎn)在于獲得word vector,它高效、容易使用,只需進(jìn)行相應(yīng)訓(xùn)練,便能將文本數(shù)據(jù)轉(zhuǎn)變成K維向量數(shù)據(jù)。這種算法不僅能獲取語境信息、壓縮信息規(guī)模,還提供CBOW (continuous bag of words model)和Skip-gram(continuous skip-gram model)語言模型,且CBOW、Skip-gram全部擁有輸入/輸出層與映射層,兩者訓(xùn)練過程大體相似。
word embedding訓(xùn)練階段,由于Skip-gram模型具備高效、準(zhǔn)確等優(yōu)點(diǎn),故而得到普遍利用。詳細(xì)結(jié)構(gòu)如圖1所示。
圖1 Skip-gram模型
若給定一個(gè)需要訓(xùn)練的詞序列W1、W2、…、Wn,那么Skip-gram模型的目標(biāo)就是最大化概率取log的平均值即使式(1)最大
(1)
式中:c值的大小與模型的訓(xùn)練效果成正比,即c值越大,效果更理想,然而訓(xùn)練時(shí)間也會相應(yīng)延長[4];對于文本分類而言,僅用保證訓(xùn)練語料庫與窗口大小C符合要求,便能快速獲得更理想詞向量。
現(xiàn)階段,word embedding常用于POS、Tagging[5]、中文分詞、情感分類等方面,實(shí)用效果非常顯著。
定義1 高維空間中向量自身拓展即為張量,N階張量是指A∈RI1×I2×…×IN,A中的元素用ai1,i2,…,iN表示,其中1≤in≤IN,1≤n≤N。
定義2n模式積:張量和矩陣的n模式積是指S∈RI1×I2×…IK與矩陣E∈RIN×J的n模式積表示為S?E,可得新張量Β∈RI1×I2×…In-1×In×…×Ik,B∈S?E值即為一N-1階張量。
定義3 秩一分解:如果一K階張量可表示成K個(gè)向量外積,那么此向量又叫做秩一分解。也就是
S=∏(1)*∏(2)*…*∏(K)
si1,i2,…ik=πi1πi2…πik
(2)
(3)
借鑒SVM最大化分類間隔的思想,引入松弛變量c和懲罰因子ξi(1≤i≤M),得到等價(jià)的優(yōu)化問題如下
(4)
為了求解上式的最優(yōu)化問題,引入拉格朗日乘子αi≥0,ki≥0(1≤i≤N)。則其拉格朗日函數(shù)數(shù)為
(5)
(6)
(7)
(8)
(9)
LSTM[8]是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),不僅能夠解決RNN的梯度消失問題[9],還能學(xué)習(xí)長期的依賴關(guān)系。LSTM模型用存儲單元替代常規(guī)的神經(jīng)元,而每個(gè)存儲單元是與一個(gè)輸入門、一個(gè)輸出門和一個(gè)跨越時(shí)間步驟無干擾送入自身的內(nèi)部狀態(tài)(Cell)相關(guān)聯(lián)的,如圖2所示。
圖2 LSTM模型
Cell狀態(tài)是LSTM神經(jīng)網(wǎng)絡(luò)的關(guān)鍵,它類似一個(gè)傳送帶可以直接在整個(gè)鏈上運(yùn)行,只有一些少量的線性交互且信息在上面流傳不易改變。
結(jié)合實(shí)際情況考慮,本次選擇半監(jiān)督學(xué)習(xí)方式,首先需要完成相關(guān)數(shù)據(jù)集(帶標(biāo)簽)預(yù)處理,并利用Skip-gram模型直接訓(xùn)練word embedding;其次,把數(shù)據(jù)由向量變換為張量形式,同時(shí)當(dāng)作L-STM模型輸入,經(jīng)計(jì)算分析獲取最優(yōu)解;最后利用決策函數(shù)明確文本分類情況,簡單來看,決策函數(shù)值大于或小于零時(shí),文本級別分別是正和負(fù)。基本架構(gòu)如圖3所示。
圖3 情感分類流程
此次模型輸入選擇張量數(shù)據(jù),有助于降低數(shù)據(jù)高維與過擬合可能性。以下是向量數(shù)據(jù)張量化步驟:
(1)預(yù)處理完成時(shí)需進(jìn)行有效整理,借此得到文本向量數(shù)目是n,并以TF-IDF對這些向量進(jìn)行加權(quán)表示。
(3)數(shù)據(jù)轉(zhuǎn)化。結(jié)合當(dāng)前映射方式來看,基本包含如下兩步:第一,遵照相應(yīng)規(guī)則進(jìn)行特征排序;第二,遵照相應(yīng)規(guī)律將所有特征向量填充至矩陣。本文按照特征詞相關(guān)文檔頻率來排序,然后按給定順序?yàn)閺埩扛魈卣魈畛湎鄳?yīng)內(nèi)容,而末尾不足位可補(bǔ)0。轉(zhuǎn)換情況參如圖4所示。
圖4 數(shù)據(jù)轉(zhuǎn)化
L-STM模型算法流程如圖5所示。
圖5 L-STM模型算法流程
算法描述:
(10)
實(shí)驗(yàn)平臺選擇Intel Corei7 8 GB內(nèi)存PC機(jī),基于Ubuntu/Linux系統(tǒng)環(huán)境通過Matlab工具編寫全部代碼,張量計(jì)算方面需要使用Matlab Tensor Toolbox,SVM借助LIBSVMS來實(shí)現(xiàn)。
為檢驗(yàn)該方法對于中文情感分類有無實(shí)用性,這里將專家已標(biāo)注文本集作為測試數(shù)據(jù),完成測試分析。根據(jù)中文情感文本語料庫現(xiàn)狀可知,我國常用數(shù)據(jù)來自于兩方面:其一,COAE內(nèi)部40 000份文本;其二,中科院譚松波博士團(tuán)隊(duì)綜合匯總所得語料。本次數(shù)據(jù)集采用該團(tuán)隊(duì)有關(guān)酒店評論[10]情感語料開展實(shí)驗(yàn),由4000份已標(biāo)注評論文本集取得1800個(gè)文本,褒義、貶義分別有900個(gè),在此基礎(chǔ)之上,隨機(jī)選取3次構(gòu)造3組實(shí)驗(yàn)數(shù)據(jù)集,具體情況參見表1。
表1 3組實(shí)驗(yàn)數(shù)據(jù)集
針對文本分類質(zhì)量,本次通過查準(zhǔn)率、查全率、F值進(jìn)行評價(jià),關(guān)于查準(zhǔn)率、查全率,分別表示準(zhǔn)確判定成某類的文本數(shù)和判定成該類的文本總數(shù)、實(shí)際為該類的文本總數(shù)之比,關(guān)于F值,可全面反映總體指標(biāo)
參數(shù)設(shè)置與模型訓(xùn)練關(guān)系密切,由于各項(xiàng)參數(shù)調(diào)整會給訓(xùn)練速度與詞向量質(zhì)量帶來各種影響。前面1.1節(jié)指出,當(dāng)訓(xùn)練語料庫非常大時(shí),通過有效調(diào)整窗口大小C便能得到更高質(zhì)word embedding??紤]到這一點(diǎn),這里選擇ARR(adjusted ratio of ratios)算法[11]設(shè)置word2vec模型窗口,由此討論C與訓(xùn)練用時(shí)、文本情感分類準(zhǔn)確率間對應(yīng)關(guān)系。從式(11)來看,SR代表模型分類準(zhǔn)確率,T代表訓(xùn)練用時(shí)。對于分類準(zhǔn)確率與訓(xùn)練時(shí)間重要性評價(jià),必須利用AccD這項(xiàng)參數(shù)完成,為確保二者獲得同樣重視,這里把AccD值設(shè)定成1%
(11)
由word2vec調(diào)參實(shí)驗(yàn)來看,為進(jìn)一步保證分類準(zhǔn)確率,采用15種評論數(shù)據(jù)分類分析,具體情況參見表2。
表2 15種評論數(shù)據(jù)集
圖6主要利用word2vec模型完成評論數(shù)據(jù)分類工作,結(jié)合圖例不難發(fā)現(xiàn),各種窗口大小下分類準(zhǔn)確率有所區(qū)別,如果將word2vec模型窗口大小設(shè)定成20,那么能實(shí)現(xiàn)最高準(zhǔn)確率,無論窗口過大還是過小,分類準(zhǔn)確率必定受到影響,故而需要結(jié)合實(shí)際情況來處理,促使結(jié)果更加理想。
圖6 窗口大小-準(zhǔn)確率
圖7主要按照式(11)求解所得各種窗口大小對應(yīng)ARR值,結(jié)合圖例不難發(fā)現(xiàn),如果ARR值最大,窗口大小是20。換言之,將窗口設(shè)定成20后,可快速獲取更高質(zhì)word embedding。
圖7 窗口大小-ARR值
針對基于張量空間的L-STM模型,本次通過3組實(shí)驗(yàn)判斷其實(shí)用價(jià)值,第一組主要測試同一分類模型SVM內(nèi)文本數(shù)據(jù)向量化、張量化對應(yīng)分類性能,然后以macroF1、microF1進(jìn)行分類準(zhǔn)確率評價(jià),為提高本次實(shí)驗(yàn)合理性,促使結(jié)果更加準(zhǔn)確,各組數(shù)據(jù)都進(jìn)行50次實(shí)驗(yàn),再求出每組數(shù)據(jù)平均值,具體情況參見表3。
表3 文本表示形式對分類結(jié)果的影響
根據(jù)表3進(jìn)行說明,通過表中結(jié)果不難發(fā)現(xiàn),同一測試數(shù)據(jù)、分類模型下,對比文本數(shù)據(jù)張量化、向量化不難發(fā)現(xiàn),前者分類能力更加強(qiáng)大。
第二組主要測試L-STM、STM模型最大迭代次數(shù)和測試精度間關(guān)系,詳情參如圖8所示。
圖8 迭代次數(shù)與測試精度關(guān)系
結(jié)合圖8進(jìn)行說明,通過圖例分析不難發(fā)現(xiàn),隨著迭代次數(shù)持續(xù)增加,STM和L-STM測試精度不斷提高。在同一迭代次數(shù)條件下,L-STM、STM測試精度及其升高幅度相比,前者更高,由此驗(yàn)證在模型參數(shù)滿足收斂條件前提下,前者用時(shí)較短,訓(xùn)練較快。
第三組主要測試不同向量描述形式以不同分類模型處理所得分類結(jié)果,若文本描述成向量形式,采用典型SVM分類模型,若描述成張量形式,依次通過STM與L-STM模型開展實(shí)驗(yàn)分析工作,結(jié)果見表4。
根據(jù)表4進(jìn)行說明,通過各評價(jià)指標(biāo)不難發(fā)現(xiàn),L-STM與SVM、STM模型相比,分類性能更加出色,由此能夠證明,本次實(shí)現(xiàn)的基于張量空間的L-STM模型各方面比較優(yōu)異,無論從分類準(zhǔn)確率亦或訓(xùn)練時(shí)間來看,均好于其它模型。
表4 分類結(jié)果情況
本文基于STL框架把支持張量機(jī)應(yīng)用于情感分類領(lǐng)域,然后將文本數(shù)據(jù)張量化作為L-STM模型輸入,通過連續(xù)優(yōu)化與迭代,可得參數(shù)最優(yōu)解,再以決策函數(shù)為前提明確文本情感極性。這種方法優(yōu)勢明顯,一方面可維護(hù)文本數(shù)據(jù)結(jié)構(gòu)信息,另一方面可預(yù)防傳統(tǒng)向量模型學(xué)習(xí)期間過擬合問題,不僅如此,L-STM模型在STM模型基礎(chǔ)上融入LSTM神經(jīng)網(wǎng)絡(luò),可以讓STM模型所得向量序列完成更高等級優(yōu)化,由此降低參數(shù)最優(yōu)解計(jì)算期間迭代次數(shù),節(jié)省文本訓(xùn)練時(shí)間,最后采用3組實(shí)驗(yàn)進(jìn)行分析,表明情感分類方面L-STM模型更合理、更準(zhǔn)確、更強(qiáng)大。