繆廣寒
(無錫城市職業(yè)技術(shù)學院 實訓基地管理中心,江蘇 無錫 214000)
隨著社交網(wǎng)絡(luò)和計算機技術(shù)的不斷發(fā)展,更多的人借助博客、微博來發(fā)表觀點、表達情感[1]。微博具有互動性、原創(chuàng)性、便捷性、內(nèi)容碎片化和傳播速度快等特點[2-3],其逐漸成為熱門話題以及事件討論的重要平臺[4]。微博通常帶有一定的感情傾向,使用數(shù)據(jù)挖掘技術(shù)來分析微博所表達的情感、了解事件的動態(tài),已成為諸多學者、專家和科研機構(gòu)的研究方向[5-7]。
微博情感分析,即分析微博內(nèi)容中的文本和表情符等所表達出的主觀信息以及說話人的態(tài)度[8]。不同于傳統(tǒng)文本分類的是,該種文本分析的對象是一些主觀因素而不是客觀內(nèi)容[9]。目前,情感分析的主要研究方法可以分為基于機器學習的方法和基于情感詞典與規(guī)則的方法。如文獻[10]使用標簽傳播算法構(gòu)建中文情感詞典,來進行文本情感分析;文獻[11]構(gòu)建了一種基于SVM和情感詞特征的情感分類模型;文獻[12]使用SVM和N-Grams模型對情感分類;文獻[13~14]使用多種特征融合的方式來分類中文情感。然而,這些文獻并未過多考慮不同情感詞匯的重要性,忽略了不同情感詞匯對分類精度的影響。因此,本文提出了一種基于詞頻重要性加權(quán)Word2vec[15]的特征和SVM[16]的微博情感分析模型。
Word2vec是谷歌公司在2013年開源的一款將文本詞匯表示為向量的工具。其可以將文本內(nèi)容轉(zhuǎn)化為詞向量,并將文本語義上的相似度轉(zhuǎn)換為求解向量空間上的相似度。Word2vec模型可以充分提取相互獨立、毫無關(guān)聯(lián)的文本詞匯的上下文語義信息,從而可以為文本數(shù)據(jù)挖掘更加深層次到特征表示。
Word2vec包含Skip-gram 和Continuous Bag of Words(CBOW)兩種訓練模型。其中,CBOW的數(shù)學表示為P(Wt|Wt-k,Wt-k-1,…,Wt+k-1,Wt+k), 表示語料詞匯。CBOW的目的是,通過上下文相鄰的k個詞來預測給定詞Wt出現(xiàn)的概率。Skip-gram的數(shù)學表示為P((Wt-k,Wt-k-1,…,Wt+k-1,Wt+k|W)),其則是根據(jù)給定詞 來預測上下文的信息。然而,Word2vec模型并不能區(qū)分文本中不同詞匯的重要程度。因此,本文提出使用詞頻的方法計算微博文本中詞匯的權(quán)重。
詞頻(Term Frequency,TF)即某一給定詞匯ti在文檔dj中出現(xiàn)的頻率,計算公式為
(1)
其中,詞匯ti出現(xiàn)的次數(shù)為ni,j,所有詞出現(xiàn)的總次數(shù)為∑knk,j。
Word2vec模型能較好地建立上下文間的關(guān)系,但忽略了不同詞匯的權(quán)重;而基于詞頻的方法只考慮了詞匯出現(xiàn)的頻率而并未考慮文本的上下文關(guān)系。因此,本文采用基于詞頻加權(quán)的Word2vec模型來更有效地挖掘文本更深層的特征。
假設(shè)獲取到的訓練語料詞典為Vocab,文檔為〈w1,w2,…,wj〉,詞向量維度為N
Vocab={ti|i∈1,…,N}
(2)
首先,使用默認的Skip-gram模型訓練語料數(shù)據(jù)集,得到Word2vec模型。并使用該模型獲得文檔中每個詞匯的詞向量,累加這些詞向量得到文檔dj的向量表示R(dj)為
R(dj)=∑iWord2vect(t) ,wheret∈dj
(3)
其中,詞匯t的Word2vec詞向量表示為Word2vect(t)。
然后,統(tǒng)計文檔dj中每個詞匯出現(xiàn)的頻率,并將該詞匯的Word2vec詞向量與詞頻相乘,得到加權(quán)Word2vec詞向量。再累加這些加權(quán)詞向量得到文檔dj新的詞向量為
W_R(dj)=∑iWord2vect(t)×tfi,j, wheret∈dj
(4)
最后,將加權(quán)Word2vec詞向量作為SVM分類器的特征向量,并訓練得到SVM模型。
支持向量機(Support Vector Machine,SVM)是由Vapnik等基于結(jié)構(gòu)風險最小化原則和統(tǒng)計學習理論提出的一種新的機器學習算法。其本質(zhì)為核方法,在解決非線性、小樣本和高維模式識別問題中表現(xiàn)出了諸多優(yōu)勢。本文將SVM分類器用于微博情感分類問題中,將微博分為積極和消極兩種情感。
SVM通過非線性變換φ(·)將低維空間的輸入數(shù)據(jù)映射到高維特征空間中,實現(xiàn)低維線性不可分的數(shù)據(jù)在高維空間的線性可分。從而得到最大間隔分類超平面f(x)=ωTφ(x)+b,其優(yōu)化目標為
(5)
經(jīng)過對偶變換等方式后,可以得到SVM的決策分類函數(shù)為
(6)
其中,K為核函數(shù)實現(xiàn)低維樣本向高維空間的映射。
本文使用中文維基百科和百度百科下載的常用、未處理的詞條作為訓練Word2vec模型的訓練數(shù)據(jù)。情感分析使用Coae2014語料集,并各保留3 000條積極微博和消極微博,部分測試數(shù)據(jù)如下表1所示。為了驗證模型的有效性將微博語料分為80%的訓練數(shù)據(jù)和20%的測試數(shù)據(jù)。
表1 實驗數(shù)據(jù)
本文首先將下載的訓練數(shù)據(jù)進行繁簡體轉(zhuǎn)換、噪聲過濾等預處理后,經(jīng)ICTCLAS分詞,共提取到762 134個詞匯。預訓練的Word2vec模型窗口大小為20,包含400維參數(shù)向量。同時,微博數(shù)據(jù)也經(jīng)過數(shù)據(jù)清洗、去停用詞和分詞等預處理以及詞頻統(tǒng)計后,得到加權(quán)后的Word2vec詞向量。數(shù)據(jù)處理流程,如圖1所示。
圖1 數(shù)據(jù)處理流程
將詞頻加權(quán)的Word2vec詞向量作為SVM分類器的特征向量,來訓練分類器。然后,對標注好的測試數(shù)據(jù)集進行預測。并將實驗結(jié)果與僅使用Word2vec詞向量和基于詞頻的方法進行比較,其比較結(jié)果如表2所示。本文主要比較了基于混淆矩陣的分類準確率、召回率、F值和正確率等性能指標。
表2 實驗結(jié)果與比較
從表2可以看出,本文所提出的基于詞頻加權(quán)Word2vec特征的微博情感分類模型對積極和消極情感均能獲得更好的分類性能。雖然Word2vec模型能較好地建立上下文間的關(guān)系,但忽略了不同詞匯的權(quán)重;而基于詞頻的方法只考慮了詞匯出現(xiàn)的頻率而并未考慮文本的上下文關(guān)系。因此,本文提出了基于詞頻加權(quán)的Word2vec特征和SVM分類器進行微博情感分類。從實驗結(jié)果可看出,此方法具有更高的分類準確率、召回率、F值和正確率。
針對微博情感挖掘問題中忽略詞匯重要程度和缺失語義關(guān)系的問題,本文提出了一種基于Word2vec和SVM的微博情感挖掘方法。該方法使用詞頻加權(quán)的Word2vec特征,能同時考慮詞匯出現(xiàn)的頻率和詞匯上下文間的關(guān)系,可以更有效地挖掘文本更深層的特征。同時,使用SVM分類器將微博分為積極和消極兩種情感,取得了較好的分類結(jié)果,其相比于傳統(tǒng)的方法其性能更加理想。
參考文獻
[1] 劉龍飛,楊亮,張紹武,等.基于卷積神經(jīng)網(wǎng)絡(luò)的微博情感傾向性分析[J].中文信息學報,2015,29(6):159-165.
[2] 王志濤,於志文,郭斌,等.基于詞典和規(guī)則集的中文微博情感分析[J].計算機工程與應(yīng)用,2015,51(8):218-225.
[3] 張志琳,宗成慶.基于多樣化特征的中文微博情感分類方法研究[J].中文信息學報,2015, 29(4):134-143.
[4] 李陽輝,謝明,易陽.基于降噪自動編碼器及其改進模型的微博情感分析[J].計算機應(yīng)用研究,2017,34(2):373-377.
[5] 蘇小英,孟環(huán)建.基于神經(jīng)網(wǎng)絡(luò)的微博情感分析[J].計算機技術(shù)與發(fā)展,2015,25(12):161-164.
[6] 劉德喜,聶建云,張晶,等.中文微博情感詞提取:N-Gram為特征的分類方法[J].中文信息學報,2016,30(4):193-205.
[7] 何炎祥,孫松濤,牛菲菲,等.用于微博情感分析的一種情感語義增強的深度學習模型[J].計算機學報,2017,40(4):773-790.
[8] 郝志峰,杜慎芝,蔡瑞初,等.基于全局變量CRFs模型的微博情感對象識別方法[J].中文信息學報,2015,29(4):50-58.
[9] 杜亞楠,劉業(yè)政.基于修正G2特征篩選的中文微博情感組合分類[J].情報學報,2016,35(4):349-357.
[10] 李天彩,王波,毛二松,等.基于Skip-gram模型的微博情感傾向性分析[J].計算機應(yīng)用與軟件,2016,33(7):114-117.
[11] Rahmawati D, Khodra M L.Word2vec semantic representation in multilabel classification for indonesian news article[C].MA,USA:International Conference on Advanced Informatics: Concepts, Theory and Application,IEEE,2017.
[12] Rachman G H,Khodra M L,Widyantoro D H. Rhetorical sentence categorization for scientific paper using Word2vec semantic representation[C].CA,USA:IEEE Conference on Informations,2017.
[13] 張謙,高章敏,劉嘉勇.基于Word2vec的微博短文本分類研究[J].信息網(wǎng)絡(luò)安全,2017(1):57-62.
[14] 李銳,張謙,劉嘉勇.基于加權(quán)word2vec的微博情感分析[J].通信技術(shù),2017,50(3):502-506.
[15] 陳炳豐,郝志峰,蔡瑞初,等.基于AWCRF模型的微博情感傾向分類方法[J].計算機工程,2017,43(7):187-192.
[16] Lilleberg J,Zhu Y,Zhang Y.Support vector machines and Word2vec for text classification with semantic features[C].Guangzhou:IEEE International Conference on Cognitive Informatics & Cognitive Computing,2015.