栗雨晴,禮 欣,韓 煦,宋丹丹,廖樂健
(1.北京理工大學(xué)計(jì)算機(jī)學(xué)院,北京 100081;2.北京市海量語言信息處理與云計(jì)算應(yīng)用工程技術(shù)研究中心,北京 100081)
?
基于雙語詞典的微博多類情感分析方法
栗雨晴1,2,禮 欣1,2,韓 煦1,宋丹丹1,2,廖樂健1,2
(1.北京理工大學(xué)計(jì)算機(jī)學(xué)院,北京 100081;2.北京市海量語言信息處理與云計(jì)算應(yīng)用工程技術(shù)研究中心,北京 100081)
現(xiàn)有微博文本情感分析方法多面向單一語種語料,如:中文語料.但是,中英文搭配使用的表達(dá)習(xí)慣已逐漸成為個體意見表達(dá)的重要形式.本文提出一種基于雙語詞典的多類情感分析方法,通過構(gòu)建雙語多類情感詞典對微博文本進(jìn)行多分類語義傾向性分析,以便更準(zhǔn)確有效捕捉群體意見,及時發(fā)現(xiàn)社會輿論傾向.通過與多數(shù)投票算法、支持向量機(jī)算法、基于余弦距離的K近鄰分類算法相比,本文提出的基于雙語詞典的多類情感分析模型具有良好的分類效果,其在分類準(zhǔn)確率、F1值等方面都有明顯提高.
雙語語義傾向性分析;半監(jiān)督高斯混合模型;相對熵;情感詞典
隨著社交媒體平臺的興起和廣泛使用,針對社交網(wǎng)絡(luò)數(shù)據(jù)的自然語言處理已成為當(dāng)前研究熱點(diǎn)并囊括多種前沿課題.
目前,一些情感分析方面的工作主要針對單一語種文本情感傾向進(jìn)行統(tǒng)計(jì)分析,但中英文搭配使用或純英文書寫已逐漸成為個體情感表達(dá)的重要形式.在本文中我們通過利用大量語料、已有知識庫、詞匯相似性計(jì)算模型構(gòu)建英漢雙語情感詞詞典,進(jìn)而對微博文本進(jìn)行向量化處理.本文利用半監(jiān)督高斯混合模型分類算法(Semi-GMM,Semi-supervised Gaussian Mixture Model)和基于對稱相對熵的K近鄰算法(KNN-KL,K-Nearest Neighbor-symmetric Kullback-Leibler divergence)對微博文本進(jìn)行情感分類.實(shí)驗(yàn)證實(shí),半監(jiān)督高斯混合模型分類算法魯棒性強(qiáng),并且分類準(zhǔn)確率不受訓(xùn)練集文本規(guī)模大小的影響,而基于對稱相對熵的K近鄰算法(KNN-KL)在訓(xùn)練數(shù)據(jù)充分的情況下,可以取得更高的分類準(zhǔn)確率.
目前國內(nèi)外對于文本情感傾向性判定主要有基于語料庫和基于詞典兩種方法.總體來看,使用情感詞典及與其相關(guān)聯(lián)信息對文本進(jìn)行情感判別效果更加精準(zhǔn)[1].針對微博上大量中英雙語混合文本的出現(xiàn),我們通過構(gòu)建雙語情感詞典以提高情感傾向分析的準(zhǔn)確性.
在文獻(xiàn)[2,3]中,作者提出跨語言混合模型,利用平行語料庫提高詞典覆蓋率,通過最大化生成語料庫的似然值對未標(biāo)注詞語進(jìn)行情感極性標(biāo)注,進(jìn)而擴(kuò)展詞典.但是,利用平行語料庫的方式進(jìn)行文本情感分類對平行語料庫質(zhì)量、規(guī)模要求很高.微博文本內(nèi)容簡短、詞匯復(fù)雜多變不利于平行語料庫的構(gòu)建.因此,本文首先對大規(guī)模語料進(jìn)行統(tǒng)計(jì)分析,預(yù)先對具有代表性的詞匯進(jìn)行人工標(biāo)注選為種子詞匯,再利用已有情感詞匯知識庫、語義相似度計(jì)算模型或?qū)哟谓Y(jié)構(gòu)模型等方法對雙語情感詞典進(jìn)行擴(kuò)充.在構(gòu)建詞典的過程中我們利用新浪微博消息文本、中英文種子詞集結(jié)合雙語料相似度計(jì)算模型構(gòu)建情感詞典.
在文獻(xiàn)[4]中作者指出采用機(jī)器學(xué)習(xí)方法比簡單統(tǒng)計(jì)褒義和貶義情感詞匯個數(shù)具有更好的分類效果,并提出將情感詞典同監(jiān)督學(xué)習(xí)算法相結(jié)合以實(shí)現(xiàn)更高的文本分類精度.在文獻(xiàn)[5]中,作者提出一種反應(yīng)公眾對社會事件關(guān)注的五分類模型(社會關(guān)愛、高興、悲傷、憤怒、恐懼).本文結(jié)合上述文本情感類別,提出基于半監(jiān)督高斯混合模型等一系列動態(tài)學(xué)習(xí)算法對中文及中英雙語微博文本進(jìn)行情感傾向性分類.
本章將從情感詞典的構(gòu)建、文本情感傾向性分類、文本的向量表示以及文本情感分類算法設(shè)計(jì)四個方面的研究工作進(jìn)行介紹.文本情感分類系統(tǒng)的整體框架如圖1所示:
3.1 情感詞典
中英文搭配使用已成為個體表達(dá)的流行趨為進(jìn)一步說明加入英文情感詞典的必要性,我們在圖2中展示微博用戶發(fā)布的兩則博文,圖中可以看出,具有雙語表述習(xí)慣的用戶在談及某一話題時,慣用英語情感詞匯進(jìn)行情感表達(dá).
為建立雙語情感詞典,首先我們從新浪微博中收集大量具有情感傾向的語料,并從語料集中提取出具有情感傾向的高頻詞匯.之后,應(yīng)用已有知識庫(HowNet[6]、WordNet[7]、NTUSD[8])對情感詞典進(jìn)行擴(kuò)展.在已有知識庫中(HowNet[6]、WordNet[7])每個詞匯vb(b∈Z+)可以通過多個概念Sba(a∈Z+)進(jìn)行描述,每個概念又是以義原為基礎(chǔ)通過知識庫表述語言進(jìn)行定義,且每個概念Sba含有多個義原pat(t∈Z+)對其進(jìn)行解釋.對于中文詞匯間的語義相似性,本文采用HowNet詞匯相似度計(jì)算方法[9],其定義如式(1)、式(2)所示:
(1)
(2)
其中,t1,t2分別表示S1a1,S2a2兩個概念含有的義原數(shù)目,并選取兩個詞之間的最大概念描述相似度作為兩個詞的相似度.
而對于英文詞匯間的語義相似性,我們利用WordNet中的Lesk方法對詞匯之間的關(guān)聯(lián)度進(jìn)行度量.在Wordnet中的每一個概念(word sense)都是通過一個短注釋進(jìn)行定義的.Lesk方法通過尋找和計(jì)算兩個概念的注釋的交叉部分進(jìn)而計(jì)算兩詞匯之間的相似度sim(v1,v2).本文采用NLTK中給出的Lancaster和WordNet Lemmatizer兩種方式對英文詞匯進(jìn)行詞形變化和詞干提取.除傳統(tǒng)情感詞外,我們還在情感詞典中引入了網(wǎng)絡(luò)語言和表情符號.綜上所述,本文所構(gòu)建的中文情感詞匯共計(jì)7590個,英文情感詞匯共計(jì)421個,網(wǎng)絡(luò)詞匯613個,常用表情符號101個.
3.2 文本的向量表示
根據(jù)構(gòu)建的情感詞典我們從中選取部分詞匯進(jìn)行人工標(biāo)注作為5類情感的種子詞匯.種子詞集A-seedset={PC,PJ,PB,PA,PF},其中PC,PJ,PB,PA,PF分別代表各類情感(社會關(guān)愛、高興、悲傷、憤怒、恐懼)的子集.其中“社會關(guān)愛”類別的引入旨在更準(zhǔn)確有效的捕捉、辨別群體意見[5],而對于不在種子集合中的情感詞,我們則利用式(3)中所給定義將其分類.
Ψ(v)=
(3)
其中K1,K2,K3,K4,K5為各類情感子集中種子詞匯的數(shù)目.Ψ(v)表示非種子詞匯所屬情感類別,取決于與各類情感子集平均相似度的最大值.而對于微博消息中常出現(xiàn)的網(wǎng)絡(luò)詞匯則采用多人人工標(biāo)注的方式對其進(jìn)行分類.最終建立的中英雙語五類情感詞典涵蓋“社會關(guān)愛”類詞匯971個、“高興”類詞匯2731個、“悲傷”類詞匯2289個、“憤怒”類詞匯1458個、“恐懼”類詞匯1276個.
本文采用ICTCLAS分詞系統(tǒng) (http://ictclas.nlpir.org/)對中文文本進(jìn)行詞匯識別,而對于英文文本則根據(jù)空格進(jìn)行詞匯識別.對一條微博消息文本進(jìn)行分此后,對其進(jìn)行去停用詞處理,如:“的”、“a”、“the”等.
對微博消息文本進(jìn)行上述處理之后便可依照多分類情感詞典對其進(jìn)行文本向量化表示.設(shè)D={d1,d2,…,dn}是所有微博消息文本的集合,其中di是本文集合中第i條文本的向量表示.則對于任一條微博文本di=[ωiC,ωiJ,ωiB,ωiA,ωiF]T其中ωiC,ωiJ,ωiB,ωiA,ωiF表示微博消息文本中包含各類情感詞的個數(shù),因此每條微博消息均以5維向量表示.
3.3 算法設(shè)計(jì)
本節(jié)將詳細(xì)介紹本文提出的兩種文本情感多分類模型——半監(jiān)督高斯混合模型分類算法(Semi-GMM)和基于對稱相對熵的K近鄰算法(KNN-KL).
3.3.1 半監(jiān)督高斯混合模型(Semi-GMM)情感分類算法
高斯混合模型學(xué)習(xí),即是對各個高斯模型加概率密度的估計(jì)和權(quán)重(πk)進(jìn)行最大似然估計(jì)的過程.本文采用半監(jiān)督高斯混合模型對文本進(jìn)行分類,首先通過已標(biāo)記微博消息文本學(xué)習(xí)高斯混合模型,然后以該模型參數(shù)和已標(biāo)記樣本的概率分布作為高斯混合模型的參數(shù)初值對已有模型進(jìn)行迭代學(xué)習(xí).
半監(jiān)督高斯混合模型是一個自訓(xùn)練算法,在每一次迭代訓(xùn)練的過程中,已標(biāo)注樣本集合(L)通過不斷在未標(biāo)注樣本集合(U)中選擇表現(xiàn)良好的樣本加入,更新標(biāo)注樣本集.根據(jù)新的標(biāo)注集合不斷對混合高斯模型進(jìn)行學(xué)習(xí),直至算法收斂或未標(biāo)注集合為空.半監(jiān)督高斯混合模型情感分類算法偽代碼如算法1所示:
算法1 半監(jiān)督高斯混合模型情感分類算法
輸入:小規(guī)模已標(biāo)注微博文本集合,高斯混合模型
輸出:Θ(q)
1.q←0
3. whileU!=NULL or‖Q(θ(q+1),θ(q))-Q(θ(q),θ(q))‖>ε
4. E-step:
7.L←L∪uj
8.U←U-uj
9. M-step:
11.q←q+1
3.3.2 基于對稱相對熵的K近鄰情感分類算法
K近鄰分類算法(KNN,K-Nearest Neighbor)[10]是指一個樣本所屬類別取決于特征空間中最鄰近的樣本中大多數(shù)所屬類別.在本文中我們采用相對熵對文本情感相似性進(jìn)行度量.相對熵是對相同事件空間里的兩個概率分布(P和Q的)的非對稱性度量,記為DKL(P‖Q).因此對3.3節(jié)中提出的文本向量表示進(jìn)行歸一化,如式(4)所示,歸一化后的文本向量記為Ti,其中W為文本包含各類情感詞的個數(shù)總和.
Ti=〈ωiC/W,ωiJ/W,ωiB/W,ωiA/W,ωiF/W〉
(4)
微博消息文本Ti與Tj之間的距離定義如式(5)所示:
(5)
由于傳統(tǒng)相對熵具有非對稱性,因此在度量概率分布P和Q的差別時,P表示數(shù)據(jù)的真實(shí)分布,Q表示P的近似分布.因此,在計(jì)算文本之間的距離時,Ti為已標(biāo)記文本的歸一化向量表示,Tj則為未標(biāo)記文本的歸一化向量表示.tik但是這種非對稱性計(jì)算形式忽略了P對于Q的近似分布.為了改進(jìn)傳統(tǒng)相對熵計(jì)算的非對稱性,本文采用的相對熵計(jì)算公式[11]定義如式(6)所示:
(6)
4.1 多種文本情感分類算法比較
本實(shí)驗(yàn)根據(jù)3.1節(jié)中構(gòu)建的中文情感詞典,選取多種機(jī)器學(xué)習(xí)分類算法進(jìn)行比較.使用新浪微博提供的API抓取7170條中文微博文本信息作為實(shí)驗(yàn)數(shù)據(jù).并邀請25位研究自然語言方向的學(xué)生依照5類情感對文本進(jìn)行人工類別標(biāo)注,進(jìn)而使得文本的情感類別取決于多數(shù)人選取的情感類別.語料在各情感類別中的分布情況如表1所示:
表1 微博文本在5類情感類別中的分布
針對上述微博文本我們采用多種分類模型對文本進(jìn)行情感分類,實(shí)驗(yàn)詳細(xì)設(shè)計(jì)與結(jié)果分析如下所述.
我們從中選取3170條微博作為測試集,其中表達(dá)社會關(guān)愛的微博文本500條,表達(dá)高興的微博文本1300條,表達(dá)悲傷的微博文本540條,表達(dá)憤怒的微博文本510條,表達(dá)恐懼的微博文本320條.訓(xùn)練集則從余下4000條中選取1000至4000條微博不等.
(1)我們首先對基于非對稱相對熵的K近鄰分類算法,如式(5)所示和基于對稱相對熵的K近鄰分類算法,如式(6)所示進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表2所示.
結(jié)果表明,盡管基于對稱相對熵的K近鄰分類算法依照本文所示訓(xùn)練文本優(yōu)勢并不明顯,但考慮到基于對稱相對熵的K近鄰分類算法可消除不同訓(xùn)練集導(dǎo)致的算法準(zhǔn)確率差異,進(jìn)而提高分類算法的高魯棒性.因此,在之后的多種機(jī)器學(xué)習(xí)分類算法的比較中,我們僅選用基于對稱相對熵的K近鄰分類算法參與比較.
表2 基于不同距離度量算法的K近鄰分類算法在不同訓(xùn)練集規(guī)模下的準(zhǔn)確率比較
(2)多模型分類結(jié)果的比較
我們選用多數(shù)投票算法(Majority Vote)、支持向量機(jī)算法(SVM)、基于余弦距離的K近鄰分類算法(KNN-Cosine)同本文中提出的半監(jiān)督高斯混合模型分類算法(Semi-GMM)和基于對稱相對熵的K近鄰算法(KNN-KL)進(jìn)行比較.比較結(jié)果如圖3所示:
從圖3可以看出當(dāng)訓(xùn)練集文本規(guī)模為4000條時,KNN-KL準(zhǔn)確率最高達(dá)到85.1%.當(dāng)選用相同最近鄰數(shù)時,采用對稱相對熵進(jìn)行文本距離度量比采用余弦距離進(jìn)行文本距離度量分類效果更好.但隨著訓(xùn)練集文本數(shù)目下降到1000條,采用KNN-KL的準(zhǔn)確率下降了8.9%,而Semi-GMM僅下降了2.9%.這也進(jìn)一步證實(shí)了Semi-GMM更加適合在訓(xùn)練集規(guī)模較小時使用,而KNN這種全監(jiān)督學(xué)習(xí)算法容易被選取鄰居數(shù)目左右,影響分類效果.
表3 在不同訓(xùn)練集規(guī)模下,基于Semi-GMM和KMM-KL的文本分類準(zhǔn)確率
表4 在不同訓(xùn)練集規(guī)模下,基于Semi-GMM和KMM-KL的文本分類F1值
在不同文本訓(xùn)練集規(guī)模下,Semi-GMM和KNN-KL的F1值如表4所示,這也進(jìn)一步證實(shí)了Semi-GMM在小規(guī)模訓(xùn)練集下的分類優(yōu)勢.
4.2 雙語微博文本情感分類實(shí)驗(yàn)
類似的,我們使用新浪提供的API抓取7000條雙語微博文本信息.并邀請25位研究自然語言方向的學(xué)生依照5類情感對文本進(jìn)行人工類別標(biāo)注,情感類別語料在各情感類別中的分布情況如表5所示:
表5 微博文本在5類情感類別中的分布
針對上述雙語微博文本我們采用多種分類模型對文本進(jìn)行情感分類,實(shí)驗(yàn)詳細(xì)設(shè)計(jì)與結(jié)果分析如下所述.
(1)多模型分類結(jié)果比較
我們從中選取3000條微博作為測試集,其中表達(dá)社會關(guān)愛的微博文本400條,表達(dá)高興的微博文本950條,表達(dá)悲傷的微博文本660條,表達(dá)憤怒的微博文本500條,表達(dá)恐懼的微博文本490條.訓(xùn)練集則從余下4000條中選取1000至4000條微博不等.
我們選用僅使用中文情感詞典作感詞識別的半監(jiān)督高斯混合模型分類算法(Semi-GMM(Ch.))和基于對稱相對熵的K近鄰算法(KNN-KL(Ch.))同使用中英文情感詞典相結(jié)合進(jìn)行情感詞識別的多數(shù)投票算法(Majority Vote(Ch.+Eng.))、SVM(Ch.+Eng.)算法、基于余弦距離的K近鄰分類算法(KNN-Cosine(Ch.+Eng.))以及本文提出的半監(jiān)督高斯混合模型分類算法(Semi-GMM(Ch.+Eng.))和基于對稱相對熵的K近鄰算法(KNN-KL(Ch.+Eng.))進(jìn)行比較.比較結(jié)果如圖4所示:
如圖4所示,利用中英文情感詞典相結(jié)合進(jìn)行情感詞識別的文本情感分類算法準(zhǔn)確率明顯高于單一利用中文情感詞典進(jìn)行情感詞識別的文本情感分類算法,進(jìn)一步證實(shí)了我們建立的雙語情感詞詞典的有效性.當(dāng)訓(xùn)練集微博文本下降到1000條時,Semi-GMM(Ch.+Eng.)的分類準(zhǔn)確率最高達(dá)到了68.3%.
表6 不同訓(xùn)練集規(guī)模下,基于Semi-GMM和KMM-KL的文本分類準(zhǔn)確率
分類算法訓(xùn)練集文本數(shù)量社會關(guān)愛高興悲傷憤怒恐懼KNN?KL400066.7%84.7%68.2%81.2%81.1%100053.2%77.8%58.2%71.4%67.5%Semi?GMM400062.3%82.9%65.2%78.8%76.5%100054.6%78.8%59.4%72.9%68.8%
表6和表7給出了當(dāng)文本訓(xùn)練集規(guī)模不同時,Semi-GMM和KNN-KL針對文本進(jìn)行5類情感識別的準(zhǔn)確率.在文本訓(xùn)練集規(guī)模下降到1000時,Semi-GMM的F1值大于KNN-KL的F1值,這也進(jìn)一步證實(shí)了文本中出現(xiàn)不同語種的文字不會對Semi-GMM的穩(wěn)定性造成影響,并且在小規(guī)模訓(xùn)練集下Semi-GMM更具分類優(yōu)勢.
表7 不同訓(xùn)練集規(guī)模下,基于Semi-GMM和KMM-KL的文本分類F1值
(2)平行語料vs.雙語情感詞典
我們利用平行語料庫方式對文本進(jìn)行預(yù)處理——通過調(diào)用百度翻譯API將雙語微博文本信息全部翻譯為中文單一語料文本.針對于上述構(gòu)建完成的平行語料文本集,我們選用中文情感詞典作情感詞識別的半監(jiān)督高斯混合模型分類算法(Semi-GMM(Ch.))和基于對稱相對熵的K近鄰算法(KNN-KL(Ch.))對文本就行情感分類.并與本文提出的基于雙語情感詞詞典的半監(jiān)督高斯混合模型分類算法(Semi-GMM(Ch.+Eng.))和基于對稱相對熵的K近鄰算法(KNN-KL(Ch.+Eng.))進(jìn)行比較.
如圖5所示,在選用相同分類模型的前提下,利用中英文情感詞典相結(jié)合進(jìn)行情感詞識別的文本情感分類算法準(zhǔn)確率明顯高于利用平行語料庫方式進(jìn)行文本預(yù)處理的文本情感分類算法.由于情感詞匯語義復(fù)雜,上述實(shí)驗(yàn)也印證了多類別情感詞典的構(gòu)建不適宜采用平行語料庫的方式,證實(shí)了我們構(gòu)建的雙語情感詞詞典對于多類情感識別的有效性.
(3)微博文本英文字符所占比重對情感分類的影響
我們通過實(shí)驗(yàn)分析了微博文本中英文字符所占比重(新浪微博中每兩個英文字符算為一字)對本文提出的情感分類算法的影響.我們從7000條雙語微博文本信息中隨機(jī)選取其中3000條雙語微博文本作為訓(xùn)練集.測試集則從余下4000條中選取,其中英文字符所占比重小于30%的文本共計(jì)1105條(27.62%),英文字符所占比重介于30%至70%的文本共計(jì)2170條(54.25%),英文字符所占比重大于70%的文本共計(jì)725條(18.13%).實(shí)驗(yàn)結(jié)果如表8所示:
表8 不同英文字符占比測試集下的文本分類準(zhǔn)確率比較
結(jié)果表明,本文提出的情感分類算法的高準(zhǔn)確率不受文本英文字符比重的影響.這也進(jìn)一步證明了我們建立的雙語情感詞詞典的有效性以及分類模型的強(qiáng)魯棒性.
中英文搭配使用的表達(dá)習(xí)慣已成為社交網(wǎng)絡(luò)個體、群體意見表達(dá)的重要形式.本文使用新浪微博消息文本和已有知識庫構(gòu)建了雙語情感詞典.為進(jìn)一步加強(qiáng)面向語義分類器的性能,本文提出了半監(jiān)督高斯混合模型和基于相對熵的K近鄰算法對文本進(jìn)行情感分類.實(shí)驗(yàn)結(jié)果表明,本文提出的基于雙語情感詞典的情感分類方法的準(zhǔn)確率和綜合評價指標(biāo)(F1值)均高于傳統(tǒng)的分類方法.特別是半監(jiān)督高斯混合模型分類算法在小規(guī)模訓(xùn)練集下的分類效果明顯優(yōu)于其他方法.
[1]Melville P,Gryc W,Lawrence R D.Sentiment analysis of blogs by combining lexical knowledge with text classification[A].Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C].New York:ACM SIGKDD Explorations Newsletter,2009.1275-1284.
[2]Wan X.Bilingual co-training for sentiment classification of Chinese product reviews[J].Computational Linguistics,2011,37(3):587-616.
[3]Meng X,Wei F,Liu X,et al.Cross-lingual mixture model for sentiment classification[A].Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics:Long Papers-Volume 1[C].Stroudsburg:Association for Computational Linguistics,2012.572-581.
[4]Pang B,Lee L.Opinion mining and sentiment analysis[J].Foundations and Trends in Information Retrieval,2008,2(1-2):1-135.
[5]Li Y,Li X,Li F,et al.A lexicon-based multi-class semantic orientation analysis for microblogs[A].Web Technologies and Applications[C].Cham:Springer International Publishing,2014.81-92.
[6]Dong Z,Dong Q.HowNet and the Computation of Meaning[M].Singapore:World Scientific,2006.
[7]Miller G A.WordNet:a lexical database for English[J].Communications of the ACM,1995,38(11):39-41.
[8]Hu M,Liu B.Opinion extraction and summarization on the web[A].Proceedings of the 21st National Conference on Artificial Intelligence(AAAI 2006) [C].California:AAAI Press,2006.1621-1624.
[9]Zhu Y L,Min J,Zhou Y,et al.Semantic orientation computing based on HowNet[J].Journal of Chinese Information Processing,2006,20(1):14-20.
[10]Chen J,Xue N,Palmer M S.Using a smoothing maximum entropy model for Chinese nominal entity tagging[A].Natural Language Processing-IJCNLP 2004[C].Heidelberg:Springer-Verlag Berlin Heidelberg,2004.493-499.
[11]Seghouane A K,Amari S I.The AIC criterion and symmetrizing the Kullback-Leibler divergence[J].IEEE Transactions on Neural Networks,2007,18(1):97-106.
栗雨晴 女,1991年7月出生于北京市.現(xiàn)為北京理工大學(xué)碩士研究生.主要研究方向?yàn)樯缃痪W(wǎng)絡(luò)、文本情感分析.
E-mail:liyqyimy@163.com
禮 欣(通訊作者) 女,1980年4月出生于黑龍江省佳木斯市.2001和2004年分別獲得吉林大學(xué)計(jì)算機(jī)學(xué)院工學(xué)學(xué)士和碩士學(xué)位,2009年獲香港浸會大學(xué)計(jì)算機(jī)博士學(xué)位.目前就職于北京理工大學(xué)計(jì)算機(jī)學(xué)院,主要從事數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、無線傳感網(wǎng)、車聯(lián)網(wǎng)、社交網(wǎng)絡(luò)分析和移動計(jì)算等方面的研究.
E-mail:xinli@bit.edu.com
A Bilingual Lexicon-Based Multi-class SemanticOrientation Analysis for Microblogs
LI Yu-qing1,2,LI Xin1,2,HAN Xu1,SONG Dan-dan1,2,LIAO Le-jian1,2
(1.SchoolofComputerScience,BeijingInstituteofTechnology,Beijing100081,China;2.BeijingEngineeringApplicationResearchCenterofHighVolumeLanguageInformationProcessingandCloudComputing,Beijing100081,China)
Most of the existing Weibo sentiment analysis focuses on monolingual corpus like Chinese.However,a mixed use of Chinese and English becomes a popular form of expression.To better capture the social attention on public events,this paper proposes a bilingual lexicon based multi-class semantic orientation analysis for bilingual microblogs.We compare our proposed methodologies with majority vote,support vector machine (SVM) and K-nearest neighbor (KNN) by using cosine similarity which are competitive baseline methods.The experimental results show that our proposed methods outperform the three approaches we mentioned in terms of the accuracy and F1 score.
bilingual semantic orientation analysis;semi-supervised gaussian mixture model(Semi-GMM);Kullback-Leibler divergence;sentiment lexicon
2015-02-03;
2015-07-20;責(zé)任編輯:覃懷銀
國家重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃(973計(jì)劃)項(xiàng)目(No.2013CB329605);國家自然科學(xué)基金(No.61300178)
TP391;H085.5
A
0372-2112 (2016)09-2068-06
??學(xué)報(bào)URL:http://www.ejournal.org.cn
10.3969/j.issn.0372-2112.2016.09.007