鄭誠 楊希 張吉賡
摘要:隨著微博在網(wǎng)民中日益火熱,社會熱點(diǎn)問題容易快速地演變成微博熱門話題。由于微博用戶多、數(shù)據(jù)量大、情感復(fù)雜的特性,通過情感分析來準(zhǔn)確地獲取微博潛藏的社會價值、商業(yè)價值變得十分迫切。該文通過構(gòu)建情感詞典,查找語義規(guī)則,并將情感詞典與規(guī)則結(jié)合,建立微博情感分析模型,實驗結(jié)果表明本文方法在負(fù)向情感判別方面效果優(yōu)于SVM,并且在微博語料較短時,整體分類效果也優(yōu)于SVM。
關(guān)鍵詞:微博;情感分析;情感詞典;規(guī)則
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2014)13-3111-03
微博是一個基于用戶關(guān)系信息分享、傳播以及獲取的平臺。用戶可以通過電腦、手機(jī)等各種客戶端組建個人社區(qū),以140字以內(nèi)的文字更新信息,并實現(xiàn)即時分享。隨著微博在網(wǎng)民中的日益火熱,微博效應(yīng)正在逐漸形成,它已經(jīng)成為中國網(wǎng)民上網(wǎng)的主要活動之一。
微博用戶多、消息數(shù)量大的特性,使得越來越多的專家學(xué)者開始熱衷于研究它。微博世界里社會熱點(diǎn)遍布,其間充斥著各種情感,因而針對微博的情感分析也上升為了一個備受關(guān)注的研究熱點(diǎn)。通過對微博內(nèi)容進(jìn)行情感分析,我們可以準(zhǔn)確地挖掘并發(fā)現(xiàn)微博中潛藏的商業(yè)價值[1-2]以及社會價值[3-4]。
目前,進(jìn)行情感分析主要有兩種方法——情感詞典的方法和機(jī)器學(xué)習(xí)的方法[5-8]。運(yùn)用情感詞典的方法,是根據(jù)語料中包含的正向、負(fù)向、中性情感詞的數(shù)目或其權(quán)值等元素來判別情感分類;運(yùn)用機(jī)器學(xué)習(xí)的方法,是先對語料進(jìn)行特征選取,對訓(xùn)練集、測試集進(jìn)行標(biāo)注,然后利用支持向量機(jī)SVM等分類器來判別情感分類。
但是,這兩種方法各有弊端。情感詞典的方法,僅通過情感詞的數(shù)目或其權(quán)值來判別情感,這就忽略了微博文本的語義規(guī)則[9],考慮不全面使得分類效果較差。機(jī)器學(xué)習(xí)的方法,因其本身需要先驗知識來訓(xùn)練出分類器,再進(jìn)行情感判別,這就導(dǎo)致了更換微博預(yù)料后,分類效果下降較明顯,方法的普適性不強(qiáng)。
鑒于以上存在的缺點(diǎn),該文將運(yùn)用情感詞典與規(guī)則結(jié)合的方法,通過構(gòu)建較為完備的情感詞典,分析獲得能涵蓋大部分微博文本的語義規(guī)則,建立微博文本情感分析模型,對微博語料判別情感分類。
本文的組織架構(gòu)如下:第二章對相關(guān)背景進(jìn)行介紹;第三章分析所提出的模型及其設(shè)計;第四章將實驗結(jié)果進(jìn)行對比分析;第五章是總結(jié)。
1 背景
自然語言處理作為計算機(jī)學(xué)科中一個重要的研究方向,多年來一直吸引了廣大專家學(xué)者對其進(jìn)行研究。針對微博文本的情感分析,是這幾年自然語言處理的一個研究熱點(diǎn)。相較于英文微博,因為中文自身存在的語法、語義復(fù)雜性,使得中文微博的情感分析研究起步較晚,研究成果較少。
國內(nèi)較為知名的、參與度較高的中文微博文本情感分析測評主要有COAE和NLP&CC兩個會議測評。COAE是中文傾向性分析評測的簡稱,它以全國信息檢索學(xué)術(shù)會議(CCIR)為依托,迄今為止已成功組織了六屆,并從第五屆即COAE2013開始,增加設(shè)置了中文微博情感判別的測評任務(wù)。NLP&CC是自然語言處理與中文計算會議的簡稱,目前共舉辦了兩屆,它的評測作為中國計算機(jī)學(xué)會(CCF)中文信息技術(shù)專委會學(xué)術(shù)年會的一部分,測評任務(wù)設(shè)置包含了中文微博情感識別。這兩個會議測評都受到了國內(nèi)外相關(guān)領(lǐng)域的許多研究人員積極參與,共同促進(jìn)了中文微博情感分析的發(fā)展。
目前,中科院張華平博士團(tuán)隊研發(fā)的ICTCLAS分詞工具,經(jīng)過十余次版本更新,已包含了微博分詞、新詞發(fā)現(xiàn)與自適應(yīng)分詞、關(guān)鍵詞識別等新功能,為本領(lǐng)域研究人員提供了效果令人滿意的中文分詞系統(tǒng)。大連理工大學(xué)林鴻飛[10]教授團(tuán)隊人工整理標(biāo)注完成的情感詞匯本體庫使用較為廣泛,該資源在情感分析計算領(lǐng)域,為中文文本情感分析和傾向性分析提供一個便捷可靠的輔助手段。雖然許多專家學(xué)者對中文文本情感分析的研究不斷取得進(jìn)展[11-12],但由于中文自身存在的語法、語義復(fù)雜性,依然存在著分詞較難、情感詞典不完備等問題。
2 模型介紹
針對以上問題,該文研究了如何對微博語料判別情感分類效果進(jìn)行提高,接下來闡述主要研究內(nèi)容分為:構(gòu)建情感詞典、獲取語義規(guī)則、建立情感分析模型。
2.1 情感詞典構(gòu)建
本文以大連理工大學(xué)情感詞匯本體庫來初步構(gòu)建情感詞典,選取了其中的詞語、詞性、強(qiáng)度、極性四個屬性,經(jīng)過必要的精簡保留,共獲得27466個情感詞及其屬性值。我們將COAE和NLP&CC提供的101865條測評微博語料,利用ICTCLAS分詞工具進(jìn)行新詞發(fā)現(xiàn),獲得了263個新詞并將其各屬性進(jìn)行人工標(biāo)注加入情感詞典。詞典的詞性分為7類,分別是名詞(noun),動詞(verb),形容詞(adj),副詞(adv),網(wǎng)絡(luò)詞語(nw),成語(idiom),介詞短語(prep)。情感強(qiáng)度分為1,3,5,7,9五檔,9表示強(qiáng)度最大,1為強(qiáng)度最小。情感極性分為0代表中性,1代表褒義正向,2代表貶義負(fù)向。
表1 構(gòu)建的情感詞典格式
[詞語\&詞性\&強(qiáng)度\&極性\&熱情\&adj\&5\&1\&]
2.2 語義規(guī)則獲取
本文從分詞后的微博語料中,隨機(jī)抽取了500個情感詞組合(由子句中情感詞和其前面兩個詞構(gòu)成且不包含上一個情感詞,若其前面不足兩個詞則按實際情況組合)。通過人工判別這500個情感詞組合,獲取到了能涵蓋大部分微博的語義規(guī)則,以情感詞為中心,具體組合如下:
表2 含情感詞的組合模式
[序號\&類型\&示例\&1\&僅含情感詞\&熱情\&2\&否定詞+情感詞\&不 熱情\&3\&程度副詞+情感詞\&太 熱情\&4\&否定詞+程度副詞+情感詞\&不 太 熱情\&5\&程度副詞+否定詞+情感詞\&太 不 熱情\&6\&否定詞+否定詞+情感詞\&沒有 不 熱情\&]endprint
然后通過查閱《現(xiàn)代漢語詞典》等文獻(xiàn),并對微博語料進(jìn)行詞頻統(tǒng)計分析,構(gòu)建了常用的否定詞表(不、沒、非等共19個)和程度副詞表(很、最、非常等共22個),并依日常經(jīng)驗對其賦予了適當(dāng)?shù)臋?quán)值。
2.3 情感分析模型建立
通過以上構(gòu)建的情感詞典,結(jié)合語義規(guī)則組合、否定詞表、程度副詞表,運(yùn)用權(quán)值計算方法,給出每個情感詞組合的情感值計算公式如下:
[Ei=(-1)Oiaipim]
Ei為情感詞組合的情感值,等于0代表中性情感,大于0代表褒義正向,小于0代表貶義負(fù)向;Oi代表組合中否定詞的數(shù)目;ai代表組合中程度副詞的權(quán)值;pi代表組合中情感詞的權(quán)值(含符號);m代表組合權(quán)值,在組合4中設(shè)m=0.4,起修正程度副詞的作用,在其他組合中設(shè)m=1,不起加強(qiáng)或削弱作用。
接著給出每個微博子句的情感均值計算公式如下:
[E=i=1Np(-1)Oiaipim+j=1Nn(-1)OjajpjmNp+Nn]
其中[E]為微博子句的情感均值,等于0代表中性情感,大于0代表褒義正向,小于0代表貶義負(fù)向;Np代表正向情感詞的數(shù)目,Nn代表負(fù)向情感詞的數(shù)目;Oi、Oj代表組合中否定詞的數(shù)目;ai、aj代表組合中程度副詞的權(quán)值;pi代表組合中正向情感詞的權(quán)值(含符號),pj代表負(fù)向情感詞的權(quán)值(含符號);m代表組合權(quán)值,設(shè)置如上。
最后,含有多個子句的微博文本的總情感值E等于各微博子句情感值[E]之和,等于0代表中性情感,大于0代表褒義正向,小于0代表貶義負(fù)向,從而實現(xiàn)微博語料情感分類。
3 實驗結(jié)果
3.1 實驗設(shè)置
本文選取NLP&CC會議測評提供的已標(biāo)注微博語料10000條進(jìn)行實驗,其包含微博子句32185條,具體結(jié)果如下表。
表3 已標(biāo)注實驗語料(單位:條)
[類型\&正向情感\&負(fù)向情感\&中性情感\&總數(shù)\&中性占比重\&微博語料\&2224\&2114\&5662\&10000\&56.62%\&微博子句集\&5034\&5445\&21706\&32185\&67.44%\&]
我們采用SVM方法進(jìn)行對比,對每條微博選取分類特征如下:正向情感詞個數(shù)、負(fù)向情感詞個數(shù)、否定詞個數(shù)、形容詞個數(shù)、動詞個數(shù)、感嘆號是否出現(xiàn)、問號是否出現(xiàn)共7個特征。選用臺灣大學(xué)林智仁團(tuán)隊的libsvm工具,進(jìn)行5-折交叉驗證,評價指標(biāo)為精確率。
實驗前,我們對微博語料進(jìn)行了如下預(yù)處理:繁體簡體統(tǒng)一成中文簡體,全角半角統(tǒng)一成半角,去除冗余標(biāo)點(diǎn)符號,去除回復(fù),去除博主名等。
3.2 實驗對比及分析
我們分別在微博語料、微博子句集下做實驗進(jìn)行對比,具體結(jié)果如下表。
表4 兩種數(shù)據(jù)集下的精確率
[實驗方法\&精確率(微博語料)\&精確率(微博子句集)\&SVM\&63.17%\&63.744%\&本文模型\&62.55%\&64.281%\&]
我們又分別統(tǒng)計了兩個實驗的正向情感、負(fù)向情感、中性情感語句的準(zhǔn)確率,具體如下表所示。
表5 微博語料下的各種情感語句準(zhǔn)確率
[\&SVM\&本文模型\&正向情感\&62.185%\&61.646%\&負(fù)向情感\&42.621%\&43.377%\&中性情感\&71.229%\&70.064%\&]
表6 微博子句集下的各種情感語句準(zhǔn)確率
[\&SVM\&本文模型\&正向情感\&62.336%\&63.707%\&負(fù)向情感\&42.975%\&45.381%\&中性情感\&69.280%\&69.156%\&]
最后,我們分析實驗結(jié)果得到如下結(jié)論:(1)劃分子句后,微博語料較短,兩種方法的實驗效果均得到提升;(2)在微博語料較短的情況下,該文模型分類效果優(yōu)于SVM;(3)本文模型在負(fù)向情感判別方面效果優(yōu)于SVM。
我們分析數(shù)據(jù)得到如下原因:(1)當(dāng)微博語料較短時,SVM所提取的特征更明顯,該文模型計算單句的情感值也更為準(zhǔn)確,減少受到句間關(guān)系的影響;(2)當(dāng)微博語料較短時,該文模型是通過結(jié)合情感詞典與語義規(guī)則,利用了權(quán)值計算而不是特征提取,比SVM更準(zhǔn)確地判別情感分類;(3)因為中國人語言表達(dá)較含蓄,表示負(fù)面情感時使用“否定詞+正面情感詞”多于直接使用“負(fù)面情感詞”,比如說“不喜歡”多于直接說“討厭”,而本模型涵蓋了帶否定詞的情感組合模式,所以在判別負(fù)向情感方面較SVM更好。
4 總結(jié)
這幾年,越來越多的專家學(xué)者將目光投向于中文微博語料的情感極性分析,而目前普遍采用較多的是基于SVM的研究方法及其改進(jìn)算法。針對中文微博的一些特性,該文從提高準(zhǔn)確度和增強(qiáng)普適性的角度出發(fā),通過結(jié)合情感詞典和語義規(guī)則,建立微博情感分析模型。實驗結(jié)果表明本模型在負(fù)向情感判別方面效果優(yōu)于SVM,并且在微博語料較短時,整體分類效果優(yōu)于SVM。
接下來的研究中,本模型還有如下幾點(diǎn)值得進(jìn)一步改進(jìn):(1)情感詞典更加完備,微博世界新詞不斷涌現(xiàn),發(fā)現(xiàn)更多的新詞擴(kuò)充到情感詞典能提高分類精確率;(2)增加對微博的子句與子句間關(guān)系的利用,使得轉(zhuǎn)折、遞進(jìn)、并列、讓步等句式能被用于情感計算;(3)逐步修正各個詞表中所賦的權(quán)值,于計算時得到更好效果。
參考文獻(xiàn):
[1] Bo Pang, Lillian Lee. Opinion mining and sentiment analysis[C]//Foundations an Trends in Information Retrieval, 2(1-2): 1-135.
[2] M.Q. Hu, B. Liu. Mining and Summarizing Customer Reviews[C]//ACM SIGKDD 2004: 168-177.
[3] 姚天昉, 程希文. 文本意見挖掘綜述[J]. 中文信息學(xué)報, 2008(3).
[4] 趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學(xué)報, 2010, 21(8): 1834-1848.
[5] Long Jiang, Mo Yu, Ming Zhou, et al. Target-dependent Twitter Sentiment Classification[C]//ACL 2011.
[6] 代六玲, 黃河燕, 陳肇雄. 中文文本分類中特征抽取方法的比較研究[J]. 中文信息學(xué)報, 2004(1). (下轉(zhuǎn)第3123頁)
(上接第3113頁)
[7] 謝麗星, 周明, 孫茂松. 基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J]. 中文信息學(xué)報, 2012(01).
[8] 謝麗星. 基于SVM的中文微博情感分析的研究[D]. 清華大學(xué), 2011.
[9] Xiaowen Ding, Bing Liu. 2007. The Utility of Linguistic Rules in Opinion Mining [C]//SIGIR-2007(poster paper), 811-812.
[10] 徐琳宏, 林鴻飛等. 情感語料庫的構(gòu)建和分析[J]. 中文信息學(xué)報, 2008(1).
[11] 婁德成, 姚天昉. 漢語句子語義極性分析和觀點(diǎn)抽取方法的研究[J]. 計算機(jī)應(yīng)用, 2006(11).
[12] 王素格, 李德玉, 魏英杰. 基于同義詞的詞匯情感傾向判別方法[J]. 中文信息學(xué)報, 2009(5).endprint
然后通過查閱《現(xiàn)代漢語詞典》等文獻(xiàn),并對微博語料進(jìn)行詞頻統(tǒng)計分析,構(gòu)建了常用的否定詞表(不、沒、非等共19個)和程度副詞表(很、最、非常等共22個),并依日常經(jīng)驗對其賦予了適當(dāng)?shù)臋?quán)值。
2.3 情感分析模型建立
通過以上構(gòu)建的情感詞典,結(jié)合語義規(guī)則組合、否定詞表、程度副詞表,運(yùn)用權(quán)值計算方法,給出每個情感詞組合的情感值計算公式如下:
[Ei=(-1)Oiaipim]
Ei為情感詞組合的情感值,等于0代表中性情感,大于0代表褒義正向,小于0代表貶義負(fù)向;Oi代表組合中否定詞的數(shù)目;ai代表組合中程度副詞的權(quán)值;pi代表組合中情感詞的權(quán)值(含符號);m代表組合權(quán)值,在組合4中設(shè)m=0.4,起修正程度副詞的作用,在其他組合中設(shè)m=1,不起加強(qiáng)或削弱作用。
接著給出每個微博子句的情感均值計算公式如下:
[E=i=1Np(-1)Oiaipim+j=1Nn(-1)OjajpjmNp+Nn]
其中[E]為微博子句的情感均值,等于0代表中性情感,大于0代表褒義正向,小于0代表貶義負(fù)向;Np代表正向情感詞的數(shù)目,Nn代表負(fù)向情感詞的數(shù)目;Oi、Oj代表組合中否定詞的數(shù)目;ai、aj代表組合中程度副詞的權(quán)值;pi代表組合中正向情感詞的權(quán)值(含符號),pj代表負(fù)向情感詞的權(quán)值(含符號);m代表組合權(quán)值,設(shè)置如上。
最后,含有多個子句的微博文本的總情感值E等于各微博子句情感值[E]之和,等于0代表中性情感,大于0代表褒義正向,小于0代表貶義負(fù)向,從而實現(xiàn)微博語料情感分類。
3 實驗結(jié)果
3.1 實驗設(shè)置
本文選取NLP&CC會議測評提供的已標(biāo)注微博語料10000條進(jìn)行實驗,其包含微博子句32185條,具體結(jié)果如下表。
表3 已標(biāo)注實驗語料(單位:條)
[類型\&正向情感\&負(fù)向情感\&中性情感\&總數(shù)\&中性占比重\&微博語料\&2224\&2114\&5662\&10000\&56.62%\&微博子句集\&5034\&5445\&21706\&32185\&67.44%\&]
我們采用SVM方法進(jìn)行對比,對每條微博選取分類特征如下:正向情感詞個數(shù)、負(fù)向情感詞個數(shù)、否定詞個數(shù)、形容詞個數(shù)、動詞個數(shù)、感嘆號是否出現(xiàn)、問號是否出現(xiàn)共7個特征。選用臺灣大學(xué)林智仁團(tuán)隊的libsvm工具,進(jìn)行5-折交叉驗證,評價指標(biāo)為精確率。
實驗前,我們對微博語料進(jìn)行了如下預(yù)處理:繁體簡體統(tǒng)一成中文簡體,全角半角統(tǒng)一成半角,去除冗余標(biāo)點(diǎn)符號,去除回復(fù),去除博主名等。
3.2 實驗對比及分析
我們分別在微博語料、微博子句集下做實驗進(jìn)行對比,具體結(jié)果如下表。
表4 兩種數(shù)據(jù)集下的精確率
[實驗方法\&精確率(微博語料)\&精確率(微博子句集)\&SVM\&63.17%\&63.744%\&本文模型\&62.55%\&64.281%\&]
我們又分別統(tǒng)計了兩個實驗的正向情感、負(fù)向情感、中性情感語句的準(zhǔn)確率,具體如下表所示。
表5 微博語料下的各種情感語句準(zhǔn)確率
[\&SVM\&本文模型\&正向情感\&62.185%\&61.646%\&負(fù)向情感\&42.621%\&43.377%\&中性情感\&71.229%\&70.064%\&]
表6 微博子句集下的各種情感語句準(zhǔn)確率
[\&SVM\&本文模型\&正向情感\&62.336%\&63.707%\&負(fù)向情感\&42.975%\&45.381%\&中性情感\&69.280%\&69.156%\&]
最后,我們分析實驗結(jié)果得到如下結(jié)論:(1)劃分子句后,微博語料較短,兩種方法的實驗效果均得到提升;(2)在微博語料較短的情況下,該文模型分類效果優(yōu)于SVM;(3)本文模型在負(fù)向情感判別方面效果優(yōu)于SVM。
我們分析數(shù)據(jù)得到如下原因:(1)當(dāng)微博語料較短時,SVM所提取的特征更明顯,該文模型計算單句的情感值也更為準(zhǔn)確,減少受到句間關(guān)系的影響;(2)當(dāng)微博語料較短時,該文模型是通過結(jié)合情感詞典與語義規(guī)則,利用了權(quán)值計算而不是特征提取,比SVM更準(zhǔn)確地判別情感分類;(3)因為中國人語言表達(dá)較含蓄,表示負(fù)面情感時使用“否定詞+正面情感詞”多于直接使用“負(fù)面情感詞”,比如說“不喜歡”多于直接說“討厭”,而本模型涵蓋了帶否定詞的情感組合模式,所以在判別負(fù)向情感方面較SVM更好。
4 總結(jié)
這幾年,越來越多的專家學(xué)者將目光投向于中文微博語料的情感極性分析,而目前普遍采用較多的是基于SVM的研究方法及其改進(jìn)算法。針對中文微博的一些特性,該文從提高準(zhǔn)確度和增強(qiáng)普適性的角度出發(fā),通過結(jié)合情感詞典和語義規(guī)則,建立微博情感分析模型。實驗結(jié)果表明本模型在負(fù)向情感判別方面效果優(yōu)于SVM,并且在微博語料較短時,整體分類效果優(yōu)于SVM。
接下來的研究中,本模型還有如下幾點(diǎn)值得進(jìn)一步改進(jìn):(1)情感詞典更加完備,微博世界新詞不斷涌現(xiàn),發(fā)現(xiàn)更多的新詞擴(kuò)充到情感詞典能提高分類精確率;(2)增加對微博的子句與子句間關(guān)系的利用,使得轉(zhuǎn)折、遞進(jìn)、并列、讓步等句式能被用于情感計算;(3)逐步修正各個詞表中所賦的權(quán)值,于計算時得到更好效果。
參考文獻(xiàn):
[1] Bo Pang, Lillian Lee. Opinion mining and sentiment analysis[C]//Foundations an Trends in Information Retrieval, 2(1-2): 1-135.
[2] M.Q. Hu, B. Liu. Mining and Summarizing Customer Reviews[C]//ACM SIGKDD 2004: 168-177.
[3] 姚天昉, 程希文. 文本意見挖掘綜述[J]. 中文信息學(xué)報, 2008(3).
[4] 趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學(xué)報, 2010, 21(8): 1834-1848.
[5] Long Jiang, Mo Yu, Ming Zhou, et al. Target-dependent Twitter Sentiment Classification[C]//ACL 2011.
[6] 代六玲, 黃河燕, 陳肇雄. 中文文本分類中特征抽取方法的比較研究[J]. 中文信息學(xué)報, 2004(1). (下轉(zhuǎn)第3123頁)
(上接第3113頁)
[7] 謝麗星, 周明, 孫茂松. 基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J]. 中文信息學(xué)報, 2012(01).
[8] 謝麗星. 基于SVM的中文微博情感分析的研究[D]. 清華大學(xué), 2011.
[9] Xiaowen Ding, Bing Liu. 2007. The Utility of Linguistic Rules in Opinion Mining [C]//SIGIR-2007(poster paper), 811-812.
[10] 徐琳宏, 林鴻飛等. 情感語料庫的構(gòu)建和分析[J]. 中文信息學(xué)報, 2008(1).
[11] 婁德成, 姚天昉. 漢語句子語義極性分析和觀點(diǎn)抽取方法的研究[J]. 計算機(jī)應(yīng)用, 2006(11).
[12] 王素格, 李德玉, 魏英杰. 基于同義詞的詞匯情感傾向判別方法[J]. 中文信息學(xué)報, 2009(5).endprint
然后通過查閱《現(xiàn)代漢語詞典》等文獻(xiàn),并對微博語料進(jìn)行詞頻統(tǒng)計分析,構(gòu)建了常用的否定詞表(不、沒、非等共19個)和程度副詞表(很、最、非常等共22個),并依日常經(jīng)驗對其賦予了適當(dāng)?shù)臋?quán)值。
2.3 情感分析模型建立
通過以上構(gòu)建的情感詞典,結(jié)合語義規(guī)則組合、否定詞表、程度副詞表,運(yùn)用權(quán)值計算方法,給出每個情感詞組合的情感值計算公式如下:
[Ei=(-1)Oiaipim]
Ei為情感詞組合的情感值,等于0代表中性情感,大于0代表褒義正向,小于0代表貶義負(fù)向;Oi代表組合中否定詞的數(shù)目;ai代表組合中程度副詞的權(quán)值;pi代表組合中情感詞的權(quán)值(含符號);m代表組合權(quán)值,在組合4中設(shè)m=0.4,起修正程度副詞的作用,在其他組合中設(shè)m=1,不起加強(qiáng)或削弱作用。
接著給出每個微博子句的情感均值計算公式如下:
[E=i=1Np(-1)Oiaipim+j=1Nn(-1)OjajpjmNp+Nn]
其中[E]為微博子句的情感均值,等于0代表中性情感,大于0代表褒義正向,小于0代表貶義負(fù)向;Np代表正向情感詞的數(shù)目,Nn代表負(fù)向情感詞的數(shù)目;Oi、Oj代表組合中否定詞的數(shù)目;ai、aj代表組合中程度副詞的權(quán)值;pi代表組合中正向情感詞的權(quán)值(含符號),pj代表負(fù)向情感詞的權(quán)值(含符號);m代表組合權(quán)值,設(shè)置如上。
最后,含有多個子句的微博文本的總情感值E等于各微博子句情感值[E]之和,等于0代表中性情感,大于0代表褒義正向,小于0代表貶義負(fù)向,從而實現(xiàn)微博語料情感分類。
3 實驗結(jié)果
3.1 實驗設(shè)置
本文選取NLP&CC會議測評提供的已標(biāo)注微博語料10000條進(jìn)行實驗,其包含微博子句32185條,具體結(jié)果如下表。
表3 已標(biāo)注實驗語料(單位:條)
[類型\&正向情感\&負(fù)向情感\&中性情感\&總數(shù)\&中性占比重\&微博語料\&2224\&2114\&5662\&10000\&56.62%\&微博子句集\&5034\&5445\&21706\&32185\&67.44%\&]
我們采用SVM方法進(jìn)行對比,對每條微博選取分類特征如下:正向情感詞個數(shù)、負(fù)向情感詞個數(shù)、否定詞個數(shù)、形容詞個數(shù)、動詞個數(shù)、感嘆號是否出現(xiàn)、問號是否出現(xiàn)共7個特征。選用臺灣大學(xué)林智仁團(tuán)隊的libsvm工具,進(jìn)行5-折交叉驗證,評價指標(biāo)為精確率。
實驗前,我們對微博語料進(jìn)行了如下預(yù)處理:繁體簡體統(tǒng)一成中文簡體,全角半角統(tǒng)一成半角,去除冗余標(biāo)點(diǎn)符號,去除回復(fù),去除博主名等。
3.2 實驗對比及分析
我們分別在微博語料、微博子句集下做實驗進(jìn)行對比,具體結(jié)果如下表。
表4 兩種數(shù)據(jù)集下的精確率
[實驗方法\&精確率(微博語料)\&精確率(微博子句集)\&SVM\&63.17%\&63.744%\&本文模型\&62.55%\&64.281%\&]
我們又分別統(tǒng)計了兩個實驗的正向情感、負(fù)向情感、中性情感語句的準(zhǔn)確率,具體如下表所示。
表5 微博語料下的各種情感語句準(zhǔn)確率
[\&SVM\&本文模型\&正向情感\&62.185%\&61.646%\&負(fù)向情感\&42.621%\&43.377%\&中性情感\&71.229%\&70.064%\&]
表6 微博子句集下的各種情感語句準(zhǔn)確率
[\&SVM\&本文模型\&正向情感\&62.336%\&63.707%\&負(fù)向情感\&42.975%\&45.381%\&中性情感\&69.280%\&69.156%\&]
最后,我們分析實驗結(jié)果得到如下結(jié)論:(1)劃分子句后,微博語料較短,兩種方法的實驗效果均得到提升;(2)在微博語料較短的情況下,該文模型分類效果優(yōu)于SVM;(3)本文模型在負(fù)向情感判別方面效果優(yōu)于SVM。
我們分析數(shù)據(jù)得到如下原因:(1)當(dāng)微博語料較短時,SVM所提取的特征更明顯,該文模型計算單句的情感值也更為準(zhǔn)確,減少受到句間關(guān)系的影響;(2)當(dāng)微博語料較短時,該文模型是通過結(jié)合情感詞典與語義規(guī)則,利用了權(quán)值計算而不是特征提取,比SVM更準(zhǔn)確地判別情感分類;(3)因為中國人語言表達(dá)較含蓄,表示負(fù)面情感時使用“否定詞+正面情感詞”多于直接使用“負(fù)面情感詞”,比如說“不喜歡”多于直接說“討厭”,而本模型涵蓋了帶否定詞的情感組合模式,所以在判別負(fù)向情感方面較SVM更好。
4 總結(jié)
這幾年,越來越多的專家學(xué)者將目光投向于中文微博語料的情感極性分析,而目前普遍采用較多的是基于SVM的研究方法及其改進(jìn)算法。針對中文微博的一些特性,該文從提高準(zhǔn)確度和增強(qiáng)普適性的角度出發(fā),通過結(jié)合情感詞典和語義規(guī)則,建立微博情感分析模型。實驗結(jié)果表明本模型在負(fù)向情感判別方面效果優(yōu)于SVM,并且在微博語料較短時,整體分類效果優(yōu)于SVM。
接下來的研究中,本模型還有如下幾點(diǎn)值得進(jìn)一步改進(jìn):(1)情感詞典更加完備,微博世界新詞不斷涌現(xiàn),發(fā)現(xiàn)更多的新詞擴(kuò)充到情感詞典能提高分類精確率;(2)增加對微博的子句與子句間關(guān)系的利用,使得轉(zhuǎn)折、遞進(jìn)、并列、讓步等句式能被用于情感計算;(3)逐步修正各個詞表中所賦的權(quán)值,于計算時得到更好效果。
參考文獻(xiàn):
[1] Bo Pang, Lillian Lee. Opinion mining and sentiment analysis[C]//Foundations an Trends in Information Retrieval, 2(1-2): 1-135.
[2] M.Q. Hu, B. Liu. Mining and Summarizing Customer Reviews[C]//ACM SIGKDD 2004: 168-177.
[3] 姚天昉, 程希文. 文本意見挖掘綜述[J]. 中文信息學(xué)報, 2008(3).
[4] 趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學(xué)報, 2010, 21(8): 1834-1848.
[5] Long Jiang, Mo Yu, Ming Zhou, et al. Target-dependent Twitter Sentiment Classification[C]//ACL 2011.
[6] 代六玲, 黃河燕, 陳肇雄. 中文文本分類中特征抽取方法的比較研究[J]. 中文信息學(xué)報, 2004(1). (下轉(zhuǎn)第3123頁)
(上接第3113頁)
[7] 謝麗星, 周明, 孫茂松. 基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J]. 中文信息學(xué)報, 2012(01).
[8] 謝麗星. 基于SVM的中文微博情感分析的研究[D]. 清華大學(xué), 2011.
[9] Xiaowen Ding, Bing Liu. 2007. The Utility of Linguistic Rules in Opinion Mining [C]//SIGIR-2007(poster paper), 811-812.
[10] 徐琳宏, 林鴻飛等. 情感語料庫的構(gòu)建和分析[J]. 中文信息學(xué)報, 2008(1).
[11] 婁德成, 姚天昉. 漢語句子語義極性分析和觀點(diǎn)抽取方法的研究[J]. 計算機(jī)應(yīng)用, 2006(11).
[12] 王素格, 李德玉, 魏英杰. 基于同義詞的詞匯情感傾向判別方法[J]. 中文信息學(xué)報, 2009(5).endprint