国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

細粒度微博情緒識別的集成算法研究

2015-04-29 00:44:03王紅
智能計算機與應用 2015年1期
關(guān)鍵詞:細粒度微博

王紅

摘 要:目前大部分微博情緒分析研究集中在粗粒度情緒的劃分,但細粒度微博情緒更能反映公眾對輿論熱點、政策的反應。因此提出了一種結(jié)合樸素貝葉斯和K最近鄰的集成算法,著重對新浪微博展開了情緒識別與分析的研究。首先采用樸素貝葉斯分類算法將微博分為有無情緒兩類。然后根據(jù)情緒本體庫的分類規(guī)則,分別構(gòu)建待預測微博和已標注微博的21維情緒向量。最后采用K最近鄰算法,計算待預測情緒微博與已標注情緒微博的向量相似度,從而獲取待預測微博的細粒度情緒。實驗表明K最近鄰算法的引入,在微博細粒度情緒識別的準確率上取得了較好的效果。

關(guān)鍵詞:情緒分析;細粒度;樸素貝葉斯;K最近鄰;微博

中圖分類號:TP391 文獻標識碼:A 文章編號:2095-2163(2015)01-

Abstract: Currently, most sentiment analysis of micro-blog has been focused on coarse-grained sentiment analysis, but fine-grained sentiment is better for reflecting the opinion of the public when they are facing the social focus. Therefore, an integrated algorithm which is a combination of Naive Bayes and K-Nearest Neighbor is put forward, which has been applied to the sentiment recognition and analysis of sina microblog. First, microblog is classified into two types: sentiment and non- sentiment by using Bayesian classification algorithm. And then a 21 dimension vector is built for the predicted and the marked microblog on the basis of the sentiment ontology. Finally the vector similarity between the predicted microblog and the marked ones is calculated by using K-nearest neighbor algorithm, which could help to identify the fine-grained sentiment of microblog. Experimental results show that a good result is achieved in fine-grained sentiment recognition of microblog based on the combination of Naive Bayes and K-nearest neighbor algorithm.

Keywords: Sentiment Analysis; Fine-grained; Native Bayes; K-Nearest Neighbor; Microblog

0 引 言

近年來,Web2.0技術(shù)獲得了迅速發(fā)展,而與此同時,微博作為一種新興的網(wǎng)絡交流媒介,正因其獨具的及時性、簡潔性和對信息傳播的便捷性特點[1],心音了越來越多的使用者和研究者。以國內(nèi)的新浪微博為例,目前其上的注冊用戶已超過3億,用戶每日的發(fā)博量則突破1億條[2]。微博中用戶發(fā)表的大量信息直接反映了該用戶本體對某個事件或者政府出臺的某項政策的反應和傾向。而且,情緒作為人的內(nèi)心感受和表達,在判讀其對事物的觀點傾向具有重要作用[3]??梢哉f微博中涉及到的任何觀點都與作者的情緒有著緊密的聯(lián)系,因而開展微博情緒的識別和劃分研究對于分析微博中海量的評論信息即具有實際現(xiàn)實的參考價值。但目前大部分的微博情緒分析卻只是集中在粗粒度的情緒劃分(也就是有無情緒的判斷),這在某些情況下已經(jīng)無法滿足對文本信息處理的高精要求?;诖?,本文根據(jù)對目前分類方法的研究提出了一種用于對微博進行細粒度情緒劃分(也就是文本情緒具體類別)的集成算法。具體來說,就是對于一條微博,先識別其是否包含情緒,而對于包含情緒的微博,則需判別其具體的情緒分類。

本文第0節(jié)分析了微博情緒識別的背景和意義,簡要介紹了本文的研究內(nèi)容。第1節(jié)概略介紹了微博情緒細粒度劃分的目標以及在微博情緒方面國內(nèi)外的一些研究現(xiàn)狀。第2節(jié)框架性地提出了本文針對微博情緒細粒度識別的總體方案,第3節(jié)完整給出了情緒細粒度識別的關(guān)鍵性技術(shù),第4節(jié)則是集成算法的設計,而且通過實驗結(jié)合其他的算法對比了對情緒分類的效果,第5節(jié)即總結(jié)了本文工作的不足以及對下一步研究的展望。

1 相關(guān)工作

細粒度的微博情緒劃分包含兩個方面,首先判斷一條微博是否包含情緒,然后對于包含情緒的微博再進行細粒度的情緒劃分,判斷出該微博博主的主要情緒。針對于目前對情緒的分類[4],即anger(憤怒)、disgust(厭惡)、fear(恐懼)、happiness(高興)、like(喜好)、sadness(悲傷)、surprise(驚訝)、none(無情緒),細粒度的情緒劃分旨在能夠?qū)σ粭l微博進行上述分類的單分類輸出。

目前,國內(nèi)外針對微博情緒方面取得了一定的研究成果。Alec等使用微博中的表情符號來標注正負情緒的訓練集,并通過訓練集運用距離監(jiān)督的方法對微博信息解決了正負情緒的自動分類[5]。Aman等則通過一種基于知識的方法實現(xiàn)句子級的情緒識別[3,6]。在此基礎上,Quan Changqin等使用情緒詞對句子的情緒進行了識別,同時也研究了基于情緒詞的句子級情緒分析[3,7]。進一步地,劉歡歡等人針對微博語料中類別樣本數(shù)不平衡的問題,提出了一種提高情緒識別方法性能的樣本集成方法,主要是針對微博粗粒度的劃分,即判斷其是否包含情緒[3]。另外,龐磊等人又通過表情圖片和情緒關(guān)鍵詞對微博語料進行收集和標注,而且將情緒知識運用到了中文微博的情感分類方面[8]。

由此可見,目前對微博情緒的分析研究仍然主要集中在粗粒度情緒識別,一方面是有無情緒的識別,另一方面是正負情緒的識別。微博作為一種開放化的社交服務,無論在商業(yè)領(lǐng)域或是在管理領(lǐng)域都有著極高的應用價值。企業(yè)可以將其作為一個理想的營銷平臺,而政府則可憑此了解人們對社會公共事件和熱點問題的看法觀點。但由于其特有的語言風格和本身內(nèi)容信息的多樣、海量等特點,粗粒度的情緒劃分在某些情況下已經(jīng)不能滿足已經(jīng)發(fā)展變化的要求,因而對微博情緒的細粒度劃分將會日益突顯其核心且先進的研究價值。

2 情緒細粒度識別的總體方案

圖1給出了情緒細粒度識別的總體流程圖,從圖中可以看到細粒度劃分微博情緒的總體流程是先擴展本體庫,在大連理工構(gòu)建的情感本體詞匯庫的基礎上擴展針對微博中網(wǎng)絡用語的詞匯,而后對測試集和訓練集中的微博進行分詞。分詞結(jié)束后,將根據(jù)一定規(guī)則統(tǒng)計出詞語中用于貝葉斯分類的特征項,再通過特征項進行微博有無情緒的識別。下一步,即對測試集和訓練集中有情緒的微博文本進行向量化處理,采用K最近鄰算法,計算待預測情緒微博與已標注情緒微博的向量相似度,從而獲取待預測微博的細粒度情緒。

3關(guān)鍵性技術(shù)

3.1 擴展本體庫

本文對微博的情緒分類識別沿用大連理工大學建立的情感詞匯本體。該資源從不同的角度描述一個中文詞匯或者短語,包括詞語詞性種類、情感類別、情感強度連同極性等信息。該本體庫的情感共分為7大類21小類,具體來說,7類為樂、好、怒、哀、懼、惡、驚;21類為快樂(PA)、安心(PE)、尊敬(PD)、贊揚(PH)、相信(PG)、喜愛(PB)、祝愿(PK)、憤怒(NA)、悲傷(NB)、失望(NJ)、疚(NH)、思(PF)、慌(NI)、恐懼(NC)、羞(NG)、煩悶(NE)、憎惡(ND)、貶責(NN)、妒忌(NK)、懷疑(NL)、驚奇(PC),情感強度分為1,3,5,7,9五檔,9表示強度最大,1為強度最小[4]。

微博作為目前流行的一種互聯(lián)網(wǎng)應用,內(nèi)容中綜合著各式各樣的網(wǎng)絡用語,因此研究從4 000條已經(jīng)人工標注了情緒分類的新浪微博中人為地篩選出常用的網(wǎng)絡用語和所有的QQ表情所代表的詞語以及對情緒識別有表征意義的其他詞匯,從而完成了對極性和強度等相應屬性的標注,由此獲得了對情感本體庫的有效擴展。

3.2 分詞

針對于待分類的每條微博,首先采用中科院計算所開發(fā)的ICTCLAS分詞系統(tǒng)進行分詞,但考慮到微博語言的特殊性,研究中構(gòu)建了分詞器中特有的停用詞庫。這樣做是因為在微博的情緒識別中,有很多諸如語氣詞之類的所謂停用詞在情緒識別的過程中都發(fā)揮了重要的表征作用。另外,研究中進一步將情緒識別所用到的大連理工構(gòu)建的情感詞匯本體庫和擴展的網(wǎng)絡語言情感詞匯庫加入到分詞器的用戶詞典以保證分詞器對微博語句分詞的準確性。

3.3 特征項提取

為了便于對微博進行有無情緒的貝葉斯分類,則對訓練集中的每條微博進行了科學的抽象,即進行了特征項的提取。而將微博進行分詞之后,就要統(tǒng)計出各個詞在有無情緒兩種情況下分別出現(xiàn)的次數(shù),再會選擇出一部分在有無情緒這兩種情況下出現(xiàn)次數(shù)差別較大的詞,并將其作為特征項。

3.4 文本表示

文本表示是指將文本從一個非結(jié)構(gòu)化格式轉(zhuǎn)化成計算機可識別的結(jié)構(gòu)化格式的處理過程[1]。針對于那些包含情緒的微博,在此選擇的文本表示模型則是向量空間模型,也就是將微博文本向量化。根據(jù)本體庫的構(gòu)建規(guī)則,可將每條微博表示成21維的向量。其中,每一維的分量相應代表本體庫中的每一個具體的小情感分類,即每條微博均有21個小類情緒特征。并且,每個分量值將依賴于本體庫,如果微博中的詞能與本體庫中的詞相匹配,則將該詞的強度作為分量值,出現(xiàn)多個詞的小情感類別相同的情況就將各個詞對應的強度累加作為分量值;而對于那些小情感類別中沒有出現(xiàn)詞的情況,則在向量中對應的該分量值將設定為零。例如對于如下的一條真實的微博:“妹妹2年多的頑固性失眠,這次經(jīng)劉醫(yī)生3次針術(shù)后,已連續(xù)一周安然入睡到自然醒,我真高興?!苯?jīng)過分詞之后該微博與本體庫匹配的詞為:頑固、失眠、安然、自然、高興。在本體庫中,頑固屬于NN(貶責),強度為3;失眠屬于NE(煩悶),強度為5;安然和自然都屬于PE(安心),強度分別為5、3;高興屬于PA(快樂),強度為5。那么對于該微博形成的21維向量的各分量值即可表述為:PA(5.0),PE(8.0),PD(0.0),PH(0.0),PG(0.0),PB(0.0),PK(0.0),NA(0.0),NB(0.0), NJ(0.0),NH(0.0),PF(0.0), NI(0.0),NC(0.0),NG(0.0),NE(5.0),ND(0.0),NN(3.0) , NK(0.0) , NL(0.0),PC(0.0)。

4 算法設計與實驗分析

4.1 算法思想

本文對微博細粒度情緒劃分采用樸素貝葉斯和K最近鄰的集成算法[9]。其中,用樸素貝葉斯算法進行大粒度的劃分,也就是有無情緒的劃分;在此基礎上,針對包含情緒的微博,即運用K最近鄰的算法進行細粒度的情緒劃分。

4.2 實驗設置

實驗使用的語料是由計算機學會發(fā)布的訓練語料,該語料是基于相對細粒度情緒標注規(guī)則的語料庫,以XML文檔格式組織,包括了微博的整體細粒度情緒標注以及單個句子的細粒度情緒標注。語料主要來自新浪微博,共有4 000條微博數(shù)據(jù)。語料中有8種基本的情緒:即anger(憤怒)、disgust(厭惡)、fear(恐懼)、happiness(高興)、like(喜好)、sadness(悲傷)、surprise(驚訝)、none(無情緒)。

實驗中使用了3種分類方法:支持向量機分類方法、K最近鄰分類方法、以及樸素貝葉斯-K最近鄰集成方法,針對衡量分類的性能,采用準確率作為細粒度情緒劃分的衡量標準,準確率計算如公式(1)所示:

其中#sample_correct是被正確劃分測試樣本的數(shù)目,#sample_proposed是提供的測試樣本總數(shù)。

4.3 實驗結(jié)果分析

實驗使用的訓練語料中共有4 000條微博數(shù)據(jù),其中有情緒的微博為2 647條,無情緒的微博為1 533條。在這次實驗中,將用3 500條微博作為訓練集,其中包含有情緒的2 172條,來訓練分類模型,而用剩下的500條微博來做測試。使用SVM做8類分類預測,特征值的計算來源于對大連理工本體庫擴展后的詞匯,使用21維情緒作為最終的特征,準確率為46.8%。使用K最近鄰算法,用待測試的500條微博特征向量分別與訓練集中的3 500條微博特征向量實行余弦相似度計算得到3 500個相似度值,并取K=21(試驗中得到)個最大值,對這21個分量情緒做相似度累加,累加和最大的情緒將作為預測情緒,準確率為51.6%。使用基于樸素貝葉斯-K最近鄰集成算法,先通過樸素貝葉斯進行有無情緒的識別,在此基礎上,對有情緒的微博,則用K最近鄰算法進行細粒度的情緒劃分,做法同上,準確率為60.6%。圖2為分別使用支持向量機分類方法、K最近鄰分類方法、以及樸素貝葉斯-K最近鄰集成方法的情緒細粒度分類的效果。

由圖2可以很直觀地看出,基于樸素貝葉斯-K最近鄰的集成方法對微博細粒度情緒分類的效果要明顯好于其他兩個方法,而其提升的幅度已然都超過了5%。

5 總結(jié)與展望

本文主要研究了微博細粒度情緒識別的集成方法,通過對大連理工構(gòu)建的本體庫進行針對于微博網(wǎng)絡語言詞庫的擴展,以特征詞為驅(qū)動,先由樸素貝葉斯分類的算法對微博進行有無情緒的二分類,而后針對有情緒的微博采用K最近鄰算法對其進行細粒度情緒的劃分。通過對兩種分類算法的集成,充分發(fā)揮了每個分類算法各自性能上的優(yōu)勢,提高了對微博細粒度情緒的識別準確率。但是通過訓練集數(shù)據(jù)的測試過程也看到了一定的不足,在整個算法中過度地依賴了情感本體庫,而現(xiàn)實中的詞語多是動態(tài)更新變化的,因而對于那些本身是有情緒的而不包含本體庫中的詞的微博,該算法效果并不明顯。針對這些情況的后續(xù)處理,即是下一步要做的研究工作。

參考文獻:

[1] 麥藝華.面向中文微博的社會網(wǎng)絡分析及應用[D].廣州:華南理工大學,2012.

[2] 周勝臣,瞿文婷,石英子,等.中文微博情感分析研究綜述[J].計算機應用與軟件,2013,30(3); 161-164.

[3] 劉歡歡,李壽山,周國棟,等.中文情緒識別方法研究[J].江西師范大學(自然科學版),2013,37(2):120-124.

[4] 徐琳宏,林鴻飛,陳建美.情感詞匯本體的構(gòu)造[J].情報學報,2008,27(2):180-185.

[5] GO A, BHAYANI R, HUANG L. Twitter sentiment classification using distant supervision[R]. Stanford :Stanford Digital Library Technologies Project, 2009

[6] AMAN S, SZPAKOWICZ S. Identifying expressions of emotion in text[M]// MATOUSEK V, MAUTNER P: Text, speech and dialogue, Springer:Lecture notes in computer science, ,2007,4629:196-205.

[7] QUAN Changqin,REN Fuji. Sentence emotion analysis and recognition based on emotion words Using Ren-CECps[J].International Journal of Advanced Intelligence,2010,2(1) :105-117.

[8] 龐磊,李壽山,周國棟.基于情緒知識的中文微博情感分類方法[J].計算機工程,2012,38(13):156-158.

[9] 孫涼艷.基于K近鄰集成算法的分類挖掘研究[D].西安:西北大學,2010.

猜你喜歡
細粒度微博
基于緊湊型雙線性網(wǎng)絡的野生茵識別方法研究
無線電工程(2024年8期)2024-09-16 00:00:00
青少年數(shù)字素養(yǎng)的社會與文化內(nèi)涵及其教育啟示
利用類型語義表示進行標簽降噪的細粒度實體分類①
融合判別性與細粒度特征的抗遮擋紅外目標跟蹤算法
細粒度的流計算執(zhí)行效率優(yōu)化方法
基于雙線性卷積網(wǎng)絡的細粒度圖像定位
支持細粒度權(quán)限控制且可搜索的PHR云服務系統(tǒng)
“985工程”高校圖書館閱讀推廣的調(diào)查與分析
中國市場(2016年38期)2016-11-15 23:47:47
事實與流言的博弈
人間(2016年26期)2016-11-03 18:19:04
基于微博營銷的企業(yè)推廣模式研究
肇庆市| 肇州县| 平远县| 青冈县| 四子王旗| 丰城市| 安达市| 徐水县| 本溪市| 丁青县| 安乡县| 景宁| 垫江县| 孟村| 旬邑县| 雷州市| 兴海县| 博兴县| 麻江县| 宁南县| 依兰县| 宁明县| 周至县| 靖边县| 曲水县| 红原县| 叶城县| 芷江| 浦北县| 上林县| 淅川县| 安溪县| 涞水县| 始兴县| 开原市| 肃南| 通海县| 井陉县| 长沙县| 英吉沙县| 咸宁市|