国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向突發(fā)事件傾向性分析的情感詞典自動構(gòu)建方法

2021-10-28 02:14王學賀
關(guān)鍵詞:詞典突發(fā)事件情感

王學賀, 趙 華

(1.菏澤醫(yī)學專科學校 計算機教研室,山東 菏澤 274030; 2.山東科技大學 計算科學與工程學院,山東 青島 266590)

近年來,世界各地頻繁發(fā)生各種突發(fā)事件,互聯(lián)網(wǎng)慢慢成為繼報刊、廣播、雜志、電視等最大的傳播媒介,移動終端也飛速地在世界各地普及.移動終端的迅猛發(fā)展,逐漸改變了民眾的交流方式,使網(wǎng)絡(luò)用戶可隨時隨地接收網(wǎng)絡(luò)上的消息并進行回應(yīng)和傳播.突發(fā)事件一旦發(fā)生,有關(guān)突發(fā)事件的信息便會在互聯(lián)網(wǎng)上的各類平臺急劇增加,從而對事件的發(fā)展產(chǎn)生影響,甚至引發(fā)新的突發(fā)事件.網(wǎng)絡(luò)映射著我們的現(xiàn)實社會,它像一面放大鏡,現(xiàn)實社會的一些事件在網(wǎng)絡(luò)上被討論的越多就越會被放大,這就有可能反作用于我們的物質(zhì)社會.突發(fā)事件所帶來的極端負面情緒會誤導公眾對事件的真實看法,從而產(chǎn)生負面影響.如果能夠及時發(fā)現(xiàn)并阻斷不良信息的網(wǎng)絡(luò)傳播,不僅能夠穩(wěn)定公眾的情緒,還能減少經(jīng)濟損失,因此對于突發(fā)事件的應(yīng)急處置工作具有重要意義.對突發(fā)事件相關(guān)的在線評論進行情感傾向性分析,已經(jīng)引起了國內(nèi)外研究者的廣泛關(guān)注,并取得較好的研究成果[1].其中,基于情感詞典的意見挖掘方法是比較重要的一類研究方法,而情感詞典是該類方法成敗的關(guān)鍵因素.筆者以新浪微博為研究平臺,首先以利用微博API接口爬取有關(guān)突發(fā)事件的微博評論作為數(shù)據(jù)集,經(jīng)過微博的噪聲過濾去除與突發(fā)事件無關(guān)的大量廣告微博.然后基于詞性標注和snownlp進行情感詞典的自動構(gòu)建,并將其應(yīng)用于突發(fā)事件在線評論的情感傾向性分析中.實驗結(jié)果表明,文中構(gòu)建的方法有效.

1 國內(nèi)外研究現(xiàn)狀

基于情感詞典的情感傾向性分析研究需要一個高質(zhì)量的情感詞典作為支撐.情感詞典的構(gòu)建主要包括:情感詞的提取、情感詞傾向性的分類、情感詞情感極性強度的計算、情感詞典的維護和保存.目前,構(gòu)建情感詞典的主要方法是從已有的詞典和標注語料庫中提取情感詞[2],或者利用這些資源通過一定的規(guī)則派生出新的情感詞典.表1總結(jié)了常見的基本情感詞典.

表1 常見的情感詞典

目前,常規(guī)的情感詞典是通過人工篩選、標注大量情感詞構(gòu)建的[2].雖然人工標注花費的代價很大,但構(gòu)建的情感詞典有較強的通用性.通用的情感詞典具有規(guī)模大、準確率高的優(yōu)點,但對不同領(lǐng)域的語料庫和情感詞的涵蓋還不夠.因此,面向特定領(lǐng)域的情感詞典的自動構(gòu)建成為學術(shù)界關(guān)注的焦點.

國內(nèi)外學者在情感詞典的構(gòu)建方面進行了積極探索.Hassan等首先挑選情感種子詞,然后基于WordNet中單詞之間的關(guān)系,計算待判斷的情感詞與情感種子詞之間的移動步數(shù),從而得到待判斷單詞的情感傾向[3].Baccianella等使用半監(jiān)督機器學習,先通過WordNet擴展初始標注的種子情感詞集和客觀詞集,然后使用已知情感作為訓練集,構(gòu)造分類器判定未知情感詞的情感傾向[4].柳位平等通過計算種子情感詞和HowNet之間的語義相似性,建立中文基礎(chǔ)情感詞典[5].徐琳宏等通過對漢語情感詞進行分類和標注,構(gòu)建中文情感詞匯本體庫,從詞類、情感類、情感強度、極性等不同角度對漢語詞匯或短語進行描述[6].張成功等構(gòu)建包括基礎(chǔ)詞典、領(lǐng)域詞典、網(wǎng)絡(luò)詞詞典和修飾語詞典在內(nèi)的極性詞典[7].馬秉楠等提出利用表情符號提取文本情感詞典的方法[8].

2 突發(fā)事件評論數(shù)據(jù)的獲取和預處理

筆者以新浪微博為平臺,將其平臺內(nèi)有關(guān)突發(fā)事件的微博評論作為研究數(shù)據(jù),主要選取事態(tài)緊急、影響力較大、涉及范圍較廣、討論人數(shù)較多的微博評論,通過官方指定的微博API進行數(shù)據(jù)的爬取.文中分別爬取“2019年5月16日的涼山木里縣森林火災(zāi)”“2019年4月16日的巴黎圣母院火災(zāi)”及“2018年12月14日的武漢醫(yī)生坐診時被男子刺傷生命垂危,行兇者墜樓身亡”3個突發(fā)事件的微博數(shù)據(jù),獲得的微博數(shù)量分別為6 862,9 018,5 620條.

微博數(shù)據(jù)作為一種UGC數(shù)據(jù),其中包含較多的噪聲數(shù)據(jù).為此,首先對微博數(shù)據(jù)中的噪聲和垃圾信息進行過濾等預處理操作,主要是刪除“@用戶”信息和URL鏈接.“@用戶”有效反映了用戶之間的社交關(guān)系,但并不能描述突發(fā)事件的相關(guān)信息,為此文中將其刪除.微博中的URL鏈接大多數(shù)是為了能夠更清楚地表達用戶的觀點,雖然鏈接的Web頁面可能會更詳細地描述微博的事件,但是對評論中情感詞的提取意義不大,這種情況下反而產(chǎn)生更多噪聲,為此將其刪除.這2種信息都具有較固定的格式,所以可采用正則表達式進行有效過濾.用于刪除“@用戶”信息的正則表達式為“@.*?+{1}”,刪除URL鏈接的正則表達式為“http://(w+.)?w+.com”.

為更好地了解爬取的數(shù)據(jù)內(nèi)容,筆者首先采用標簽云對預處理后的數(shù)據(jù)進行可視化展示(圖1~圖3).

圖1 “涼山森林火災(zāi)”微博評論詞云

圖2 “巴黎圣母院火災(zāi)”微博評論詞云

圖3 “武漢醫(yī)生坐診時被男子刺傷”微博評論詞云

圖1中出現(xiàn)較多的詞是平安、歸來、希望、保佑等,可以看出,大多數(shù)人對此事件表達了祈禱與祝福.圖2所示的詞云中出現(xiàn)較多的詞是傷心、惋惜、可惜、允悲,這表達了一部人對該事件的遺憾和惋惜情緒,但還有一部分人表達出“無所謂”或“幸災(zāi)樂禍”的情緒.圖3所示的詞云中出現(xiàn)較多的詞是醫(yī)生、患者、學醫(yī)、醫(yī)療等.

3 情感詞典的構(gòu)建與應(yīng)用

3.1 情感詞典的構(gòu)建

情感詞的提取分2個步驟:

1)識別突發(fā)事件評論中的情感詞;

2)為每一個情感詞標記情感傾向(正向和負向).

分析大量的評論數(shù)據(jù),發(fā)現(xiàn)情感詞的詞性比較固定,一般為形容詞和副詞.為此,基于詞性標注結(jié)果識別情感詞.Jieba分詞工具在分詞的同時提供了詞性標注結(jié)果,其采用的標注集和ICTCLAS的標注集是一樣的,比如“a”是形容詞,“d”是副詞,“n”是名詞,“v”是動詞等.Jieba分詞的詞性標注只需要使用jieba.posseg功能words=pseg.cut()即可實現(xiàn).

在基于上述方法抽取得到情感詞后,使用snownlp的情感分析功能比較每個詞的sentiments值,判斷每個情感詞的正負傾向,并分別將其放入正負情感詞詞典中.表2給出了部分sentiments值.

表2 基于snownlp的詞語sentiments值

3.2 情感詞典的應(yīng)用

為驗證上述構(gòu)建的情感詞典的有效性,采用基于情感詞典的方法實現(xiàn)微博評論的情感分析,方法如下:

(1)

式中:s(comment)表示評論comment的情感得分;si表示comment中包含的情感詞;w(si)表示si的情感傾向.如果si是正向的,則w(si)=1,否則w(si)=0.如果s(comment)>0,則評論是正向的,否則評論是負向的.

為對比本文所構(gòu)建詞典的有效性,設(shè)計以下2個模型:

1)BaseSenti:該模型是本文的baseline模型,采用基礎(chǔ)情感詞典(hownet情感詞典)作為情感分析時的詞典.

2)ModiSenti:該模型是本文改進后的情感分析模型,采用更新后的情感詞典作為情感分析時所采用的詞典.

4 實驗與分析

為分析文中面向突發(fā)事件的情感詞典構(gòu)建方法的有效性,首先從所獲取的突發(fā)事件微博評論中隨機抽取2 000條微博評論,然后由3名學生對其中的情感詞及其傾向進行標注,并采用準確率和召回率作為本文構(gòu)建方法的評測指標.經(jīng)過評測,文中采用的基于詞性標注進行情感詞典構(gòu)建方法的準確率為87.14%,召回率為84.35%.因此,文中的構(gòu)建方法是簡單有效的詞典構(gòu)建方法.

表3為文中方法識別出的情感詞(限于篇幅,只列出部分情感詞,其中下劃線標記的情感詞是原有情感詞典沒有的).由表3可知,民眾在評論不同突發(fā)事件時,往往采用不同的情感詞表達不同的情感.

表3 面向突發(fā)事件的情感詞典自動構(gòu)建示例

為進一步顯示文中詞典方法的有效性,隨機抽取500條微博評論,同樣讓3名學生對每條評論的情感傾向進行標記(正向或者負向).然后對基于情感詞典的2個情感分析模型(Basesenti,ModiSenti)進行評測,結(jié)果見表4.由表4可知,由于加入了從突發(fā)事件評論數(shù)據(jù)中識別的情感詞,ModiSenti系統(tǒng)的準確率和召回率(計算方法見式(2)~式(3))均增加,進一步證明文中詞典構(gòu)建方法的有效性.

表4 基于情感詞典的情感分析 %

a=n/n1,

(2)

r=n/n2,

(3)

式(2)~式(3)中:a為準確率;n為事實屬于此類且被系統(tǒng)判定正確的微博條數(shù);n1為系統(tǒng)標記的屬于此類的微博總數(shù);r為召回率;n2為事實屬于此類的微博總數(shù).

為更好地展示情感分析結(jié)果,將不同突發(fā)事件的部分微博評論的情感值進行可視化(圖4~圖6),圖中橫坐標是情感值(s),縱坐標是取得該情感值的微博數(shù)量(n1).

圖4 “涼山森林火災(zāi)”情感值分布

圖5 “巴黎圣母院火災(zāi)”情感值分布

圖6 “武漢醫(yī)生坐診時被男子刺傷”情感值分布

由圖4可知, BaseSenti模型中微博的情感值為0.2~0.4,ModiSenti模型中微博的情感值為0.25~0.5,說明總體情感值變得積極,但是群眾對此事件的情緒大多還是偏向消極和中性.

由圖5可知, BaseSenti模型中微博的情感值在1.0附近,這與實際情況并不相符,ModiSenti模型的情感值比較平均(0~0.4),說明大多數(shù)群眾對此事的發(fā)生還是感到惋惜的.

由圖6可知,BaseSenti模型中微博的情感值在0附近,ModiSenti模型中數(shù)值反映出群眾的情感傾向變分散,但大多數(shù)仍集中在0~0.5,且情感值偏低,說明群眾在此事中表達的負面情感較多.

5 結(jié)語

對面向突發(fā)事件的情感詞典自動構(gòu)建方法進行研究探討.在分析大量突發(fā)事件評論后,基于詞性標注的方法識別情感詞,并基于snownlp判定情感詞的情感傾向.為驗證所構(gòu)建詞典的有效性,將構(gòu)建的詞典應(yīng)用于突發(fā)事件評論的情感分析中.結(jié)果表明,不同的突發(fā)事件評論中,采用的情感詞具有一定的差異,通過添加面向突發(fā)事件的情感詞典,可有效提高突發(fā)事件評論數(shù)據(jù)的情感分析性能.

猜你喜歡
詞典突發(fā)事件情感
如何在情感中自我成長,保持獨立
米蘭·昆德拉的A-Z詞典(節(jié)選)
米沃什詞典
情感
詞典引發(fā)的政治辯論由來已久 精讀
詩歌與情感的斷想
臺上
突發(fā)事件的輿論引導
清朝三起突發(fā)事件的處置
漫畫詞典
丰镇市| 屏山县| 贞丰县| 博兴县| 建宁县| 霍邱县| 清苑县| 新野县| 琼中| 西昌市| 吉林省| 大荔县| 昔阳县| 无为县| 汉寿县| 百色市| 城口县| 射洪县| 嵩明县| 四会市| 荣成市| 灵璧县| 浠水县| 奉新县| 二连浩特市| 富阳市| 怀来县| 万源市| 博罗县| 舒城县| 林周县| 永济市| 南城县| 陇南市| 金门县| 沙洋县| 纳雍县| 墨脱县| 永寿县| 曲松县| 河源市|