国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向突發(fā)公共事件網(wǎng)絡(luò)輿情分析的領(lǐng)域情感詞典構(gòu)建研究*

2020-10-23 02:09:20李長(zhǎng)榮紀(jì)雪梅
數(shù)字圖書館論壇 2020年9期
關(guān)鍵詞:極性語(yǔ)料詞典

李長(zhǎng)榮 紀(jì)雪梅

(山東理工大學(xué)科技信息研究所,淄博 255049)

《國(guó)家突發(fā)公共事件總體應(yīng)急預(yù)案》對(duì)突發(fā)公共事件進(jìn)行了說(shuō)明,指出突發(fā)公共事件是突然發(fā)生,造成或者可能造成重大人員傷亡、財(cái)產(chǎn)損失、生態(tài)環(huán)境破壞和嚴(yán)重社會(huì)危害,危及公共安全的緊急事件。突發(fā)公共事件發(fā)生后,公眾會(huì)通過(guò)社交媒體、論壇等網(wǎng)絡(luò)平臺(tái)發(fā)布事件相關(guān)的帖子、評(píng)論等輿論文本。這些文本不僅包含了事件相關(guān)的話題信息,同時(shí)也包含了人們對(duì)于人物、事件、不同觀點(diǎn)等對(duì)象的情感傾向性,如喜愛(ài)、贊揚(yáng)、憤怒和批評(píng)等?;谕话l(fā)公共事件輿論文本的公眾情感識(shí)別能夠?qū)ν话l(fā)公共事件下公眾情緒的類型、正負(fù)面極性和強(qiáng)度進(jìn)行自動(dòng)分析,挖掘公眾對(duì)突發(fā)公共事件的態(tài)度和情感傾向,有助于輿論走向的把握、情感的引導(dǎo)以及對(duì)事件的回應(yīng)。

目前,文本情感分析的方法主要包括基于情感詞典的情感分析方法、有監(jiān)督的機(jī)器學(xué)習(xí)方法和弱監(jiān)督的深度學(xué)習(xí)方法等。其中,基于情感詞典的情感分析方法能夠?qū)娗楦斜磉_(dá)的方式、用詞、情緒的細(xì)分類型等進(jìn)行準(zhǔn)確分析。情感詞典作為一種重要的情感資源,在詞語(yǔ)、短語(yǔ)、句子及篇章等不同文本粒度的情感分析任務(wù)中起著重要的作用[1]。情感詞典是進(jìn)行公眾情感自動(dòng)分析的基礎(chǔ),在情感詞典的基礎(chǔ)上可提高文本分詞的準(zhǔn)確性;通過(guò)情感詞典也可對(duì)公眾使用的情感詞進(jìn)行識(shí)別,并進(jìn)一步通過(guò)上下文語(yǔ)境進(jìn)行情感類型和強(qiáng)度的計(jì)算。目前常用的情感詞典多為通用情感詞典,在對(duì)突發(fā)公共事件進(jìn)行網(wǎng)絡(luò)輿情分析時(shí)專用性不足,并且隨著新的情感表達(dá)方式和情感詞的不斷出現(xiàn),構(gòu)建領(lǐng)域情感詞典將可以大幅提高網(wǎng)絡(luò)輿情情感分析的準(zhǔn)確性。本文利用大規(guī)模突發(fā)公共事件輿論文本,結(jié)合通用情感詞典和深度學(xué)習(xí)方法對(duì)領(lǐng)域情感詞及情感詞的類型和強(qiáng)度進(jìn)行識(shí)別,旨在構(gòu)建一個(gè)面向突發(fā)公共事件網(wǎng)絡(luò)輿情分析的領(lǐng)域情感詞典。

1 研究綜述

目前,常用的開(kāi)放中文情感詞典主要有HowNet情感分析用詞語(yǔ)集[2]、臺(tái)灣大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室構(gòu)建的情感詞典NTUSD[3]和大連理工大學(xué)信息檢索研究室發(fā)布的情感詞匯本體庫(kù)[4]。這些情感詞典通用性較好,但其領(lǐng)域適應(yīng)性較差。目前,情感分析主要應(yīng)用于產(chǎn)品評(píng)論分析和突發(fā)公共事件網(wǎng)絡(luò)輿情分析兩個(gè)領(lǐng)域。有學(xué)者構(gòu)建了不同商品領(lǐng)域的情感詞典,如鄧淑卿等[5]基于句法依賴規(guī)則和詞性特征的情感詞識(shí)別模型構(gòu)建手機(jī)領(lǐng)域情感詞典;蔣翠清等[6]使用AMVR投票集成規(guī)則構(gòu)建汽車領(lǐng)域情感詞典;郭順利等[7]基于改進(jìn)的SOPMI算法構(gòu)建中文圖書評(píng)論情感詞典??偨Y(jié)目前相關(guān)研究,領(lǐng)域情感詞典的構(gòu)建方法主要有兩種,即基于語(yǔ)料庫(kù)的方法和基于語(yǔ)義知識(shí)庫(kù)的方法。

1.1 基于語(yǔ)料庫(kù)的方法

基于語(yǔ)料庫(kù)的方法,主要是根據(jù)語(yǔ)料中詞語(yǔ)之間的共現(xiàn)信息、上下文信息來(lái)計(jì)算詞語(yǔ)的情感極性。Hatzivassiloglou等[8]最先提出了利用句法連接來(lái)識(shí)別情感詞并判斷其極性,通過(guò)大量實(shí)驗(yàn)數(shù)據(jù)證明了連詞前后詞的極性關(guān)系。Turney等[9]基于一個(gè)詞與其鄰近詞的情感趨于一致的思想,采用逐點(diǎn)互信息(PMI)和潛在語(yǔ)義分析(LSA)來(lái)估計(jì)關(guān)聯(lián)程度,通過(guò)與正面或負(fù)面種子詞的統(tǒng)計(jì)關(guān)聯(lián)來(lái)識(shí)別詞語(yǔ)極性。Gamon等[10]擴(kuò)展了Turney的方法,增加了一個(gè)假設(shè),即情緒相反的情感詞往往不會(huì)在句子層面共同出現(xiàn)。Huang等[11]利用連詞判斷單詞間的極性關(guān)系,并結(jié)合單詞形態(tài)上的否定形式,構(gòu)建情感極性約束矩陣,再利用逐點(diǎn)互信息,判斷單詞的情感極性。楊春明等[12]使用逐點(diǎn)互信息來(lái)反映詞語(yǔ)間的相關(guān)關(guān)系,并用非負(fù)矩陣分解(NMF)的方法來(lái)構(gòu)建語(yǔ)料中情感詞語(yǔ)之間、情感詞語(yǔ)與評(píng)價(jià)對(duì)象之間的關(guān)系矩陣,然后利用此關(guān)系矩陣結(jié)合詞語(yǔ)的語(yǔ)義、語(yǔ)素關(guān)系構(gòu)建圖模型來(lái)構(gòu)造情感詞典。鐘敏娟等[13]首先利用關(guān)聯(lián)規(guī)則挖掘算法抽取與識(shí)別體現(xiàn)領(lǐng)域特征的情感詞,然后基于PageRank模型和混合相關(guān)關(guān)系判別情感詞極性。

目前,使用深度學(xué)習(xí)的方法構(gòu)建情感詞典已經(jīng)成為一種趨勢(shì)。楊小平等[14]利用Word2Vec工具從大規(guī)模中文語(yǔ)料中提取詞向量,研究情感類別劃分并選取種子詞,基于轉(zhuǎn)換約束集得到候選詞的情感極性和情感強(qiáng)度,得到多維漢語(yǔ)情感詞典SentiRuc。王仁武等[15]結(jié)合Word2Vec詞向量技術(shù)構(gòu)建產(chǎn)品特征詞和情感詞詞庫(kù),進(jìn)一步構(gòu)造情感概念對(duì)情感評(píng)分,并將其用于分析品牌產(chǎn)品特定特征的用戶情感。胡家珩等[16]利用詞向量方法將文本信息映射到向量空間,借助已有的通用情感詞典,自動(dòng)標(biāo)引訓(xùn)練語(yǔ)料,使用Python構(gòu)建深度神經(jīng)網(wǎng)絡(luò)分類器,判斷特定領(lǐng)域候選情感詞的情感極性,構(gòu)建情感詞典。

1.2 基于語(yǔ)義知識(shí)庫(kù)的方法

基于語(yǔ)義知識(shí)庫(kù)的方法,是指在已有專家標(biāo)注詞典的基礎(chǔ)上,利用詞語(yǔ)之間的詞義聯(lián)系(如同義詞、反義詞等)來(lái)計(jì)算詞語(yǔ)的情感極性。Kamps等[17]假設(shè)同義詞具有相同的極性,并將同義詞庫(kù)提供的同義詞連接起來(lái)構(gòu)建詞匯網(wǎng)絡(luò),詞語(yǔ)極性通過(guò)網(wǎng)絡(luò)中與種子詞(“好”和“壞”)的距離來(lái)確定。Hu等[18]擴(kuò)展了Kamps的方法,利用WordNet詞典構(gòu)建情感詞典,不僅使用了同義詞關(guān)系,而且考慮了反義詞的作用。Liu等[19]基于Open Mind Commonsense數(shù)據(jù)庫(kù)識(shí)別基本情感,并將其分為高興、悲傷、憤怒、恐懼、厭惡和驚奇6個(gè)基本類別。Lu等[20]利用同義詞詞林和雙語(yǔ)詞典構(gòu)建詞匯圖,然后使用半監(jiān)督圖模型從種子詞中得到更多的正面及負(fù)面情感詞。周詠梅等[21]提出基于HowNet和SentiWordNet的情感詞典構(gòu)建方法,將中文詞語(yǔ)進(jìn)行義元分解得到對(duì)應(yīng)的英文義元,再通過(guò)SentiWordNet計(jì)算義元的情感傾向值,分別得到中文詞語(yǔ)的正面、負(fù)面情感傾向值。衣麗霞等[22]將Hu的方法進(jìn)行了改進(jìn),基于詞典WordNet3.0,提出POAE算法自動(dòng)擴(kuò)展極性副詞,除了同義關(guān)系和反義關(guān)系,還使用了WordNet詞典中的近義關(guān)系和又見(jiàn)關(guān)系。

作為情感分析的重要工具之一,情感詞典目前在網(wǎng)絡(luò)文本情感分析中得到較好應(yīng)用,但在突發(fā)公共事件的情感分析中,該方法還處于探索階段。同時(shí),有些情感詞在不同領(lǐng)域具有不同的情感傾向,甚至在同一領(lǐng)域,當(dāng)修飾不同產(chǎn)品特征時(shí)也具有不同的情感傾向[23]。因此,構(gòu)建面向突發(fā)公共事件網(wǎng)絡(luò)輿情分析的領(lǐng)域情感詞典,并將其運(yùn)用于網(wǎng)絡(luò)輿情分析中,有助于提升突發(fā)公共事件網(wǎng)絡(luò)輿情的監(jiān)督和應(yīng)對(duì)能力。

2 研究設(shè)計(jì)與流程

本文設(shè)計(jì)的領(lǐng)域情感詞典構(gòu)建流程主要分為四步。第一步,構(gòu)建突發(fā)公共事件網(wǎng)絡(luò)輿論語(yǔ)料庫(kù)。語(yǔ)料庫(kù)包括突發(fā)公共事件的微博評(píng)論語(yǔ)料和新聞評(píng)論語(yǔ)料。第二步,構(gòu)建自定義基礎(chǔ)詞典。詞典主要包括現(xiàn)有基礎(chǔ)情感詞典、網(wǎng)絡(luò)流行詞、領(lǐng)域詞等。同時(shí),結(jié)合自定義基礎(chǔ)詞典對(duì)語(yǔ)料庫(kù)中的數(shù)據(jù)進(jìn)行預(yù)處理,主要包括分詞和詞性標(biāo)注。第三步,構(gòu)建情感種子詞典。基于現(xiàn)有基礎(chǔ)情感詞典,對(duì)突發(fā)公共事件網(wǎng)絡(luò)輿論語(yǔ)料中的數(shù)據(jù)進(jìn)行情感詞匹配,并對(duì)相關(guān)情感詞進(jìn)行修正,形成情感種子詞典WordSet1。第四步,情感詞擴(kuò)充及領(lǐng)域情感詞典的構(gòu)建?;赪ord2Vec模型和余弦相似度算法,對(duì)種子情感詞典WordSet1進(jìn)行近義詞擴(kuò)充,并對(duì)新詞進(jìn)行情感類型和強(qiáng)度標(biāo)注,形成最終的領(lǐng)域情感詞典WordSet。

2.1 突發(fā)公共事件網(wǎng)絡(luò)輿論語(yǔ)料庫(kù)的構(gòu)建

人民網(wǎng)輿情監(jiān)測(cè)室發(fā)布的《2015年互聯(lián)網(wǎng)輿情報(bào)告》指出“兩微一端”(微博、微信、移動(dòng)客戶端)成為很多中國(guó)人了解新聞時(shí)事的第一信息源[24]。由于微信朋友圈數(shù)據(jù)私密性較強(qiáng),難以采集,本文主要采集新浪微博評(píng)論數(shù)據(jù)和移動(dòng)客戶端新聞評(píng)論數(shù)據(jù),作為情感詞識(shí)別和匹配的語(yǔ)料來(lái)源。首先,根據(jù)國(guó)務(wù)院制定的《國(guó)家突發(fā)公共事件總體應(yīng)急預(yù)案》中對(duì)突發(fā)公共事件的分類,將突發(fā)公共事件分為自然災(zāi)害、事故災(zāi)害、公共衛(wèi)生和社會(huì)安全四類[25]。然后,基于2011—2017年《中國(guó)社會(huì)輿情與危機(jī)管理報(bào)告》,為每種類型的突發(fā)公共事件選取相應(yīng)檢索詞,見(jiàn)表1。

表1 四類突發(fā)公共事件檢索詞選取

如表1所示,自然災(zāi)害事件選取的檢索詞有洪災(zāi)、臺(tái)風(fēng)登陸、地震等;事故災(zāi)害事件選取的檢索詞有煤礦爆炸、沉船事故、公交車事故等;公共衛(wèi)生事件選取的檢索詞有傳染病、問(wèn)題疫苗、毒奶粉等;社會(huì)安全事件選取的檢索詞有暴恐、虐童、逃稅等。

一方面,以新浪微博為采集平臺(tái),以四類突發(fā)公共事件的檢索詞作為關(guān)鍵詞對(duì)原創(chuàng)微博進(jìn)行檢索,爬取每種類型突發(fā)公共事件的原創(chuàng)微博信息,經(jīng)校對(duì)篩選后,得到突發(fā)公共事件相關(guān)聯(lián)的原創(chuàng)微博共計(jì)42 020條;然后對(duì)微博評(píng)論進(jìn)行采集,采集時(shí)間為2020年1月29日—2月10日。對(duì)含有網(wǎng)址鏈接、無(wú)效評(píng)論等影響情感分析的內(nèi)容進(jìn)行刪除后,微博評(píng)論語(yǔ)料庫(kù)共包含841 128條微博評(píng)論數(shù)據(jù)。另一方面,以四類突發(fā)公共事件的檢索詞作為關(guān)鍵詞,對(duì)來(lái)自搜狐新聞、網(wǎng)易新聞、騰訊新聞、百度新聞、鳳凰新聞五家知名移動(dòng)新聞客戶端的新聞數(shù)據(jù)進(jìn)行檢索和采集,經(jīng)校對(duì)后共采集突發(fā)公共事件相關(guān)新聞86 571條;然后對(duì)新聞評(píng)論進(jìn)行采集,共采集新聞評(píng)論838 016條,采集時(shí)間為2020年2月5—16日。剔除重復(fù)評(píng)論、網(wǎng)址鏈接等,新聞評(píng)論語(yǔ)料庫(kù)共包含704 155條新聞評(píng)論數(shù)據(jù)。

2.2 自定義基礎(chǔ)詞典的構(gòu)建及語(yǔ)料庫(kù)預(yù)處理

為了提高對(duì)語(yǔ)料庫(kù)文本進(jìn)行分詞處理的準(zhǔn)確性,且能結(jié)合突發(fā)公共事件輿論語(yǔ)料構(gòu)建情感種子詞,本文首先構(gòu)建一個(gè)囊括基礎(chǔ)情感詞典、突發(fā)公共事件領(lǐng)域詞典、網(wǎng)絡(luò)新詞和流行詞典的自定義基礎(chǔ)詞典。其中,基礎(chǔ)情感詞典選擇大連理工大學(xué)情感詞匯本體庫(kù)中的27 466個(gè)情感詞,該詞典將情感分為7大類21小類,情感強(qiáng)度分為1、3、5、7、9五檔(9表示強(qiáng)度最大),能夠滿足深入分析情感類型的需求。

突發(fā)公共事件領(lǐng)域詞、網(wǎng)絡(luò)流行詞和網(wǎng)絡(luò)新詞通過(guò)搜狗輸入法細(xì)胞詞庫(kù)進(jìn)行選取。搜狗輸入法的新詞詞典和領(lǐng)域詞典涵蓋了自然災(zāi)害、事故災(zāi)害、公共衛(wèi)生、社會(huì)安全方面的術(shù)語(yǔ)用詞。通過(guò)對(duì)搜狗輸入法細(xì)胞詞庫(kù)進(jìn)行格式處理,將scel格式轉(zhuǎn)化為txt后,選取其中的氣象災(zāi)害詞庫(kù)、公安詞庫(kù)、環(huán)保詞庫(kù)、交通事故處理詞庫(kù)、傳染病詞庫(kù)等,形成領(lǐng)域詞典。接著,將搜狗輸入法細(xì)胞詞庫(kù)中的《網(wǎng)絡(luò)流行語(yǔ)》和《網(wǎng)絡(luò)流行新詞》兩種詞庫(kù)導(dǎo)入自定義詞典,形成網(wǎng)絡(luò)新詞和流行詞典。

為了提高情感詞典構(gòu)建的準(zhǔn)確度,需要對(duì)網(wǎng)絡(luò)輿論語(yǔ)料進(jìn)行預(yù)處理。中國(guó)科學(xué)院計(jì)算技術(shù)研究所開(kāi)發(fā)的NLPIR分詞工具能夠從較長(zhǎng)的文本內(nèi)容中,基于信息交叉熵自動(dòng)發(fā)現(xiàn)新特征語(yǔ)言,并自適應(yīng)測(cè)試語(yǔ)料的語(yǔ)言概率分布模型,實(shí)現(xiàn)自適應(yīng)分詞,功能強(qiáng)大[26]。因此,將構(gòu)建好的自定義基礎(chǔ)詞典導(dǎo)入NLPIR分詞工具中,對(duì)語(yǔ)料庫(kù)進(jìn)行分詞處理,并標(biāo)注詞性。

2.3 情感種子詞典的構(gòu)建

首先,結(jié)合網(wǎng)絡(luò)輿論語(yǔ)料庫(kù)對(duì)基礎(chǔ)情感詞典中的情感詞進(jìn)行識(shí)別與修正。網(wǎng)絡(luò)輿論語(yǔ)料經(jīng)過(guò)上述預(yù)處理后,共識(shí)別出91 656個(gè)詞語(yǔ)。將識(shí)別出的詞語(yǔ)與基礎(chǔ)情感詞典中的情感詞相匹配,共匹配到9 837個(gè)情感詞,出現(xiàn)在300 723條輿論文本中。

利用基礎(chǔ)情感詞典,即大連理工大學(xué)情感詞匯本體庫(kù),對(duì)現(xiàn)有的9 837個(gè)情感詞進(jìn)行情感分類和強(qiáng)度標(biāo)注。情感詞的屬性主要有4個(gè):情感分類、詞性、強(qiáng)度、極性。在突發(fā)公共事件網(wǎng)絡(luò)輿論語(yǔ)料庫(kù)中,有些詞語(yǔ)的情感分類與大連理工大學(xué)情感詞匯本體庫(kù)并不相同,如“呵呵”在大連理工大學(xué)情感詞匯本體庫(kù)中被劃分為褒義詞匯,但是它在大部分輿論文本中表示貶義,如“偷工減料、短斤少兩、以次充好,呵呵,奸商不管干哪個(gè)行業(yè)都是同樣的套路”“呵呵,這種毒瘤難道不應(yīng)該被槍斃嗎”。因此,還需結(jié)合輿論文本的語(yǔ)境,對(duì)上述情感詞的情感分類和極性進(jìn)行人工修正。人工修正方面,將每個(gè)情感詞所在的輿論文本隨機(jī)分配給2位不同的標(biāo)注者,當(dāng)標(biāo)注結(jié)果相同時(shí),將標(biāo)注結(jié)果保存到數(shù)據(jù)庫(kù)中;當(dāng)標(biāo)注結(jié)果不同時(shí),把輿論文本分配給第3位標(biāo)注者,然后選擇多數(shù)一致的標(biāo)注結(jié)果。表2列出了情感詞“驕傲”的情感分類與極性進(jìn)行人工修正的詳細(xì)過(guò)程。

表2 情感分類與極性的人工修正示例

大連理工大學(xué)情感詞匯本體庫(kù)中將情感強(qiáng)度分為1、3、5、7、9五檔,將情感極性分為0、1、2,其中0代表中性,1代表褒義,2代表貶義,使用該詞典進(jìn)行情感分析時(shí),過(guò)程較為復(fù)雜。因此,為便于進(jìn)一步進(jìn)行文本情感值計(jì)算,本文將通過(guò)情感詞匯本體庫(kù)標(biāo)注的情感詞的強(qiáng)度與極性相結(jié)合,將極性標(biāo)注為2的情感詞的情感強(qiáng)度用負(fù)數(shù)表示,將極性標(biāo)注為1的情感詞的情感強(qiáng)度用正數(shù)表示,對(duì)于極性標(biāo)注為0的情感詞,則結(jié)合情感詞所在語(yǔ)境人工修正劃分了詞語(yǔ)的褒貶傾向,故不再有中性詞?;诖?,本文構(gòu)建的詞語(yǔ)情感強(qiáng)度共劃分為十檔,即情感極性強(qiáng)度集S={-9,-7,-5,-3,-1,1,3,5,7,9},分別是貶義(高、中、低)、褒義(低、中、高),數(shù)值的絕對(duì)值表示強(qiáng)度級(jí)別。在進(jìn)行情感強(qiáng)度判斷時(shí),有些詞語(yǔ)包含兩種情感傾向,為更加準(zhǔn)確地進(jìn)行情感分析,選取情感強(qiáng)度大的情感傾向作為主要情感。如“堅(jiān)守”包含“尊敬”和“贊揚(yáng)”兩種情感,所以分別在兩個(gè)情感的相應(yīng)分量上用5和7表示。對(duì)于“堅(jiān)守”來(lái)說(shuō),在“尊敬”上的等級(jí)為5,在“贊揚(yáng)”上的等級(jí)為7,表明主要情感是贊揚(yáng),其情感強(qiáng)度為7。

利用以上規(guī)則,經(jīng)過(guò)修正,將最終得到的情感詞集定義為情感種子詞典WordSet1。最終得到情感種子詞7 697個(gè)。每一個(gè)情感種子詞都由以下三元組進(jìn)行表示,即WordEmo(Wi)= [Ci,Ni,Si]。

其中,Wi為情感種子詞;Ci為所屬情感類別,該類別參照大連理工大學(xué)情感詞匯本體庫(kù)將情感分為樂(lè)(PA、PE)、好(PD、PH、PG、PB、PK)、怒(NA)、哀(NB、BJ、NH、PF)、懼(NI、NC、NG)、惡(NE、ND、NN、NK、NL)、驚(PC)7大類21小類;Ni為情感詞詞性,即名詞(noun)、動(dòng)詞(verb)、形容詞(adj)、副詞(adv)、網(wǎng)絡(luò)詞語(yǔ)(nw)、成語(yǔ)(idiom)、介詞短語(yǔ)(prep);Si為情感強(qiáng)度,即Si= {-9,-7,-5,-3,-1,1,3,5,7,9}。表3列出部分情感種子詞及其極性強(qiáng)度編碼。

表3 部分情感種子詞及其極性強(qiáng)度

2.4 領(lǐng)域情感詞擴(kuò)展

為了豐富情感詞典,解決數(shù)據(jù)稀疏問(wèn)題,采用Word2Vec進(jìn)行情感詞擴(kuò)展。Word2Vec是Google在2013年推出的一款用于訓(xùn)練詞向量的工具,其原理是基于深度學(xué)習(xí)算法,通過(guò)訓(xùn)練,可以把對(duì)文本內(nèi)容的處理轉(zhuǎn)換為K維向量空間中的向量運(yùn)算,而向量空間上的相似度可以用來(lái)表示文本語(yǔ)義上的相似度[27]。

本文采用Python的gensim模塊提供的Word2Vec工具包進(jìn)行訓(xùn)練[28]。訓(xùn)練過(guò)程中,本文采用CBOW模型將處理后的輿論語(yǔ)料構(gòu)建詞向量,詞向量維度size設(shè)定為100,詞語(yǔ)近鄰窗口window設(shè)定為5,采用Hierarchical Softmax算法,即hs設(shè)定為1,計(jì)算詞向量的最小詞頻min_count為3。Word2vec計(jì)算的是余弦值,距離范圍為0~1,值越大代表兩個(gè)詞關(guān)聯(lián)度越高,其計(jì)算過(guò)程如公式(1)所示。

其中,w1,w2分別表示兩個(gè)詞或詞組,利用Word2Vec將詞映射成n維向量,n表示維度數(shù),w1i與w2i分別表示第i個(gè)維度上的取值。

新增情感詞的極性強(qiáng)度的判斷主要是通過(guò)計(jì)算候選詞與基準(zhǔn)詞語(yǔ)的語(yǔ)義相似度來(lái)確定,上文中已得出候選詞與基準(zhǔn)詞語(yǔ)之間的余弦距離,其夾角余弦值越大,候選詞是新情感詞的概率就越大。新增情感詞極性強(qiáng)度的確定,如公式(2)所示。

其中,word表示新增情感詞,setj表示第j類情感的種子詞集合,setp表示第j類情感種子詞集合setj中的第p個(gè)情感詞,Nj(1≤j≤21)表示第j類情感種子詞集setj中種子詞的數(shù)量。然后按照SentiScore值進(jìn)行排序,新情感詞類型及其極性強(qiáng)度的確定取決于其最大SentiScore值基準(zhǔn)詞語(yǔ)的極性強(qiáng)度。

構(gòu)建面向突發(fā)公共事件網(wǎng)絡(luò)輿情分析的領(lǐng)域情感詞典的步驟:①應(yīng)用初始構(gòu)建的情感種子詞典WordSet1中的情感詞作為基準(zhǔn)詞語(yǔ)得到詞語(yǔ)W的向量表示,并將其存入vector.bin文件中;②如果能在情感基準(zhǔn)詞典WordSet1中找到詞語(yǔ)W,則可直接跳入步驟⑤,標(biāo)注W的情感極性強(qiáng)度,否則,跳入步驟③;③在Word2Vec中執(zhí)行“./distance vector.bin”,在突發(fā)公共事件輿論語(yǔ)料庫(kù)中查找與詞語(yǔ)W最接近的10個(gè)詞作為候選詞,其閾值設(shè)定為0.7,相似度大于0.7的候選詞作為新情感詞;④用公式(2)計(jì)算新情感詞的極性強(qiáng)度;⑤將W存入面向突發(fā)公共事件網(wǎng)絡(luò)輿情分析的領(lǐng)域情感詞典中。

最終共識(shí)別出未在情感詞匯本體庫(kù)中收錄的新增情感詞2 604個(gè)。本文的情感詞典共分為7大類、21小類,情感強(qiáng)度Si={-9,-7,-5,-3,-1,1,3,5,7,9},含有情感詞共計(jì)10 301個(gè)。其各情感類別中包含的情感詞個(gè)數(shù)及代表性詞語(yǔ),見(jiàn)表4。

如表4所示,一些人類的基本情感,如快樂(lè)、喜愛(ài)、悲傷、煩悶、憎惡,是包含情感詞較多的幾種情感。另外,在本文構(gòu)建的情感詞典中,贊揚(yáng)、貶責(zé)包含的情感詞最多,說(shuō)明面對(duì)突發(fā)公共事件,民眾在宣泄內(nèi)心不滿的同時(shí)也會(huì)傳播正能量。對(duì)于構(gòu)建出的情感詞典,本文采用改進(jìn)的TF-IDF方法對(duì)各類突發(fā)公共事件中出現(xiàn)權(quán)重較高的情感特征詞進(jìn)行統(tǒng)計(jì),其計(jì)算過(guò)程如公式(3)、公式(4)所示。

表4 突發(fā)公共事件輿論7類情感詞舉例

其中,ni,j表示情感詞i在文檔dj中出現(xiàn)的次數(shù),表示情感詞i在其他文檔中所有詞語(yǔ)的出現(xiàn)次數(shù)之和,|D|表示語(yǔ)料庫(kù)中的文檔總數(shù),表示包含詞語(yǔ)ti的文檔數(shù)目,如果該詞語(yǔ)不在語(yǔ)料庫(kù)中,就會(huì)導(dǎo)致公式?jīng)]有意義,因此一般情況下使用,然后。各類突發(fā)公共事件中TF-IDF值排名前五位的褒義及貶義情感詞見(jiàn)表5。

表5 各類突發(fā)公共事件情感詞示例

如表5所示,各類突發(fā)公共事件情感詞具有較強(qiáng)的領(lǐng)域性特點(diǎn),自然災(zāi)害類事件特有的褒義情感詞有公祭、反腐倡廉、馳援等,貶義情感詞有鋪張浪費(fèi)、求全責(zé)備、吹毛求疵等;事故災(zāi)害類事件特有的褒義情感詞有告慰、防微杜漸、雷厲風(fēng)行等,貶義情感詞有無(wú)序、偷竊、欺瞞等;公共衛(wèi)生事件特有的褒義情感詞有施恩、耿直、治病救人等,貶義情感詞有病毒、做假、變質(zhì)等;社會(huì)安全類事件特有的褒義情感詞有無(wú)微不至、大吃一驚、生機(jī)等,貶義情感詞有逃稅、窩點(diǎn)、誣告等。

3 實(shí)驗(yàn)分析

3.1 測(cè)試集的構(gòu)建與標(biāo)注

為了檢驗(yàn)本文所構(gòu)建領(lǐng)域情感詞典在識(shí)別情感詞方面的效果,本文選擇新冠肺炎疫情事件作為研究案例。新冠肺炎疫情,是新中國(guó)成立以來(lái)在我國(guó)發(fā)生的傳播速度最快、感染范圍最廣、防控難度最大的一次重大突發(fā)公共衛(wèi)生事件[29]。2019年12月31日,武漢市衛(wèi)健委發(fā)布通告稱近期部分醫(yī)療機(jī)構(gòu)發(fā)現(xiàn)接診的多例肺炎病例與華南海鮮市場(chǎng)有關(guān)聯(lián),引發(fā)了較為廣泛的社會(huì)關(guān)注。2020年1月20日,鐘南山院士指出“新型冠狀病毒具有傳染性,已經(jīng)出現(xiàn)人傳人現(xiàn)象”,成為微博熱議話題,網(wǎng)民討論熱度不斷升高。2020年1月22日,國(guó)務(wù)院新聞辦公室舉行新聞發(fā)布會(huì)。1月23日,湖北省人民政府新聞辦公室舉行新聞發(fā)布會(huì),介紹新冠肺炎防控工作的有關(guān)情況,輿情不斷升溫。

針對(duì)新冠肺炎疫情事件,選取新型冠狀病毒、新冠肺炎作為主題詞。爬取的時(shí)間段為2020年1月1日—3月31日。此時(shí)間段在微博大V的轉(zhuǎn)發(fā)和大量有關(guān)問(wèn)責(zé)主管部門的輿情推動(dòng)下,網(wǎng)民討論、轉(zhuǎn)發(fā)活躍度極高。采集以上時(shí)間段期間與該事件相關(guān)的熱門微博及其評(píng)論微博,共計(jì)72 497條,形成測(cè)試語(yǔ)料庫(kù)。

經(jīng)過(guò)預(yù)處理和數(shù)據(jù)清洗后,隨機(jī)選取其中的5 000條文本進(jìn)行實(shí)驗(yàn)。本文采用三人獨(dú)立標(biāo)注法,識(shí)別文本中的情感詞,為使標(biāo)注結(jié)果有效,只有當(dāng)3個(gè)人的標(biāo)注結(jié)果一致時(shí)才將標(biāo)注結(jié)果輸出。通過(guò)人工標(biāo)注,在給定語(yǔ)料的5 000條文本中,共有詞元13 211個(gè),其中標(biāo)注為情感詞的有2 080個(gè)。詞典判定方面,利用上文中提及的HowNet情感分析用詞語(yǔ)集、臺(tái)灣大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室構(gòu)建的NTUSD詞典、大連理工大學(xué)信息檢索研究室的情感詞匯本體庫(kù)3個(gè)通用詞典和本文2.4節(jié)得到的情感詞典,對(duì)5 000條文本的情感詞進(jìn)行情感標(biāo)注。

3.2 實(shí)驗(yàn)指標(biāo)

為驗(yàn)證本文所構(gòu)建的情感詞典的有效性,需采用合適的指標(biāo)對(duì)詞典進(jìn)行評(píng)價(jià)。情感分析中常用的評(píng)價(jià)指標(biāo)有準(zhǔn)確率(Precision)、召回率(Recall)和F1值(F1-measure)[30]。準(zhǔn)確率(P)計(jì)算過(guò)程如公式(5)所示,召回率(R)計(jì)算過(guò)程如公式(6)所示,F(xiàn)1值計(jì)算過(guò)程如公式(7)所示。

其中,公式(5)中n1表示正確判斷出情感極性的詞語(yǔ)數(shù),即被詞典和人工標(biāo)注一致的詞語(yǔ)數(shù),n2表示被詞典識(shí)別出情感極性的詞語(yǔ)數(shù);公式(6)中n3表示輿論文本中識(shí)別出情感極性的詞語(yǔ)數(shù)。將實(shí)驗(yàn)結(jié)果分別帶入上式,即可計(jì)算出準(zhǔn)確率(P)、召回率(R)和F1值。

3.3 實(shí)驗(yàn)結(jié)果

采用準(zhǔn)確率(P)、召回率(R)、F1值3個(gè)評(píng)估指標(biāo)評(píng)估采用本文構(gòu)建的情感詞典的性能,經(jīng)計(jì)算結(jié)果見(jiàn)表6。只有當(dāng)采用本文構(gòu)建的面向突發(fā)公共事件網(wǎng)絡(luò)輿情分析的領(lǐng)域情感詞典在準(zhǔn)確率(P)與召回率(R)的得分上優(yōu)于上文中提及的HowNet情感分析用詞語(yǔ)集、臺(tái)灣大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室構(gòu)建的NTUSD、大連理工大學(xué)信息檢索研究室的情感詞匯本體庫(kù)時(shí),方可認(rèn)為該情感詞典符合突發(fā)公共事件網(wǎng)絡(luò)輿情分析的要求。

表6 各詞典情感分類效果性能評(píng)估

從表6可以看出,本文構(gòu)建的情感詞典進(jìn)行情感判別的準(zhǔn)確率為0.85,召回率為0.90,F(xiàn)1值為0.87。在突發(fā)公共事件輿論文本的情感識(shí)別中,本文構(gòu)建的情感詞典的表現(xiàn)要優(yōu)于3個(gè)通用詞典。所以,總體看來(lái),本文中提出的領(lǐng)域情感詞典構(gòu)建方法具有較高的準(zhǔn)確性和可利用性。

4 結(jié)語(yǔ)

本文提出了一種面向突發(fā)公共事件網(wǎng)絡(luò)輿情分析的領(lǐng)域情感詞典構(gòu)建方法,該方法充分利用語(yǔ)料庫(kù)和語(yǔ)義知識(shí)庫(kù)的優(yōu)點(diǎn),在大規(guī)模網(wǎng)絡(luò)輿論語(yǔ)料的基礎(chǔ)上結(jié)合現(xiàn)有情感詞典進(jìn)行種子詞提取,通過(guò)深度學(xué)習(xí)中的Word2Vec模型訓(xùn)練詞向量,進(jìn)行情感詞的擴(kuò)展,并根據(jù)語(yǔ)義相似度計(jì)算獲得候選情感詞,從而生成領(lǐng)域情感詞典。通過(guò)準(zhǔn)確率和召回率驗(yàn)證,本文提出的構(gòu)建方法具有較好的準(zhǔn)確性和可靠性。這種情感詞典的構(gòu)建方法同樣也可以推廣應(yīng)用于其他領(lǐng)域情感詞典的構(gòu)建。

不過(guò),本研究還存在一定的不足。為了保證所構(gòu)建情感詞典的準(zhǔn)確性,本研究在種子詞構(gòu)建、情感詞擴(kuò)展和新增情感詞強(qiáng)度判斷過(guò)程中都加入了人工判別,由于文本情感表達(dá)的不確定性,人工判斷文本情感也難免會(huì)有偏差,未來(lái)可結(jié)合多種語(yǔ)境和專家判別進(jìn)行情感詞類型和強(qiáng)度的修正。此外,用戶評(píng)論中的表情符號(hào)也影響情感類別的判定,未來(lái)的研究可結(jié)合表情符號(hào)進(jìn)行情感類型的判定。突發(fā)公共事件類型多樣,不同的事件會(huì)有不同的情感表達(dá)特征,后續(xù)研究需要進(jìn)一步考慮特定事件情感表達(dá)特征的識(shí)別。

猜你喜歡
極性語(yǔ)料詞典
米沃什詞典
文苑(2019年24期)2020-01-06 12:06:50
跟蹤導(dǎo)練(四)
評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
詞典例證翻譯標(biāo)準(zhǔn)探索
基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
表用無(wú)極性RS485應(yīng)用技術(shù)探討
華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
一種新型的雙極性脈沖電流源
《苗防備覽》中的湘西語(yǔ)料
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
台南市| 库伦旗| 贺州市| 喜德县| 彭泽县| 和龙市| 威信县| 乌兰浩特市| 葵青区| 尉氏县| 益阳市| 师宗县| 镇原县| 饶阳县| 教育| 德清县| 会同县| 天峨县| 临清市| 盐源县| 仙桃市| 邻水| 洞口县| 杨浦区| 乌兰县| 边坝县| 平邑县| 台州市| 同仁县| 九龙坡区| 宾川县| 唐海县| 固镇县| 博白县| 军事| 镶黄旗| 社旗县| 福建省| 红桥区| 甘肃省| 惠东县|