周莉 楊小儷
摘 要: 在復(fù)雜的網(wǎng)絡(luò)輿論生態(tài)中,突發(fā)事件中的輿情發(fā)展更具多變性和難以預(yù)測(cè)性,通用情感詞典已難以適應(yīng)當(dāng)前突發(fā)事件文本情感分析的需要,建立面向突發(fā)事件應(yīng)急管理的專業(yè)情感詞典,對(duì)于提升網(wǎng)民情感分析的準(zhǔn)確度和及時(shí)把握輿情走向具有重要意義。據(jù)此,采用機(jī)器采集加人工構(gòu)建的方式,以近5年的10起暴雨洪澇災(zāi)害的微博評(píng)論文本為語(yǔ)料,建立“突發(fā)事件·暴雨洪澇”情感詞典。經(jīng)檢驗(yàn)發(fā)現(xiàn),該詞典顯著提高了暴雨洪澇文本情感分析的正確率和召回率,為突發(fā)事件的應(yīng)急管理提供了更為精確和可操作的決策基礎(chǔ)。
關(guān)鍵詞: 突發(fā)事件; 應(yīng)急管理; 情感詞典; 暴雨洪澇; 網(wǎng)絡(luò)輿情
中圖分類號(hào): G206;G254 文獻(xiàn)標(biāo)識(shí)碼: A DOI: 10.3963/j.issn.1671-6477.2019.04.002
一、 研究背景
互聯(lián)網(wǎng)的快速發(fā)展和社交媒體的廣泛應(yīng)用給突發(fā)事件的應(yīng)急管理帶來(lái)極大挑戰(zhàn)。新媒體環(huán)境下,信息的傳播呈現(xiàn)出“病毒式”擴(kuò)散的特點(diǎn),突發(fā)事件在網(wǎng)上被曝光后,影響力迅速呈現(xiàn)指數(shù)增長(zhǎng)。在此背景下,傳統(tǒng)分散式、簡(jiǎn)單化的突發(fā)事件應(yīng)急管理系統(tǒng)面臨極大挑戰(zhàn)。合理運(yùn)用文本情感分析技術(shù),透過(guò)網(wǎng)上的海量文本數(shù)據(jù)準(zhǔn)確分析網(wǎng)絡(luò)輿情走向,及時(shí)疏導(dǎo)網(wǎng)民情緒成為突發(fā)事件應(yīng)急管理的關(guān)鍵。
文本情感分析的方法多種多樣,其中情感詞典作為分析過(guò)程中的重要工具,其準(zhǔn)確性和覆蓋率會(huì)在很大程度上影響分析效果[1]。目前中文情感詞典多為通用情感詞典,在對(duì)特定專業(yè)領(lǐng)域的文本進(jìn)行情感分析時(shí),準(zhǔn)確率并不高,特別是在面對(duì)某一特定領(lǐng)域內(nèi)的突發(fā)事件時(shí),文本分析效果不佳。因此,針對(duì)不同類型的突發(fā)事件建立專業(yè)領(lǐng)域的情感詞典對(duì)于提升突發(fā)事件的應(yīng)急管理效果具有重要的現(xiàn)實(shí)意義。本文嘗試采用機(jī)器采集加人工構(gòu)建的方式,以突發(fā)事件中的“暴雨洪澇”災(zāi)害為例,探索突發(fā)事件中情感詞典的構(gòu)建路徑。
二、 文獻(xiàn)回顧
(一) 不同路徑的文本情感分析研究
文本情感分析,即對(duì)于情緒文本內(nèi)容的語(yǔ)義分析,是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)程[2]。目前進(jìn)行文本情感分析的路徑多樣。按照文本內(nèi)容,可分為基于商品評(píng)論的文本情感分析和基于輿情的文本情感分析;按照文本粒度,可分為詞語(yǔ)級(jí)、語(yǔ)句級(jí)和篇章級(jí)的文本情感分析;按照分析方法,可分為基于機(jī)器學(xué)習(xí)和基于語(yǔ)義分析的文本情感分析,這也是最常見(jiàn)的分類方法[3]。
基于機(jī)器學(xué)習(xí)的方法是將情感分析問(wèn)題看作是一個(gè)分類問(wèn)題,用標(biāo)注好的訓(xùn)練集來(lái)訓(xùn)練機(jī)器學(xué)習(xí)算法得到分類模型,用于以后的情感分類[4]。這類分析主要通過(guò)兩種方式來(lái)實(shí)現(xiàn),一種是有監(jiān)督的機(jī)器學(xué)習(xí)法,這種方法使用機(jī)器學(xué)習(xí)的模型,用已標(biāo)注的訓(xùn)練數(shù)據(jù)訓(xùn)練出一個(gè)較好的模型,利用這個(gè)模型來(lái)預(yù)測(cè)文本的情感極性。機(jī)器學(xué)習(xí)模型包括支持向量機(jī)(Support Vector Machine,SVM)、樸素貝葉斯(Naive Bayes,NB)、最大熵(Maximum Entropy,ME)等[5]。另一種是無(wú)監(jiān)督的方法,這種方法被稱為文本聚類(Clustering),即按照某種準(zhǔn)則對(duì)文本集合進(jìn)行組織或劃分,使得相似的文本劃分到同一簇中,差異較大的文本劃分到不同簇中。[6]
基于語(yǔ)義的方法主要利用情感詞典及句式詞庫(kù)分析文本語(yǔ)句的特殊結(jié)構(gòu)及情感傾向詞,采用權(quán)值算法進(jìn)行情感分類[7]。比如楊超在HowNet和NTUSD兩種詞典的基礎(chǔ)上進(jìn)行拓展,建立了一個(gè)新的、具有傾向程度的詞典,開(kāi)發(fā)了一個(gè)半自動(dòng)化輿情分析系統(tǒng),提供細(xì)致、準(zhǔn)確的評(píng)論傾向性分析[8]。相比基于機(jī)器學(xué)習(xí)的方法,基于語(yǔ)義的方法更符合突發(fā)事件文本情感分析中快速、準(zhǔn)確的要求。首先,基于語(yǔ)義的方法不需要對(duì)大量語(yǔ)料進(jìn)行標(biāo)注,只要有合適完備的情感詞典,采用簡(jiǎn)單快速的方法就能得到較好的文本情感分析效果[9],這能在很大程度上節(jié)約時(shí)間,提高突發(fā)事件應(yīng)急管理的反應(yīng)效率;其次,基于語(yǔ)義的文本情感分析更穩(wěn)定,隨著測(cè)試語(yǔ)料的增加,基于情感詞典的分類性能保持穩(wěn)定,并優(yōu)于機(jī)器學(xué)習(xí)法[10]。
在基于語(yǔ)義的方法中,豐富且準(zhǔn)確的情感詞典是提高分析準(zhǔn)確性的關(guān)鍵[1]。目前國(guó)內(nèi)能運(yùn)用的中文詞典資源非常有限,主要有知網(wǎng)(HowNet)、LIWC(Linguistic Inquiry and Word Count)和中文情感詞匯本體庫(kù)(DUTIR)。這些情感詞典都是通用詞典,在分析專業(yè)性文本的時(shí)候容易出現(xiàn)偏差,特別是遇到跨領(lǐng)域歧義詞匯和專業(yè)情感詞匯時(shí)分析效果不佳。因此,構(gòu)建起一套突發(fā)事件專業(yè)詞典對(duì)于提高突發(fā)事件中網(wǎng)絡(luò)情感文本分析的效果,從而更有針對(duì)性地開(kāi)展應(yīng)急管理具有重要意義。
(二) 情感詞典的構(gòu)建方法
情感詞典,顧名思義就是由帶有褒義或者貶義色彩的情感詞匯組成的一個(gè)詞典[11],主要應(yīng)用于基于語(yǔ)義的文本情感分析研究中。構(gòu)建情感詞典主要有兩類方法,自動(dòng)構(gòu)建和人工構(gòu)建。
情感詞典的自動(dòng)構(gòu)建方法主要有三種:一是基于知識(shí)庫(kù),通過(guò)完備的開(kāi)放的語(yǔ)義知識(shí)庫(kù)(如英文的wordnet),挖掘其中各個(gè)詞語(yǔ)之間的關(guān)系,用詞關(guān)系拓展、迭代路徑和釋義拓展等方法構(gòu)建情感詞典。二是基于語(yǔ)料庫(kù),通過(guò)對(duì)某特定領(lǐng)域的大量語(yǔ)料進(jìn)行分析,比如通過(guò)語(yǔ)料中各連詞的特性判斷前后兩個(gè)形容詞之間相似程度,來(lái)構(gòu)建情感詞典。三是基于知識(shí)庫(kù)與語(yǔ)料庫(kù)結(jié)合的方法,組合的方法多種多樣,比如根據(jù)詞與詞之間的相似關(guān)系構(gòu)建詞間關(guān)系圖,然后利用已知詞性的情感詞,推測(cè)其他情感詞的極性?;蛘呦壤蒙倭繕?biāo)注詞確定文本片段的極性,再結(jié)合抽取結(jié)果,繼續(xù)判斷未知文本片段的情感[1]。
人工構(gòu)建的方法主要有兩種形式,一種是直接根據(jù)語(yǔ)料文本來(lái)人工構(gòu)建新詞典。比如唐超在研究網(wǎng)絡(luò)情緒的演進(jìn)時(shí),首先利用爬蟲(chóng)軟件抓取網(wǎng)上的評(píng)論文本,在完成文本清洗后,邀請(qǐng)專家對(duì)文本中的情緒關(guān)鍵詞進(jìn)行提取和標(biāo)注,然后采用主成分分析法提取出主要網(wǎng)絡(luò)情緒關(guān)鍵詞,最后由專家對(duì)這些網(wǎng)絡(luò)情緒關(guān)鍵詞進(jìn)行賦值,構(gòu)建網(wǎng)絡(luò)情緒詞典[12]。另一種是結(jié)合語(yǔ)料文本,在現(xiàn)有情感詞典的基礎(chǔ)上人工進(jìn)行拓展,構(gòu)建新詞典。比如中文版的LIWC詞典是由黃金蘭等人以英文版的LIWC2007詞典為藍(lán)本,進(jìn)行翻譯和同義詞添加后,由研究小組集體討論,人工拓展修改而成[13]。
由于前期尚未有專門用于突發(fā)事件網(wǎng)絡(luò)輿情文本分析的的情感詞典,本研究通過(guò)修改拓展原有詞典來(lái)構(gòu)建新詞典的方法難以實(shí)現(xiàn),考慮到操作的可行性,我們選擇直接用語(yǔ)料來(lái)構(gòu)建突發(fā)事件情感詞典。在具體的構(gòu)建方法上,我們主要借鑒了唐超等采用的人工提取和標(biāo)注的方法進(jìn)行突發(fā)事件情感詞典的構(gòu)建。
(三) 情緒分類理論與詞典要素設(shè)置
關(guān)于情緒的結(jié)構(gòu),主要有情緒分類和情緒維度兩大理論解釋取向[14]。情緒維度取向的研究認(rèn)為,情緒是高度相關(guān)的連續(xù)體,各種情緒在幾個(gè)基本維度上高度相關(guān)[15],比如Russel的“效價(jià)-喚醒”模型。情緒分類理論認(rèn)為人的情緒是由幾種相對(duì)獨(dú)立的基本情緒以及在此基礎(chǔ)上形成的幾種復(fù)合情緒構(gòu)成,比如Ekman的基本情緒分類說(shuō),他認(rèn)為存在快樂(lè)(joy)、悲傷(disstress)、憤怒(anger)、恐懼(fear)、厭惡(disgust)和驚訝(surprise)6種基本情緒[16]。
以情緒理論為基礎(chǔ),結(jié)合情感詞典在實(shí)際應(yīng)用環(huán)境中的需要,不同的情感詞典會(huì)設(shè)置不同的要素。上文提到的HowNet詞庫(kù)和DUTIR詞典均以情緒分類理論為基礎(chǔ),HowNet詞庫(kù)將所有詞匯分為情感類、評(píng)價(jià)類、程度類和主張類,其中情感類和評(píng)價(jià)類下細(xì)分出正面和負(fù)面兩類詞匯;DUTIR則將所有詞匯分為樂(lè)、好、怒、哀、懼、惡、驚7大類,其下有安心、尊重失望等21個(gè)小類,每一個(gè)情緒詞的詞性、極性和強(qiáng)度都作出了相應(yīng)的標(biāo)注。中文版LIWC詞典則是以情緒維度理論為基礎(chǔ),根據(jù)情緒類別和喚醒程度,將所有詞匯分為正向高喚醒、正向低喚醒、負(fù)向高喚醒和負(fù)向低喚醒四類,喚醒程度較高的詞匯將會(huì)被收納進(jìn)來(lái),最終將入選的詞匯分為正向和負(fù)向兩類。
由于不同突發(fā)事件類別的情緒構(gòu)成各不相同,采用單一的情感分類理論不利于實(shí)現(xiàn)對(duì)事件輿情的精準(zhǔn)分析。因此本研究參考Russel的“效價(jià)—喚醒”模型,結(jié)合“暴雨洪澇”災(zāi)害中網(wǎng)民情緒的實(shí)際情況,在情感詞典中設(shè)置了6種情緒基本類型,分別是憤怒、擔(dān)憂、悲傷、驚恐、樂(lè)觀、關(guān)心、感激,各情緒類別的效價(jià)與喚醒度具體如圖1。
由于目前應(yīng)用情感詞典的文本情感分析軟件還未能實(shí)現(xiàn)細(xì)致的文本情緒分類,為了方便后續(xù)的分析,本次研究將所有情緒詞按照所屬情感類別的效價(jià)分成正向情緒詞和負(fù)向情緒詞兩類,其中正向情緒包括樂(lè)觀、關(guān)心和感激,負(fù)向情緒包括憤怒、擔(dān)憂、悲傷和驚恐。
三、 構(gòu)建方法
(一) 事件選擇
突發(fā)事件共有自然災(zāi)害、事故災(zāi)難、公共衛(wèi)生事件和社會(huì)安全事件四大類,由于自然災(zāi)害相較于其他種類的突發(fā)事件而言性質(zhì)更單純,更適合作為語(yǔ)義分析的突破口。而“暴雨洪澇”又是自然災(zāi)害中發(fā)生頻率最高的災(zāi)種,所以本文選擇以“暴雨洪澇”為主題,作為突發(fā)事件情感詞典的示范應(yīng)用。本文參考《中國(guó)氣象年鑒》中“暴雨洪澇”章節(jié)的內(nèi)容,選取了近5年10處最為嚴(yán)重的暴雨洪澇災(zāi)害作為研究案例,它們分別是2012年的重慶和北京、2013年的浙江和四川、2014年的鳳凰和深圳,2015的上海和武漢,2016年的武漢和安徽。
(二) 樣本選取
為了保證樣本豐富且具有代表性,本次研究選擇當(dāng)前使用頻率最高的微博平臺(tái)——新浪微博作為文本抓取的平臺(tái)。由于每次暴雨洪澇災(zāi)害的發(fā)生時(shí)間和輿情關(guān)注點(diǎn)不同,根據(jù)其各自的特點(diǎn)我們?cè)O(shè)置了不同的關(guān)鍵詞和時(shí)間段進(jìn)行微博搜索(如表1)。
隨后,我們將各個(gè)事件所屬時(shí)間段內(nèi)的微博按照評(píng)論數(shù)量由多到少的順序進(jìn)行排序,選擇每個(gè)事件中評(píng)論量最多的前兩條微博,用爬蟲(chóng)軟件對(duì)微博下的評(píng)論者ID、評(píng)論內(nèi)容以及評(píng)論時(shí)間進(jìn)行抓取,得到共計(jì)73 622條評(píng)論(如表1)。
(三) 分析程序
1.數(shù)據(jù)清洗。數(shù)據(jù)清洗主要是剔除原始文本中的無(wú)效內(nèi)容,以便開(kāi)展后續(xù)的文本處理工作。本次數(shù)據(jù)清洗刪除了以下兩種內(nèi)容的評(píng)論文本:第一種是無(wú)意義評(píng)論文本,包括廣告、空白、表情符號(hào)以及“轉(zhuǎn)發(fā)微博”,第二種是與微博內(nèi)容無(wú)關(guān)的評(píng)論內(nèi)容,主要指含有“回復(fù)@XXX:”的內(nèi)容以及“@XXX:”的評(píng)論,因?yàn)榇祟愇谋敬蠖嗍桥笥验g在評(píng)論區(qū)的聊天或者是對(duì)罵,不是對(duì)微博正文內(nèi)容的看法或者討論,如果一起加入分析容易影響分析效果。清洗后的具體評(píng)論數(shù)目如表1。
2.分詞與詞頻統(tǒng)計(jì)。數(shù)據(jù)清洗完畢后,我們將文本數(shù)據(jù)集中進(jìn)行分詞。文本數(shù)據(jù)被分為兩部分,編號(hào)1~9的文本進(jìn)行分詞,用于構(gòu)建情感詞典,編號(hào)10的文本用于測(cè)試情感詞典的效度。本次分詞選用的是由中國(guó)科學(xué)院計(jì)算技術(shù)研究所研發(fā)的NLPIR分詞系統(tǒng),該系統(tǒng)是當(dāng)前認(rèn)可度較高的漢語(yǔ)詞法分析器。為了提高分詞的精準(zhǔn)度,在機(jī)器分詞的基礎(chǔ)上,本次研究加入了人工檢查分詞結(jié)果的環(huán)節(jié),對(duì)機(jī)器分詞后的數(shù)據(jù)進(jìn)行修正。
分詞完畢后,得到一個(gè)有23 420個(gè)詞匯的詞表,我們根據(jù)詞表中各個(gè)詞匯的詞頻進(jìn)一步的篩選。第一步是刪除與表達(dá)情感無(wú)關(guān)聯(lián)的詞匯,如“你”、“我”、“他”、“的”等。第二步是設(shè)置閾值,考慮到情感詞典的容量以及情感詞匯所需具備的代表性,我們將本次研究的閾值設(shè)定為9,即出現(xiàn)次數(shù)在9次及以上的詞匯將被選入第二輪的情感詞篩選與分類。經(jīng)統(tǒng)計(jì),閾值內(nèi)的詞匯共有629個(gè)。
3.情感詞篩選與分類。本次研究邀請(qǐng)了17位在校大學(xué)生作為編碼員,對(duì)閾值內(nèi)的629個(gè)詞匯進(jìn)行篩選與賦值。
首先是情感詞篩選。請(qǐng)編碼員采用三級(jí)評(píng)定的方式對(duì)629個(gè)詞匯進(jìn)行判定,能夠喚起情緒信息或者是情感體驗(yàn)的詞即為情緒詞,判定為“是”,不能喚起則判定為“否”,情感喚起傾向不明確的則判定為“不確定”。在他們篩選完成后,由研究者將所有編碼員的篩選結(jié)果進(jìn)行整合,將半數(shù)以上編碼員,即9位及9位以上的實(shí)驗(yàn)者均判定為“是”的詞匯挑選出來(lái),建立初步的情感詞庫(kù)。
其次是劃分情感類別。本次情感詞典中共設(shè)置了6種情緒基本類型,分別是憤怒、擔(dān)憂、悲傷、驚恐、樂(lè)觀、關(guān)心、感激,請(qǐng)編碼員按照這六種情緒類別對(duì)情感詞庫(kù)內(nèi)的詞匯進(jìn)行分類,無(wú)法被分類的情感詞則標(biāo)注無(wú)。然后由研究者進(jìn)行綜合統(tǒng)計(jì),每個(gè)情感詞得分最多的那個(gè)情感類別就是這個(gè)情感詞所屬的類別,如果某一詞匯有三分之一的編碼員,即6人及6人以上標(biāo)注無(wú),則將這個(gè)詞匯剔除出情感詞典。
(四) 情感詞典示例
“突發(fā)事件·暴雨洪澇”情感詞典包含7個(gè)情感類別共計(jì)611個(gè)詞匯,其中憤怒詞218個(gè),擔(dān)憂詞74個(gè),悲傷詞60個(gè),驚恐詞23個(gè),樂(lè)觀詞144個(gè),關(guān)心詞56,感激詞36個(gè),表2為情感詞典的部分示例。
四、 效度檢驗(yàn)
為了測(cè)試“突發(fā)事件·暴雨洪澇”情感詞典的應(yīng)用效果,我們采用對(duì)比的方式,將本詞典加載至LIWC上,比較在分析同一批“暴雨洪澇”微博評(píng)論文本的情感傾向時(shí),加載本詞典前與加載本詞典后,文本情感判斷的準(zhǔn)確率是否發(fā)生了變化。目前LIWC等情感分類軟件只能做到將文本分為正向情感文本和負(fù)向情感文本,為了方便進(jìn)行準(zhǔn)確率的對(duì)比,我們按照大類,即正向和負(fù)向,將“突發(fā)事件·暴雨洪澇”情感詞典加載至LIWC中進(jìn)行分析。
(一) 標(biāo)注語(yǔ)料
為了保證測(cè)試結(jié)果的準(zhǔn)確有效,我們使用并未參與情感詞典構(gòu)建的“安徽暴雨”案例語(yǔ)料進(jìn)行測(cè)試。此案例共搜集微博評(píng)論5297條,經(jīng)過(guò)數(shù)據(jù)清洗,留下3266條微博評(píng)論文本。研究員對(duì)所有微博的傾向性按照“正向、中性、負(fù)向”進(jìn)行標(biāo)注,得到正面評(píng)論1835條,負(fù)面評(píng)論1172條,中立評(píng)論259條。為確保標(biāo)注結(jié)果可靠,另一位研究員對(duì)隨機(jī)抽取的10%的文本進(jìn)行標(biāo)注,對(duì)比兩者的結(jié)果,進(jìn)行信度檢驗(yàn)。通過(guò)SPSS的可信度分析,Cronbachs alpha系數(shù)為0.836,達(dá)到科學(xué)研究的信度。
(二) 測(cè)試流程及結(jié)果
我們首先使用LIWC自帶詞典對(duì)測(cè)試案例文本進(jìn)行情感分析,分析結(jié)果如表3。由表4可知,使用LIWC自帶詞典時(shí),LIWC檢測(cè)出54條正面評(píng)論文本,其中34條人工標(biāo)注為正面,20條人工標(biāo)注為負(fù)面,正確率為63.6%,召回率為1.9%;檢測(cè)出58條評(píng)論文本為負(fù)面,其中47條人工標(biāo)注為負(fù)面,9條人工標(biāo)注為正面,2條人工標(biāo)注為中立,正確率為81%,召回率為4%。
由此可見(jiàn)分析效果并不理想,首先體現(xiàn)在LIWC檢測(cè)出來(lái)的含有情感傾向的文本數(shù)量極少,正面評(píng)論文本和負(fù)面評(píng)論文本的測(cè)出比率都低于5%;其次是正確率不理想,在檢測(cè)為正面情緒的評(píng)論文本中,只有63.5%被人工標(biāo)注為正面情緒文本。同時(shí),從整體上看,LIWC分析出來(lái)的網(wǎng)民情緒傾向與人工標(biāo)注的網(wǎng)民情緒傾向相反,人工標(biāo)注文本中正面評(píng)論數(shù)與負(fù)面評(píng)論數(shù)的比例約為1.6:1,即正面情緒多于負(fù)面情緒,而在LIWC自帶詞典的測(cè)試結(jié)果中,正面評(píng)論數(shù)與負(fù)面評(píng)論數(shù)的比例約為0.93:1,即負(fù)面情緒多于正面情緒。
隨后我們?cè)贚IWC自帶詞典上加載本詞典對(duì)測(cè)試案例文本進(jìn)行情感分析,具體結(jié)果如表4。由表4可知,加載本詞典后,LIWC檢測(cè)出正面文本489條,其中464條人工標(biāo)注為正面,23條人工標(biāo)注為負(fù)面,2條人工標(biāo)注為中立,正確率為94.9%,召回率為25.3%;檢測(cè)出116條負(fù)面評(píng)論,其中93條人工標(biāo)注為負(fù)面,18條人工標(biāo)注為正面,5條人工標(biāo)注為中立,正確率為80.2%,召回率為7.9%。
由此可知,加載本詞典之后,文本情感的分析效果有了較大的提升。首先準(zhǔn)確率有了極大的提高,特別是正面情緒文本的檢測(cè)正確率從63.6%提升到了94.9%,其次是召回率有了較大的提高,正面情緒文本的測(cè)出比率從1.9%提高到了25.3%。同時(shí),從整體上來(lái)看,檢測(cè)出來(lái)的正面情緒文本與負(fù)面情緒文本的比例為4.15:1,與人工標(biāo)注的網(wǎng)民情緒傾向,即正面情緒多于負(fù)面情緒的結(jié)果一致。
在不區(qū)分情感類別的情況下,加載詞典前后的文本整體情感分析效果如表5。召回率、正確率和F值是判斷情緒詞典分類效果的三個(gè)重要指標(biāo),從表格中我們可以看出,在加載“突發(fā)事件·暴雨洪澇”情感詞典后,這三個(gè)指標(biāo)的數(shù)值都有了顯著的提升,特別是正確率從72.6%提升至93%,可見(jiàn)“突發(fā)事件·暴雨洪澇”情感詞典的建立對(duì)于提升突發(fā)事件應(yīng)急管理中的輿情分析效果有較大的提升作用。
綜合以上實(shí)驗(yàn)分析結(jié)果,我們可以確定“突發(fā)事件·暴雨洪澇”情感詞典在分析暴雨洪澇一類突發(fā)事件的網(wǎng)絡(luò)評(píng)論文本時(shí),在文本情感分析方面的效果有顯著提升,其建立具有較大的應(yīng)用價(jià)值和借鑒意義,對(duì)于未來(lái)文本情感分析的發(fā)展路徑主要有以下啟示:
其一,構(gòu)建專業(yè)領(lǐng)域情感詞典對(duì)于突發(fā)事件應(yīng)急管理是非常必要的。從LIWC的文本分析結(jié)果中我們可以看出,現(xiàn)有的通用情感詞典無(wú)法有效實(shí)現(xiàn)專業(yè)領(lǐng)域中突發(fā)事件的文本情感分析,特別在面對(duì)微博這種網(wǎng)絡(luò)短文本時(shí)分析效果有待提升。而有針對(duì)性地建立起面向各個(gè)領(lǐng)域的專屬情感詞典,能夠在很大程度上提升文本情感分析的準(zhǔn)確性。此外,情感詞典的分析特性讓研究者不需要在文本分析之前進(jìn)行大量的文本標(biāo)注工作,節(jié)約了大量的時(shí)間。這些都對(duì)提升應(yīng)急管理主體對(duì)輿情的掌控能力,實(shí)現(xiàn)對(duì)突發(fā)事件中網(wǎng)民情緒波動(dòng)的及時(shí)捕捉,進(jìn)而提升突發(fā)事件應(yīng)急管理的效率具有重大意義。
其二,通過(guò)人工的方式來(lái)構(gòu)建領(lǐng)域性情感詞典是可行。在計(jì)算機(jī)技術(shù)迅猛發(fā)展的背景下,通過(guò)機(jī)器學(xué)習(xí)的方式進(jìn)行文本情感詞典構(gòu)建成為主流,這種方式看似客觀準(zhǔn)確,實(shí)際上仍然存在一定的局限性。通過(guò)此次的實(shí)驗(yàn)結(jié)果我們了解到,要實(shí)現(xiàn)對(duì)情緒文本的準(zhǔn)確判斷,人工提取和判斷是十分重要的介入手段,人工構(gòu)建情感詞典的方式雖然相較于機(jī)器自動(dòng)構(gòu)建費(fèi)時(shí)費(fèi)力,但是依然是重要且可行的。從最終的研究結(jié)果中我們可以看出,以這種方式構(gòu)建起來(lái)的詞典的分析效果具有更強(qiáng)的穩(wěn)定性和準(zhǔn)確性。
其三,在情感詞典的構(gòu)建過(guò)程中,應(yīng)謹(jǐn)慎對(duì)待人工分析與機(jī)器處理的關(guān)系。人工的優(yōu)勢(shì)在于準(zhǔn)確,機(jī)器的優(yōu)勢(shì)在于快速,兩相結(jié)合才能達(dá)到最佳效果。本研究在機(jī)器分詞時(shí)加入了人工檢查環(huán)節(jié),在人工篩選情感詞以及判斷情感詞所屬情感類別時(shí),邀請(qǐng)了17位實(shí)驗(yàn)者參與實(shí)驗(yàn),采用全人工投票的方式,挑選出最多實(shí)驗(yàn)者認(rèn)可的情感詞,并將最多人認(rèn)可的情感類別標(biāo)注為該情感詞的情感類別,以期在保證人工分析準(zhǔn)確性的同時(shí)避免主觀性帶來(lái)的影響。
此外,雖然實(shí)驗(yàn)結(jié)果中的召回率整體偏低,但這并不影響我們肯定突發(fā)事件情感詞典在提升文本情感分析效果方面的作用。LIWC是通過(guò)統(tǒng)計(jì)內(nèi)置情感詞典中的情感詞在測(cè)試文本中所占的比重來(lái)判斷文本的情感傾向,而在寥寥幾句的微博評(píng)論短文本中,出現(xiàn)相應(yīng)情感詞的幾率相較長(zhǎng)文本低很多,故召回率整體偏低。但是因?yàn)樵囼?yàn)中統(tǒng)一采用的都是LIWC軟件,且在加入突發(fā)事件情感詞典后,正確率和召回率都有了較大程度的提高,這足以說(shuō)明建立突發(fā)事件情感詞典能有效提升突發(fā)事件的文本情感分析準(zhǔn)確性。
在網(wǎng)絡(luò)輿情多變,突發(fā)事件應(yīng)急管理面臨巨大挑戰(zhàn)的今天,建立突發(fā)事件網(wǎng)絡(luò)情緒詞典具有重要的研究及應(yīng)用意義。據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的第39次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2016年12月,中國(guó)互聯(lián)網(wǎng)普及率達(dá)到53.2%,網(wǎng)民規(guī)模達(dá)7.31億,與此同時(shí),人民網(wǎng)輿情監(jiān)測(cè)室對(duì)社會(huì)熱點(diǎn)事件的統(tǒng)計(jì)表明,44.4%的事件由互聯(lián)網(wǎng)披露而引發(fā)公眾關(guān)注。可見(jiàn),移動(dòng)互聯(lián)網(wǎng)快速發(fā)展和社交媒體廣泛應(yīng)用已經(jīng)徹底顛覆了傳統(tǒng)媒體環(huán)境下的民眾輿論生態(tài),社交媒體平臺(tái)成為了民眾表達(dá)觀點(diǎn)的重要場(chǎng)域。在這樣的媒介環(huán)境下,突發(fā)事件的影響力被放大,發(fā)展進(jìn)程也更加多變和不可知,此時(shí)我們更加需要建立精細(xì)程度高、反應(yīng)速度快的應(yīng)急管理體系來(lái)控制和減弱突發(fā)事件帶來(lái)的負(fù)面影響。突發(fā)事件情緒詞典的構(gòu)建有助于提升輿情分析的準(zhǔn)確度,針對(duì)不同的突發(fā)事件類型構(gòu)建領(lǐng)域情感詞典,將為突發(fā)事件中網(wǎng)絡(luò)表達(dá)的情感分析提供優(yōu)質(zhì)的分析工具,也為突發(fā)事件的應(yīng)急管理提供更為精確和可操作的決策基礎(chǔ)。
[參考文獻(xiàn)]
[1] ?王科,夏睿.情感詞典自動(dòng)構(gòu)建方法綜述[J].自動(dòng)化學(xué)報(bào),2016,42(4):495-511.
[2] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848.
[3] BingLiu.Sentiment Analysis and Opinion Mining[M].Williston:Morgan&Claypool Publishers,2012:4.
[4] 劉志明,劉魯.基于機(jī)器學(xué)習(xí)的中文微博情感分類實(shí)證研究[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(1):1-4.
[5] 李婷婷,姬東鴻.基于SVM和CRF多特征組合的微博情感分析[J].計(jì)算機(jī)應(yīng)用研究,2015,32(4):978-981.
[6] 劉強(qiáng).文本的特征提取及KNN分類優(yōu)化問(wèn)題研究[D].廣州:華南理工大學(xué),2009:1.
[7] 馬龍,宮玉龍.文本情感分析研究綜述[J].電子科技,2014,27(11):180-184.
[8] 楊超,馮時(shí),王大玲,等.基于情感詞典拓展技術(shù)的網(wǎng)絡(luò)輿情傾向性分析[J].小型微型計(jì)算機(jī)系統(tǒng),2010,31(4):691-695.
[9] Xu Ge,Meng Xinfan,Wang Houfeng.Build Chinese emotion lexicons using a graph-based algorithm and multiple resources[C]//Proceedings of the 23rd International Conference on Computational Linguistics(COLING 10).Strouds-burg,PA,USA:Association for Computational Linguistics,2010:1209-1217.
[10]陽(yáng)愛(ài)民,林江豪,周詠梅.中文文本情感詞典構(gòu)建方法[J].計(jì)算機(jī)科學(xué)與探索,2013,7(11):1033-1039.
[11]肖紅,許少華.基于句法分析和情感詞典的網(wǎng)絡(luò)輿情傾向性分析研究[J],小型微型計(jì)算機(jī)系統(tǒng),2014,35(4):811-813.
[12]唐超.網(wǎng)絡(luò)情緒演進(jìn)的實(shí)證研究[J].情報(bào)雜志,2012,31(10):48-52.
[13]黃金蘭,林以正,謝亦泰等.中文版“語(yǔ)文探索與字詞計(jì)算”詞典之建立[J].中華心理學(xué)刊,2012,54(2):185-201.
[14]樂(lè)國(guó)安,董穎紅.情緒的基本結(jié)構(gòu):爭(zhēng)論、應(yīng)用及其前瞻[J].南開(kāi)學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版,2013(1):140-150.
[15]Waston D,Clark LA.“Measurement and Mismeasurement of Mood:Recurrent and Emergent Issues”.Journal of Personality Assessment,1997,68(2):267.
[16]Ekman P,F(xiàn)riesen WV.“Constants across Cultures in the Face and Emotion”,Journal of Personality and Social Psychology.1971,17(2):124.
(責(zé)任編輯 王婷婷)
Abstract:In the complex network public-opinion ecology,the development of public opinion in emergencies is more and more changeable and unpredictable.The general sentiment lexicon has a great difficulty to adapt to the current emotional analysis in unexpected events.It is of great significance to establish an emergency sentiment lexicon,because it can improve the accuracy of sentiment analysis and forecast the public opinion timely.In this paper,we use the method of machine acquisition and artificial construction to establish the “emergency:rainstorm and flood” sentiment lexicon,with 10 rainstorm and flood disasters microblogging commentary in recent 5 years.It has been found that the emergency sentiment lexicon has significantly improved the correct rate and recall rate of the emotional analysis of the rainstorm and flooding disasters microblogging commentary,and provided a more accurate and operational basis for the emergency management.
Key words:emergency; emergency management; sentiment lexicon; rainstorm and flooding disasters; internet public opinion