張鵬 崔彥琛 蘭月新 吳立志
摘要:[目的/意義]網(wǎng)民情感變化是影響政府輿情應(yīng)對進(jìn)程、政策、策略的關(guān)鍵。因此,構(gòu)建科學(xué)高效的情感詞典,對網(wǎng)民情感分析研究及應(yīng)對策略的選擇具有重要的實(shí)際意義。[方法/過程]結(jié)合扎根理論的質(zhì)性研究特點(diǎn),在情感詞典的構(gòu)造中融入突發(fā)事件演化規(guī)律影響因素,采用點(diǎn)互信息算法,TF-IDF,統(tǒng)計(jì)量等方法對微博表情符號詞典及突發(fā)事件專屬情感詞典進(jìn)行構(gòu)建,編制了突發(fā)事件情感詞典,隨后選取“6.22”杭州保姆縱火案微博語料進(jìn)行情感分析。[結(jié)論/結(jié)果]實(shí)驗(yàn)發(fā)現(xiàn),與不加入影響因素的情感詞典相比,本文構(gòu)造的詞典在準(zhǔn)確率召回率等指標(biāo)的對比中均得到了一定程度的提高。同時(shí),結(jié)合扎根理論與主題分析的結(jié)果,對輿情發(fā)展的不同階段所選擇的輿情應(yīng)對策略提供了參考。
關(guān)鍵詞:扎根理論;情感詞典;情感分析;微博;突發(fā)事件
DOI:10.3969/j.issn.1008-0821.2019.03.014
〔中圖分類號〕G206〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號〕1008-0821(2019)03-0122-10
隨著“Web2.0”時(shí)代的到來及互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,人們使用網(wǎng)絡(luò)的頻率快速增加。根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)第42次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》的數(shù)據(jù)顯示,截至2018年6月30日,我國網(wǎng)民規(guī)模為8.02億,其中,微博的網(wǎng)民使用率增長至42.1%,用戶規(guī)模半年內(nèi)增長6.8%[1]。微博已成為網(wǎng)民“分享個(gè)人生活,傳遞新聞熱點(diǎn),發(fā)表言論見解”的重要陣地與平臺(tái)。而面對這樣井噴式的信息體量與大規(guī)模的網(wǎng)民數(shù)量時(shí),政府及相應(yīng)的網(wǎng)絡(luò)安全監(jiān)管部門的輿情分析及監(jiān)控預(yù)警方面仍顯不足,如何深度了解輿情演化進(jìn)程及影響因素,即時(shí)高效分析網(wǎng)絡(luò)評論及整體情感走勢,是當(dāng)前亟待解決與研究的問題[2]。
1扎根理論和突發(fā)事件情感分析
1.1基于扎根理論的突發(fā)事件網(wǎng)絡(luò)輿情研究
作為質(zhì)性研究問題的一種典型方法,扎根理論由Barney Glaser等于1967年首先提出。不同于傳統(tǒng)的量化模式,扎根理論杜絕先驗(yàn)假設(shè),提倡從訪談、搜集、調(diào)查問卷等豐富的數(shù)據(jù)載體中進(jìn)行資料的匯總與歸納,經(jīng)過三級編碼及飽和度檢驗(yàn)后進(jìn)而形成科學(xué)的理論[3]。這種方法將定性分析與量化研究相結(jié)合,對問題的分析與解決予以深度、全面、科學(xué)的建構(gòu),其核心環(huán)節(jié)分為開放式譯碼、主軸譯碼和選擇性譯碼3個(gè)步驟。目前,扎根理論主要應(yīng)用在以下3種情況:①新產(chǎn)生的理論體系或概念構(gòu)成不夠完善,缺乏理論的科學(xué)性;②既有問題的研究存在影響因素錯(cuò)綜復(fù)雜,指標(biāo)劃分缺乏合理性等問題;③需要對研究較為成熟的理論及問題進(jìn)行更高層次的豐富,如動(dòng)態(tài)演變、交互關(guān)系等過程類問題,以期對所研究的問題賦予與時(shí)代相適應(yīng)的新內(nèi)涵。
目前,扎根理論已經(jīng)在生物學(xué)、組織行為、公共管理等多個(gè)領(lǐng)域得到廣泛的應(yīng)用。在網(wǎng)絡(luò)輿情研究方面,對于扎根理論的應(yīng)用主要分為兩個(gè)方面:一是從輿情構(gòu)成要素、輿情傳播規(guī)律等視角出發(fā),對突發(fā)事件網(wǎng)絡(luò)輿情的影響因素、演化過程及微博用戶集群、交互的因素識(shí)別等問題的研究[4-6];二是從輿情整體研究現(xiàn)狀出發(fā),以學(xué)科架構(gòu)、未來熱點(diǎn)探索的視角對現(xiàn)有網(wǎng)絡(luò)輿情研究進(jìn)行扎根分析,對未來的網(wǎng)絡(luò)輿情研究發(fā)展提出了如多因素研究、學(xué)科交叉、考慮互聯(lián)網(wǎng)整體發(fā)展過程的影響等建議[7-8]。綜上,扎根理論已在網(wǎng)絡(luò)輿情中得到一定程度應(yīng)用,但該方法在情感分析及應(yīng)用決策方面還需進(jìn)一步研究。因此,結(jié)合不同輿情階段的主題挖掘,可極大增強(qiáng)情感詞典的常用詞覆蓋率,提高情感分析的準(zhǔn)確性與科學(xué)性。
與傳統(tǒng)類型的網(wǎng)絡(luò)輿情相似,突發(fā)事件網(wǎng)絡(luò)輿情具有“隨機(jī)發(fā)生,多方交互,載體多元”的特點(diǎn),此外,由于其領(lǐng)域的特殊性,在突發(fā)事件網(wǎng)絡(luò)輿情的演化進(jìn)程中呈現(xiàn)出了特定的傳播規(guī)律及演化進(jìn)程。目前,國內(nèi)外針對輿情的演化階段及特點(diǎn)做了大量研究,如B T Burkholder等針對復(fù)雜災(zāi)害下網(wǎng)絡(luò)輿情的演化提出了經(jīng)典的3階段模型;Coombs將突發(fā)危機(jī)分解成四個(gè)階段:潛在期、突發(fā)期、蔓延期、解決期;安陸等結(jié)合情感特征的選取,將輿情演化進(jìn)程分為:起始階段,爆發(fā)階段,衰退階段與平息階段4個(gè)部分,崔鵬等依托生命周期階段理論,構(gòu)建了突發(fā)公共事件網(wǎng)絡(luò)輿情發(fā)展生命周期“六階段”模型[9-12]。
1.2突發(fā)事件網(wǎng)絡(luò)輿情情感分析
情感分析,也稱為觀點(diǎn)挖掘、意見挖掘。是指從文本中分析出人們對于實(shí)體及其屬性的觀點(diǎn)、情感、評價(jià)、態(tài)度和情緒。在文本語料的分析中可以把其看做是對某文檔d的觀點(diǎn)五元組(e,a,s,h,t)的信息獲取[13]。其中e表示觀點(diǎn)的目標(biāo)實(shí)體,a為實(shí)體e中的一個(gè)屬性,表示屬性蘊(yùn)含的情感,h表示觀點(diǎn)持有者,t為觀點(diǎn)發(fā)布時(shí)間。情感分析目前的主流研究方法可分為兩種,一種是基于監(jiān)督的情感分類;另一種是基于無監(jiān)督的情感分類,可細(xì)分為使用句法模版和網(wǎng)頁檢索的情感分類及使用情感詞典的情感分類。通過對比兩種方法可以看出:雖然監(jiān)督學(xué)習(xí)可以在多種特征中自動(dòng)學(xué)到有效的分類模型,但其過分依賴標(biāo)記數(shù)據(jù)的缺點(diǎn)也較為明顯,其領(lǐng)域擴(kuò)展性較差。而情感詞典方法無需手動(dòng)標(biāo)記大規(guī)模訓(xùn)練數(shù)據(jù),且可以通過規(guī)則的改正實(shí)現(xiàn)對錯(cuò)誤的快速修正[14-15]。
結(jié)合目前國內(nèi)外學(xué)者有關(guān)情感分析在網(wǎng)絡(luò)輿情領(lǐng)域的研究進(jìn)展,可將研究內(nèi)容大體分為幾個(gè)范疇:一是輿情構(gòu)成要素在情感分析中的影響,包括輿情主體,輿情客體,輿情引起方等,輔以心理學(xué),時(shí)空特性等角度進(jìn)行研究[16-18];二是情感分析在輿情預(yù)警中的應(yīng)用研究,包括情感識(shí)別、情緒分層、風(fēng)險(xiǎn)評估、輿情預(yù)警、策略選擇等內(nèi)容[19-20];三是情感分析工具及手段的優(yōu)化,包括基于SVM、樸素貝葉斯、CRF等機(jī)器學(xué)習(xí)算法的改進(jìn),詞典構(gòu)建以及將這詞典構(gòu)建與機(jī)器學(xué)習(xí)融合使用的算法改進(jìn)與實(shí)驗(yàn)論證[15,21-22]。本文在前人有關(guān)輿情分析的理論基礎(chǔ)上,考慮到扎根理論及主題提取分別在質(zhì)性分析和主題挖掘方面具有一定的優(yōu)勢,但如何將二者結(jié)合,并將其融入到情感分析中,探究微博突發(fā)事件中的輿情監(jiān)督方法及應(yīng)對策略,在這一研究方向上目前還處于探索階段。因此,本文主要從以下幾個(gè)方面作出進(jìn)一步的研究:1)充分結(jié)合扎根理論對特定問題的質(zhì)性研究優(yōu)勢,分析微博突發(fā)事件演化中的影響因素,并將獲取的影響因素與主題提取,時(shí)間維度相結(jié)合,分析三者的關(guān)聯(lián)性,探究輿情演化中的核心影響因素,分析網(wǎng)民情感變化的原因;2)在情感詞典構(gòu)建中,結(jié)合扎根理論的影響因素及改進(jìn)的LDA主題模型,對微博突發(fā)事件情感詞典做出優(yōu)化;3)在情感分析中,將提取到的主題信息進(jìn)行核心范疇的歸納,進(jìn)而選取適合輿情應(yīng)對的策略及措施。
通過上述基本理論,本文結(jié)合扎根理論的質(zhì)性研究特點(diǎn),采用基于情感詞典的情感分析方法對突發(fā)事件網(wǎng)絡(luò)輿情演化階段進(jìn)行情感極性及極性強(qiáng)度的分析,可以實(shí)現(xiàn)理論間的深度融合,科學(xué)高效地得出輿情應(yīng)對策略。
2基于扎根理論的案例分析
2.1事件描述
2017年6月22日5時(shí),浙江省杭州市藍(lán)色錢江小區(qū)發(fā)生縱火案,造成4人死亡,法院對保姆莫煥晶提起公訴。然而,隨著犯罪嫌疑人對于案發(fā)經(jīng)過的“所謂真相”的不斷透露,媒體及民眾開始對案件相關(guān)方——杭州市消防局的滅火救援行動(dòng)提出大量的質(zhì)疑。同時(shí),在各大線上線下媒體的助推下,輿情不斷發(fā)酵,在微博上迅速演變成衍生輿情,對政府及相關(guān)部門的公信力造成了極大影響?;诖?,在微博中搜索含有“保姆縱火案”的主題討論,新聞事件評論及個(gè)人評論文章,共計(jì)約447億次閱讀量,260余萬條評論。鑒于扎根理論對于原始數(shù)據(jù)的選擇標(biāo)準(zhǔn)為數(shù)量充足,質(zhì)量較優(yōu),因此,在260余萬條評論中采用TF-IDF方法選取1萬條熱門評論或篇幅較長的評論作為原始資料,其具體來源分別是:話題討論中的留言3 276條,熱門新聞評論區(qū)留言3 823條,意見領(lǐng)袖熱度較高的評論文章留言2 901條。其中,點(diǎn)贊數(shù)量超過500的評論有2 894條,超過1 000的評論有1 203條,符合扎根理論對原始資料的要求。
2.2事件分析
第一步,進(jìn)行開放式編碼。本文采用輔助分析軟件Nvivo 10.0進(jìn)行編碼,首先確定微博語料的概念和范疇。部分開放編碼過程如表1所示。
第二步,主軸性編碼。采用扎根理論中的典范模型對事件演化因素使用故事線進(jìn)行連貫,以“因果條件—現(xiàn)象—脈絡(luò)—中介條件—行動(dòng)—結(jié)果”六個(gè)方面串聯(lián)起來。同時(shí),在串聯(lián)過程中,對部分疊加范疇進(jìn)行歸類,形成主范疇概念,為最終的選擇性編碼做好理論篩選。主軸性編碼典范模型如圖1所示:
第三步,選擇性編碼。在上一步的基礎(chǔ)上,尋找主范疇中的核心范疇,以其作為輿情應(yīng)對及詞典構(gòu)建的理論基礎(chǔ)。因此選擇出的核心范疇必須具有“統(tǒng)領(lǐng)全文資料,資料內(nèi)容科學(xué)刻畫,與其他主范疇間聯(lián)系自然且緊密”的特點(diǎn)。最終,本文確定了3個(gè)核心范疇:官方發(fā)布,媒體導(dǎo)向,情感情緒。
第四步,理論飽和度檢驗(yàn)。為確保影響因素構(gòu)建的全面可靠,需對編碼后的理論進(jìn)行飽和度檢驗(yàn)。在結(jié)合現(xiàn)有檢驗(yàn)?zāi)J降幕A(chǔ)上,本文采用如下兩種檢驗(yàn)方式:1)Pandit N R提出的經(jīng)典飽和度檢驗(yàn)方法,即采用預(yù)留的500條評論內(nèi)容重新進(jìn)行三級編碼,與首輪編碼結(jié)果相比沒有產(chǎn)生新的概念,可認(rèn)為理論飽和;2)采用歸類一致性指數(shù),即分檔時(shí)分檔者對于相同評論內(nèi)容編碼歸類一致的數(shù)量與整體編碼評論數(shù)量的比值。經(jīng)實(shí)驗(yàn)論證后,本文編碼的信度值C為0.83,信度值較高,證明構(gòu)建的理論通過檢驗(yàn)。
3微博突發(fā)事件情感詞典的構(gòu)建
3.1微博突發(fā)事件情感詞典的構(gòu)成
本文用于情感分析的詞典具有較強(qiáng)的突發(fā)事件領(lǐng)域針對性及適用性,且情感分析的內(nèi)容均為網(wǎng)絡(luò)評論文本。為此,除了使用基礎(chǔ)情感詞典、程度副詞情感詞表、否定詞情感詞表及連詞詞表外,還應(yīng)在自定義詞典中加入突發(fā)事件專屬情感詞典及表情符號情感詞典。其中,程度副詞情感詞表、否定詞情感詞表及連詞詞表可參考文獻(xiàn)[23-24]。在選擇基礎(chǔ)情感詞典的問題上,鑒于本文的情感分析目標(biāo)是多維情感分析,而不是傳統(tǒng)意義上的三元分類,在考量了國內(nèi)常用的情感詞典后,決定使用大連理工大學(xué)的情感詞匯本體庫,選擇其中的詞語,情感分類及情感強(qiáng)度3項(xiàng)特征,其中情感分類為“樂、哀、怒、驚、懼、好、惡”7種情感維度。本文使用的情感詞典的構(gòu)成如圖2所示,下面將對表情符號情感詞典及突發(fā)事件領(lǐng)域?qū)僭~典的構(gòu)造予以描述。
3.2表情符號情感詞典構(gòu)造研究
目前,微博上存在的表情符號種類繁雜,情感各異,若全部采用人工標(biāo)注的方式顯然效率較低,且不利于后續(xù)表情符號情感詞典的自動(dòng)構(gòu)建。為此,首先隨機(jī)抽取3 000條含有表情符號的情感詞典,對文本中的表情符號進(jìn)行詞頻統(tǒng)計(jì),選擇頻率高的表情符號作為基準(zhǔn)符號候選名單,在確保7類情感維度的基準(zhǔn)表情符號數(shù)量基本均等條件下,對基準(zhǔn)符號進(jìn)行人工標(biāo)注,方法參考本體庫對于情感詞匯的標(biāo)注原則,得到表3所示的基準(zhǔn)表情符號詞典。隨后,采用點(diǎn)互信息(PMI)算法進(jìn)行表情符號情感詞典的自動(dòng)擴(kuò)展[24],算法公式如式(1)所示:
PMI(x,y)=logp(x,y)p(x)p(y)(1)
式(1)中,p(x,y)表示x與y一起出現(xiàn)的概率,p(x)是表征詞語x在文本中使用的概率,p(y)表示詞語y在文本中使用的概率。PMI(x,y)表示兩個(gè)詞語同時(shí)出現(xiàn)的程度。對目標(biāo)情感符號進(jìn)行遍歷搜索,對得到的PMI值進(jìn)行排名,在進(jìn)行對比后將目標(biāo)表情符號歸入到PMI值最大的基準(zhǔn)符號類別中。在此規(guī)定:①若目標(biāo)表情符號在遍歷計(jì)算后與所有基準(zhǔn)情感符號的PMI值為0,則可認(rèn)為該表情較為生僻,不予納入表情符號詞典;②若一條評論文本中出現(xiàn)兩種或兩種以上情感維度時(shí),根據(jù)中文的行文規(guī)律,重要的情感維度通常會(huì)放置在句子的后半部分,此種情況在突發(fā)事件的評論文本中也較為適用。因此,情感分析以最后出現(xiàn)的表情符號所屬情感維度進(jìn)行歸納。對得到的歸納后的表情符號采用文獻(xiàn)[25]的方式進(jìn)行強(qiáng)度計(jì)算,并取整,即可得到表情符號情感詞典。
3.3突發(fā)事件專屬情感詞典構(gòu)建研究
領(lǐng)域?qū)偾楦性~典是指針對特殊適用領(lǐng)域而構(gòu)造的情感分析專用詞典,是為了提高情感詞典評價(jià)指標(biāo)的重要組成部分。但此類情感詞在一般的基礎(chǔ)情感詞典中都沒有收錄,或者被標(biāo)定為中性情感詞,這顯然與實(shí)際情況存在較大的誤差。為此,采用如下程序構(gòu)造突發(fā)事件專屬情感詞典:①結(jié)合2.2節(jié)事件分析中對于突發(fā)事件網(wǎng)絡(luò)輿情影響因素的分析,選取開放式編碼得到的15個(gè)范疇和52個(gè)概念;②對爬取后的文本數(shù)據(jù)作時(shí)間切片,以“天”為單位進(jìn)行數(shù)據(jù)劃分。隨后使用上下熵方法,對經(jīng)過ICTCLAS分詞軟件進(jìn)行分詞處理的微博語料作詞頻統(tǒng)計(jì),并設(shè)定詞語上下熵的閾值。經(jīng)此種方法處理后的詞語雖然包含大量預(yù)期的主題詞語,但仍存在一些非目標(biāo)詞語的高頻詞,如“的是”“不過”等。因此,引入TF-IDF方法對詞語在語料中的重要程度進(jìn)行排名,在計(jì)算每個(gè)詞語的TF-IDF值后,將該數(shù)值與設(shè)定的限值相比較,并將高于該限值的詞語作為專屬情感詞典的擴(kuò)充詞集。具體如公式(2)所示;③將上述得到的詞語,范疇和概念進(jìn)行匯總,采用頭腦風(fēng)暴的方式進(jìn)行詞語擴(kuò)展。對詞語進(jìn)行情感維度、情感分類的標(biāo)注后,最終得到103個(gè)領(lǐng)域情感詞,部分情感詞如表4所示。
通過上述詞典的構(gòu)建,基本囊括了影響微博情感極性分析的主要文本及語料。對得到的情感詞語進(jìn)行情感極性強(qiáng)度的計(jì)算時(shí),可參考文獻(xiàn)[26]的方法進(jìn)行計(jì)算,進(jìn)而實(shí)現(xiàn)情感分析的數(shù)值量化。
3.4實(shí)驗(yàn)與分析
3.4.1實(shí)驗(yàn)設(shè)計(jì)
為驗(yàn)證本文構(gòu)建的情感詞典的有效性,從“6.22杭州保姆縱火案”的主題評論中隨機(jī)挑選3 000條評論文本構(gòu)成實(shí)驗(yàn)樣本,樣本采用人工標(biāo)注法,選取心理專業(yè)的4名未參與情感極性強(qiáng)度標(biāo)注過的研究生進(jìn)行標(biāo)注,規(guī)定:同一條評論中至少有3人的情感標(biāo)注維度一致時(shí)方可收錄。最終得到2 934條被標(biāo)記的評論。將標(biāo)記的評論分別使用情感詞匯本體庫及本文構(gòu)建的微博突發(fā)事件情感詞典進(jìn)行情感分析,實(shí)驗(yàn)的評價(jià)指標(biāo)選擇準(zhǔn)確率、召回率及F-measure 3項(xiàng)指標(biāo)進(jìn)行綜合比對分析,進(jìn)而確保指標(biāo)間可以優(yōu)勢互補(bǔ),對實(shí)驗(yàn)結(jié)果實(shí)現(xiàn)科學(xué)準(zhǔn)確的刻畫。3項(xiàng)指標(biāo)的計(jì)算公式如式(3)~(5)所示:
p=n1n1+n3×100%(3)
r=n1n1+n2×100%(4)
F-measure=2prp+r(5)
其中,n1表示正確判斷出情感極性的詞語數(shù),即被詞典和人工極性標(biāo)注一致的詞語數(shù),n2表示的是被詞典判斷的情感極性與人工標(biāo)注結(jié)果不一致的詞語數(shù),n3表示不屬于檢索范圍但被詞典檢索出的詞語數(shù)。最終得到的實(shí)驗(yàn)結(jié)果如圖3所示:
圖3不同情感詞典的情感分析性能對比
3.4.2實(shí)驗(yàn)分析
從圖3可以看出,在準(zhǔn)確率、召回率、F-measure 3項(xiàng)指標(biāo)方面,本文構(gòu)建的微博突發(fā)事件情感詞典均優(yōu)于本體庫及不包含微博表情符號的情感詞典,準(zhǔn)確率在3項(xiàng)指標(biāo)方面與后兩者相比分別提高了7%、4%;召回率相比提高了9%、4%;F-measure相比提高了8%、4%,證明了本文構(gòu)建的情感詞典在針對突發(fā)事件的情感分析中能夠?qū)崿F(xiàn)較優(yōu)的分類性能,更適用于實(shí)際情感分析。
4微博輿情情感演化分析
4.1全文本數(shù)據(jù)處理
采用八爪魚采集器對“6.22杭州保姆縱火案”事件的相關(guān)主題討論、微博評論進(jìn)行爬取,提取時(shí)間為2017年6月22日14時(shí)~2018年6月22日14時(shí),爬取的目標(biāo)為評論者、評論內(nèi)容及評論時(shí)間,爬取完畢后共得到2 632 891條文本內(nèi)容。在進(jìn)行去除鏈接、去除停用詞、繁體字轉(zhuǎn)化、垃圾文本篩選等數(shù)據(jù)清洗后,共得到2 537 771條文本信息。采用中科院的ICTCLAS分詞系統(tǒng)進(jìn)行中文分詞,為下一步情感詞典分析做準(zhǔn)備。
4.2輿情時(shí)序圖
將評論信息以“月”為單位進(jìn)行評論數(shù)量的統(tǒng)計(jì),輿情時(shí)序圖如圖4所示,圖內(nèi)數(shù)字表示對應(yīng)月份的評論及討論總量??梢钥闯鲈撌录?017年6月22日發(fā)生后,網(wǎng)絡(luò)輿情呈現(xiàn)出“雙峰”型的演化規(guī)律,結(jié)合文獻(xiàn)[9-12]關(guān)于輿情階段的劃分,本文以“爆發(fā)期,衰減期,恢復(fù)期”3個(gè)階段進(jìn)行劃分。由于該事件在后續(xù)發(fā)展階段產(chǎn)生了衍生輿情,因此應(yīng)在發(fā)展階段中加入“二次爆發(fā)期,二次衰減期,二次恢復(fù)期”3個(gè)階段,共形成輿情發(fā)展的六個(gè)階段,分別為:一次爆發(fā)階段(虛線1之前),一次衰減期(虛線1~2),一次恢復(fù)期(虛線2~3),二次爆發(fā)期(虛線3~4),二次衰減期(虛線4~5),二次恢復(fù)期(虛線5之后)。
為了進(jìn)一步剖析各個(gè)階段輿情信息量的變化因素,使用進(jìn)行特征提取。如公式(6),不同于傳統(tǒng)的特征提取方式,此處引入統(tǒng)計(jì)量進(jìn)行特定時(shí)間窗口的特征選擇[26]。數(shù)值越大,則說明關(guān)聯(lián)度越高,其公式如式(7)所示:
W(s,d)=tf(s,d)×log(N/nt+0.01)∑s∈d[f(s,d)×log(N/nt+0.01)](6)
χ2(s,t)=Q×(A×D-C×B)2(A+C)×(B+D)×(A+B)×(C+D)(7)
式(6)中,W(s,d)為特征項(xiàng)t的權(quán)重,tf(s,d)為主題詞的詞頻,nt為主題詞t出現(xiàn)的文檔數(shù)目;式(7)中,N為文檔總量,A為屬于t并且包含s的頻數(shù),B為不屬于t且不包含s的頻數(shù),C為屬于t但不包含s的頻數(shù),D為既不屬于t也不包含s的頻數(shù),Q為文檔總量。
由此,便可得到不同階段主題詞的分布情況,主題詞分布具體如表5所示。其中,在一次爆發(fā)階段中微博的主題詞主要有“安慰”、“加油”、“堅(jiān)強(qiáng)”、“保重”、“感動(dòng)”、“懵”等,大部分為積極正面的詞語,存在少量包含“震驚、恐懼”情緒的詞語,討論的熱點(diǎn)主要有四件,分別為:網(wǎng)民對林先生表示同情與安慰,綠城物業(yè)責(zé)令林先生搬移靈堂,林先生創(chuàng)立“潼臻一生”基金會(huì),網(wǎng)友對保姆縱火行為的譴責(zé)與聲討;一次衰減階段的主題主要包括消防部門官方回復(fù),林先生出院,物業(yè)刪帖,網(wǎng)友對林先生的七夕祝福;而一次恢復(fù)階段的主題體現(xiàn)在物業(yè)防護(hù)監(jiān)督不力,法院審理時(shí)間的討論,針對現(xiàn)場消防設(shè)備使用情況的質(zhì)疑以及保姆縱火行為的痛斥。進(jìn)入二次爆發(fā)階段,主題更加多元,主要包括法院宣判保姆莫煥晶死刑,網(wǎng)民對林先生的支持與鼓勵(lì)行為以及對杭州市消防局的處置行動(dòng)提出質(zhì)疑;二次衰減階段的主題詞包含“心酸”、“可憐”、“房屋質(zhì)量”、“信息公開”等詞語,體現(xiàn)為綠城房屋質(zhì)量的隱患,對政府信息公開的訴求;最后,進(jìn)入二次恢復(fù)階段,主題詞演變?yōu)椤盁o奈”、“迷?!薄ⅰ百r償”、“正義”、“不公”,可以看出進(jìn)入到二次恢復(fù)階段的輿情波動(dòng)仍然較大,若不加以疏導(dǎo)管控極易引發(fā)新一輪的輿情擴(kuò)大。
表5輿情發(fā)展階段主題詞分布情況([*]為微博表情)
輿情階段編號主題詞主題詞對應(yīng)事件
一次爆發(fā)階段(A)
A1安慰堅(jiān)強(qiáng)加油保重[心]網(wǎng)民對林先生表示同情與安慰
A2物業(yè)綠城道歉靈堂真相綠城物業(yè)責(zé)令林先生搬移靈堂
A3潼臻一生基金哭感動(dòng)林先生創(chuàng)立“潼臻一生”基金會(huì)
A4保姆,惡劣,懵,消防發(fā)布保姆縱火行為引發(fā)強(qiáng)烈譴責(zé)與聲討
一次衰減階段(B)
B1七夕微笑善良美好情人節(jié)網(wǎng)友在七夕節(jié)對林先生表達(dá)祝福
B2消防體制問責(zé)答復(fù)[微笑]消防部門針對林先生及網(wǎng)友的問題進(jìn)行官方答復(fù)
B3出院安全平安林先生平安出院
B4維權(quán)節(jié)哀綠城刪帖真相綠城物業(yè)刪帖引發(fā)網(wǎng)友維權(quán)意識(shí)
一次恢復(fù)階段(C)
C1真相設(shè)備消防責(zé)任滅火林先生對消防設(shè)備及物業(yè)消防責(zé)任提出質(zhì)疑
C2交代不作為寒心監(jiān)督火災(zāi)調(diào)查綠城物業(yè)消防監(jiān)督及防火措施不力
C3開庭審判希望等待中級法院法院有望在2018年1月開庭審理案件
C4杭州市消防局發(fā)布回復(fù)林先生三問杭州市消防局尋求答復(fù)
C5嚴(yán)懲公道保姆死刑網(wǎng)友要求嚴(yán)懲保姆,還林先生公道
二次爆發(fā)階段(D)
D1死刑一審中級法院宣判杭州市中級人民法院一審宣判犯罪嫌疑人莫煥晶死刑
D2心疼加油善良辛苦[悲傷]網(wǎng)民鼓勵(lì)支持林先生
D3杭州消防局接警設(shè)備責(zé)任杭州消防局接警處置流程再度受到質(zhì)疑
二次衰減階段(E)
E1白色情人節(jié)心酸可憐[傷心]白色情人節(jié),網(wǎng)民自發(fā)安慰林先生
E2綠城房屋質(zhì)量防火材料防火綠城房屋質(zhì)量及防火材料的使用引起社會(huì)注意
E3政府真相信息公開消防設(shè)施林先生要求政府信息公開
二次恢復(fù)階段(F)
F1無奈迷茫賠償林先生對杭州市消防局等9家單位提出賠償要求
F2祈禱支持保重網(wǎng)民為遇害者祈禱
F3正義不公政府回應(yīng)[鄙視]網(wǎng)民要求政府公開消防局出警信息
4.3情感分析
使用本文構(gòu)建的微博突發(fā)事件情感詞典將分詞后的上述2 537 771條評論進(jìn)行情感分析,按照輿情發(fā)展的6個(gè)階段將文本進(jìn)行分組并進(jìn)行情感標(biāo)注,得到如圖5所示的輿情發(fā)展階段及情感分類情況,情感分布規(guī)律匯總?cè)缦拢?/p>
1)“怒”、“惡”兩種情緒占據(jù)主導(dǎo)地位??v觀不同階段情感強(qiáng)度的起伏變化,除一次爆發(fā)階段(A)的主要情感因素為“衰,驚,惡”3種以及一次衰減階段(B)的主導(dǎo)因素為“好,惡”兩種情感以外,在后續(xù)的四個(gè)輿情發(fā)展階段中,“怒”,“惡”兩種情緒都在不同程度上占據(jù)著4個(gè)階段內(nèi)的主導(dǎo)情緒。其中,在一次恢復(fù)階段,“怒”的情感強(qiáng)度達(dá)到了整個(gè)過程的最大值,表明網(wǎng)民在這一階段對杭州市消防局回應(yīng)的排斥以及對保姆縱火行為的痛恨與強(qiáng)烈譴責(zé)。
2)“好”、“驚”兩種情緒存在同時(shí)出現(xiàn)的情況。在一次爆發(fā)階段及一次衰減階段,“好”的情感強(qiáng)度分別排名第一,第二,這是由于網(wǎng)民對受害者家屬林先生的安慰與祝福,以及對其創(chuàng)建基金會(huì)的行為予以贊同和支持,促使輿情中“好”的情感屬性占比增加;同時(shí),“驚”的情感屬性在一次爆發(fā)期及一次恢復(fù)期也占有重要位置,表明網(wǎng)民面對突發(fā)事件時(shí)的震驚與錯(cuò)愕,在后續(xù)出現(xiàn)的綠城物業(yè)刪帖問題上也同樣出現(xiàn)了此類情感。
3)消極情緒長期存在且沒有適當(dāng)轉(zhuǎn)移。在后續(xù)的4個(gè)輿情發(fā)展階段中,“怒”的情感強(qiáng)度在迅速上漲后又緩慢下降,但一直保持在8.5的情感值以上,表現(xiàn)出自一次衰減階段開始,網(wǎng)民對于綠城物業(yè),消防部門及保姆這3類事件相關(guān)方的強(qiáng)烈不滿情緒,而且在長達(dá)10個(gè)月的輿情發(fā)展中,這一情緒沒有得到很好地轉(zhuǎn)移,長期處于高強(qiáng)度態(tài)勢,極易引發(fā)輿情的激變。同時(shí),“哀”的情感強(qiáng)度在二次衰減與二次恢復(fù)期逐漸升高,表明網(wǎng)民對林先生所受境遇的無奈與惋惜,以及對于死亡賠償?shù)纫箅y以實(shí)現(xiàn)的難過與痛心。在二次輿情恢復(fù)期,“哀,怒,惡”的情感屬性在網(wǎng)民情感值中占據(jù)主體,與上一階段相比,情感強(qiáng)度分別增長了11.7%、13%、15%,網(wǎng)絡(luò)總評論量增長17%,處于負(fù)能量快速集聚的階段,觀察該階段內(nèi)的輿情主題詞,主要為“不公”、“賠償”、“回應(yīng)”、“政府”等詞語,因此,政府應(yīng)結(jié)合主題詞的特點(diǎn)快速應(yīng)對,確保輿情在恢復(fù)期快速衰減回落。
4.4基于扎根理論的輿情應(yīng)對措施
鑒于扎根理論對于影響因素的分析可做到客觀、全面、準(zhǔn)確,因此,在掌握了各個(gè)階段的情緒屬性及情緒強(qiáng)度的基礎(chǔ)上,結(jié)合2.2節(jié)構(gòu)造的突發(fā)事件網(wǎng)絡(luò)輿情演化影響因素的開放性編碼結(jié)果,將情感主題與編碼元素進(jìn)行匹配,可為不同階段的輿情應(yīng)對措施提供重要指導(dǎo)。
1)通過情感數(shù)據(jù)挖掘,全面感知網(wǎng)民心理情緒演變程度,為政府掌握輿情態(tài)勢和引導(dǎo)輿情提供決策依據(jù)。網(wǎng)民情緒是影響網(wǎng)絡(luò)輿情的關(guān)鍵因素。通過2.2節(jié)的開放新編碼可以發(fā)現(xiàn),在面對突發(fā)事件時(shí),網(wǎng)民的情緒主要有從眾心理,同情心理,冷漠淡薄,怨恨情緒,圍觀心態(tài),緊張焦慮的六種表現(xiàn)。因此,在一次發(fā)展階段與一次衰減階段中,網(wǎng)民在“好”這一情感維度中的得分較高,評論量較大,且這兩個(gè)階段內(nèi)的對應(yīng)主題詞有“堅(jiān)強(qiáng)”、“加油”、“善良”、“美好”等詞語,因此可以推測出網(wǎng)民在該階段的情緒狀態(tài)為同情心理及從眾心理。因此,在這兩個(gè)階段應(yīng)注意正面宣傳網(wǎng)民的善意善舉,擴(kuò)大同情心理的網(wǎng)絡(luò)受眾;同時(shí),相關(guān)部門要時(shí)刻關(guān)注輿情的主題演化,避免網(wǎng)民情緒向怨恨情緒、冷漠淡薄等情緒的轉(zhuǎn)變,實(shí)現(xiàn)網(wǎng)民情緒的動(dòng)態(tài)掌握。
2)通過情感數(shù)據(jù)挖掘,及時(shí)捕捉負(fù)面情感并主動(dòng)回應(yīng),爭取引導(dǎo)輿情的先動(dòng)優(yōu)勢。觀察圖5所示的輿情發(fā)展階段及情感分類情況,除一次爆發(fā)階段以外,“惡”與“怒”的情感強(qiáng)度一直居高不下,觀察這5個(gè)階段的對應(yīng)主題,主要有防火安全,問責(zé),滅火,寒心,監(jiān)督,死刑,真相,信息公開等詞語,將這些詞語與開放性編碼結(jié)果進(jìn)行信息匹配,可以發(fā)現(xiàn)主題詞主要隸屬于“失職瀆職”,“溝通情況”,“真相質(zhì)疑”,“問題追蹤”這4個(gè)范疇。因此,在這5個(gè)階段內(nèi),政府及涉事主體(如杭州市消防局)應(yīng)針對網(wǎng)民的關(guān)注焦點(diǎn)問題迅速回應(yīng),實(shí)現(xiàn)話語權(quán)的主導(dǎo)地位,從“事件進(jìn)展,救援力量,政府立場,謠言駁斥”等角度全方位回應(yīng)網(wǎng)民的質(zhì)疑;對于真相質(zhì)疑這一范疇,政府及相關(guān)部門應(yīng)主動(dòng)回應(yīng),若事件的結(jié)果暫不明朗,可以采取“慎說原因,緩說結(jié)論,主說措施”的方法,語氣誠懇,以理服人,表明立場,防止網(wǎng)絡(luò)謠言進(jìn)一步激化。同時(shí),從“溝通角度”這一視角出發(fā),政府及涉事主體應(yīng)積極應(yīng)對,講求溝通策略,主動(dòng)設(shè)置議題,轉(zhuǎn)移突發(fā)事件中的惡性因素,如在一次爆發(fā)階段,可結(jié)合被害者家屬創(chuàng)立“潼臻一生”基金會(huì)這一事件,弘揚(yáng)該事件中的正能量,結(jié)合官方的主動(dòng)回應(yīng)措施,可加速輿情從爆發(fā)階段向衰減階段的演化態(tài)勢。
3)通過情感數(shù)據(jù)挖掘,快速及時(shí)獲取網(wǎng)民關(guān)切的核心內(nèi)容,有的放矢,防止應(yīng)對輿情焦點(diǎn)的錯(cuò)位。情感強(qiáng)度值的變化直觀反映了網(wǎng)民的情緒波動(dòng)情況,因此,若能了解網(wǎng)民的情感屬性的變化,就能有針對性地作出輿情疏導(dǎo)措施。如在一次衰減階段至一次恢復(fù)階段的過渡期,網(wǎng)民情感屬性中的“好”情感強(qiáng)度急劇下降,“怒”與“惡”的情感強(qiáng)度值急劇增加,對該階段的主題詞情況和扎根理論的對應(yīng)影響因素進(jìn)行比對,得出從一次衰減階段到一次恢復(fù)階段的轉(zhuǎn)變中,影響因素從“失職瀆職”,“溝通情況”,“真相質(zhì)疑”,“問題追蹤”這4個(gè)范疇轉(zhuǎn)移到了“情感情緒”,“謠言傳播”,“制度構(gòu)建”這3個(gè)范疇,因此,應(yīng)結(jié)合所屬范疇的變化,對謠言予以駁斥,針對網(wǎng)民提出的制度缺陷問題,可側(cè)面回應(yīng),通過宣傳消防部門的規(guī)范行為及優(yōu)良作風(fēng),遏制此類評論量的增加。
5結(jié)論與展望
本研究提出了一種基于扎根理論與詞典構(gòu)建的情感分析方法,結(jié)合微博文本的特點(diǎn),構(gòu)建了微博表情情感詞典及突發(fā)事件專屬情感詞典,通過分析主題提取在網(wǎng)絡(luò)輿情預(yù)警及分析中的重要作用,采用TF-IDF、χ2統(tǒng)計(jì)量進(jìn)行特定時(shí)間窗口的特征選擇,擴(kuò)充微博突發(fā)事件領(lǐng)域情感詞表,進(jìn)而得到了微博突發(fā)事件情感詞典;隨后對本文構(gòu)建的情感詞典進(jìn)行實(shí)驗(yàn)論證,表現(xiàn)出了較高的準(zhǔn)確性與科學(xué)性。以“6.22”杭州保姆縱火案為例,對其進(jìn)行全文本實(shí)驗(yàn),得到了輿情不同階段的七維情感分析,通過將提取到的不同階段的主題詞語與扎根編碼得到的范疇進(jìn)行歸類,從影響因素的角度對不同階段的輿情管控提出指導(dǎo)與建議,表明本文的研究方法能夠較為科學(xué)系統(tǒng)地對網(wǎng)絡(luò)輿情作出判斷與分析,有助于突發(fā)事件中的相應(yīng)管理部門及時(shí)了解網(wǎng)民心理情緒及演變傾向,進(jìn)而使相應(yīng)部門的輿情應(yīng)對措施更加高效靈活。然而,本文構(gòu)建的情感詞典仍存在不足,如:特殊語言句式的識(shí)別,主觀性的客觀文本的情感識(shí)別以及極性強(qiáng)度算法的改進(jìn)等,有待后續(xù)的研究中逐步完善。
參考文獻(xiàn)
[1]中國互聯(lián)網(wǎng)絡(luò)信息中心.第42次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[EB].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201808/t20180820_70488.htm.
[2]張鵬,蘭月新,李昊青,等.基于認(rèn)知過程的網(wǎng)絡(luò)謠言綜合分類方法研究[J].圖書與情報(bào),2016,(4):8-15.
[3]徐蕾,李慶,肖相澤.基于扎根理論的大數(shù)據(jù)政策共詞網(wǎng)絡(luò)研究[J].現(xiàn)代情報(bào),2018,38(6):157-164.
[4]于兆吉,張嘉桐.基于扎根理論的突發(fā)性網(wǎng)絡(luò)輿情演化影響因素研究[J].東北大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2016,(5):498-502.
[5]黃遠(yuǎn),沈乾,劉怡君.微博輿論場:突發(fā)事件輿情演化分析的新視角[J].系統(tǒng)工程理論與實(shí)踐,2015,35(10):2564-2572.
[6]田梅.網(wǎng)絡(luò)瀏覽中偶遇信息共享行為影響因素扎根分析[J].圖書與情報(bào),2015,(5):117-122.
[7]劉波維,曾潤喜.網(wǎng)絡(luò)輿情研究視角分析[J].情報(bào)雜志,2017,(2):91-96.
[8]陳福集,黃江玲.三方博弈視角下的網(wǎng)絡(luò)輿情演化研究[J].情報(bào)科學(xué),2015,33(9):22-26.
[9]Burkholder B T,Toole M J.Evolution of Complex Disasters[J].The Lancet,1995,346(8981):1012-1015.
[10]Coombs W.T.Ongoing Crisis Communication-Planning,Managing and Responding[M].London:SAGE Publication.INC,1999.
[11]安璐,吳林.融合主題與情感特征的突發(fā)事件微博輿情演化分析[J].圖書情報(bào)工作,2017,61(15):120-129.
[12]崔鵬,張巍,何毅,等.突發(fā)公共事件網(wǎng)絡(luò)輿情演化及政府應(yīng)對能力研究[J].現(xiàn)代情報(bào),2018,38(2):75-83,95.
[13]涂海麗,唐曉波.基于在線評論的游客情感分析模型構(gòu)建[J].現(xiàn)代情報(bào),2016,36(4):70-77.
[14]劉甲學(xué),陶易.基于情感分析的評論數(shù)據(jù)用戶滿意度影響因素研究[J].現(xiàn)代情報(bào),2017,37(7):66-69.
[15]崔彥琛,張鵬,蘭月新,等.消防突發(fā)事件網(wǎng)絡(luò)輿情情感詞典構(gòu)建研究[J].情報(bào)雜志.2018,37(10):154-160.
[16]夏一雪,蘭月新,曾潤喜,等.全媒體語境下突發(fā)事件輿情信息風(fēng)險(xiǎn)管理模式研究[J].圖書與情報(bào),2016,(3):11-18.
[17]曾潤喜,徐曉林.網(wǎng)絡(luò)輿情的傳播規(guī)律與網(wǎng)民行為:一個(gè)實(shí)證研究[J].中國行政管理,2010,305(11):16-20.
[18]王琦,王琳.在線評論情感傾向的影響效應(yīng)及管理措施[J].北京郵電大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2015,17(1):43-51.
[19]李綱,王曉,葉光輝.國內(nèi)突發(fā)事件預(yù)警研究評述[J].情報(bào)理論與實(shí)踐,2017,40(7):138-144.
[20]蘭月新.面向輿情大數(shù)據(jù)的群體性事件預(yù)警研究[M].天津:天津大學(xué)出版社,2018.
[21]劉兵.情感分析:挖掘觀點(diǎn)、情感和情緒[M].北京:機(jī)械工業(yè)出版社,2017.
[22]李婷婷,姬東鴻.基于SVM和CRF多特征組合的微博情感分析[J].計(jì)算機(jī)應(yīng)用研究,2015,32(4):978-981.
[23]Noelle-Neumann,E.Zhe Spiral of Silence:Public Opinion-Our Social Skin(Second edition)[M].Chicago:the university of Chicago Press,1993:59.
[24]Zhou Y,Moy P.Parsing Framing Processes:The Interplay Between Online Public Opinion and Media Coverage[J].Journal of Communication,2007,57(1):79-98.
[25]Turney P D,Littman M L.Unsupervised Learning of Semantic Orientation from a Hundred-Billion-Word Corpus[R].National Research Council of Canada,Tech.Rep:EGB 1094,2002.
[26]趙曉航.基于情感分析與主題分析的“后微博”時(shí)代突發(fā)事件政府信息公開研究——以新浪微博“天津爆炸”話題為例[J].圖書情報(bào)工作,2016,60(20):104-111.
(責(zé)任編輯:郭沫含)