劉高勇,黃靖釗,艾丹祥
(廣東工業(yè)大學(xué) 管理學(xué)院, 廣東 廣州 510520)
突發(fā)公共事件是指突然發(fā)生的,造成或可能造成嚴(yán)重社會(huì)危害,需采取有效措施進(jìn)行應(yīng)急處置的事件,包括自然災(zāi)害、事故災(zāi)難、公共衛(wèi)生、社會(huì)安全等[1]。突發(fā)公共事件中往往存在復(fù)雜、富有爭議性的因素,容易引起民眾的關(guān)注和討論,而互聯(lián)網(wǎng)信息渠道的便利性和實(shí)時(shí)性,進(jìn)一步提升了突發(fā)公共事件的擴(kuò)散速度和社會(huì)影響范圍。同時(shí),網(wǎng)絡(luò)自媒體、社交媒體的平民化、普泛化等特點(diǎn)使事件傳播過程中的輿情走向難以預(yù)測。如果突發(fā)公共事件輿情演化過程中缺乏有效的引導(dǎo)和控制,可能會(huì)對(duì)社會(huì)穩(wěn)定造成危害。因此,充分地探索突發(fā)公共事件網(wǎng)絡(luò)輿情的演化規(guī)律,構(gòu)建科學(xué)有效的治理機(jī)制是具有重要意義的研究工作。
事實(shí)上,在突發(fā)公共事件的輿情生命周期中,充斥著形形色色的消息和評(píng)論,但不同的內(nèi)容具有不同的輿情效用:事件報(bào)道類信息在首次出現(xiàn)時(shí)效用最大,之后的重復(fù)轉(zhuǎn)發(fā)則會(huì)隨著內(nèi)容的傳播擴(kuò)散而逐步降低輿情價(jià)值;事件評(píng)論類信息的效用與大眾的認(rèn)可度相關(guān),不被大眾接受的觀點(diǎn)和看法,會(huì)隨著時(shí)間慢慢“褪去”,無法獲得輿情中的傳播力和影響力;而被大眾支持和贊同的觀點(diǎn),將會(huì)持續(xù)引導(dǎo)事件輿情的傳播速度和方向,甚至能夠迅速感染其他用戶從而導(dǎo)致輿論的爆發(fā)。當(dāng)前的輿情演化分析方法,無論是基于主題抽取還是情感分析,都缺乏對(duì)網(wǎng)絡(luò)數(shù)據(jù)輿情效用的評(píng)估,使用高成本挖掘輿情價(jià)值較低的內(nèi)容,而高價(jià)值的內(nèi)容被海量數(shù)據(jù)“淹沒”,無法獲得重視和聚焦。
鑒于此,本文從考慮網(wǎng)絡(luò)數(shù)據(jù)輿情效用的視角出發(fā),改進(jìn)前人的輿情演化分析方法。先構(gòu)建基于深度學(xué)習(xí)的文本立場檢測模型和主題句挖掘模型,篩選出被大眾用戶認(rèn)同或接受的輿情內(nèi)容,再針對(duì)此類高效用價(jià)值的輿情信息進(jìn)行主題挖掘和演化分析,以便更加快速和準(zhǔn)確地揭示突發(fā)公共事件的輿情演化規(guī)律。
立場檢測任務(wù)主要是通過自然語言處理技術(shù),檢測給定文本針對(duì)某特定目標(biāo)文本的立場傾向是支持、反對(duì)還是中立[2]。最初的立場檢測研究僅僅側(cè)重于國會(huì)辯論或在線論壇的應(yīng)用分析[3-4],直到2016年,第五屆自然語言處理與中文計(jì)算會(huì)議[5]和International Workshop on Semantic Evaluation[2]分別推出了中文微博和英文推特的立場檢測任務(wù),使學(xué)者們的關(guān)注力轉(zhuǎn)移到了微博和推特的文本立場檢測。
常見的立場檢測模型是深度學(xué)習(xí)模型或基于特征工程的機(jī)器學(xué)習(xí)模型?;谔卣鞴こ痰膫鹘y(tǒng)機(jī)器學(xué)習(xí)模型[6-7]常?;ㄙM(fèi)大量的人力和時(shí)間添加自定義詞典或相關(guān)領(lǐng)域知識(shí),以構(gòu)建特征工程挖掘復(fù)雜的、富含領(lǐng)域知識(shí)的語義特征。相比之下,深度學(xué)習(xí)模型擁有更加高效的自特征提取能力,更適用于立場檢測任務(wù)。Kazuaki等[8]利用Bi-LSTM(Bi-directional Long Short-Term Memory)模型驗(yàn)證了數(shù)據(jù)集外部的知識(shí)對(duì)于提升立場檢測的準(zhǔn)確度有著顯著的效果。白靜等[9]使用了Bi-LSTM和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)模型,結(jié)合注意力機(jī)制,分別獲取文本表示向量和局部卷積特征,再在局部卷積特征中加入權(quán)重,最后將兩種特征融合進(jìn)行分類,提升了立場檢測的分類效果。周艷芳等[10]基于Bi-LSTM和遷移學(xué)習(xí),證明了混合字、詞特征能夠提高立場分類的性能。
目前,較多的學(xué)者在進(jìn)行立場檢測任務(wù)時(shí),直接對(duì)給定文本進(jìn)行立場分類,忽略了目標(biāo)文本的信息,沒有較好地判斷給定文本和目標(biāo)文本的語義信息關(guān)系。為了充分融合給定文本和目標(biāo)文本的語義信息進(jìn)行立場分類,本文基于Word2Vec模型[11],結(jié)合Bi-LSTM和CNN兩種深度學(xué)習(xí)模型,構(gòu)建新的立場檢測模型。
最早的主題挖掘是由美國的Luhn[12]提出的基于詞頻統(tǒng)計(jì)的主題挖掘。近年來,主題挖掘更是受到了不少學(xué)者的關(guān)注,其中最受矚目的是基于詞語級(jí)別的主題挖掘。Wei等[13]提出了一種基于條件共現(xiàn)度的主題詞發(fā)現(xiàn)方法;安璐等[14]基于 Word2Vec模型,使用K-mean算法分別提取了突發(fā)事件輿情生命周期各階段的微博博文主題詞;李躍鵬等[15]使用K-mean算法對(duì)基于Word2Vec模型向量化后的詞語進(jìn)行聚類,并計(jì)算詞語間的相似度,最后將每個(gè)類別中與聚類中心相似度最高的詞語作為關(guān)鍵詞。然而,在分析網(wǎng)絡(luò)輿情文本數(shù)據(jù)時(shí),缺少關(guān)聯(lián)性的主題詞語很難明確地反映其蘊(yùn)含的語義,必須要經(jīng)過人工了解事件輿情,對(duì)主題詞擴(kuò)充描述后才能確定主題的內(nèi)容。人工擴(kuò)充描述存在描述困難的問題,容易出現(xiàn)描述偏差,導(dǎo)致研究結(jié)果過于主觀。
句子級(jí)別的主題能避免人工描述過度主觀的問題。為了彌補(bǔ)詞語級(jí)別主題的缺點(diǎn),學(xué)者們開始聚焦句子級(jí)別的主題挖掘。孔勝等[16]提出了基于句子相似度的文本主題句提取算法;唐曉波等[17]基于句子相似矩陣進(jìn)行主題聚類,再利用改進(jìn)的LexRank算法找出重要度較高的句子生成主題摘要;萬國等[18]選取位置特征和標(biāo)題句子重合度與關(guān)聯(lián)度的特征,對(duì)句子進(jìn)行得分排名,提取出主題句。
與詞語級(jí)別的主題相比,句子級(jí)別的主題在后續(xù)的網(wǎng)絡(luò)輿情演化分析應(yīng)用中具有一定的優(yōu)越性。因此,本文參考前人的研究,基于Word2Vec模型和K-means算法對(duì)高效用價(jià)值的輿情內(nèi)容進(jìn)行句子級(jí)別的主題挖掘,抽取出主題句,生成主題摘要。
突發(fā)公共事件的演化具有特定的生命周期,但不同學(xué)者的研究角度不同,生命周期劃分模式也就不同,常見的模式有三階段劃分模式、四階段劃分模式、五階段劃分模式等。杜洪濤等[19]將突發(fā)事件的演化周期劃分為形成(擴(kuò)散)階段、高潮階段、消退階段;Fink[20]從醫(yī)學(xué)角度提出了經(jīng)典的四階段劃分模式,把突發(fā)事件劃分為潛伏期、爆發(fā)期、延續(xù)期和痊愈期;賈亞敏等[21]將城市突發(fā)事件網(wǎng)絡(luò)輿情的傳播演化周期劃分為起始階段、爆發(fā)階段、衰退階段與平息階段;王曰芬等[22]結(jié)合生命周期理論與輿情變化數(shù)將事件輿情劃分為五個(gè)階段:爆發(fā)期一、衰退期一、爆發(fā)期二、爆發(fā)期三和衰退期二及平緩期。這些研究多是以生命周期理論為指導(dǎo),按照事件發(fā)生序列,對(duì)突發(fā)事件的輿情演化模式進(jìn)行細(xì)致分析,深入挖掘事件輿情演化的有效信息。在前人的研究基礎(chǔ)上,本文結(jié)合突發(fā)公共事件的特點(diǎn)劃分事件輿情演化的生命周期階段。
本文以特定的突發(fā)公共事件為例,基于立場檢測和主題挖掘,提出了新的突發(fā)公共事件輿情演化研究框架,如圖1所示,包括數(shù)據(jù)采集和預(yù)處理、劃分輿情演化生命周期、篩選高效用輿情內(nèi)容、主題挖掘。具體步驟為:(1) 利用采集器獲取特定突發(fā)公共事件的微博數(shù)據(jù)集,包括博文文本語料、評(píng)論文本語料等,并對(duì)相關(guān)數(shù)據(jù)進(jìn)一步預(yù)處理;(2) 根據(jù)生命周期理論,結(jié)合突發(fā)公共事件熱度在時(shí)間序列上的變化,劃分輿情演化生命周期階段;(3) 構(gòu)建新的立場檢測模型,識(shí)別評(píng)論針對(duì)博文的立場信息,挖掘出被大眾用戶支持、認(rèn)同的博文,以篩選出高效用的輿情內(nèi)容;(4) 基于Word2Vec模型和K-means算法,分別對(duì)每個(gè)階段的高效用的輿情內(nèi)容進(jìn)行主題挖掘。
圖1 基于立場檢測和主題挖掘的突發(fā)公共事件輿情演化研究框架Fig.1 Research framework of public opinion evolution of public emergencies based on stance detection and topic mining
本文基于深度學(xué)習(xí)構(gòu)建新的立場檢測模型,如圖2所示,檢測評(píng)論針對(duì)其對(duì)應(yīng)博文的立場,再計(jì)算每條博文獲得的大眾認(rèn)同度,以挖掘出大眾用戶接受、認(rèn)同的博文,識(shí)別出效用價(jià)值較高的輿論信息,提高突發(fā)公共事件輿情演化的分析效率。篩選高效用輿情內(nèi)容的具體步驟為
圖2 立場檢測模型Fig.2 Stance detection model
1) 搭建立場檢測模型
立場檢測模型由CNN模型、Bi-LSTM模型和預(yù)訓(xùn)練的Word2Vec模型構(gòu)成,共包括3層。
(1) Embedding層:Embedding層以預(yù)訓(xùn)練的Word2Vec模型為基礎(chǔ),能將一個(gè)句子轉(zhuǎn)換為m×n的向量矩陣,例如:將已分詞的博文(如:這是、疑案、不是、靈異 ······)和評(píng)論(如:同感、大概率、已經(jīng)、遇害······)輸入Embedding層,分別獲得m×n的博文和評(píng)論詞向量矩陣,其中m為句子的詞語數(shù)量,n為詞向量的維數(shù)。
(2) Bi-LSTM層:Bi-LSTM的基礎(chǔ)構(gòu)件是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的變體LSTM,如圖3所示。LSTM每個(gè)隱藏層包括了遺忘門ft,輸入門it, 輸出門ot, 其中遺忘門ft負(fù)責(zé)控制模型遺忘上一層信息的比例,輸入門it決定當(dāng)前層的輸入信息比例,輸出門ot決定當(dāng)前層輸出信息比例。詳細(xì)公式為
圖3 LSTM結(jié)構(gòu)圖Fig.3 LSTM structure diagram
式中:ht-1是 上一階段的隱藏層的狀態(tài);xt是當(dāng)前階段的隱藏層輸入,即由Word2Vec模型預(yù)訓(xùn)練獲得的詞向量;是當(dāng)前階段的臨時(shí)細(xì)胞狀態(tài);Ct-1、Ct表示上一階段和當(dāng)前的細(xì)胞狀態(tài);ht是現(xiàn)階段當(dāng)前的隱藏層狀態(tài);Whf、Wxf、Whi、Wxi、Whc~、Wxc~、Who、Wxo是相應(yīng)控制門的模型權(quán)重;b是偏置向量;σ 是sigmoid激活函數(shù);tanh為雙曲正切函數(shù);* 是向量逐點(diǎn)相乘運(yùn)算。
基于門控RNN的LSTM解決了傳統(tǒng)RNN中長期依賴和梯度消失的問題,但是LSTM僅從前往后編碼句子,只能獲取到從前向后的上下文語義信息,不能獲取從后向前的上下文語義信息。Bi-LSTM將前向和后向的兩層LSTM結(jié)合起來,能更好地從兩個(gè)方向獲取上下文語義信息,如圖4所示,其中,αn和 βn分別代表了前向和后向的LSTM。前向和后向的兩層LSTM各自輸出結(jié)果進(jìn)行拼接得到,作為Bi-LSTM的輸出hn。
圖4 Bi-LSTM結(jié)構(gòu)圖Fig.4 Bi-LSTM structure diagram
該層以2個(gè)Bi-LSTM模型為基礎(chǔ),分別用于學(xué)習(xí)博文和評(píng)論的上下文語義信息。首先,將博文和評(píng)論的詞向量矩陣輸入Bi-LSTM模型,分別輸出博文、評(píng)論上下文語義信息矩陣;然后,將博文上下文語義信息矩陣和評(píng)論上下文語義信息矩陣進(jìn)行矩陣相乘,融合博文和評(píng)論的語義信息,獲得博文-評(píng)論混合語義信息矩陣。
(3) CNN層:CNN層是基于CNN模型的分類層,用于對(duì)博文-評(píng)論混合語義信息矩陣進(jìn)行特征提取,并實(shí)現(xiàn)評(píng)論立場分類,網(wǎng)絡(luò)結(jié)構(gòu)的搭建見圖5。
圖5 CNN結(jié)構(gòu)圖Fig.5 CNN structure diagram
輸入層:輸入的是博文-評(píng)論的語義混合矩陣X。
卷積層:卷積層是CNN的核心,含有多個(gè)卷積核,通過對(duì)輸入矩陣X卷積運(yùn)算獲得更高級(jí)的特征表示。每個(gè)卷積核滑動(dòng)局部窗口對(duì)輸入矩陣進(jìn)行卷積操作,獲得特征向量,并通過非線性激活函數(shù)處理,從而獲得本層輸出的特征,公式為
式中:X為輸入的特征矩陣;Wc為卷積核;b為偏置向量;g表示非線性激活函數(shù),而本文應(yīng)用ReLU函數(shù),能夠降低學(xué)習(xí)周期;cq為該卷積核在位置q的卷積特征。
池化層:池化層的作用是將卷積層得到的特征進(jìn)行特征采樣。池化層分為最大池化和平均池化,而本文使用的是最大值池化,即選取最大特征值進(jìn)行拼接。
分類層:該層是將池化后的特征進(jìn)行重新擬合,再實(shí)現(xiàn)最終的評(píng)論立場分類(支持不支持)。在CNN模型的基礎(chǔ)上添加全連接層,最后通過Sigmoid分類器進(jìn)行分類。公式為
式中:y為分類標(biāo)簽; σ為sigmoid函數(shù);W為權(quán)重向量;v為得到的文本的高層特征向量;b為偏置向量。
2) 訓(xùn)練立場檢測模型
為了訓(xùn)練立場檢測模型,本文從事件數(shù)據(jù)集中抽取并人工標(biāo)注一定量的樣本作為訓(xùn)練模型的樣本集,具體的標(biāo)注規(guī)則為:隨機(jī)抽取一條評(píng)論,與對(duì)應(yīng)博文配對(duì)作為一條樣本,若評(píng)論表示支持或者認(rèn)同博文,則標(biāo)注為1;若評(píng)論表示不認(rèn)同、不接受博文,或?qū)Σ┪牡挠^點(diǎn)持中立態(tài)度,或與博文完全不相關(guān),則標(biāo)注樣本為0。采用三人標(biāo)注策略,即先由其中兩人分別對(duì)樣本進(jìn)行標(biāo)注,若兩人意見不一致,則第三人參與標(biāo)注討論,最后投票決定該樣本的標(biāo)注類別,標(biāo)注示例如表1所示。將人工標(biāo)注的樣本集分為訓(xùn)練集、驗(yàn)證集與測試集,并應(yīng)用于訓(xùn)練模型。
表1 樣本標(biāo)注示例Table 1 Sample annotation example
利用準(zhǔn)確率A、精確率P、召回率R和F1值4種標(biāo)準(zhǔn)評(píng)價(jià)獲得的模型。4種標(biāo)準(zhǔn)的公式為
式中:TP指真實(shí)值為正,預(yù)測值為正的樣本數(shù);FP指真實(shí)值為負(fù),預(yù)測值為正的樣本數(shù);FN指真實(shí)值為正,預(yù)測值為負(fù)的樣本數(shù);TN指真實(shí)值為負(fù),預(yù)測值為負(fù)的樣本數(shù)。
3) 檢測評(píng)論立場信息并篩選高效用輿情內(nèi)容
應(yīng)用完成訓(xùn)練并通過測試的立場檢測模型預(yù)測評(píng)論針對(duì)博文的立場信息,統(tǒng)計(jì)每一則博文獲得的大眾認(rèn)同度,認(rèn)同度計(jì)算公式為
式中:In為第n則博文的認(rèn)同度,Sn為對(duì)博文n表示支持的評(píng)論數(shù),Tn為博文n的總評(píng)論數(shù)。如果某一博文的In值大于50%,則認(rèn)為該博文獲得了大眾的認(rèn)同,可作為高效用輿情內(nèi)容保留,參與下一階段的主題挖掘;否則判定該博文沒有被大眾接受,將其剔除。
本文采用句子級(jí)別的主題挖掘方法,對(duì)高效用輿情內(nèi)容進(jìn)行主題聚類,然后從每個(gè)簇的句子集中選取與聚類中心余弦相似度最高的3個(gè)句子作為主題句,并組成主題摘要,具體方法如下。
(1) 根據(jù)標(biāo)點(diǎn)符號(hào)(如“。”“?”“!”“······”)將博文文本切分為數(shù)個(gè)以單個(gè)句子為單位的文本。由于網(wǎng)友的表達(dá)具有一定的隨意性,本文也將英文格式的標(biāo)點(diǎn)符號(hào)作為切分依據(jù)。
(2) 句子向量化。首先應(yīng)用預(yù)訓(xùn)練的Word2Vec模型將博文句子文本的詞語向量化;然后將每個(gè)詞向量相加,獲得句子向量。
(3) K-means主題聚類。借助手肘法和數(shù)據(jù)分布圖確定聚類類別數(shù),再應(yīng)用K-means算法對(duì)博文句子集進(jìn)行聚類,將語義相似的句子向量聚合成為一個(gè)主題類。其中,手肘法是確定K-means聚類類別數(shù)k的常用方法,先繪制不同類別數(shù)k的聚類偏差圖,再選取聚類偏差驟變的類別數(shù)k作為最終的聚類類別數(shù)。
(4) 句子重要性計(jì)算。針對(duì)上一步形成的每個(gè)主題類,計(jì)算其中每個(gè)句子向量與聚類中心的余弦相似度,用以評(píng)估句子的重要性。與聚類中心相似度值越高的句子,其重要性越高。余弦相似度ε 的公式為
式中:δi和 γi分別是句子向量和聚類中心向量的元素。
(5) 主題抽取。選取每個(gè)主題類中重要性最高的3個(gè)句子,作為該主題的代表,并組成主題摘要。
2020年7月,新聞媒體報(bào)道了一起社會(huì)安全類事件:“杭州江干區(qū)一女子在小區(qū)離奇失蹤”,很快便引發(fā)了廣泛關(guān)注。大量網(wǎng)民通過新浪微博平臺(tái)積極參與該事件的討論,相關(guān)話題頻頻登上熱搜榜。本文將以該事件作為案例,以新浪微博平臺(tái)作為網(wǎng)絡(luò)輿情數(shù)據(jù)來源,并進(jìn)行輿情演化的實(shí)證分析。結(jié)合百度指數(shù),可以確定大眾網(wǎng)民對(duì)“杭州女子失蹤案”的相關(guān)搜索規(guī)模和關(guān)注周期,事件的輿情熱度趨勢圖如圖6所示。本文綜合考慮爬蟲程序的工作效率和新浪微博平臺(tái)的搜索特點(diǎn),使用后羿采集器,以“杭州失蹤”為搜索關(guān)鍵詞,抓取2020年7月14日~2020年8月4日的微博數(shù)據(jù)。獲取微博博文、評(píng)論等信息后,經(jīng)過刪除信息缺失的微博博文和評(píng)論、去除@、#、URL鏈接等預(yù)處理步驟,最終保留了2 656條博文、287 778條評(píng)論。
圖6 “杭州女子失蹤案”輿情熱度趨勢圖Fig.6 "A Hangzhou Woman Missing Case" public opinion heat trend chart
本文采用廣泛應(yīng)用于中文分詞的Python編程語言的第三方庫Jieba分詞器,對(duì)預(yù)處理后的博文、評(píng)論文本數(shù)據(jù)進(jìn)行分詞。初步分詞后發(fā)現(xiàn),Jieba分詞器的默認(rèn)詞典沒有收錄“杭州女子失蹤案”的相關(guān)詞匯、法律詞匯和網(wǎng)絡(luò)流行新詞,整體的分詞效果欠佳。因此,本文決定參考文獻(xiàn)[14]的方法提升分詞效果,結(jié)合搜狗輸入法的法律詞匯大全詞庫、日常用語詞庫、網(wǎng)絡(luò)流行新詞庫和圖悅生成的“杭州女子失蹤案”高頻的150詞,共65 725個(gè)詞匯,制作自定義用戶詞典并融入分詞器。另外,本文借助哈爾濱工業(yè)大學(xué)停用詞表刪除文本數(shù)據(jù)的停用詞。
在眾多的詞語向量化模型中,Word2Vec模型具有通用性強(qiáng)、生成的向量維度低、效果好、訓(xùn)練速度快等優(yōu)點(diǎn)。本文決定采用Word2Vec模型進(jìn)行詞語向量化,使用P y t h o n 編程語言的G e n s i m 模塊、Word2Vec工具的Skip-gram框架,設(shè)定詞向量為300維,以約1.3 G的Wiki百科中文語料和抓取的19 MB“杭州女子失蹤案”微博文本語料為模型訓(xùn)練語料。
從圖6可以看出,在輿情初期階段相關(guān)搜索量較少,首次搜索出現(xiàn)在2020年7月16日,第一次極值出現(xiàn)在2020年7月21日,整個(gè)輿情生命周期的熱度峰值出現(xiàn)在2020年7月24日,2020年7月27日后事件熱度迅速大幅度下降并慢慢趨于平緩。這一系列的演化過程符合網(wǎng)絡(luò)輿情傳播三階段模型。為了便于研究,本文借鑒杜洪濤等[19]的方法將“杭州女子失蹤案”的輿情演化過程劃分為形成(擴(kuò)散)、高潮和消散三個(gè)階段,其中,形成(擴(kuò)散)階段為2020年7月16日~2020年7月22日;高潮階段為2020年7月23日~2020年7月26日;消散階段為2020年7月27日~2020年8月4日。劃分階段后,將每個(gè)階段內(nèi)容相同的博文進(jìn)行合并,將博文的評(píng)論數(shù)相加并合并評(píng)論數(shù)據(jù)集。為了排除偶然性的影響,刪除合并后評(píng)論數(shù)低于10的博文,最終剩下2 076條博文。
在識(shí)別每階段的高效用輿情內(nèi)容前,需要訓(xùn)練立場檢測模型,檢測所有評(píng)論針對(duì)其博文的立場信息。為此,本文共標(biāo)注了約4 300條樣本,并以7:1:2的比例劃分為訓(xùn)練集、驗(yàn)證集與測試集。使用Python編程語言的Keras框架搭建立場檢測模型,最終模型的準(zhǔn)確率為83.12%,查準(zhǔn)率為83.15%,召回率為83.12%,F(xiàn)1值為83.11%,達(dá)到較滿意的效果,可用于當(dāng)前任務(wù)。將訓(xùn)練完畢的立場檢測模型應(yīng)用于檢測評(píng)論的立場信息,并計(jì)算博文大眾認(rèn)同度。將每個(gè)階段的大眾認(rèn)同度大于等于50%的博文看作是高效用輿情內(nèi)容,留作下一階段主題挖掘的數(shù)據(jù),其中,形成(擴(kuò)散)階段302條,高潮階段635條,消散階段69條。
然后,應(yīng)用本文2.3提出的方法挖掘“杭州女子失蹤案”的輿情生命周期各階段的高效用主題。根據(jù)標(biāo)點(diǎn)符號(hào)分別對(duì)高效用博文進(jìn)行句子分割,獲得形成(擴(kuò)散)階段1 226個(gè)句子;高潮階段1 583個(gè)句子;消退階段330個(gè)句子。使用python的matplotlib工具包畫出每個(gè)階段的聚類偏差圖,根據(jù)手肘法初步確定每個(gè)階段的類別數(shù),再對(duì)比不同類別的數(shù)據(jù)分布圖可以最終確定形成(擴(kuò)散)階段類別數(shù)為3類、高潮階段類別數(shù)為3類、消退階段類別數(shù)為2類?;赪ord2Vec模型將每個(gè)階段的句子向量化后,使用python的sklearn工具包的K-means聚類分別進(jìn)行主題聚類,選取與聚類中心余弦相似度最高的3個(gè)句子作為主題句,并組成主題摘要,結(jié)果如表2所示。
表2 主題挖掘結(jié)果(高潮階段示例)Table 2 Topic mining results (example of climax stage)
基于立場檢測和主題挖掘的突發(fā)公共事件網(wǎng)絡(luò)輿情演化研究方法有2個(gè)創(chuàng)新點(diǎn),一是從輿情效用的角度出發(fā),挖掘出大眾網(wǎng)民接受、認(rèn)同的輿情內(nèi)容;二是引進(jìn)主題句分析以解決傳統(tǒng)詞語級(jí)別主題分析在輿情演化研究中的描述擴(kuò)充難、主觀性強(qiáng)等問題。為了驗(yàn)證本文方法的有效性,以“杭州女子失蹤案”輿情的高潮階段數(shù)據(jù)為例,將本文方法(方法①)、基于K-means和Term Frequency算法的主題詞模型(方法②)和直接進(jìn)行主題句挖掘的方法(方法③)3種輿情演化研究方法的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析,如表3所示。
表3 3種方法的挖掘結(jié)果Table 3 Mining results of 3 methods
結(jié)合K-means和IDF算法的主題模型是常用于輿情演化分析的詞語級(jí)別的輿情主題挖掘方法,先對(duì)輿情文本內(nèi)容進(jìn)行分詞,再對(duì)詞語進(jìn)行K-means聚類,最后計(jì)算每個(gè)類別詞語的Term Frequency值,并選出高Term Frequency值的詞語作為輿情主題;直接進(jìn)行主題句挖掘的方法是指輿情內(nèi)容沒有經(jīng)過篩選,直接應(yīng)用K-means算法對(duì)輿情句子進(jìn)行主題聚類。從表格4可以看出,3種方法均能較好地挖掘出“杭州女子失蹤案”輿情的主題,但是方法②和方法③在實(shí)際的輿情演化分析中具有一定的局限性。方法②挖掘的主題詞缺乏關(guān)聯(lián)性,難以明確地反映主題的真實(shí)含義和輿情演化的情況,必須人工了解事件輿情,對(duì)主題詞進(jìn)行描述擴(kuò)充后,才能確定主題含義,存在描述困難的問題,而本文應(yīng)用主題句挖掘,能直接理解主題上下文含義。方法③與本文方法的主題核心內(nèi)容有一定相似性,但方法③的TopicII-3均是輿情效用價(jià)值低的輿情內(nèi)容,例如:主題句(1)認(rèn)為失蹤女子丈夫是偵察兵,隨后被認(rèn)定為謠言,受到大量網(wǎng)民指責(zé),沒有被廣泛傳播;主題句(2)和(3)均是指責(zé)鄰居或物業(yè),隨后被網(wǎng)民認(rèn)為是毫無根據(jù)的猜測,沒有被認(rèn)可接受。方法③挖掘的主題包括沒有被大眾網(wǎng)民接受、認(rèn)同的輿情內(nèi)容,在短暫的時(shí)間內(nèi)可能會(huì)吸引到關(guān)注力,但實(shí)際上沒有對(duì)大眾造成影響,無法獲得輿情傳播力和影響力。對(duì)比之下,本文挖掘的主題為大眾網(wǎng)民認(rèn)同、接受的輿情內(nèi)容,容易對(duì)大眾網(wǎng)民的認(rèn)知造成沖擊,甚至迅速感染其他用戶從而導(dǎo)致輿論爆發(fā)。因此,本文提出的突發(fā)公共事件網(wǎng)絡(luò)輿情演化研究方法更具有科學(xué)性與實(shí)用性。
為了進(jìn)一步驗(yàn)證本文方法在實(shí)際案例輿情分析中的實(shí)用性和有效性,本文概括每個(gè)階段的主題摘要,如表4所示,并進(jìn)一步深入分析不同階段的主題,更加詳細(xì)地揭示突發(fā)公共事件的輿情演化特點(diǎn)。
表4 主題摘要概況Table 4 Topic summary overview
結(jié)合主題挖掘的結(jié)果和輿情的演化進(jìn)程可以看出,立場檢測模型有效地挖掘了大眾接受、認(rèn)同的消息和觀點(diǎn),較準(zhǔn)確地發(fā)現(xiàn)了能持續(xù)產(chǎn)生影響或能演變出輿情新方向的高效用價(jià)值信息,同時(shí)也剔除了不被大眾網(wǎng)民接受的信息,如“失蹤女子丈夫借錢炒股”“丈夫聯(lián)合兒子綁架其妻子”等謠言,這些消息被較多網(wǎng)民認(rèn)定為不實(shí)消息,并沒有引起持續(xù)的關(guān)注。
對(duì)整個(gè)周期的主題進(jìn)行全面的歸納總結(jié),分析輿情演化方向和演化方向的特征。從突發(fā)公共事件輿情的整個(gè)演化周期來看,輿情演化方向主要集中在:(1) 對(duì)“杭州女子失蹤案”的案情介紹和跟蹤報(bào)道,例如:案發(fā)小區(qū)的監(jiān)控沒有留下任何痕跡、警方在案發(fā)小區(qū)的化糞池中檢測發(fā)現(xiàn)疑似人體組織的物質(zhì)等。(2) 發(fā)表觀點(diǎn)和看法,例如:分析案件、提供破案思路、認(rèn)為案件存在疑點(diǎn)和回顧惡性案件統(tǒng)計(jì)分析等。(3) 表達(dá)情感,例如:譴責(zé)兇手、指責(zé)網(wǎng)紅主播蹭流量、痛斥部分媒體發(fā)布未經(jīng)核實(shí)信息和部分網(wǎng)友惡意“頑?!薄⒈磉_(dá)對(duì)婚姻和人性的懷疑等。也可以看出,突發(fā)公共事件輿情主要演化方向具有以下特征:(1) 事件發(fā)生后,迅速聚焦到熱點(diǎn)案件上,并注重持續(xù)跟蹤。(2) 以敏銳的視角發(fā)現(xiàn)事件的新情況和敏感點(diǎn)。(3) 在事件關(guān)鍵節(jié)點(diǎn),以獨(dú)特的視角,清晰、合理表達(dá)觀點(diǎn);(4) 圍繞大眾最感興趣、最關(guān)心的問題展開討論。(5) 內(nèi)容具有正面導(dǎo)向性。(6) 抓住大眾的共鳴點(diǎn),在情感和情緒上影響大眾。
本文從輿情效用的視角提出了一種基于立場檢測和主題挖掘的突發(fā)公共事件輿情演化分析的方法,結(jié)合輿情生命周期理論,創(chuàng)新性地構(gòu)建了新的立場檢測模型,計(jì)算每個(gè)階段的博文的大眾認(rèn)同度,剔除沒有被大眾用戶接受、認(rèn)同的博文,篩選出高效用的輿情內(nèi)容,最后基于Word2Vec模型和K-means算法對(duì)高效用的輿情內(nèi)容進(jìn)行句子級(jí)別的主題發(fā)掘。以“杭州女子失蹤案”微博數(shù)據(jù)為例,將本文方法與多種方法進(jìn)行對(duì)比分析,驗(yàn)證本文方法的可行性,并進(jìn)行了突發(fā)公共事件網(wǎng)絡(luò)輿情演化分析,表明本文方法能在實(shí)際案例中聚焦關(guān)鍵點(diǎn),具有一定實(shí)用性。目前,鮮有學(xué)者將立場檢測應(yīng)用于輿情演化分析。在理論層面,提出了一種較為有效、準(zhǔn)確的高效用輿情內(nèi)容識(shí)別和分析方法,也為網(wǎng)絡(luò)輿情演化的研究提供了新視角。在應(yīng)用層面,有利于輿情監(jiān)管部門準(zhǔn)確地獲取影響大眾用戶思想的輿情信息,掌握輿情演變的方向,從而提高網(wǎng)絡(luò)輿情監(jiān)管水平,做到精準(zhǔn)高效地預(yù)警和制定對(duì)策。
本文也存在一定的局限性:方法應(yīng)用于其他平臺(tái)需進(jìn)一步探討和研究。因?yàn)槲⒉┎┲饔泻Y選評(píng)論的功能和存在某些博主刪除博文的情況,這會(huì)造成數(shù)據(jù)少量缺失。使用K-means聚類會(huì)出現(xiàn)聚類中心不穩(wěn)定的情況。立場檢測僅僅考慮文本信息,未來還需要應(yīng)用多模態(tài)模型,融入圖像、視頻等信息。