融合立場檢測和主題挖掘的突發(fā)公共事件網(wǎng)絡(luò)輿情演化研究

2022-05-26 07:39劉高勇黃靖釗艾丹祥

廣東工業(yè)大學(xué)學(xué)報(bào) 2022年3期

劉高勇，黃靖釗，艾丹祥

（廣東工業(yè)大學(xué) 管理學(xué)院, 廣東廣州 510520）

突發(fā)公共事件是指突然發(fā)生的，造成或可能造成嚴(yán)重社會(huì)危害，需采取有效措施進(jìn)行應(yīng)急處置的事件，包括自然災(zāi)害、事故災(zāi)難、公共衛(wèi)生、社會(huì)安全等[1]。突發(fā)公共事件中往往存在復(fù)雜、富有爭議性的因素，容易引起民眾的關(guān)注和討論，而互聯(lián)網(wǎng)信息渠道的便利性和實(shí)時(shí)性，進(jìn)一步提升了突發(fā)公共事件的擴(kuò)散速度和社會(huì)影響范圍。同時(shí)，網(wǎng)絡(luò)自媒體、社交媒體的平民化、普泛化等特點(diǎn)使事件傳播過程中的輿情走向難以預(yù)測。如果突發(fā)公共事件輿情演化過程中缺乏有效的引導(dǎo)和控制，可能會(huì)對(duì)社會(huì)穩(wěn)定造成危害。因此，充分地探索突發(fā)公共事件網(wǎng)絡(luò)輿情的演化規(guī)律，構(gòu)建科學(xué)有效的治理機(jī)制是具有重要意義的研究工作。

事實(shí)上，在突發(fā)公共事件的輿情生命周期中，充斥著形形色色的消息和評(píng)論，但不同的內(nèi)容具有不同的輿情效用：事件報(bào)道類信息在首次出現(xiàn)時(shí)效用最大，之后的重復(fù)轉(zhuǎn)發(fā)則會(huì)隨著內(nèi)容的傳播擴(kuò)散而逐步降低輿情價(jià)值；事件評(píng)論類信息的效用與大眾的認(rèn)可度相關(guān)，不被大眾接受的觀點(diǎn)和看法，會(huì)隨著時(shí)間慢慢“褪去”，無法獲得輿情中的傳播力和影響力；而被大眾支持和贊同的觀點(diǎn)，將會(huì)持續(xù)引導(dǎo)事件輿情的傳播速度和方向，甚至能夠迅速感染其他用戶從而導(dǎo)致輿論的爆發(fā)。當(dāng)前的輿情演化分析方法，無論是基于主題抽取還是情感分析，都缺乏對(duì)網(wǎng)絡(luò)數(shù)據(jù)輿情效用的評(píng)估，使用高成本挖掘輿情價(jià)值較低的內(nèi)容，而高價(jià)值的內(nèi)容被海量數(shù)據(jù)“淹沒”，無法獲得重視和聚焦。

鑒于此，本文從考慮網(wǎng)絡(luò)數(shù)據(jù)輿情效用的視角出發(fā)，改進(jìn)前人的輿情演化分析方法。先構(gòu)建基于深度學(xué)習(xí)的文本立場檢測模型和主題句挖掘模型，篩選出被大眾用戶認(rèn)同或接受的輿情內(nèi)容，再針對(duì)此類高效用價(jià)值的輿情信息進(jìn)行主題挖掘和演化分析，以便更加快速和準(zhǔn)確地揭示突發(fā)公共事件的輿情演化規(guī)律。

1 相關(guān)研究

1.1 立場檢測

立場檢測任務(wù)主要是通過自然語言處理技術(shù)，檢測給定文本針對(duì)某特定目標(biāo)文本的立場傾向是支持、反對(duì)還是中立[2]。最初的立場檢測研究僅僅側(cè)重于國會(huì)辯論或在線論壇的應(yīng)用分析[3-4]，直到2016年，第五屆自然語言處理與中文計(jì)算會(huì)議[5]和International Workshop on Semantic Evaluation[2]分別推出了中文微博和英文推特的立場檢測任務(wù)，使學(xué)者們的關(guān)注力轉(zhuǎn)移到了微博和推特的文本立場檢測。

常見的立場檢測模型是深度學(xué)習(xí)模型或基于特征工程的機(jī)器學(xué)習(xí)模型?；谔卣鞴こ痰膫鹘y(tǒng)機(jī)器學(xué)習(xí)模型[6-7]常?；ㄙM(fèi)大量的人力和時(shí)間添加自定義詞典或相關(guān)領(lǐng)域知識(shí)，以構(gòu)建特征工程挖掘復(fù)雜的、富含領(lǐng)域知識(shí)的語義特征。相比之下，深度學(xué)習(xí)模型擁有更加高效的自特征提取能力，更適用于立場檢測任務(wù)。Kazuaki等[8]利用Bi-LSTM(Bi-directional Long Short-Term Memory)模型驗(yàn)證了數(shù)據(jù)集外部的知識(shí)對(duì)于提升立場檢測的準(zhǔn)確度有著顯著的效果。白靜等[9]使用了Bi-LSTM和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)模型，結(jié)合注意力機(jī)制，分別獲取文本表示向量和局部卷積特征，再在局部卷積特征中加入權(quán)重，最后將兩種特征融合進(jìn)行分類，提升了立場檢測的分類效果。周艷芳等[10]基于Bi-LSTM和遷移學(xué)習(xí)，證明了混合字、詞特征能夠提高立場分類的性能。

目前，較多的學(xué)者在進(jìn)行立場檢測任務(wù)時(shí)，直接對(duì)給定文本進(jìn)行立場分類，忽略了目標(biāo)文本的信息，沒有較好地判斷給定文本和目標(biāo)文本的語義信息關(guān)系。為了充分融合給定文本和目標(biāo)文本的語義信息進(jìn)行立場分類，本文基于Word2Vec模型[11]，結(jié)合Bi-LSTM和CNN兩種深度學(xué)習(xí)模型，構(gòu)建新的立場檢測模型。

1.2 主題挖掘

最早的主題挖掘是由美國的Luhn[12]提出的基于詞頻統(tǒng)計(jì)的主題挖掘。近年來，主題挖掘更是受到了不少學(xué)者的關(guān)注，其中最受矚目的是基于詞語級(jí)別的主題挖掘。Wei等[13]提出了一種基于條件共現(xiàn)度的主題詞發(fā)現(xiàn)方法；安璐等[14]基于 Word2Vec模型，使用K-mean算法分別提取了突發(fā)事件輿情生命周期各階段的微博博文主題詞；李躍鵬等[15]使用K-mean算法對(duì)基于Word2Vec模型向量化后的詞語進(jìn)行聚類，并計(jì)算詞語間的相似度，最后將每個(gè)類別中與聚類中心相似度最高的詞語作為關(guān)鍵詞。然而，在分析網(wǎng)絡(luò)輿情文本數(shù)據(jù)時(shí)，缺少關(guān)聯(lián)性的主題詞語很難明確地反映其蘊(yùn)含的語義，必須要經(jīng)過人工了解事件輿情，對(duì)主題詞擴(kuò)充描述后才能確定主題的內(nèi)容。人工擴(kuò)充描述存在描述困難的問題，容易出現(xiàn)描述偏差，導(dǎo)致研究結(jié)果過于主觀。

句子級(jí)別的主題能避免人工描述過度主觀的問題。為了彌補(bǔ)詞語級(jí)別主題的缺點(diǎn)，學(xué)者們開始聚焦句子級(jí)別的主題挖掘。孔勝等[16]提出了基于句子相似度的文本主題句提取算法；唐曉波等[17]基于句子相似矩陣進(jìn)行主題聚類，再利用改進(jìn)的LexRank算法找出重要度較高的句子生成主題摘要；萬國等[18]選取位置特征和標(biāo)題句子重合度與關(guān)聯(lián)度的特征，對(duì)句子進(jìn)行得分排名，提取出主題句。

與詞語級(jí)別的主題相比，句子級(jí)別的主題在后續(xù)的網(wǎng)絡(luò)輿情演化分析應(yīng)用中具有一定的優(yōu)越性。因此，本文參考前人的研究，基于Word2Vec模型和K-means算法對(duì)高效用價(jià)值的輿情內(nèi)容進(jìn)行句子級(jí)別的主題挖掘，抽取出主題句，生成主題摘要。

1.3 輿情演化周期

突發(fā)公共事件的演化具有特定的生命周期，但不同學(xué)者的研究角度不同，生命周期劃分模式也就不同，常見的模式有三階段劃分模式、四階段劃分模式、五階段劃分模式等。杜洪濤等[19]將突發(fā)事件的演化周期劃分為形成(擴(kuò)散)階段、高潮階段、消退階段；Fink[20]從醫(yī)學(xué)角度提出了經(jīng)典的四階段劃分模式，把突發(fā)事件劃分為潛伏期、爆發(fā)期、延續(xù)期和痊愈期；賈亞敏等[21]將城市突發(fā)事件網(wǎng)絡(luò)輿情的傳播演化周期劃分為起始階段、爆發(fā)階段、衰退階段與平息階段；王曰芬等[22]結(jié)合生命周期理論與輿情變化數(shù)將事件輿情劃分為五個(gè)階段：爆發(fā)期一、衰退期一、爆發(fā)期二、爆發(fā)期三和衰退期二及平緩期。這些研究多是以生命周期理論為指導(dǎo)，按照事件發(fā)生序列，對(duì)突發(fā)事件的輿情演化模式進(jìn)行細(xì)致分析，深入挖掘事件輿情演化的有效信息。在前人的研究基礎(chǔ)上，本文結(jié)合突發(fā)公共事件的特點(diǎn)劃分事件輿情演化的生命周期階段。

2 研究框架和方法

2.1 研究框架

本文以特定的突發(fā)公共事件為例，基于立場檢測和主題挖掘，提出了新的突發(fā)公共事件輿情演化研究框架，如圖1所示，包括數(shù)據(jù)采集和預(yù)處理、劃分輿情演化生命周期、篩選高效用輿情內(nèi)容、主題挖掘。具體步驟為：(1) 利用采集器獲取特定突發(fā)公共事件的微博數(shù)據(jù)集，包括博文文本語料、評(píng)論文本語料等，并對(duì)相關(guān)數(shù)據(jù)進(jìn)一步預(yù)處理；(2) 根據(jù)生命周期理論，結(jié)合突發(fā)公共事件熱度在時(shí)間序列上的變化，劃分輿情演化生命周期階段；(3) 構(gòu)建新的立場檢測模型，識(shí)別評(píng)論針對(duì)博文的立場信息，挖掘出被大眾用戶支持、認(rèn)同的博文，以篩選出高效用的輿情內(nèi)容；(4) 基于Word2Vec模型和K-means算法，分別對(duì)每個(gè)階段的高效用的輿情內(nèi)容進(jìn)行主題挖掘。

圖1 基于立場檢測和主題挖掘的突發(fā)公共事件輿情演化研究框架Fig.1 Research framework of public opinion evolution of public emergencies based on stance detection and topic mining

2.2 基于深度學(xué)習(xí)的立場檢測模型篩選高效用輿情內(nèi)容

本文基于深度學(xué)習(xí)構(gòu)建新的立場檢測模型，如圖2所示，檢測評(píng)論針對(duì)其對(duì)應(yīng)博文的立場，再計(jì)算每條博文獲得的大眾認(rèn)同度，以挖掘出大眾用戶接受、認(rèn)同的博文，識(shí)別出效用價(jià)值較高的輿論信息，提高突發(fā)公共事件輿情演化的分析效率。篩選高效用輿情內(nèi)容的具體步驟為

圖2 立場檢測模型Fig.2 Stance detection model

1) 搭建立場檢測模型

立場檢測模型由CNN模型、Bi-LSTM模型和預(yù)訓(xùn)練的Word2Vec模型構(gòu)成，共包括3層。

(1) Embedding層：Embedding層以預(yù)訓(xùn)練的Word2Vec模型為基礎(chǔ)，能將一個(gè)句子轉(zhuǎn)換為m×n的向量矩陣，例如：將已分詞的博文(如：這是、疑案、不是、靈異 ······)和評(píng)論(如：同感、大概率、已經(jīng)、遇害······)輸入Embedding層，分別獲得m×n的博文和評(píng)論詞向量矩陣，其中m為句子的詞語數(shù)量，n為詞向量的維數(shù)。

(2) Bi-LSTM層：Bi-LSTM的基礎(chǔ)構(gòu)件是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network，RNN)的變體LSTM，如圖3所示。LSTM每個(gè)隱藏層包括了遺忘門ft，輸入門it，輸出門ot，其中遺忘門ft負(fù)責(zé)控制模型遺忘上一層信息的比例，輸入門it決定當(dāng)前層的輸入信息比例，輸出門ot決定當(dāng)前層輸出信息比例。詳細(xì)公式為

圖3 LSTM結(jié)構(gòu)圖Fig.3 LSTM structure diagram

式中：ht-1是上一階段的隱藏層的狀態(tài)；xt是當(dāng)前階段的隱藏層輸入，即由Word2Vec模型預(yù)訓(xùn)練獲得的詞向量；是當(dāng)前階段的臨時(shí)細(xì)胞狀態(tài)；Ct-1、Ct表示上一階段和當(dāng)前的細(xì)胞狀態(tài)；ht是現(xiàn)階段當(dāng)前的隱藏層狀態(tài)；Whf、Wxf、Whi、Wxi、Whc～、Wxc～、Who、Wxo是相應(yīng)控制門的模型權(quán)重；b是偏置向量；σ 是sigmoid激活函數(shù)；tanh為雙曲正切函數(shù)；* 是向量逐點(diǎn)相乘運(yùn)算。

基于門控RNN的LSTM解決了傳統(tǒng)RNN中長期依賴和梯度消失的問題，但是LSTM僅從前往后編碼句子，只能獲取到從前向后的上下文語義信息，不能獲取從后向前的上下文語義信息。Bi-LSTM將前向和后向的兩層LSTM結(jié)合起來，能更好地從兩個(gè)方向獲取上下文語義信息，如圖4所示，其中，αn和 βn分別代表了前向和后向的LSTM。前向和后向的兩層LSTM各自輸出結(jié)果進(jìn)行拼接得到，作為Bi-LSTM的輸出hn。

圖4 Bi-LSTM結(jié)構(gòu)圖Fig.4 Bi-LSTM structure diagram

該層以2個(gè)Bi-LSTM模型為基礎(chǔ)，分別用于學(xué)習(xí)博文和評(píng)論的上下文語義信息。首先，將博文和評(píng)論的詞向量矩陣輸入Bi-LSTM模型，分別輸出博文、評(píng)論上下文語義信息矩陣；然后，將博文上下文語義信息矩陣和評(píng)論上下文語義信息矩陣進(jìn)行矩陣相乘，融合博文和評(píng)論的語義信息，獲得博文-評(píng)論混合語義信息矩陣。

(3) CNN層：CNN層是基于CNN模型的分類層，用于對(duì)博文-評(píng)論混合語義信息矩陣進(jìn)行特征提取，并實(shí)現(xiàn)評(píng)論立場分類，網(wǎng)絡(luò)結(jié)構(gòu)的搭建見圖5。

圖5 CNN結(jié)構(gòu)圖Fig.5 CNN structure diagram

輸入層：輸入的是博文-評(píng)論的語義混合矩陣X。

卷積層：卷積層是CNN的核心，含有多個(gè)卷積核，通過對(duì)輸入矩陣X卷積運(yùn)算獲得更高級(jí)的特征表示。每個(gè)卷積核滑動(dòng)局部窗口對(duì)輸入矩陣進(jìn)行卷積操作，獲得特征向量，并通過非線性激活函數(shù)處理，從而獲得本層輸出的特征，公式為

式中：X為輸入的特征矩陣；Wc為卷積核；b為偏置向量；g表示非線性激活函數(shù)，而本文應(yīng)用ReLU函數(shù)，能夠降低學(xué)習(xí)周期；cq為該卷積核在位置q的卷積特征。

池化層：池化層的作用是將卷積層得到的特征進(jìn)行特征采樣。池化層分為最大池化和平均池化，而本文使用的是最大值池化，即選取最大特征值進(jìn)行拼接。

分類層：該層是將池化后的特征進(jìn)行重新擬合，再實(shí)現(xiàn)最終的評(píng)論立場分類(支持不支持)。在CNN模型的基礎(chǔ)上添加全連接層，最后通過Sigmoid分類器進(jìn)行分類。公式為

式中：y為分類標(biāo)簽； σ為sigmoid函數(shù)；W為權(quán)重向量；v為得到的文本的高層特征向量；b為偏置向量。

2) 訓(xùn)練立場檢測模型

為了訓(xùn)練立場檢測模型，本文從事件數(shù)據(jù)集中抽取并人工標(biāo)注一定量的樣本作為訓(xùn)練模型的樣本集，具體的標(biāo)注規(guī)則為：隨機(jī)抽取一條評(píng)論，與對(duì)應(yīng)博文配對(duì)作為一條樣本，若評(píng)論表示支持或者認(rèn)同博文，則標(biāo)注為1；若評(píng)論表示不認(rèn)同、不接受博文，或?qū)Σ┪牡挠^點(diǎn)持中立態(tài)度，或與博文完全不相關(guān)，則標(biāo)注樣本為0。采用三人標(biāo)注策略，即先由其中兩人分別對(duì)樣本進(jìn)行標(biāo)注，若兩人意見不一致，則第三人參與標(biāo)注討論，最后投票決定該樣本的標(biāo)注類別，標(biāo)注示例如表1所示。將人工標(biāo)注的樣本集分為訓(xùn)練集、驗(yàn)證集與測試集，并應(yīng)用于訓(xùn)練模型。

表1 樣本標(biāo)注示例Table 1 Sample annotation example

利用準(zhǔn)確率A、精確率P、召回率R和F1值4種標(biāo)準(zhǔn)評(píng)價(jià)獲得的模型。4種標(biāo)準(zhǔn)的公式為

式中：TP指真實(shí)值為正，預(yù)測值為正的樣本數(shù)；FP指真實(shí)值為負(fù)，預(yù)測值為正的樣本數(shù)；FN指真實(shí)值為正，預(yù)測值為負(fù)的樣本數(shù)；TN指真實(shí)值為負(fù)，預(yù)測值為負(fù)的樣本數(shù)。

3) 檢測評(píng)論立場信息并篩選高效用輿情內(nèi)容

應(yīng)用完成訓(xùn)練并通過測試的立場檢測模型預(yù)測評(píng)論針對(duì)博文的立場信息，統(tǒng)計(jì)每一則博文獲得的大眾認(rèn)同度，認(rèn)同度計(jì)算公式為

式中：In為第n則博文的認(rèn)同度，Sn為對(duì)博文n表示支持的評(píng)論數(shù)，Tn為博文n的總評(píng)論數(shù)。如果某一博文的In值大于50%，則認(rèn)為該博文獲得了大眾的認(rèn)同，可作為高效用輿情內(nèi)容保留，參與下一階段的主題挖掘；否則判定該博文沒有被大眾接受，將其剔除。

2.3 采用句子級(jí)別的主題挖掘?qū)Ω咝в幂浨閮?nèi)容進(jìn)行主題聚類

本文采用句子級(jí)別的主題挖掘方法，對(duì)高效用輿情內(nèi)容進(jìn)行主題聚類，然后從每個(gè)簇的句子集中選取與聚類中心余弦相似度最高的3個(gè)句子作為主題句，并組成主題摘要，具體方法如下。

(1) 根據(jù)標(biāo)點(diǎn)符號(hào)(如“。”“？”“！”“······”)將博文文本切分為數(shù)個(gè)以單個(gè)句子為單位的文本。由于網(wǎng)友的表達(dá)具有一定的隨意性，本文也將英文格式的標(biāo)點(diǎn)符號(hào)作為切分依據(jù)。

(2) 句子向量化。首先應(yīng)用預(yù)訓(xùn)練的Word2Vec模型將博文句子文本的詞語向量化；然后將每個(gè)詞向量相加，獲得句子向量。

(3) K-means主題聚類。借助手肘法和數(shù)據(jù)分布圖確定聚類類別數(shù)，再應(yīng)用K-means算法對(duì)博文句子集進(jìn)行聚類，將語義相似的句子向量聚合成為一個(gè)主題類。其中，手肘法是確定K-means聚類類別數(shù)k的常用方法，先繪制不同類別數(shù)k的聚類偏差圖，再選取聚類偏差驟變的類別數(shù)k作為最終的聚類類別數(shù)。

(4) 句子重要性計(jì)算。針對(duì)上一步形成的每個(gè)主題類，計(jì)算其中每個(gè)句子向量與聚類中心的余弦相似度，用以評(píng)估句子的重要性。與聚類中心相似度值越高的句子，其重要性越高。余弦相似度ε 的公式為

式中：δi和 γi分別是句子向量和聚類中心向量的元素。

(5) 主題抽取。選取每個(gè)主題類中重要性最高的3個(gè)句子，作為該主題的代表，并組成主題摘要。

3 實(shí)驗(yàn)設(shè)計(jì)和分析

3.1 實(shí)驗(yàn)數(shù)據(jù)和預(yù)處理

2020年7月，新聞媒體報(bào)道了一起社會(huì)安全類事件：“杭州江干區(qū)一女子在小區(qū)離奇失蹤”，很快便引發(fā)了廣泛關(guān)注。大量網(wǎng)民通過新浪微博平臺(tái)積極參與該事件的討論，相關(guān)話題頻頻登上熱搜榜。本文將以該事件作為案例，以新浪微博平臺(tái)作為網(wǎng)絡(luò)輿情數(shù)據(jù)來源，并進(jìn)行輿情演化的實(shí)證分析。結(jié)合百度指數(shù)，可以確定大眾網(wǎng)民對(duì)“杭州女子失蹤案”的相關(guān)搜索規(guī)模和關(guān)注周期，事件的輿情熱度趨勢圖如圖6所示。本文綜合考慮爬蟲程序的工作效率和新浪微博平臺(tái)的搜索特點(diǎn)，使用后羿采集器，以“杭州失蹤”為搜索關(guān)鍵詞，抓取2020年7月14日～2020年8月4日的微博數(shù)據(jù)。獲取微博博文、評(píng)論等信息后，經(jīng)過刪除信息缺失的微博博文和評(píng)論、去除@、#、URL鏈接等預(yù)處理步驟，最終保留了2 656條博文、287 778條評(píng)論。

圖6 “杭州女子失蹤案”輿情熱度趨勢圖Fig.6 "A Hangzhou Woman Missing Case" public opinion heat trend chart

本文采用廣泛應(yīng)用于中文分詞的Python編程語言的第三方庫Jieba分詞器，對(duì)預(yù)處理后的博文、評(píng)論文本數(shù)據(jù)進(jìn)行分詞。初步分詞后發(fā)現(xiàn)，Jieba分詞器的默認(rèn)詞典沒有收錄“杭州女子失蹤案”的相關(guān)詞匯、法律詞匯和網(wǎng)絡(luò)流行新詞，整體的分詞效果欠佳。因此，本文決定參考文獻(xiàn)[14]的方法提升分詞效果，結(jié)合搜狗輸入法的法律詞匯大全詞庫、日常用語詞庫、網(wǎng)絡(luò)流行新詞庫和圖悅生成的“杭州女子失蹤案”高頻的150詞，共65 725個(gè)詞匯，制作自定義用戶詞典并融入分詞器。另外，本文借助哈爾濱工業(yè)大學(xué)停用詞表刪除文本數(shù)據(jù)的停用詞。

在眾多的詞語向量化模型中，Word2Vec模型具有通用性強(qiáng)、生成的向量維度低、效果好、訓(xùn)練速度快等優(yōu)點(diǎn)。本文決定采用Word2Vec模型進(jìn)行詞語向量化，使用P y t h o n 編程語言的G e n s i m 模塊、Word2Vec工具的Skip-gram框架，設(shè)定詞向量為300維，以約1.3 G的Wiki百科中文語料和抓取的19 MB“杭州女子失蹤案”微博文本語料為模型訓(xùn)練語料。

3.2 數(shù)據(jù)結(jié)果

從圖6可以看出，在輿情初期階段相關(guān)搜索量較少，首次搜索出現(xiàn)在2020年7月16日，第一次極值出現(xiàn)在2020年7月21日，整個(gè)輿情生命周期的熱度峰值出現(xiàn)在2020年7月24日，2020年7月27日后事件熱度迅速大幅度下降并慢慢趨于平緩。這一系列的演化過程符合網(wǎng)絡(luò)輿情傳播三階段模型。為了便于研究，本文借鑒杜洪濤等[19]的方法將“杭州女子失蹤案”的輿情演化過程劃分為形成(擴(kuò)散)、高潮和消散三個(gè)階段，其中，形成(擴(kuò)散)階段為2020年7月16日～2020年7月22日；高潮階段為2020年7月23日～2020年7月26日；消散階段為2020年7月27日～2020年8月4日。劃分階段后，將每個(gè)階段內(nèi)容相同的博文進(jìn)行合并，將博文的評(píng)論數(shù)相加并合并評(píng)論數(shù)據(jù)集。為了排除偶然性的影響，刪除合并后評(píng)論數(shù)低于10的博文，最終剩下2 076條博文。

在識(shí)別每階段的高效用輿情內(nèi)容前，需要訓(xùn)練立場檢測模型，檢測所有評(píng)論針對(duì)其博文的立場信息。為此，本文共標(biāo)注了約4 300條樣本，并以7:1:2的比例劃分為訓(xùn)練集、驗(yàn)證集與測試集。使用Python編程語言的Keras框架搭建立場檢測模型，最終模型的準(zhǔn)確率為83.12%，查準(zhǔn)率為83.15%，召回率為83.12%，F(xiàn)1值為83.11%，達(dá)到較滿意的效果，可用于當(dāng)前任務(wù)。將訓(xùn)練完畢的立場檢測模型應(yīng)用于檢測評(píng)論的立場信息，并計(jì)算博文大眾認(rèn)同度。將每個(gè)階段的大眾認(rèn)同度大于等于50%的博文看作是高效用輿情內(nèi)容，留作下一階段主題挖掘的數(shù)據(jù)，其中，形成(擴(kuò)散)階段302條，高潮階段635條，消散階段69條。

然后，應(yīng)用本文2.3提出的方法挖掘“杭州女子失蹤案”的輿情生命周期各階段的高效用主題。根據(jù)標(biāo)點(diǎn)符號(hào)分別對(duì)高效用博文進(jìn)行句子分割，獲得形成(擴(kuò)散)階段1 226個(gè)句子；高潮階段1 583個(gè)句子；消退階段330個(gè)句子。使用python的matplotlib工具包畫出每個(gè)階段的聚類偏差圖，根據(jù)手肘法初步確定每個(gè)階段的類別數(shù)，再對(duì)比不同類別的數(shù)據(jù)分布圖可以最終確定形成(擴(kuò)散)階段類別數(shù)為3類、高潮階段類別數(shù)為3類、消退階段類別數(shù)為2類?；赪ord2Vec模型將每個(gè)階段的句子向量化后，使用python的sklearn工具包的K-means聚類分別進(jìn)行主題聚類，選取與聚類中心余弦相似度最高的3個(gè)句子作為主題句，并組成主題摘要，結(jié)果如表2所示。

表2 主題挖掘結(jié)果(高潮階段示例)Table 2 Topic mining results (example of climax stage)

3.3 實(shí)驗(yàn)結(jié)果對(duì)比分析

基于立場檢測和主題挖掘的突發(fā)公共事件網(wǎng)絡(luò)輿情演化研究方法有2個(gè)創(chuàng)新點(diǎn)，一是從輿情效用的角度出發(fā)，挖掘出大眾網(wǎng)民接受、認(rèn)同的輿情內(nèi)容；二是引進(jìn)主題句分析以解決傳統(tǒng)詞語級(jí)別主題分析在輿情演化研究中的描述擴(kuò)充難、主觀性強(qiáng)等問題。為了驗(yàn)證本文方法的有效性，以“杭州女子失蹤案”輿情的高潮階段數(shù)據(jù)為例，將本文方法(方法①)、基于K-means和Term Frequency算法的主題詞模型(方法②)和直接進(jìn)行主題句挖掘的方法(方法③)3種輿情演化研究方法的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析，如表3所示。

表3 3種方法的挖掘結(jié)果Table 3 Mining results of 3 methods

結(jié)合K-means和IDF算法的主題模型是常用于輿情演化分析的詞語級(jí)別的輿情主題挖掘方法，先對(duì)輿情文本內(nèi)容進(jìn)行分詞，再對(duì)詞語進(jìn)行K-means聚類，最后計(jì)算每個(gè)類別詞語的Term Frequency值，并選出高Term Frequency值的詞語作為輿情主題；直接進(jìn)行主題句挖掘的方法是指輿情內(nèi)容沒有經(jīng)過篩選，直接應(yīng)用K-means算法對(duì)輿情句子進(jìn)行主題聚類。從表格4可以看出，3種方法均能較好地挖掘出“杭州女子失蹤案”輿情的主題，但是方法②和方法③在實(shí)際的輿情演化分析中具有一定的局限性。方法②挖掘的主題詞缺乏關(guān)聯(lián)性，難以明確地反映主題的真實(shí)含義和輿情演化的情況，必須人工了解事件輿情，對(duì)主題詞進(jìn)行描述擴(kuò)充后，才能確定主題含義，存在描述困難的問題，而本文應(yīng)用主題句挖掘，能直接理解主題上下文含義。方法③與本文方法的主題核心內(nèi)容有一定相似性，但方法③的TopicII-3均是輿情效用價(jià)值低的輿情內(nèi)容，例如：主題句(1)認(rèn)為失蹤女子丈夫是偵察兵，隨后被認(rèn)定為謠言，受到大量網(wǎng)民指責(zé)，沒有被廣泛傳播；主題句(2)和(3)均是指責(zé)鄰居或物業(yè)，隨后被網(wǎng)民認(rèn)為是毫無根據(jù)的猜測，沒有被認(rèn)可接受。方法③挖掘的主題包括沒有被大眾網(wǎng)民接受、認(rèn)同的輿情內(nèi)容，在短暫的時(shí)間內(nèi)可能會(huì)吸引到關(guān)注力，但實(shí)際上沒有對(duì)大眾造成影響，無法獲得輿情傳播力和影響力。對(duì)比之下，本文挖掘的主題為大眾網(wǎng)民認(rèn)同、接受的輿情內(nèi)容，容易對(duì)大眾網(wǎng)民的認(rèn)知造成沖擊，甚至迅速感染其他用戶從而導(dǎo)致輿論爆發(fā)。因此，本文提出的突發(fā)公共事件網(wǎng)絡(luò)輿情演化研究方法更具有科學(xué)性與實(shí)用性。

3.4 輿情演化分析

為了進(jìn)一步驗(yàn)證本文方法在實(shí)際案例輿情分析中的實(shí)用性和有效性，本文概括每個(gè)階段的主題摘要，如表4所示，并進(jìn)一步深入分析不同階段的主題，更加詳細(xì)地揭示突發(fā)公共事件的輿情演化特點(diǎn)。

表4 主題摘要概況Table 4 Topic summary overview

結(jié)合主題挖掘的結(jié)果和輿情的演化進(jìn)程可以看出，立場檢測模型有效地挖掘了大眾接受、認(rèn)同的消息和觀點(diǎn)，較準(zhǔn)確地發(fā)現(xiàn)了能持續(xù)產(chǎn)生影響或能演變出輿情新方向的高效用價(jià)值信息，同時(shí)也剔除了不被大眾網(wǎng)民接受的信息，如“失蹤女子丈夫借錢炒股”“丈夫聯(lián)合兒子綁架其妻子”等謠言，這些消息被較多網(wǎng)民認(rèn)定為不實(shí)消息，并沒有引起持續(xù)的關(guān)注。

對(duì)整個(gè)周期的主題進(jìn)行全面的歸納總結(jié)，分析輿情演化方向和演化方向的特征。從突發(fā)公共事件輿情的整個(gè)演化周期來看，輿情演化方向主要集中在：(1) 對(duì)“杭州女子失蹤案”的案情介紹和跟蹤報(bào)道，例如：案發(fā)小區(qū)的監(jiān)控沒有留下任何痕跡、警方在案發(fā)小區(qū)的化糞池中檢測發(fā)現(xiàn)疑似人體組織的物質(zhì)等。(2) 發(fā)表觀點(diǎn)和看法，例如：分析案件、提供破案思路、認(rèn)為案件存在疑點(diǎn)和回顧惡性案件統(tǒng)計(jì)分析等。(3) 表達(dá)情感，例如：譴責(zé)兇手、指責(zé)網(wǎng)紅主播蹭流量、痛斥部分媒體發(fā)布未經(jīng)核實(shí)信息和部分網(wǎng)友惡意“頑?！薄⒈磉_(dá)對(duì)婚姻和人性的懷疑等。也可以看出，突發(fā)公共事件輿情主要演化方向具有以下特征：(1) 事件發(fā)生后，迅速聚焦到熱點(diǎn)案件上，并注重持續(xù)跟蹤。(2) 以敏銳的視角發(fā)現(xiàn)事件的新情況和敏感點(diǎn)。(3) 在事件關(guān)鍵節(jié)點(diǎn)，以獨(dú)特的視角，清晰、合理表達(dá)觀點(diǎn)；(4) 圍繞大眾最感興趣、最關(guān)心的問題展開討論。(5) 內(nèi)容具有正面導(dǎo)向性。(6) 抓住大眾的共鳴點(diǎn)，在情感和情緒上影響大眾。

4 結(jié)論

本文從輿情效用的視角提出了一種基于立場檢測和主題挖掘的突發(fā)公共事件輿情演化分析的方法，結(jié)合輿情生命周期理論，創(chuàng)新性地構(gòu)建了新的立場檢測模型，計(jì)算每個(gè)階段的博文的大眾認(rèn)同度，剔除沒有被大眾用戶接受、認(rèn)同的博文，篩選出高效用的輿情內(nèi)容，最后基于Word2Vec模型和K-means算法對(duì)高效用的輿情內(nèi)容進(jìn)行句子級(jí)別的主題發(fā)掘。以“杭州女子失蹤案”微博數(shù)據(jù)為例，將本文方法與多種方法進(jìn)行對(duì)比分析，驗(yàn)證本文方法的可行性，并進(jìn)行了突發(fā)公共事件網(wǎng)絡(luò)輿情演化分析，表明本文方法能在實(shí)際案例中聚焦關(guān)鍵點(diǎn)，具有一定實(shí)用性。目前，鮮有學(xué)者將立場檢測應(yīng)用于輿情演化分析。在理論層面，提出了一種較為有效、準(zhǔn)確的高效用輿情內(nèi)容識(shí)別和分析方法，也為網(wǎng)絡(luò)輿情演化的研究提供了新視角。在應(yīng)用層面，有利于輿情監(jiān)管部門準(zhǔn)確地獲取影響大眾用戶思想的輿情信息，掌握輿情演變的方向，從而提高網(wǎng)絡(luò)輿情監(jiān)管水平，做到精準(zhǔn)高效地預(yù)警和制定對(duì)策。

本文也存在一定的局限性：方法應(yīng)用于其他平臺(tái)需進(jìn)一步探討和研究。因?yàn)槲⒉┎┲饔泻Y選評(píng)論的功能和存在某些博主刪除博文的情況，這會(huì)造成數(shù)據(jù)少量缺失。使用K-means聚類會(huì)出現(xiàn)聚類中心不穩(wěn)定的情況。立場檢測僅僅考慮文本信息，未來還需要應(yīng)用多模態(tài)模型，融入圖像、視頻等信息。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡