李仁德 馮倩 李瑜 曹春萍
摘要:為防范輿情風(fēng)險(xiǎn),分析網(wǎng)絡(luò)輿情的細(xì)粒度演化,提出一種去冗余的衍生事件內(nèi)容關(guān)聯(lián)演化分析框架。通過文本挖掘技術(shù)從海量文本流中提取主要的衍生事件,將輿情內(nèi)容壓縮到人工可判讀的數(shù)量級(jí);利用詞移距計(jì)算相鄰兩個(gè)時(shí)間片上的衍生事件相似度,構(gòu)建反映演化關(guān)系的衍生事件鏈圖。以“上海特斯拉自燃”事件為例進(jìn)行事件鏈演化分析,得到微博網(wǎng)絡(luò)輿情事件發(fā)展不同階段涉事主體在各個(gè)衍生事件中的話題轉(zhuǎn)移關(guān)系,最后魯棒性分析的結(jié)果驗(yàn)證了該分析方法具有降低微博短文本冗余信息的能力,提高了事件演化關(guān)聯(lián)識(shí)別分析的準(zhǔn)確性。該研究方法為輿情事件的事后復(fù)盤、同類輿情事件的預(yù)判和介入、衍生事件的科學(xué)研判提供了決策支持。
關(guān)鍵詞:事件鏈;輿情演化;網(wǎng)絡(luò)輿情;特斯拉自燃
中圖分類號(hào):G206.3 文獻(xiàn)標(biāo)志碼:A
Evolution of online public opinion based on chain of sub-events
LI Rende, FENG Qian, LI Yu, CAO Chunping
(Library, University of Shanghai for Science and Technology, Shanghai 200093, China)
Abstract:The evolution analysis of the public opinion in emergency is the foundation for the risk prevention and control. An analysis framework for the evolution of the public opinion was proposes based on the event chain. Firstly, text mining technology was used to extract the main sub- events from the massive text stream,thereby reducing the public opinion content to the order of magnitude that can be manual interpretation and discrimination. Secondly, the word mover's distance was used to calculate the similarity of sub-events on two adjacent time slices, so that the event chain diagram could be constructed. The evolution analysis was carried out with the case of "Tesla spontaneous combustion in Shanghai”. The relationship of topic shifting was built between sub-events at different stages of the evolution. Finally,it was verified by the robustness analysis that the method can reduce the problem of redundant information in short texts of microblogs and improve the accuracy of sub-event correlation. The research results provide decision support for the post-event review,the prediction and intervention of similar public opinion events, and the scientific evaluation of sub-events.
Keywords: chain of sub-events; public opinion evolution; online public opinion; Tesla spontaneously combustion
網(wǎng)絡(luò)輿情分析與治理關(guān)乎國家安全和社會(huì)穩(wěn)定。黨的二十大報(bào)告提出,需加強(qiáng)全媒體傳播體系建設(shè),塑造主流輿論新格局,健全網(wǎng)絡(luò)綜合治理體系,推動(dòng)形成良好網(wǎng)絡(luò)生態(tài)。如何有效分析海量輿情信息,細(xì)粒度研究輿情演化規(guī)律,降低輿論負(fù)面影響,成為涉事方應(yīng)對(duì)輿論亟需關(guān)注的問題。面對(duì)各種社會(huì)矛盾和利益分化現(xiàn)象的相繼涌現(xiàn),人們?yōu)樽约喊l(fā)聲,表達(dá)利益訴求的欲望日益高漲,促使輿情事件的演化表現(xiàn)出多樣性和復(fù)雜性的特征。傳統(tǒng)的網(wǎng)絡(luò)輿情分析關(guān)注輿情在社交媒體中的內(nèi)容演化[1-2],然而,事件的發(fā)展會(huì)衍生出一系列事件,細(xì)粒度的衍生事件關(guān)系往往隱含更多的演化規(guī)律。本文將衍生事件定義為延續(xù)主體事件某一特定方面的事件,對(duì)衍生事件進(jìn)行分析對(duì)于輔助網(wǎng)絡(luò)輿論的引導(dǎo)工作以及預(yù)測(cè)類似事件的發(fā)展方向具有重要的參考價(jià)值[3-4]。
傳統(tǒng)輿情演化的文本分析方法經(jīng)歷了兩個(gè)階段。第一個(gè)階段以話題檢測(cè)與追蹤(topic detection and tracking, TDT)為代表,該階段的研究能夠?qū)崿F(xiàn)話題信息的聚合[5-6],提升人們對(duì)海量信息識(shí)別的能力。但在獲取話題信息后, TDT 技術(shù)并沒有對(duì)話題內(nèi)容的聯(lián)系和發(fā)展過程進(jìn)行深入分析,致使用戶不能清楚地掌握事件的衍生和演變歷程。第二階段是在第一階段的基礎(chǔ)上,對(duì)話題的內(nèi)容演化進(jìn)行深入分析,主要采用主題模型和事件鏈方法[7-8]。主題模型可以挖掘出事件中隱含的主題信息,通過分析每一時(shí)間段的主題分布,結(jié)合時(shí)間信息得到事件內(nèi)容的演化脈絡(luò)。但該方法一般呈現(xiàn)出按時(shí)間排列的主題詞語集合,且不同時(shí)間段的詞語集合存在大量的重疊,致使一些不了解該輿情事件的用戶很難深入理解話題演化脈絡(luò)。基于事件鏈的網(wǎng)絡(luò)輿情演化研究方法,首先檢測(cè)話題中包含的相關(guān)事件,然后識(shí)別事件之間是否存在演化關(guān)系,最后通過建立事件鏈得到輿情內(nèi)容的演化脈絡(luò)。事件演化的邏輯源于隨時(shí)間發(fā)展出現(xiàn)的各衍生事件??傮w來說,傳統(tǒng)輿情演化研究的基本思路是提取事件在不同發(fā)展階段的內(nèi)容信息,并按時(shí)間順序展示給用戶。但這些研究對(duì)于提取哪些事件信息、事件之間是否具有演化關(guān)系,以及用何種方法能預(yù)測(cè)類似網(wǎng)絡(luò)輿情的態(tài)勢(shì)走向等問題并沒有作深入的回答。
本文擬解決的關(guān)鍵問題包括: a.如何從海量微博文本流中提取衍生事件? b.如何確定輿情事件間的邏輯關(guān)系并構(gòu)建事件鏈圖? c.如何利用事件鏈圖分析輿情內(nèi)容變化?事件鏈?zhǔn)侵冈谝欢ǖ臅r(shí)空條件下,一個(gè)事件觸發(fā)另一個(gè)或者多個(gè)事件的現(xiàn)象,事件相繼觸發(fā)形成鏈?zhǔn)浇Y(jié)構(gòu)特征。網(wǎng)絡(luò)輿情事件鏈?zhǔn)浅跏驾浨槭录谄渌幥榫车淖饔孟掠|發(fā)了與它關(guān)聯(lián)的其他輿情事件,從而形成的鏈?zhǔn)叫?yīng)[9]。事件鏈反映了事件之間的因果與時(shí)序關(guān)系,此類鏈?zhǔn)浇Y(jié)構(gòu)證明知識(shí)在事件之間具有流動(dòng)性與轉(zhuǎn)化性。本文將“上海特斯拉自燃”事件作為事件鏈演化分析案例,對(duì)事件鏈形成中的衍生事件提取、衍生事件關(guān)聯(lián)和演化進(jìn)行系統(tǒng)性建模和分析。
1 相關(guān)研究
網(wǎng)絡(luò)輿情事件的演化分析建模涉及3個(gè)核心問題: a.事件提取,包括一類核心事件或活動(dòng)以及所有與之直接相關(guān)的事件或活動(dòng),可以由多個(gè)衍生事件組成; b.事件鏈關(guān)聯(lián),核心事件發(fā)生后所引發(fā)的一系列衍生事件,以及形成的事件鏈?zhǔn)叫?yīng); c.事件演化,刻畫事件鏈上不同類型的衍生事件的信息傳播與變化過程。
事件演化分析的首要任務(wù)是從海量文本中發(fā)現(xiàn)隱含的衍生輿情事件,其文本的非結(jié)構(gòu)化特性以及衍生輿情事件的隱含性是兩大瓶頸。在 Automatic Content Extraction [2]評(píng)測(cè)會(huì)議中,“事件”被描述為一個(gè)動(dòng)作的發(fā)生或狀態(tài)的變化,但目前學(xué)術(shù)界對(duì)“事件”仍沒有統(tǒng)一的定義。Sun 等[10]將事件表示為謂詞+論元結(jié)構(gòu)。事件提取涉及文本挖掘與聚類等方法[11],通過事件提取的技術(shù),可以用來生成衍生輿情事件。衍生事件的研究多基于主題模型[7,12],主題模型通常假設(shè)衍生輿情事件數(shù)目固定,然而主題會(huì)隨著事件的發(fā)展以及網(wǎng)絡(luò)成員的交互行為而發(fā)生變化。此外,事件提取研究多以事件的事實(shí)發(fā)生為依據(jù),對(duì)無監(jiān)督學(xué)習(xí)情況下衍生輿情事件的多樣性、復(fù)雜性和適用性的研究需要進(jìn)一步拓展。對(duì)于相似度高、聯(lián)系緊密的多個(gè)衍生事件,有效識(shí)別關(guān)鍵衍生輿情事件對(duì)于追蹤事件演化過程至關(guān)重要。針對(duì)以上問題,本文基于 Single-Pass 語義聚類提取文本簇,從海量文本流中抽取主要的代表性文本簇并對(duì)其進(jìn)行摘要描述,并歸納衍生事件。
首先,需提取文檔中包含的衍生事件,識(shí)別事件之間是否具有演化關(guān)系[13-14],構(gòu)建事件鏈。由于具有演化關(guān)系的事件之間內(nèi)容一般較為相似,現(xiàn)有研究將該問題轉(zhuǎn)化為事件內(nèi)容相似度計(jì)算問題[15-16]。Nallapati 等[15]根據(jù)兩個(gè)事件對(duì)應(yīng)文檔之間的相似度平均值來計(jì)算兩個(gè)事件間的相似度。 Yang 等[16]利用事件內(nèi)容相似度、時(shí)間鄰近度和網(wǎng)頁分布鄰近度對(duì)事件演化關(guān)系進(jìn)行建模,從新聞?wù)Z料庫中發(fā)現(xiàn)事件演化圖。 Xu 等[17]利用關(guān)聯(lián)挖掘規(guī)則建立事件間的語義演化關(guān)系。多數(shù)研究通過比較事件關(guān)鍵詞的相似度來識(shí)別事件間演化關(guān)系,例如基于向量空間表示事件內(nèi)容、用余弦相似度計(jì)算事件相似性,或是基于詞頻概率,采用 JS 散度或 KL 散度計(jì)算事件相似性。這些方法多依賴于詞語級(jí)的相似度比較,無法兼顧文檔的詞匯語義信息。本文基于詞移距(word mover's distance, WMD)構(gòu)建事件鏈。在語義聚類歸納得到的衍生事件基礎(chǔ)上,通過詞移距計(jì)算相鄰兩個(gè)時(shí)間片上的衍生事件相似度來識(shí)別事件間的演化關(guān)系,從而得到更好的事件演化關(guān)系識(shí)別性能,提高事件鏈圖構(gòu)建的準(zhǔn)確性。
輿情演化分析主要研究輿情事件內(nèi)容及關(guān)系隨時(shí)間和空間的變化趨勢(shì)[18]。 Yang 等[16]通過事件演化識(shí)別技術(shù)來自動(dòng)識(shí)別事件演化關(guān)系,并通過事件鏈的形式展示事件內(nèi)容演化圖。 Liu 等[19]提出了一種動(dòng)態(tài)網(wǎng)絡(luò)知識(shí)擴(kuò)散的方法,從細(xì)粒度層面反映網(wǎng)絡(luò)知識(shí)的演變,豐富了輿情演變分析的視角。 Li 等[20]通過演化分析的方法,發(fā)現(xiàn)無論信息傳播的內(nèi)容特征如何,用戶的社交結(jié)構(gòu)特征具有一定穩(wěn)定性。 Lian 等[21]使用 SIR 模型分析了政府、媒體和網(wǎng)民3組人群在時(shí)間和空間上的相互作用,從網(wǎng)絡(luò)空間結(jié)構(gòu)的角度研究了網(wǎng)絡(luò)輿情傳播的規(guī)律和效果。這些研究關(guān)注事件不同發(fā)展階段的內(nèi)容信息,但輿情事件不同側(cè)面的演化過程無法兼顧。特定輿情事件的發(fā)展過程往往伴隨著相關(guān)衍生輿情事件的產(chǎn)生,每一個(gè)衍生輿情事件都在描述事件的不同側(cè)面。
綜上,系統(tǒng)地理解輿情事件的演化發(fā)展脈絡(luò),亟需從隱含的衍生輿情事件的提取、演化關(guān)系的關(guān)聯(lián)構(gòu)建,以及演化過程的時(shí)空發(fā)展趨勢(shì)上,進(jìn)行綜合分析和評(píng)判。輿情事件分析中,衍生事件的提取是關(guān)聯(lián)分析的基礎(chǔ),關(guān)聯(lián)分析是演化分析的前提條件,演化分析的結(jié)果是事件鏈的形式。本文提出的基于事件鏈的輿情演化分析方法,從事件提取、事件鏈構(gòu)建和演化圖構(gòu)建3方面研究了網(wǎng)絡(luò)輿情的演化,使用戶可以直觀、清晰地了解輿情事件的細(xì)粒度演化過程,掌握輿情事件的因果關(guān)聯(lián)和來龍去脈。
2 研究方法
2.1 輿情演化框架
事件鏈的網(wǎng)絡(luò)輿情演化研究分為事件提取、事件鏈構(gòu)建和演化圖構(gòu)建3個(gè)過程,對(duì)應(yīng)的技術(shù)包括微博短文本聚類和衍生事件關(guān)聯(lián)。首先,利用文本挖掘技術(shù)從海量文本流中提取出主要的衍生輿情事件;其次,通過詞移距計(jì)算相鄰兩個(gè)時(shí)間片上的衍生事件相似度來識(shí)別事件間的演化關(guān)系,從而構(gòu)建事件鏈圖;最后,基于事件鏈圖和事件演化概率構(gòu)建此次網(wǎng)絡(luò)輿情的內(nèi)容演化圖。分析框架流程如圖1所示。
2.2 事件提取
a.文本預(yù)處理。在對(duì)數(shù)據(jù)預(yù)處理的基礎(chǔ)上進(jìn) 一步對(duì)文本進(jìn)行處理,刪除與事件無關(guān)的特殊符 號(hào)、表情、鏈接,如頻繁出現(xiàn)的詞語“轉(zhuǎn)發(fā)”、 “微博”、“@用戶”,以及標(biāo)記性符號(hào)等。保留 代表話題“#自燃事件#”。使用 Jieba分詞工具對(duì) 微博文本內(nèi)容進(jìn)行分詞處理,同時(shí)去除停用詞、 擬聲詞、特殊符號(hào)。如“的”、“地”、“啊”等詞以及無用的標(biāo)點(diǎn)符號(hào),得到每條博文詞匯集。
b.關(guān)鍵詞提取。通過 TextRank[22]算法對(duì)分詞后的博文詞匯集進(jìn)行關(guān)鍵詞提取,得到博文關(guān)鍵詞詞匯集X ={x1; x2;···; xn},其中,xi為提取的關(guān)鍵詞。
c.文本聚類。為了能夠充分研究詞匯與詞匯之間的關(guān)系,考慮到 word2vec 只是基于詞的維度進(jìn)行語義分析,并不具有上下文的語義分析能力,本文在 word2vec 的基礎(chǔ)上增加一個(gè)段落向量的 doc2vec,訓(xùn)練文檔集中所有詞匯,并進(jìn)行詞向量表征,然后運(yùn)用余弦相似度算法通過博文關(guān)鍵詞計(jì)算任意兩兩博文之間的語義相似度。相較于KL 散度或 JS 散度,余弦距離是從方向上區(qū)分差異,將閾值對(duì)相似的文本向量關(guān)鍵詞合并,兩文本向量距離越小則相似度越高。
對(duì)文檔集中所有詞匯對(duì)應(yīng)的關(guān)鍵詞向量采用 Single-Pass[23]增量聚類算法聚成 J 個(gè)文本簇,將事件提取問題轉(zhuǎn)化為對(duì)關(guān)鍵詞向量的聚類問題。預(yù)設(shè)一個(gè)聚類閾值,順序處理輸入的文檔,計(jì)算新文檔與已識(shí)別事件之間的相似度,如果相似度大于該聚類閾值,則將該文檔加入與它相似度最大的文本簇中,否則將該文檔作為新事件創(chuàng)建。聚類得到各個(gè)文本簇后按照詞頻降序排列,截取頻率最高的前d個(gè)詞,作為聚類后的文本簇關(guān)鍵詞集合Ei ={x1; x2;···; xd},i =1;2;···; s。
d.衍生事件提取。文本聚類將海量的輿情事件壓縮到人工可判讀的數(shù)量級(jí),同時(shí)有助于獲得相互獨(dú)立的輿情事件。僅僅將輿情事件的表示視為一個(gè)簡(jiǎn)單的詞袋不便于之后的演化分析,因此,對(duì)得到的文本簇關(guān)鍵詞集合Ei結(jié)合原數(shù)據(jù)對(duì)應(yīng)的文本內(nèi)容,概括性描述出輿情事件摘要。
2.3 事件鏈構(gòu)建
a.衍生事件生成。一次網(wǎng)絡(luò)輿情對(duì)應(yīng)著多個(gè)不同階段以及相關(guān)的衍生輿情事件,記為衍生事件,根據(jù)提取的輿情文本簇概括性描述出其發(fā)展階段對(duì)應(yīng)的衍生事件集 E ={E1; E2;···; Es}。
b.演化關(guān)系識(shí)別。具有演化關(guān)系的兩個(gè)衍生事件通過語義進(jìn)行關(guān)聯(lián),采用 WMD 計(jì)算衍生事件之間的相似度,即一個(gè)衍生事件中所有關(guān)鍵詞“流向”另一個(gè)衍生事件的最小代價(jià)。衍生事件 Ei和Ej之間的相似度通過將Ei中所有詞“移動(dòng)”到 Ej中所有詞的最小距離來度量,即
d(Ei ; Ej)= T ij(m) TijL(i; j)= T ij(m) Tij||i?j||2 (1)
式中: L(i; j)表示詞i和詞j間的歐氏距離; Tij表示衍生事件Ei中的詞i有多少轉(zhuǎn)化為Ej中的詞。
為確保能完全轉(zhuǎn)化,需進(jìn)行如下約束:
Tij = Ei′; Tij = Ej ′;?i; j ∈{1;2;···; n}(2)
其中
Ei′=
式中, ci表示詞i的詞頻。
本文只計(jì)算相鄰兩個(gè)時(shí)間片上衍生事件的相似度,如果相鄰兩個(gè)時(shí)間片上衍生事件間的相似度值大于或等于該閾值,則認(rèn)為兩個(gè)衍生事件在內(nèi)容上存在演化關(guān)系,即兩者間建立邊關(guān)系。反之,如果它們之間的相似度值小于該閾值,則表明是相互獨(dú)立的兩個(gè)衍生事件,即兩個(gè)衍生事件在內(nèi)容上不存在演化關(guān)系。根據(jù)計(jì)算的相似度可得到衍生事件之間的相關(guān)關(guān)系,進(jìn)而構(gòu)建出事件鏈圖。
2.4 演化圖構(gòu)建
將構(gòu)建事件鏈圖中的輿情衍生事件以“節(jié)點(diǎn)對(duì)”的形式兩兩結(jié)合進(jìn)行計(jì)算,每個(gè)節(jié)點(diǎn)對(duì)代表著網(wǎng)絡(luò)輿情事件鏈節(jié)點(diǎn)之間的可能演化關(guān)系。運(yùn)用統(tǒng)計(jì)概率式(4)計(jì)算出各衍生事件的先驗(yàn)概率,然后再利用條件概率式(5)計(jì)算出節(jié)點(diǎn)對(duì)間的演化概率。衍生事件之間的演化概率構(gòu)成事件內(nèi)容演化圖。
p(Ei)=且?p(Ei)=1; i =1;2;···; n ?(4)
p(Ei|Ej)=p(Ei)p(Ej|Ei)?
式中,|Ei|為頻次。
3 實(shí)證分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集與預(yù)處理
數(shù)據(jù)集來源于中國新聞史學(xué)會(huì)計(jì)算傳播學(xué)研究委員會(huì)與新浪微熱點(diǎn)大數(shù)據(jù)研究院聯(lián)合舉辦的第二屆傳播數(shù)據(jù)挖掘競(jìng)賽中“上海特斯拉自燃事件”的微博文本數(shù)據(jù),從2019年4月21日到5 月5日共15 d,總計(jì)61688條博文。該事件發(fā)生于4月21日晚,上海某小區(qū)一地下車庫內(nèi)一輛特斯拉轎車忽然冒煙而引起自燃,進(jìn)而引發(fā)社會(huì)各個(gè)群體對(duì)新能源電動(dòng)車安全性問題的一系列熱議。
3.2 事件提取
數(shù)據(jù)預(yù)處理去除標(biāo)簽為機(jī)器人的數(shù)據(jù)以及少于10個(gè)字的微博文本后,得到40119條博文,進(jìn)一步刪除與文本話題無關(guān)的特殊符號(hào)、表情符號(hào)等,并使用 Jieba分詞工具進(jìn)行博文分詞。采用 TextRank 算法對(duì)分詞后的博文詞匯集進(jìn)行關(guān)鍵詞提取,得到每條博文關(guān)鍵詞詞匯集。詞匯集中存在大量關(guān)鍵詞相似的冗余輿情事件,為了消除冗余,使用 doc2vec訓(xùn)練文檔集中所有詞匯進(jìn)行詞向量表征,然后運(yùn)用余弦相似度算法計(jì)算任意兩兩博文之間的語義相似度,根據(jù)閾值對(duì)相似的文本向量關(guān)鍵詞進(jìn)行合并。選取的相似度閾值為0.83。
根據(jù)閾值對(duì)相似的文本向量關(guān)鍵詞進(jìn)行合并,對(duì)文檔集中所有詞匯對(duì)應(yīng)的關(guān)鍵詞向量采用 Single-Pass 聚類算法聚成 J 個(gè)文本簇,將事件提取問題轉(zhuǎn)化為對(duì)關(guān)鍵詞向量的聚類問題。文本簇的聚類,采用 K 折交叉檢驗(yàn)的方法作驗(yàn)證。取 K=5,將原始數(shù)據(jù)隨機(jī)分為5份,對(duì)每一份數(shù)據(jù)作相似性計(jì)算,并得到每份樣本的衍生事件提取結(jié)果。兩兩對(duì)比隨機(jī)樣本的關(guān)鍵詞集合,通過余弦相似性比較不同樣本之間衍生事件的語義相似度,結(jié)果如表1所示。
3.3 事件鏈構(gòu)建
a.衍生事件生成。根據(jù)文本聚類消除冗余輿情事件后,最終保留4024個(gè)合并文本,歸為 16個(gè)文本簇[9],作為基礎(chǔ)數(shù)據(jù)。這些文本簇涵蓋了企業(yè)、車主、消防、媒體、專家、網(wǎng)友等不同社會(huì)群體,能夠較好地反映出消費(fèi)者維權(quán)類網(wǎng)絡(luò)輿情的主要特征及演化規(guī)律。由此,以文本簇涉及的相似群體為依據(jù),人工劃分并概括性地描述出對(duì)應(yīng)的衍生事件Ei,衍生事件可以幫助全面深入地理解事件的各個(gè)方面。根據(jù)文本聚類統(tǒng)計(jì)出事件的出現(xiàn)頻次,為了方便后續(xù)的演化概率計(jì)算,此處利用統(tǒng)計(jì)概率式(4)計(jì)算出各衍生事件的初始條件概率。
b.演化關(guān)系識(shí)別。通過 WMD 計(jì)算相鄰兩個(gè)時(shí)間片上衍生事件之間的相似度來識(shí)別事件間的演化關(guān)系。若相似度大于某一閾值則認(rèn)為兩者之間具有演化關(guān)系,即衍生事件間建立邊關(guān)系,構(gòu)建出網(wǎng)絡(luò)輿情事件鏈圖,如圖2所示。
判別衍生事件關(guān)系的閾值取0.61。在事件發(fā)生后,該網(wǎng)絡(luò)輿情同時(shí)向4種潛在的衍生輿情事件演化,即消防介入、媒體介入、企業(yè)發(fā)聲和網(wǎng)友參與,這些衍生事件都是不同參與方對(duì)初始輿情事件發(fā)生后的回應(yīng)。例如,博文“在得知這起發(fā)生在上海的事故后,昨晚我們第一時(shí)間派出團(tuán)隊(duì)趕往現(xiàn)場(chǎng)。我們正在積極聯(lián)絡(luò)相關(guān)部門并配合核實(shí)情況。根據(jù)目前的信息顯示,沒有人員傷亡”,就是企業(yè)對(duì)事件發(fā)生后的回應(yīng)。而每種潛在衍生事件又可能引發(fā)多種不同的演化路徑。例如,企業(yè)發(fā)聲后又出現(xiàn)車主發(fā)聲、媒體介入和事件處理3種潛在衍生事件。該事件鏈圖反映了此次輿情事件發(fā)生后產(chǎn)生的一系列衍生輿情事件,著重揭示了不同事件節(jié)點(diǎn)之間的潛在演化路徑。
3.4 演化圖構(gòu)建
將4024個(gè)聚類樣本對(duì)應(yīng)的衍生事件以事件鏈節(jié)點(diǎn)對(duì)的形式兩兩結(jié)合,每個(gè)節(jié)點(diǎn)對(duì)代表著網(wǎng)絡(luò)輿情事件鏈節(jié)點(diǎn)間的可能演化。衍生事件的先驗(yàn)概率是事件鏈節(jié)點(diǎn)對(duì)演化概率計(jì)算的基礎(chǔ),不同輿情階段的節(jié)點(diǎn)演化概率借助條件概率式(5)計(jì)算獲得?;谑录溄Y(jié)構(gòu)以及各衍生事件節(jié)點(diǎn)對(duì)的演化概率得到不同演化路徑的發(fā)生概率,圖2即為事件內(nèi)容演化圖。在輿情爆發(fā)初始階段,該網(wǎng)絡(luò)輿情同時(shí)向4個(gè)方向演化(消防介入、媒體介入、企業(yè)發(fā)聲、網(wǎng)友參與),此時(shí)向媒體演化的概率最小,而是主要集中在企業(yè)發(fā)聲上,反映了初始輿情事件爆發(fā)后,人們更傾向于關(guān)注涉事方特斯拉的官方回應(yīng)。企業(yè)發(fā)聲后,網(wǎng)絡(luò)輿情演化出了3條發(fā)展路徑(車主發(fā)聲、媒體介入、事件處理),其中車主發(fā)聲的轉(zhuǎn)移率高達(dá)51.36%,此時(shí)車主急切需要企業(yè)給出答復(fù)。在媒體介入事件后,企業(yè)和車主演化的概率基本持平,因?yàn)榉謩e作為涉事方和維權(quán)方,媒體對(duì)其關(guān)注度基本相同。在網(wǎng)友參與階段,由于大量的網(wǎng)友參與產(chǎn)生了較多的謠言與曲解事件,極易引起行業(yè)專家進(jìn)行初步解讀,消除網(wǎng)友的各種猜測(cè)。隨著時(shí)間的推移,在車主和媒體的共同推動(dòng)下,事件進(jìn)入最終的處理階段。
事件發(fā)生可利用狀態(tài)轉(zhuǎn)移矩陣來預(yù)測(cè)下一步的衍生輿情事件,直至整個(gè)事件趨于穩(wěn)定終止。經(jīng)過7次迭代,得到趨于穩(wěn)定狀態(tài)下的演化趨勢(shì)圖,如圖3所示。
根據(jù)傳播學(xué)中輿情發(fā)展的經(jīng)典四階段(萌芽、興起、成熟、衰退)理論,將萌芽和興起階段合并為一個(gè)“突發(fā)”階段,將事件演化分為突發(fā)(0—1),成熟(1—3),衰退(3—7)3個(gè)階段進(jìn)行分析。在時(shí)間步0—1階段,衍生事件發(fā)生的狀態(tài)概率較小,這是由于在上海特斯拉自燃事件發(fā)生以前,網(wǎng)絡(luò)上就零散地存在著眾網(wǎng)友對(duì)新能源汽車安全性問題的討論,事件發(fā)生企業(yè)作為涉事方被關(guān)注程度最高,大量網(wǎng)友參與,直接推動(dòng)了輿情事件的發(fā)生。此時(shí)消防受關(guān)注程度也較高,這是因?yàn)橄涝诘谝粫r(shí)間介入事故現(xiàn)場(chǎng)進(jìn)行處理并通報(bào)。與此同時(shí),車主作為維權(quán)方也開始發(fā)聲。在時(shí)間步1—3階段,輿情事件處于成熟期,可以清晰地看出媒體受關(guān)注程度最高,說明此時(shí)公眾更關(guān)注媒體對(duì)于事件進(jìn)展情況的報(bào)道。在此階段,意見領(lǐng)袖在輿情的傳播過程中起到了導(dǎo)向作用,權(quán)威解讀與媒體的報(bào)道也在一定程度上消除了網(wǎng)友因曲解而產(chǎn)生的噪音,導(dǎo)致網(wǎng)友參與度下降。在時(shí)間步3—7階段,人們對(duì)事件處理結(jié)果的關(guān)注度越來越高,都期待事件的最終調(diào)查結(jié)果出現(xiàn),對(duì)媒體的關(guān)注則相對(duì)平穩(wěn)。隨著時(shí)間的發(fā)展,企業(yè)遲遲沒有給出最新調(diào)查結(jié)果,車主也沒有得到及時(shí)答復(fù),因此,企業(yè)和車主作為事件處理的主體方,受關(guān)注度逐漸增長(zhǎng)。最后,輿情隨各方主體的關(guān)注減少進(jìn)入衰退期。
3.5 內(nèi)容演化的評(píng)判指標(biāo)
由于衍生輿情事件的歸納涉及人為標(biāo)簽,具有 一定的主觀性,因此,將其與 Timeline[24]和 StoryTelling[25]方法進(jìn)行對(duì)比。實(shí)驗(yàn)邀請(qǐng)9位志愿者從準(zhǔn)確性和易理解性兩方面對(duì)3個(gè)方法進(jìn)行評(píng)分。其中,準(zhǔn)確性是指該演化過程是否能準(zhǔn)確描述輿情事件的發(fā)展,易理解性是指演化過程是否有助于用戶理解事件的脈絡(luò)。評(píng)分標(biāo)準(zhǔn)為1~5 分,從低到高依次代表很差、差、一般、良好、優(yōu)秀。取平均值作為輿情演化方法的評(píng)判結(jié)果,如表2所示。
評(píng)分結(jié)果顯示,采用的事件鏈方法使得輿情內(nèi)容演化在準(zhǔn)確性和易理解性兩方面均表現(xiàn)良好。
此外,當(dāng)兩個(gè)文檔沒有出現(xiàn)相同詞語時(shí),WMD 方法依舊可以識(shí)別其語義是否相同,使得衍生事件的關(guān)系配對(duì)更加穩(wěn)定,并且配合上一步事件提取剔除的冗余信息,能夠得到穩(wěn)定的演化結(jié)果。事件演化圖的魯棒性分析承接上述 K 折交叉檢驗(yàn)的方法,同時(shí)對(duì)比了詞移距與傳統(tǒng)的余弦相似性、歐式距離、 Jaccard 相似性、海明距離。對(duì)每一份樣本單獨(dú)進(jìn)行事件演化圖的概率分析,得到衍生事件轉(zhuǎn)移概率的相似性對(duì)比結(jié)果,如表3所示。
4 結(jié)束語
輿情事件分析中細(xì)粒度的衍生事件演化迫切需要方法論的支撐,為此,提出了一種基于事件鏈的研究方法。利用文本挖掘技術(shù)從海量文本流中抽取出主要的衍生輿情,通過短文本相似性合并,擴(kuò)充對(duì)衍生事件的富文本信息認(rèn)知,解決了微博短文本信息冗余的問題。通過詞移距計(jì)算相鄰兩個(gè)時(shí)間片上的衍生事件相似度,識(shí)別衍生事件間的演化關(guān)系,并構(gòu)建事件鏈圖,能夠更準(zhǔn)確并穩(wěn)定地獲取不同類型事件之間的轉(zhuǎn)移概率,解決了衍生事件的關(guān)聯(lián)關(guān)系識(shí)別問題。最后,對(duì)事件鏈圖提出了一種關(guān)聯(lián)事件對(duì)演化概率計(jì)算的方法,基于事件鏈圖和事件演化概率構(gòu)建輿情事件的內(nèi)容演化圖。兩種文本相似性的方法組合,取得了更穩(wěn)定的事件鏈構(gòu)造結(jié)果。
本文對(duì)微博輿情事件演化分析提供了以下啟發(fā): a.對(duì)輿情事件的事后復(fù)盤具有參考價(jià)值。通過輿情事件的文本分析和計(jì)算,可以了解事件的衍生和演化關(guān)系。事后復(fù)盤對(duì)于輿情案例制作、政策制定及危機(jī)公關(guān)解決具有關(guān)鍵的參考作用。 b.對(duì)同類輿情事件的預(yù)判和介入提供管理依據(jù)。用戶可通過演化圖清楚地掌握輿情事件隨時(shí)間發(fā)展的演變過程,為類似網(wǎng)絡(luò)輿情事件的應(yīng)對(duì)工作提供參考,同時(shí)有助于決策主體把握輿情演化的過程與機(jī)制,對(duì)于輔助網(wǎng)絡(luò)輿論的引導(dǎo)工作以及作出合理的應(yīng)急決策具有現(xiàn)實(shí)意義。 c.對(duì)細(xì)粒度衍生事件引發(fā)的輿情異化提供了科學(xué)支撐。不同利益主體在輿情事件發(fā)展各階段對(duì)于推動(dòng)衍生話題的作用和關(guān)系迥然不同,通過微博輿情的建模,梳理主事件與衍生事件關(guān)系以及進(jìn)行事件發(fā)展的量化,有助于形成科學(xué)的網(wǎng)絡(luò)輿情研判機(jī)制。
研究的不足之處在于,衍生事件的提取雖然有利于直觀理解事件的不同側(cè)面以及公眾輿論的熱點(diǎn)遷移,但衍生事件的含義由人工概括描述。如何引用外部知識(shí)提升衍生事件的可理解性與準(zhǔn)確性將是下一步的研究工作。同時(shí),識(shí)別演化關(guān)系時(shí)只考慮了相鄰兩個(gè)時(shí)間片上的衍生事件相似度,未設(shè)置一個(gè)時(shí)間范圍閾值以提高演化識(shí)別的精準(zhǔn)性。在未來的研究中,如何將人類知識(shí)融合機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、復(fù)雜網(wǎng)絡(luò)等技術(shù)提高事件分析的性能,以及如何充分利用微博的鏈接關(guān)系來提高事件演化關(guān)系識(shí)別的精準(zhǔn)性,也是值得深入探討的問題。
參考文獻(xiàn):
[1] MA H Y. Research of evolution mechanism of network group event based on grounded theory under micro-blog platform[J]. Journal of Service Science and Management, 2015, 8(5):678–684.
[2] LI S Y, LIU Z X, LI Y L. Temporal and spatial evolution of online public sentiment on emergencies[J]. Information Processing & Management, 2020, 57(2):102177.
[3] HUO L, MA C Y. The interaction evolution model of mass incidents with delay in a social network[J]. Physica A : Statistical Mechanics and its Applications, 2017, 484: 440–452.
[4]張磊, 王延章, 陳雪龍, 等.面向突發(fā)事件應(yīng)急決策的情景建模方法[J].系統(tǒng)工程學(xué)報(bào), 2018, 33(1):1–12.
[5] LI R D, GUO Q, ZHANG X K, et al. Reconstruction of unfolding sub-events from social media posts[J]. Frontiers in Physics, 2022, 10:918663.
[6] LI R D, MA H T, WANG Z Y, et al. Entity perception of two-step-matching framework for public opinions[J]. Journal of Safety Science and Resilience, 2020, 1(1):36–43.
[7] GUO X, XIANG Y, CHEN Q, et al. LDA-based online topic detection using tensor factorization[J]. Journal of Information Science, 2013, 39(4):459–469.
[8] HUANG W D, WANG Q, CAO J. Tracing public opinion propagation and emotional evolution based on public emergencies in social networks[J]. International Journal of Computers Communications & Control, 2018, 13(1):129–142.
[9]夏立新, 畢崇武, 梅瀟, 等.基于事件鏈的網(wǎng)絡(luò)輿情事件演化研究[J].情報(bào)理論與實(shí)踐, 2020, 43(5):123–130.
[10] SUN R, WANG Z C, REN Y F, et al. Query-biased multi-document abstractive summarization via submodular maximization using event guidance[C]//17th International Conference on Web-Age ?Information Management.Nanchang: Springer, 2016:310–322.
[11] CUI W W, LIU S X, TAN L, et al. TextFlow: towards better understanding of evolving topics in text[J]. IEEE Transactions on Visualization and Computer Graphics, 2011, 17(12):2412–2421.
[12]關(guān)鵬, 王曰芬, 傅柱.不同語料下基于 LDA 主題模型的科學(xué)文獻(xiàn)主題抽取效果分析[J].圖書情報(bào)工作 , 2016,60(2):112–121.
[13] DU Y J, YI Y T, LI X Y, et al. Extracting and tracking hot topics of micro-blogs based on improved latent dirichlet allocation[J]. Engineering Applications of Artificial Intelligence, 2020, 87:103279.
[14] CURISKIS S A, DRAKE B, OSBORN T R, et al. An evaluation of document clustering and topic modelling in two online social networks: twitter and reddit[J]. Information Processing & Management, 2020, 57(2):102034.
[15] NALLAPATI R, FENG A, PENG F C, et al. Event threading within news topics[C]//Proceedings of the 13th ACM International Conference on Information and Knowledge Management. Washington: ACM, 2004:446–453.
[16] YANG C C, SHI X D, WEI C P. Discovering event evolution graphs from news corpora[J]. IEEE Transactions on Systems, Man, and Cybernetics-PartA :Systems and Humans, 2009, 39(4):850–863.
[17] XU Z, WEI X, LUO X F, et al. Knowle: a semantic link network based system for organizing large scale online news events[J]. Future Generation Computer Systems,2015, 43–44:40–50.
[18] FANG S W, ZHAO N, CHEN N, et al. Analyzing and predicting network public opinion evolution based on group persuasion force of populism[J]. Physica A : Statistical Mechanics and its Applications, 2019, 525: 809–824.
[19] LIU J G, ZHOU Q, GUO Q, et al. Knowledge diffusion of dynamical network in terms of interaction frequency[J]. Scientific Reports, 2017, 7(1):10755.
[20] LI R D, LIU J G, GUO Q, et al. Social signature identification of dynamical social networks[J]. Physica A : Statistical Mechanics and its Applications, 2018, 508: 213–222.
[21] LIAN Y, DONG X F, LIU Y J. Topological evolution of the internet public opinion[J]. Physica A :Statistical Mechanics and its Applications, 2017, 486:567–578.
[22] ZHANG Y, CHEN F, ZHANG W F, et al. Keywords extraction based on word2Vec and TextRank[C]//The 3rd International Conference on Big Data and Education. London: ACM, 2020:37–42.
[23]趙愛華, 劉培玉, 鄭燕.基于 LDA 的新聞話題子話題劃分方法[J].小型微型計(jì)算機(jī)系統(tǒng), 2013, 34(4):732–737.
[24] WANG Z H, SHOU L D, CHEN K, et al. Onsummarization and timeline generation for evolutionary tweet streams[J]. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(5):1301–1315.
[25] SMITH D, SCHLAEPFER P, MAJOR K, et al. Cooperation and ?the evolution ?of hunter-gathererstorytelling[J]. Nature Communications, 2017, 8(1):1853.
(編輯:丁紅藝)