丁晟春 劉笑迎 李真
摘?要:[目的/意義]在輿情領(lǐng)域,通過對已知主題生命周期演化軌跡的分析、熱點與非熱點主題演化過程的對比,可以更好地把握熱點主題演化規(guī)律。[方法/過程]本文提出將TF-IDF算法融合評論影響力選擇主題特征詞,在此基礎(chǔ)上,通過計算主題強(qiáng)度與相似度提出了6種主題演化形式,并在主題演化階段將主題強(qiáng)度與主題內(nèi)容兩方面相結(jié)合進(jìn)行了可視化實驗。[結(jié)果/結(jié)論]最終展示出各個時間窗里的主題內(nèi)容及主題強(qiáng)度,分析與挖掘出輿情事件中網(wǎng)民觀點隨時間的演化形式與演化規(guī)律。
關(guān)鍵詞:微博評論;評論影響力;網(wǎng)絡(luò)輿情;主題演化;社會網(wǎng)絡(luò);TF-IDF算法;可視化
DOI:10.3969/j.issn.1008-0821.2021.08.009
〔中圖分類號〕G206?〔文獻(xiàn)標(biāo)識碼〕A?〔文章編號〕1008-0821(2021)08-0087-11
Research?on?the?Evolution?of?Hot?topics?of?Online
Public?Opinion?with?the?Influence?of?Comments
Ding?Shengchun?Liu?Xiaoying?Li?Zhen
(Department?of?Information?Management,School?of?Economics?and?Management,Nanjing?University?of
Science?and?Technology,Nanjing?210094,China)
Abstract:[Purpose/Significance]In?the?field?of?public?opinion,the?evolution?law?of?hot?topics?can?be?better?understood?by?analyzing?the?evolution?trajectory?of?the?life?cycle?of?known?topics?and?comparing?the?evolution?process?of?hot?topics?and?non-hot?topics.[Method/Process]In?this?paper,TF-IDF?algorithm?was?proposed?to?select?topic?feature?words?by?integrating?comment?influence.On?this?basis,six?kinds?of?topic?evolution?forms?are?proposed?by?calculating?topic?strength?and?similarity.In?the?evolution?stage?of?the?theme,a?visualization?experiment?was?carried?out?by?combining?the?strength?of?the?theme?with?the?content?of?the?theme.[Result/Conclusion]Finally,the?theme?content?and?theme?intensity?in?each?time?window?were?displayed,and?the?evolution?mode?and?evolution?law?of?netizens?opinions?in?public?opinion?events?over?time?were?analyzed?and?excavated.
Key?words:Weibo?comment;influence?of?comment;network?public?opinion;theme?evolution;social?network;TF-IDF?algorithm;visualization
近年來,隨著社交媒體的廣泛應(yīng)用,由網(wǎng)絡(luò)引發(fā)、擴(kuò)大或主導(dǎo)的輿情事件頻發(fā)。身處網(wǎng)絡(luò)中的每一個網(wǎng)民都可通過轉(zhuǎn)發(fā)、評論等多種形式參與到事件的討論與傳播,推動個體事件向網(wǎng)絡(luò)輿論發(fā)展。輿情事件從產(chǎn)生到平息具有一定周期,而這期間相關(guān)人員能否及時對此做出回應(yīng)和處理是能否將輿論引向正確方向的關(guān)鍵。因此,如果可以在輿情形成的初始階段發(fā)現(xiàn)苗頭性信息,面對可能爆發(fā)的危機(jī)事件做好應(yīng)對工作,做到真正掌握輿論的主導(dǎo)權(quán),便能夠發(fā)揮預(yù)警工作的前瞻性作用,引導(dǎo)輿論向好的方面發(fā)展,有利于提升政府服務(wù)效率與公信力,以及促進(jìn)社會的和諧與穩(wěn)定,其效果與意義必定遠(yuǎn)大于輿論形成后的補(bǔ)救工作。
本研究立足于實現(xiàn)從實時、動態(tài)的輿情數(shù)據(jù)中檢測并展示熱點主題的演化過程,基于TF-IDF方法融合微博評論影響力選取特征詞,結(jié)合社會網(wǎng)路分析工具進(jìn)行詞云展示;并且提出了融入主題強(qiáng)度的主題內(nèi)容演化方法,這打破了傳統(tǒng)的輿情主題發(fā)現(xiàn)方法的靜態(tài)性,對網(wǎng)絡(luò)輿情主題進(jìn)行了多維度、深層次的挖掘。
1?相關(guān)研究
主題演化是對輸入的時序文本流進(jìn)行語義層次的分析計算,找出其中隱含的主題,并對主題進(jìn)行跟蹤,把握主題發(fā)展規(guī)律與未來趨勢[1]。通過對已知主題整體生命周期演化軌跡的分析、熱點與非熱點主題演化過程的對比,可以更好地把握熱點主題演化規(guī)律,根據(jù)掌握的主題演化規(guī)律為輿情引導(dǎo)工作提供有價值的參考。
在Web?of?Science數(shù)據(jù)庫中建立高級檢索表達(dá)式TS=(Topic?NEAR/3?Evolution),以匹配“Topic?Evolution”“Evolution?of?Topic”等檢索詞,語種選擇English,時間跨度選擇“最近五年”,共獲得檢索結(jié)果336條。在CNKI數(shù)據(jù)庫中以“主題演化”或“話題演化”進(jìn)行檢索,檢索結(jié)果中發(fā)表年度介于2015—2020年的文獻(xiàn)總量共計550條,可見關(guān)于主題演化方面的研究總量偏少,但正處于研究熱度上升階段。以TS=(“Online?Public?Opinion”O(jiān)R“Social?Media”O(jiān)R?Twitter?OR“Micro$Blog”O(jiān)R?Facebook?OR“Online?News”)和以“網(wǎng)絡(luò)輿情”及其相關(guān)詞作為主題分別在Web?of?Science數(shù)據(jù)庫和CNKI數(shù)據(jù)庫中對上述檢索結(jié)果進(jìn)行精煉,返回的檢索結(jié)果分別為55條與196條,這說明現(xiàn)階段的主題演化研究在網(wǎng)絡(luò)輿情分析方面的應(yīng)用較少,主要集中于學(xué)科主題演化,以探測學(xué)科或研究領(lǐng)域的研究熱點與研究前沿為主。
1)從研究方法來講,主題演化領(lǐng)域最常使用的研究方法是主題模型法,國內(nèi)外不少研究人員都曾致力于將時間因素融入主題模型中,建立主題演化模型。按時間因素可將主題演化模型歸結(jié)為3類:第一類是將時間作為一種可觀測的連續(xù)變量的連續(xù)時間主題演化模型[2];第二類是先將文本集合按時間片劃分,離散到不同的時間窗口,再在每個時間窗口里分別應(yīng)用主題模型的離散時間主題演化模型[3];第三類是在線的主題演化模型,一次可處理單獨(dú)1篇文檔或1個文檔集合[4]。除了主題模型之外,基于社會網(wǎng)絡(luò)分析思想的共詞分析法也是常用的方法,這種方法能挖掘詞與詞之間深層次的潛在關(guān)系[5]。
2)從演化分析維度來講,現(xiàn)有研究主要涉及主題內(nèi)容、主題強(qiáng)度、主題情感及主題結(jié)構(gòu)4個層面。
主題內(nèi)容層面。主題演化分析中通常使用關(guān)鍵詞簇或主題—詞項概率分布的形式來表示從文本集合中找到的隱含主題,而主題內(nèi)容演化一般通過對相鄰時間窗內(nèi)的主題進(jìn)行兩兩相似度計算[6-8]或距離計算[9],使用簡單閾值法來確定主題間的演化關(guān)系。有不少研究人員也直接利用文字描述的方式揭示各個時間窗內(nèi)發(fā)現(xiàn)的主題在內(nèi)容層面上的演化關(guān)系[10-11]。
主題強(qiáng)度層面。通過選取表征主題強(qiáng)度的特征項,如相關(guān)文檔數(shù)、文檔—主題概率平均值[12]等,綜合計算主題在各個時間窗下的主題強(qiáng)度,研究人員通常借助折線圖等可視化表達(dá)方式來直接展示主題強(qiáng)度隨時間推進(jìn)的變化情況。
主題情感層面。文獻(xiàn)[13]認(rèn)為,網(wǎng)民情緒的表達(dá)會影響事件的傳播速度與發(fā)展走向,及時判斷輿情事件中網(wǎng)民的情感走勢,可幫助組織及時采取有效的情感疏導(dǎo)措施,避免情緒極化現(xiàn)象。因此,有研究人員[13-14]從主題情感層面探討了其隨事件推進(jìn)的演變過程。
主題結(jié)構(gòu)演變。主題的結(jié)構(gòu)演變既包括主題網(wǎng)絡(luò)結(jié)構(gòu)的演化[15-16],又包含主題信息傳播路徑的變化[17-18]。前者基于主題關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),將網(wǎng)絡(luò)社區(qū)與主題對等,利用共詞網(wǎng)絡(luò)社區(qū)自身結(jié)構(gòu)的演化來揭示主題的發(fā)展過程,文獻(xiàn)[19]基于共詞網(wǎng)絡(luò)社區(qū)節(jié)點重合度計算與關(guān)系相似性計算,開發(fā)了一款名為NEViewer的網(wǎng)絡(luò)社區(qū)演化分析軟件;后者則側(cè)重于從信息傳播動力學(xué)角度,通過對諸如SIR等流行病模型或社交網(wǎng)絡(luò)進(jìn)行仿真,來揭示輿情信息隨時間的傳播與擴(kuò)散軌跡。
總體來說,多數(shù)與網(wǎng)絡(luò)輿情主題演化相關(guān)的研究選擇從主題內(nèi)容演化或者主題強(qiáng)度演化作為研究切入點,雖然對所選取的事件進(jìn)行了非常全面、詳細(xì)地剖析,但絕大多數(shù)研究往往僅圍繞一個熱點事件展開,并對可視化輔以大量的文字描述,這使得可視化的內(nèi)容和效果均不夠完善。因此,為了更能展示準(zhǔn)確的熱點主題,本文在主題表示階段,創(chuàng)新地改進(jìn)特征詞選取方法,將評論影響力融入算法中,使得提取到的主題詞更能夠反映網(wǎng)民當(dāng)下態(tài)度與情緒;此外,為了更清晰地表示主題演化過程以及保證演化分析方法的可行性與有效性,本文將熱點事件中多個熱點主題均進(jìn)行主題強(qiáng)度與主題內(nèi)容兩方面的細(xì)粒度演化分析,挖掘輿情事件中網(wǎng)民觀點隨時間的演化情況與規(guī)律,以期幫助政府與企業(yè)針對網(wǎng)民意見與訴求,加以科學(xué)有效的引導(dǎo)與應(yīng)對。
2?研究方法
2.1?總體框架
2.2?主題表示
本文選用詞簇的方式表征主題,因此,特征詞的選取及主題詞簇的形成就成為待解決的主要問題。主題表示共分為融合評論影響力的特征詞提取和特征詞共現(xiàn)網(wǎng)絡(luò)分析兩部分。
2.2.1?融合評論影響力的特征詞提取
TF-IDF是衡量詞重要程度的經(jīng)典算法,常被用于特征詞的提取,但傳統(tǒng)的TF-IDF算法忽略了文檔對詞特征權(quán)重的貢獻(xiàn)程度,并且也無法很好地應(yīng)用于微博這類短文本中。而微博評論代表了發(fā)聲者想讓更多網(wǎng)友看到對此事件的態(tài)度和觀點,評論的影響力則能體現(xiàn)評論內(nèi)容中存在的主題詞的熱度,因此,本文擬將TF-IDF算法與微博評論影響力相結(jié)合,以確定特征詞的權(quán)重,從而使得選取的特征詞能更好地代表當(dāng)下時間窗內(nèi)的網(wǎng)民觀點。如果將第t個時間窗中詞j的權(quán)重記為wj,t,則其可由式(1)計算得出:
其中,Dt表示第t個時間窗內(nèi)的評論總數(shù),p(d)表示微博評論d的影響力,TF-IDFd,j表示詞j相對于評論d的TF-IDF值。本文認(rèn)為,微博評論d的影響力由回復(fù)數(shù)RCd與點贊數(shù)LCd共同決定(見式(2)),兩者體現(xiàn)了參與話題討論的網(wǎng)民對當(dāng)前評論d的認(rèn)同感,α與β為權(quán)重因子。TF-IDFd,j則等于詞j在評論d中出現(xiàn)的頻次tfd,j與詞j在第t個時間窗內(nèi)的逆文檔頻率(見式(4))的乘積(見式(3))。
利用式(1)得到第t個時間窗內(nèi)詞的特征權(quán)重,經(jīng)降序排序,篩選TopN個詞作為當(dāng)前時間窗內(nèi)的特征詞集合。為了提高后期共詞分析的效率,同時又能較完整地保留評論語義,本研究僅保留特征詞集中的名詞、動詞和形容詞做進(jìn)一步的研究。
2.2.2?特征詞共現(xiàn)網(wǎng)絡(luò)分析
特征詞共現(xiàn)網(wǎng)絡(luò)能夠直觀地反映出詞與詞之間的親疏關(guān)系,故本文將廣泛應(yīng)用于科技文獻(xiàn)主題識別的共詞網(wǎng)絡(luò)分析技術(shù)引入到微博評論信息處理中。以2.2.1小節(jié)選取的特征詞為網(wǎng)絡(luò)節(jié)點,以詞與詞在同條評論中的共現(xiàn)關(guān)系為邊,共現(xiàn)頻次用于表征邊的權(quán)重,構(gòu)建特征詞共現(xiàn)網(wǎng)絡(luò),對該共詞網(wǎng)絡(luò)進(jìn)行關(guān)聯(lián)強(qiáng)度分析。通常情況下,經(jīng)常同時出現(xiàn)的主題詞對相比于出現(xiàn)次數(shù)多但不經(jīng)常同時出現(xiàn)的主題詞對的關(guān)聯(lián)強(qiáng)度更高。也就是說,關(guān)聯(lián)在一起的主題詞簇往往在語義上更加相近,更可能表達(dá)同一主題。因此,本文定義:將經(jīng)過關(guān)聯(lián)強(qiáng)度分析后得到的詞簇視為主題,一個詞簇代表一個主題,每個主題都可轉(zhuǎn)換為如式(5)所示的特征詞表示形式。
2.3?主題強(qiáng)度計算
現(xiàn)有研究多直接以主題相關(guān)文檔數(shù)來表征主題強(qiáng)度,但網(wǎng)絡(luò)輿情主題強(qiáng)度不僅僅取決于相關(guān)微博量的多少,更與參加該話題的用戶數(shù)量有關(guān)。此外,微博平臺上用戶參與某個網(wǎng)絡(luò)輿情主題的方式并非僅有發(fā)布相關(guān)微博一種,用戶還可通過評論、轉(zhuǎn)發(fā)、點贊等多種行為參與到話題當(dāng)中。換言之,本文認(rèn)為一個網(wǎng)絡(luò)輿情主題強(qiáng)度衰退至0的標(biāo)志并非是不再產(chǎn)生與之相關(guān)的微博,而是不再有用戶關(guān)注該主題,即不再有用戶以諸如評論、點贊等行為參與到該主題之中。因此,本文假設(shè)在第t個時間窗口內(nèi),與主題相關(guān)的微博數(shù)量為Nt,則該主題的主題強(qiáng)度可由式(6)計算:
其中,weight(wi,t)表示在第t個時間窗口內(nèi)與主題T相關(guān)的第i條微博wi的強(qiáng)度,其可由式(7)計算得到:
式(7)中CCi,t表示微博wi在第t個時間窗口內(nèi)新增的評論數(shù),RCi,t表示微博wi在第t個時間窗口內(nèi)新增的轉(zhuǎn)發(fā)數(shù),LCi,t表示微博wi在第t個時間窗口內(nèi)新增的點贊數(shù),α、β、γ代表權(quán)重系數(shù)。
2.4?主題演化形式的確定
為了計算主題之間的關(guān)系,本文選用Jaccard相似度系數(shù)來衡量主題在內(nèi)容上隨時間的變化情況,具體的Jaccard系數(shù)計算公式見式(8)。
其中,topici與topicj分別為主題Ti與Tj的特征詞簇表示,分子為兩者交集中所含特征詞個數(shù),分母為兩者并集中所含特征詞個數(shù)。兩個主題所包含的相同特征詞個數(shù)越多,兩個主題在內(nèi)容上越相似。利用式(8)計算相鄰兩個時間窗內(nèi)兩兩主題間的Jaccard相似系數(shù),從而確定主題間的演化關(guān)系與演化強(qiáng)度:
當(dāng)?shù)趖個時間窗內(nèi)的主題Ti與第t+1個時間窗內(nèi)的主題Tj間相似度系數(shù)大于預(yù)設(shè)的閾值時,可視主題Ti與Tj在時間上存在演化關(guān)系,且演化關(guān)系的強(qiáng)弱取決于主題間相似度的大小。
當(dāng)?shù)趖+1個時間窗內(nèi)的主題Tj與第t個時間窗內(nèi)的所有主題間的相似度均小于設(shè)定的閾值時,認(rèn)為主題Tj為新產(chǎn)生的主題。
當(dāng)?shù)趖個時間窗內(nèi)的主題Ti與第t+1個時間窗內(nèi)的所有主題間的相似度均小于設(shè)定的閾值時,認(rèn)為主題Ti為消亡的主題。
當(dāng)?shù)趖+1個時間窗內(nèi)的主題Tj至少與第t個時間窗內(nèi)的主題Ti、主題Tk均存在演化關(guān)系時,可認(rèn)為演化過程存在主題的合并。
當(dāng)?shù)趖個時間窗內(nèi)的主題Ti至少與第t+1個時間窗內(nèi)的主題Tj、主題Tk存在演化關(guān)系時,可認(rèn)為演化過程中產(chǎn)生主題的分裂。
基于計算所得的相似系數(shù),結(jié)合Palla?G等提出的“新生、消亡、合并、分裂、擴(kuò)張、收縮”6種復(fù)雜網(wǎng)絡(luò)演化形式[20],本文在主題內(nèi)容關(guān)聯(lián)演化分析的基礎(chǔ)上融入主題強(qiáng)度,并對輿情主題擴(kuò)張與收縮兩種演化形式做出如下定義:
當(dāng)?shù)趖個時間窗內(nèi)的主題Ti與第t+1個時間窗內(nèi)的主題Tj存在演化關(guān)系,且主題Ti在第t個時間窗內(nèi)的強(qiáng)度小于主題Tj在第t+1個時間窗內(nèi)的強(qiáng)度時,可認(rèn)為主題Ti規(guī)模在擴(kuò)大。
當(dāng)?shù)趖個時間窗內(nèi)的主題Ti與第t+1個時間窗內(nèi)的主題Tj存在演化關(guān)系,且主題Ti在第t個時間窗內(nèi)的強(qiáng)度大于主題Tj在第t+1個時間窗內(nèi)的強(qiáng)度時,可認(rèn)為主題Ti規(guī)模出現(xiàn)收縮。
2.5?融合主題強(qiáng)度的主題內(nèi)容演化軌跡可視化
主題演化圖能夠直觀地展示輿情主題隨時間變化的演化軌跡,實現(xiàn)對網(wǎng)民態(tài)度變化的跟蹤,但過去大部分主題演化圖僅從單一的時間維度反映主題內(nèi)容在連續(xù)時間窗上是否具有延續(xù)性,而無法呈現(xiàn)2.4小節(jié)提出的主題規(guī)模的擴(kuò)張與收縮。因此,本文擬對其稍加改進(jìn),構(gòu)建如圖2所示的融合主題強(qiáng)度與內(nèi)容的主題演化圖。
圖2?融合強(qiáng)度與內(nèi)容的主題演化圖
圖2中橫坐標(biāo)代表連續(xù)的時間窗口,縱坐標(biāo)代表主題強(qiáng)度排名,在每個時間窗口里主題按其強(qiáng)度從大到小排列,連線的虛實沒有實際區(qū)別,僅代表省略的部分主題,而連線的粗細(xì)反映主題關(guān)聯(lián)的強(qiáng)度,連線越粗表示主題在內(nèi)容上越相似,主題關(guān)聯(lián)越強(qiáng);其中可能存在的“新生、消亡、合并、分裂、擴(kuò)張、收縮”6種演化方式如第2.4小節(jié)所述,在實證階段將輔以文字介紹。
3?實證與結(jié)果分析
3.1?數(shù)據(jù)來源
本文綜合事件影響力、典型性與復(fù)雜度,選取“女孩乘滴滴順風(fēng)車遇害”事件作為研究案例,采集了發(fā)布時間介于2018年8月25日0時—8月31日24時的所有熱門微博,最終共計得到13?074條微博評論。
對于時間窗的劃分,本研究分別以不同間隔的時間段進(jìn)行多次實驗,經(jīng)觀察發(fā)現(xiàn),評論內(nèi)容在事發(fā)后前1個小時內(nèi)話題幾乎保持一致,所以計算時選擇了以小時而非以分鐘為單位進(jìn)行劃分,對每個劃分原則下相鄰時間窗的主題相似度進(jìn)行計算并除以主題對的數(shù)量,計算在不同時間窗劃分下的評論內(nèi)容累加平均相似度,表1展示了每隔1小時直到每隔10小時的評論平均相似度。
平均相似度越接近0則代表評論話題越不一致,即容易出現(xiàn)話題突變,根據(jù)計算結(jié)果發(fā)現(xiàn),時間間隔在5、6、7個小時的時候相似度出現(xiàn)了明顯下降,即出現(xiàn)了評論主題的變化,可能有主題演化的現(xiàn)象出現(xiàn)。因此,實驗將時間窗大小設(shè)置為6小時,6天的數(shù)據(jù)共得到28個時間戳,將采集到的所有評論數(shù)據(jù)按其發(fā)布的時間分配到對應(yīng)的時間窗下,并對各時間窗內(nèi)的所有評論信息進(jìn)行預(yù)處理、分詞及停用詞過濾等操作。
3.2?融合評論影響力的特征詞提取
本文使用Python語言編寫程序,依次遍歷各時間窗內(nèi)的評論語料,按2.2.1中式(1)~(4)所述,計算各時間窗內(nèi)詞語的特征權(quán)重,對計算結(jié)果降序排列,參考二八定律,選取降序排列結(jié)果前20%的詞語作為當(dāng)前時間窗口的特征詞集。為了表明融合評論影響力的TF-IDF算法相較于傳統(tǒng)的TF-IDF算法在特征詞選取上的有效性,本次實驗借助Python?Wordcloud庫,以第2個時間窗中選取的特征詞為例進(jìn)行了詞云可視化展示。同時,為了更清晰地展示特征詞,本文將共詞網(wǎng)絡(luò)分析技術(shù)引入到微博評論信息處理中,借助VOSviewer軟件對共詞網(wǎng)絡(luò)進(jìn)行關(guān)聯(lián)強(qiáng)度分析。圖3與圖4分別為使用融合評論影響力的TF-IDF算法和使用傳統(tǒng)的TF-IDF算法提取的第2個時間窗的特征詞詞云展示。
本案例在時間窗2中涉及的關(guān)鍵輿情信息節(jié)點包括“尋找失聯(lián)女孩”“女孩確定遇害,兇手已被抓獲”。對比兩種特征詞提取結(jié)果可以看出,融合評論影響力的TF-IDF算法提取出“那輛車”“實名制”等與“尋找失聯(lián)女孩”相關(guān)的特征詞,且與基于傳統(tǒng)的TF-IDF算法提取出的“尋人”一詞相比,這些詞均表征了網(wǎng)民為尋找失聯(lián)女孩提供的具體化建議。此外,融合評論影響力的TF-IDF算法還提取出“憤怒”這類表征網(wǎng)民情緒的特征詞。
綜上所述,融合評論影響力的TF-IDF算法由于考慮了評論本身的影響力,提取的特征詞不僅是相對評論文本而言的關(guān)鍵詞,同時也在很大程度上反映了當(dāng)下時間窗內(nèi)的網(wǎng)民主體觀點,更有利于企業(yè)與政府把握網(wǎng)民情感走向,制定更符合民意的應(yīng)對策略。
3.3?特征詞共現(xiàn)網(wǎng)絡(luò)分析
在獲得各時間窗內(nèi)特征詞集的基礎(chǔ)上,根據(jù)特征詞在當(dāng)前時間窗內(nèi)微博評論中的共現(xiàn)關(guān)系構(gòu)建特征詞共現(xiàn)矩陣,基于社會網(wǎng)絡(luò)分析思想,將特征詞視為網(wǎng)絡(luò)的節(jié)點,詞間共現(xiàn)關(guān)系作為網(wǎng)絡(luò)的邊,共現(xiàn)頻次用于衡量邊的權(quán)重。借助VOSviewer軟件實現(xiàn)該共現(xiàn)網(wǎng)絡(luò)的可視化,利用其關(guān)聯(lián)強(qiáng)度歸一化功能,實現(xiàn)特征詞集的聚類,將聚類詞簇視為評論主題,最終得到主題的詞簇表示。圖5展示了第3個時間窗口的特征詞共現(xiàn)網(wǎng)絡(luò)可視化效果,每種顏色代表一個聚類簇,每個聚類詞簇又對應(yīng)著不同的主題。例如,①號聚類簇包含了“一鍵”“公安”“功能”“行車”“發(fā)到”“設(shè)置”“路線”“車主”“車子”等特征詞,結(jié)合主題特征詞將該主題概括為網(wǎng)民建議“設(shè)置一鍵報警功能,將車主及路線等信息直接發(fā)到公安部門”,屬于網(wǎng)民呼聲較高的建議類觀點。
從表2可以看出,網(wǎng)民在時間窗3內(nèi)的態(tài)度與觀點主要可分為3大類:一是情感類,包括對遇害女孩的惋惜(Topic3-4)、對滴滴不作為的痛恨(Topic3-10、Topic3-11、Topic3-13、Topic3-16、Topic3-17)、對警察能力與處警流程的質(zhì)疑(Topic3-12、Topic3-15)以及對兇手的憎恨(Topic3-3、Topic3-19);二是建議類(Topic3-1、Topic3-5、Topic3-6、Topic3-9、Topic3-14、Topic3-18、Topic3-21),承認(rèn)滴滴出行為日常生活帶來的經(jīng)濟(jì)與便利,為滴滴更好服務(wù)于公眾建言獻(xiàn)策;三是行為傾向類(Topic3-8),面對滴滴接二連三出現(xiàn)安全問題,有網(wǎng)民將不滿情緒轉(zhuǎn)化為切實的行動,表示要卸載滴滴出行打車軟件。綜合來看,在這樣一個涉及公民生命財產(chǎn)安全的重大社會事件中,絕大多數(shù)網(wǎng)民表現(xiàn)出了極負(fù)面的情感態(tài)度,一部分網(wǎng)民相對理智地提出了合理化的解決辦法,獲得了大量網(wǎng)民的認(rèn)同與支持。而企業(yè)負(fù)面事件的產(chǎn)生除了會引起大面積的消極網(wǎng)絡(luò)情緒外,還會導(dǎo)致現(xiàn)實的公民行為,直接影響企業(yè)的經(jīng)營運(yùn)作。
3.4?主題關(guān)聯(lián)及演化軌跡可視化
對相鄰時間窗內(nèi)的主題進(jìn)行兩兩Jaccard相似度計算,表3展示了時間窗3與時間窗4中部分主題間的相似度計算結(jié)果,表4展示了時間窗4與時間窗5中部分主題間的相似度計算結(jié)果,相似度為0則代表兩個主題之間沒有任何關(guān)系。
本實驗經(jīng)多次嘗試,取經(jīng)驗閾值0.125,即當(dāng)Jaccard相似系數(shù)大于等于該閾值時,認(rèn)為兩個話題在時間上具有延續(xù)性,即具備演化關(guān)系。如表3中,Topic3-19(主題內(nèi)容為表2中展示的“呼吁將嫌犯閹割”)與Topic4-25(主題內(nèi)容為“呼吁判處兇手死刑”)的相似度系數(shù)為0.125,同屬網(wǎng)民“希望兇手能夠得到嚴(yán)懲”這一觀點,說明Topic3-19對應(yīng)的評論主題由時間窗3演化到了時間窗4;如表4中,Topic4-25(主題內(nèi)容為“呼吁判處兇手死刑”)與Topic5-9(主題內(nèi)容為“兇手死刑”)的相似度為0.857,則說明Topic4-25的評論主題又演化到了時間窗5。
通過計算28個時間窗內(nèi)各主題強(qiáng)度及相鄰時間窗中主題相似度,獲得主題在整個時間軸上的內(nèi)容及強(qiáng)度演化關(guān)系。實驗以第2.5小節(jié)所示的融合主題強(qiáng)度與內(nèi)容的主題演化圖方式進(jìn)行主題演化過程的可視化展示。接下來以時間窗3~5之間的主題演化片段為例,如圖6所示,進(jìn)行主題演化分析與說明,并針對演化結(jié)果提出相應(yīng)的可行性建議。需要特別說明的是,由于頁面大小的限制,圖6省略了部分不具備演化關(guān)系的主題。
在本案例中,時間窗3中涉及的主要輿情事件有滴滴出行就該事件發(fā)表道歉聲明,并在道歉聲明中承認(rèn)案發(fā)前一天作案車主被其他乘客投訴,但滴滴客服并未對此作出任何回應(yīng)。時間窗4對應(yīng)的輿情主題包括滴滴工作人員會見受害者家屬、造謠警察不作為。時間窗5中溫州公安就警察在該事件接警處警過程中的細(xì)節(jié)問題發(fā)布通告。從圖6與各時間窗內(nèi)的主要輿情事件對比來看,輿情主題不同于學(xué)科主題在時間上多具有延續(xù)性,其更傾向于伴隨著事件的最新進(jìn)展而突然出現(xiàn),因此大部分主題在時間軸上是缺少連續(xù)性的,往往會隨著時間的發(fā)展產(chǎn)生不同于先前時間窗的新主題,且在各個時間窗里主題強(qiáng)度最強(qiáng)的主題往往是與當(dāng)前時間窗中發(fā)生的輿情事件最相關(guān)的主題。
從演化形式上來說,輿情主題演化也同學(xué)科主題演化一樣,存在主題的新生(如時間窗4-主題“建議結(jié)交外國朋友”)、消亡(如時間窗3-主題“關(guān)閉網(wǎng)約黑車”)、合并(如時間窗4-主題“滴滴不作為,是殺人幫兇”)、分裂(如時間窗3-主題“滴滴道歉聲明如放屁”)、擴(kuò)張(如時間窗4-主題“卸載滴滴”)與收縮(如時間窗4-主題“受害者家屬很有教養(yǎng)”)6種形式。其中,分裂意味著主題內(nèi)容出現(xiàn)更細(xì)粒度的劃分,以圖6時間窗3中主題“滴滴道歉聲明如放屁”為例,既有網(wǎng)民在時間窗4中發(fā)表了與之意義相近的“道歉無用”觀點,也有網(wǎng)民從滴滴道歉聲明中發(fā)現(xiàn)滴滴承認(rèn)其忽略了前一天其他乘客對犯罪嫌疑人的投訴,也就是說由滴滴公司本身的疏漏導(dǎo)致了這次悲劇的產(chǎn)生,因此發(fā)表“滴滴不作為,是殺人幫兇”這一觀點。而主題的合并則意味著在演化過程中,零散的網(wǎng)民觀點變得統(tǒng)一,受到廣泛支持的輿情觀點向著更強(qiáng)的輿論發(fā)展。例如,在時間窗3中網(wǎng)民紛紛表示是滴滴客服沒有及時配合警方才導(dǎo)致女孩遇害,而在時間窗4中,結(jié)合滴滴發(fā)布的道歉聲明,矛頭直指滴滴公司本身,使得與時間窗4最主要的輿情事件并不直接對應(yīng)的主題“滴滴不作為,是殺人幫兇”卻成為這一時段里網(wǎng)民呼聲極高的觀點之一。
因此,筆者認(rèn)為主要可以為輿情預(yù)警與應(yīng)對工作提供以下幾點建議與思考:
1)“滴滴無視先前乘客的投訴”(圖6演化路徑②)與“質(zhì)疑警方立案過程存在過失與疏漏”(圖6演化路徑③)兩個主題分別屬于滴滴出行公司與警方在此事件中最讓網(wǎng)民詬病的焦點問題,兩者的區(qū)別在于前者屬于滴滴出行公司聲明發(fā)布中所承認(rèn)的工作疏漏,而后者則屬于溫州公安在其聲明中辟謠與澄清的不實之言。但從圖6中可以看出,政府與企業(yè)在解決與處理問題的過程中,無論是真實存在的行為漏洞,還是由于網(wǎng)民認(rèn)知不足甚至是某些營銷號惡意造謠而強(qiáng)加的行為漏洞,都會成為網(wǎng)民始終緊盯不放的焦點。因此,在條件允許的情況下,政府方面應(yīng)盡早、主動地將工作進(jìn)展與詳情公之于眾,避免信息處于模糊的灰色地帶,將謠言扼殺在搖籃里,不給別有用心者可乘之機(jī)。
2)從圖6中可以看出,“卸載滴滴”這一行為傾向貫穿始終(圖6演化路徑①),且始終呈現(xiàn)高強(qiáng)度水平,是網(wǎng)民極為關(guān)注與支持的觀點。即使面對滴滴的道歉,絕大多數(shù)網(wǎng)民仍持有負(fù)面情緒。在事件后期,滴滴出行公司發(fā)布了相關(guān)安全措施及功能升級進(jìn)展說明,本實驗又以“滴滴?整改”為檢索詞,采集了自該公告發(fā)布之時起24小時內(nèi)的相關(guān)微博及評論信息,對采集到的106條評論數(shù)據(jù)進(jìn)行了和3.2與3.3小節(jié)同樣的實驗,圖7為對應(yīng)的共詞網(wǎng)絡(luò),表5對每個聚類詞簇所屬主題進(jìn)行了概括。
從表5中明顯可以看出,相比于滴滴僅發(fā)布道歉聲明時網(wǎng)民極端的負(fù)面情緒,具體整改措施的發(fā)布無疑使得輿論向理性、積極的方向發(fā)展。即使有少數(shù)網(wǎng)民認(rèn)為滴滴的整改措施治標(biāo)不治本,但此時有更多的網(wǎng)民反而主動站出來為滴滴辯護(hù)(如Topic1、Topic4)。這也說明一家能為百姓生活帶來便利的企業(yè),如果能夠及時完善現(xiàn)有的運(yùn)營機(jī)制、改進(jìn)現(xiàn)存的不足,仍會得到人民的擁護(hù)與支持。因此,企業(yè)在應(yīng)對負(fù)面事件、負(fù)面情緒的過程中,應(yīng)盡早地推出解決問題的具體舉措,比一味的道歉更能引導(dǎo)輿論向好發(fā)展。
3)從圖6中還可以發(fā)現(xiàn)在評論中衍生出了與此事件完全無關(guān)的其他輿情主題(時間窗4-主題“攀枝花老太信訪被打”),這是因為在微博平臺上存在很多普通的草根用戶為了使與之相關(guān)的事件得到關(guān)注,往往會選擇在熱門微博的評論區(qū)發(fā)表與其自身相關(guān)事件的評論信息,借熱門微博的熱度來博得關(guān)注、尋求支援。因此,微博評論是輿情監(jiān)測中不可忽視的一部分。在輿情監(jiān)測的過程中,政府與企業(yè)應(yīng)及時處理好由網(wǎng)民評論衍生出的新輿情事件,搶在事態(tài)進(jìn)一步擴(kuò)大之前引導(dǎo)輿論正確走向,避免“亡羊補(bǔ)牢、為時已晚”的局面發(fā)生。
4?總?結(jié)
本文研究了輿情熱點話題的主題表示及其演化問題,對網(wǎng)絡(luò)中單一輿情的熱點主題在其生命周期的變化情況進(jìn)行了展示與分析。經(jīng)過實驗對比發(fā)現(xiàn),融入評論影響力的TF-IDF算法能夠提取出網(wǎng)民情緒特征詞,反映網(wǎng)民的主體觀點。此外,本文的實證表明,融入了主題強(qiáng)度的主題內(nèi)容演化方法能夠?qū)φ推髽I(yè)的輿情引導(dǎo)與應(yīng)對工作提供更加準(zhǔn)確、細(xì)致的建議與思考。
由于時間與技術(shù)方面的限制,本文研究工作還存在許多不足之處,例如:
1)本研究的時間窗設(shè)置以小時為單位,對于更新速度極快的部分?jǐn)?shù)據(jù)而言,不能很好地預(yù)判那些自首次出現(xiàn)至登上熱搜榜時間差值很小的主題,因此,在現(xiàn)實的輿情監(jiān)測工作中,可以在本研究的基礎(chǔ)上縮短時間間隔。
2)此外,本研究的演化是基于單個時間窗內(nèi)的主題頻次的,在未來的研究中可以再對多個時間窗內(nèi)的評論主題詞頻次進(jìn)行累加,獲得整個事件生命周期中截至某個節(jié)點的總主題頻次,并與當(dāng)前實驗做對比分析。
參考文獻(xiàn)
[1]崔凱.基于LDA的主題演化研究與實現(xiàn)[D].長沙:國防科學(xué)技術(shù)大學(xué),2010.
[2]Wang?X,Mccallum?A.Topics?Over?Time:A?Non-Markov?Continuous-time?Model?of?Topical?Trends[C]//Acm?Sigkdd?International?Conference?on?Knowledge?Discovery?&?Data?Mining.ACM,2006.
[3]Blei?D?M,Lafferty?J?D.Dynamic?Topic?Models[C]//Proceedings?of?the?23rd?International?Conference?on?Machine?Learning.New?York:ACM,2006.
[4]Alsumait?L,Barbará?D,Domeniconi?C.On-line?LDA:Adaptive?Topic?Models?for?Mining?Text?Streams?with?Applications?to?Topic?Detection?and?Tracking[C]//Eighth?IEEE?International?Conference?on?Data?Mining.IEEE?Computer?Society,2008.
[5]李愛明.社會網(wǎng)絡(luò)視角下的國內(nèi)數(shù)字圖書館領(lǐng)域作者合作關(guān)系研究[J].情報科學(xué),2013,31(11):57-63.
[6]劉偉.“一帶一路”倡議下國內(nèi)外新聞輿情及其演化分析[J].統(tǒng)計與信息論壇,2018,33(6):34-42.
[7]王振飛,劉凱莉,鄭志蘊(yùn),等.面向時間序列的微博話題演化模型研究[J].計算機(jī)科學(xué),2017,44(8):270-273,279.
[8]諶志群,徐寧,王榮波.基于主題演化圖的網(wǎng)絡(luò)論壇熱點跟蹤[J].情報科學(xué),2013,31(3):147-150.
[9]Pépin?L,Kuntz?P,Blanchard?J,et?al.Visual?Analytics?for?Exploring?Topic?Long-term?Evolution?and?Detecting?Weak?Signals?in?Company?Targeted?Tweets[J].Computers?&?Industrial?Engineering,2017,112:450-458.
[10]陳婷,王雪怡,曲霏,等.基于時序主題的網(wǎng)絡(luò)輿情熱點話題演化分析方法[J].華中師范大學(xué)學(xué)報:自然科學(xué)版,2016,50(5):672-676.
[11]劉國威,成全.基于網(wǎng)絡(luò)輿情生命周期的微博熱點事件主題演化研究[J].情報探索,2018,(4):11-19.
[12]唐曉波,王洪艷.基于潛在狄利克雷分配模型的微博主題演化分析[J].情報學(xué)報,2013,32(3):281-287.
[13]安璐,吳林.融合主題與情感特征的突發(fā)事件微博輿情演化分析[J].圖書情報工作,2017,61(15):120-129.
[14]Koylu?C,Larson?R,Dietrich?B?J,et?al.CarSenToGram:Geovisual?Text?Analytics?for?Exploring?Spatiotemporal?Variation?in?Public?Discourse?on?Twitter[J].Cartography?and?Geographic?Information?Science,2018,64:57-71.
[15]程齊凱,王曉光.一種基于共詞網(wǎng)絡(luò)社區(qū)的科研主題演化分析框架[J].圖書情報工作,2013,57(8):91-96.
[16]Weaver?I?S,Williams?H,Cioroianu?I,et?al.Dynamic?Social?Media?Affiliations?Among?UK?Politicians[J].Social?Networks,2018,54:132-144.
[17]Li?Q,Huang?K,Wu?B,et?al.Group?Behavior?Diffusion?Model?of?Social?Hotspots?Based?on?Triadic?Structure?and?Factor?Graphs[J].Computational?Intelligence,2018,34(4):1155-1177.
[18]Xiao?Y?P,Song?C?G,Liu?Y?B.Social?Hotspot?Propagation?Dynamics?Model?Based?on?Multidimensional?Attributes?and?Evolutionary?Games[J].Communications?in?Nonlinear?Science?and?Numerical?Simulation,2019,67:13-25.
[19]王曉光,程齊凱.基于NEViewer的學(xué)科主題演化可視化分析[J].情報學(xué)報,2013,32(9):900-911.
[20]Palla?G,Barabási?A?L,Vicsek?T.Quantifying?Social?Group?Evolution[J].Nature,2007,446(7136):664-667.
(責(zé)任編輯:郭沫含)