王曰芬 王一山 楊潔
摘 ? 要:為了深入探究網(wǎng)絡(luò)輿情演化的特點(diǎn)與規(guī)律,需要在內(nèi)容層面上有效地從網(wǎng)絡(luò)輿情的大量數(shù)據(jù)中發(fā)現(xiàn)高價(jià)值的輿情主題,并結(jié)合時(shí)間維度將各個(gè)時(shí)間點(diǎn)孤立的輿情內(nèi)容整合起來(lái)。文章將情報(bào)學(xué)理論、生命周期理論、輿情傳播理論、社會(huì)網(wǎng)絡(luò)分析方法與文本分析方法相結(jié)合,提出了基于社區(qū)發(fā)現(xiàn)與關(guān)鍵節(jié)點(diǎn)識(shí)別的包括網(wǎng)絡(luò)輿情生命周期階段劃分、網(wǎng)絡(luò)輿情社區(qū)發(fā)現(xiàn)與關(guān)鍵節(jié)點(diǎn)識(shí)別、輿情事件主題發(fā)現(xiàn)三個(gè)部分的網(wǎng)絡(luò)輿情主題發(fā)現(xiàn)研究設(shè)計(jì)。最后,選取新浪微博“上海踩踏”事件作為研究對(duì)象進(jìn)行實(shí)證分析。研究發(fā)現(xiàn):在主題發(fā)現(xiàn)研究中加入用戶屬性和用戶行為等非文本特征要素的設(shè)計(jì),彌補(bǔ)了用戶關(guān)系的缺失,提高主題發(fā)現(xiàn)的效率;提出的主題發(fā)現(xiàn)方法在一定程度上降低了微博文本稀疏性的影響;研究發(fā)現(xiàn)了輿情事件在整個(gè)生命周期中主題內(nèi)容變化的狀態(tài),所提方案可為相關(guān)決策提供有效的方法支撐,研究結(jié)論具有情報(bào)參考價(jià)值。
關(guān)鍵詞:網(wǎng)絡(luò)輿情;主題發(fā)現(xiàn);社區(qū)發(fā)現(xiàn);關(guān)鍵節(jié)點(diǎn)識(shí)別;非文本特征
中圖分類號(hào):C912.63 ? 文獻(xiàn)標(biāo)識(shí)碼:A ? DOI:10.11968/tsyqb.1003-6938.2020081
Abstract In order to explore the characteristics and laws of the evolution of network public opinion, it is necessary to effectively identify high-value public opinion topics from a large number of data of network public opinion at the content level, and integrate the public opinion content isolated at different time points with the time dimension. This paper combines information science theory, life cycle theory, public opinion communication theory, social network analysis method and text analysis method, proposes the research design based on community detection and key node identification. Finally, the paper takes the "Shanghai stampede" incident of Sina Weibo as the research object for empirical analysis. The results show that: the addition of non-text feature elements such as user attributes and user behavior to the topic discovery makes up for the lack of user relationship and improves the efficiency of topic discovery; the proposed topic discovery method reduces the impact of sparsity of micro-blog text; the research finds out the changing state of the subject content of public opinion events in the whole life cycle. The proposed research design can provide effective methodological support for relevant decision-making, and the research conclusion has information reference value.
Key words network public opinion; topic discovery; community detection; key node identification; Non-textual features
1 ? 引言
近年來(lái),隨著網(wǎng)絡(luò)信息技術(shù)的推陳出新,除了網(wǎng)絡(luò)新聞、網(wǎng)絡(luò)論壇外,諸如微博、微信、興趣知識(shí)型社區(qū)等網(wǎng)絡(luò)社交平臺(tái)如雨后春筍般涌現(xiàn)。相較于傳統(tǒng)媒體,網(wǎng)絡(luò)社交平臺(tái)在信息傳播上具備速度快、范圍廣、交互性強(qiáng)的特點(diǎn),并且從根本上改變了信息傳播者與接受者之間的關(guān)系,顛覆了傳統(tǒng)新聞媒介原有的信息傳播方式,原本作為信息接受者的網(wǎng)民也能通過(guò)發(fā)表自己的觀點(diǎn),作為信息發(fā)布者參與到新聞事件中來(lái),形成了傳播者之間相互交錯(cuò)、傳播主題瞬息紛呈、傳播效果變化難料的網(wǎng)絡(luò)傳播環(huán)境。
在此背景下,一些突發(fā)性社會(huì)事件或極易引起爭(zhēng)議的事件,經(jīng)由網(wǎng)絡(luò)社交媒體的發(fā)布與信息傳播,在網(wǎng)民的推動(dòng)下,就會(huì)形成網(wǎng)絡(luò)輿情。一方面,從輿情傳播可產(chǎn)生的正面效果講,網(wǎng)絡(luò)輿情在傳播過(guò)程中,由于涉及面廣,大量的網(wǎng)民參與其中,關(guān)注事件發(fā)展并充分表達(dá)觀點(diǎn),可以形成值得政府、企業(yè)等機(jī)構(gòu)參考并對(duì)各類社會(huì)組織有效監(jiān)督的信息及其流動(dòng),促進(jìn)公眾參與社會(huì)管理;另一方面,從負(fù)面效果來(lái)講,由于網(wǎng)民的情緒很容易被煽動(dòng),而且網(wǎng)絡(luò)中信息真?zhèn)坞y辨,一旦控制不好,容易引發(fā)更加嚴(yán)重的二次社會(huì)事件或輿情危機(jī)。因此,如何對(duì)大量的輿情數(shù)據(jù)進(jìn)行采集、處理、整合、分析與挖掘,進(jìn)而有效提取并了解公眾的輿情觀點(diǎn),將有助于決策者了解人民群眾真正關(guān)心的事件與需求,做出更加科學(xué)合理的決策,同時(shí)在對(duì)網(wǎng)絡(luò)輿情信息進(jìn)行內(nèi)容挖掘的基礎(chǔ)上,了解輿情信息內(nèi)容之間深層次的關(guān)聯(lián)關(guān)系,真正掌握輿情信息的傳播與演化規(guī)律,并在網(wǎng)絡(luò)輿情發(fā)生之初就能積極應(yīng)對(duì),將最大限度地降低輿情事件帶來(lái)的負(fù)面影響。
由于網(wǎng)絡(luò)社交媒體平臺(tái)具有用戶眾多、發(fā)布迅速、用語(yǔ)不規(guī)范等特點(diǎn),相應(yīng)地,生成于該平臺(tái)的網(wǎng)絡(luò)輿情數(shù)據(jù)則具有體量浩大(Volume)、模態(tài)繁多(Variety)、生成快速(Velocity)和價(jià)值低密(Value)的特點(diǎn)?;诖?,如何有效地從網(wǎng)絡(luò)輿情的大量數(shù)據(jù)中發(fā)現(xiàn)高價(jià)值的輿情主題是從內(nèi)容層面研究網(wǎng)絡(luò)輿情演化的前提,并結(jié)合時(shí)間維度,如何將各個(gè)時(shí)間點(diǎn)孤立的輿情內(nèi)容整合起來(lái),是從內(nèi)容層面研究網(wǎng)絡(luò)輿情的核心。為解決上述問(wèn)題,本文將借助于情報(bào)學(xué)理論和方法,結(jié)合生命周期理論、網(wǎng)絡(luò)輿情演化理論、社會(huì)網(wǎng)絡(luò)分析方法與文本分析方法,以微博為實(shí)驗(yàn)平臺(tái),針對(duì)微博輿情數(shù)據(jù)特點(diǎn)設(shè)計(jì)網(wǎng)絡(luò)輿情分析研究方案,探索輿情主題發(fā)現(xiàn)的有效方法,并分析輿情內(nèi)容的演化規(guī)律,以期為決策提供方法支撐與情報(bào)參考。
2 ? 相關(guān)研究
迄今為止,有關(guān)輿情研究論文涉及的面廣、數(shù)量多,基于本文的研究目的,將圍繞著輿情主題發(fā)現(xiàn)、社區(qū)發(fā)現(xiàn)、關(guān)鍵節(jié)點(diǎn)識(shí)別和輿情生命周期研判四個(gè)方面進(jìn)行概要?dú)w納。
(1)輿情主題發(fā)現(xiàn)。主題發(fā)現(xiàn)即主題抽取或主題識(shí)別,目的是對(duì)大規(guī)模信息進(jìn)行處理和分析,幫助用戶快速有效地了解信息內(nèi)容、發(fā)現(xiàn)信息主題。主題發(fā)現(xiàn)最早源自美國(guó)國(guó)防部高級(jí)研究計(jì)劃署提出的話題檢測(cè)與跟蹤技術(shù),旨在對(duì)海量的信息內(nèi)容進(jìn)行處理和分析,以發(fā)掘信息主題[1]。現(xiàn)有的文本聚類和主題模型兩類主題發(fā)現(xiàn)方法已經(jīng)被應(yīng)用到輿情主題發(fā)現(xiàn)中,如路榮等[2]提出一種在大規(guī)模微博客短文本數(shù)據(jù)集上發(fā)現(xiàn)新聞話題的方法,利用隱主題分析技術(shù),解決短文本相似度度量的問(wèn)題;唐曉波和房小可[3]針對(duì)文本聚類和LDA主題模型的互補(bǔ)特征,綜合考慮微博特殊文體和短文本聚類效率問(wèn)題,提出基于頻繁詞集的文本聚類和基于類簇的LDA主題挖掘相融合的主題檢索模型;阮光冊(cè)[4]針對(duì)網(wǎng)絡(luò)用戶評(píng)論信息內(nèi)容短、信息量少的特征,提出基于LDA(latent Dirichlet allocation)主題發(fā)現(xiàn)模型對(duì)網(wǎng)絡(luò)評(píng)論進(jìn)行主題發(fā)現(xiàn);Weng等[5]和Zvi等[6]在用戶層面進(jìn)行主題建模,研究根據(jù)用戶的興趣進(jìn)行個(gè)性化推薦以及社區(qū)發(fā)現(xiàn);Titov和Mcdonald[7]提出了多粒度LDA 模型,將情感層加入LDA模型,同時(shí)考慮了文檔級(jí)與局部的情感/主題分布,避免了對(duì)單詞、短語(yǔ)和句子的依賴,改善了情感分布在不同領(lǐng)域的適應(yīng)性。
(2)社區(qū)發(fā)現(xiàn)。社區(qū)發(fā)現(xiàn)是指將一個(gè)集合中的元素按照元素之間的某種關(guān)系,劃分為若干個(gè)社區(qū)(可交叉子集)的過(guò)程[8]。社區(qū)發(fā)現(xiàn)的基本作用是將個(gè)體進(jìn)行分類,劃分到多個(gè)社區(qū)中。根據(jù)相關(guān)文獻(xiàn),現(xiàn)有的社區(qū)發(fā)現(xiàn)研究主要集中在社會(huì)學(xué)的分級(jí)聚類和圖理論的圖形分割兩方面[8],代表算法有:GN(Girvan and Newmans)算法[9]、Newman 快速算法[10]、基于圖聚類的normalized cut 算法[11]等,以及在上述算法基礎(chǔ)上的應(yīng)用研究,如淦文燕等[12]從數(shù)據(jù)場(chǎng)思想出發(fā),提出一種基于拓?fù)鋭?shì)的社區(qū)發(fā)現(xiàn)算法;林友芳等[13]提出一種邊穩(wěn)定系數(shù)模型和一種能表達(dá)個(gè)體間關(guān)系緊密度的完全信息圖模型,在此基礎(chǔ)上設(shè)計(jì)和實(shí)現(xiàn)了一種融合個(gè)體和鏈接屬性的社區(qū)發(fā)現(xiàn)算法[13]。
(3)關(guān)鍵節(jié)點(diǎn)識(shí)別。社會(huì)網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)是指在網(wǎng)絡(luò)形成與交互中具有重要影響力的節(jié)點(diǎn),是與輿情傳播中“意見領(lǐng)袖”概念相對(duì)應(yīng)的。“意見領(lǐng)袖”最先由拉扎斯菲爾德提出,其定義為:媒介信息傳給社會(huì)群體的過(guò)程中,那些扮演某種有影響力的中介角色[14]。社會(huì)網(wǎng)絡(luò)中關(guān)鍵節(jié)點(diǎn)的識(shí)別方法主要包括層次分析法、聚類分析法、社會(huì)網(wǎng)絡(luò)分析法、HITS算法及PageRank算法等[15]。相關(guān)學(xué)者基于上述方法進(jìn)行了大量的研究,如Darus等[16]利用AHP方法研究選擇團(tuán)隊(duì)領(lǐng)袖的團(tuán)隊(duì)構(gòu)建模型;譚雪晗等[17]利用社會(huì)網(wǎng)絡(luò)分析方法篩選出事故災(zāi)難輿情中的關(guān)鍵信息發(fā)布者和關(guān)鍵事件關(guān)注者,并提出以關(guān)鍵節(jié)點(diǎn)為中心的事故災(zāi)難輿情治理策略;肖宇等[18]在傳統(tǒng)PageRank算法基礎(chǔ)上,利用用戶回帖傾向性對(duì)用戶間鏈接的權(quán)重重新賦值,構(gòu)建新的基于傾向性分析的LeaderRank意見領(lǐng)袖發(fā)現(xiàn)算法。
(4)輿情生命周期研判?!吧芷凇保↙ife Cycle)這一概念最初源自生物學(xué)領(lǐng)域,用于描述生物體在生命演化過(guò)程中其形態(tài)和功能所發(fā)生的改變及其呈現(xiàn)出的階段性特征?;谏芷诟拍钚纬傻睦碚撜J(rèn)為,某一事物或?qū)ο髲漠a(chǎn)生到消亡的全過(guò)程可視作一段完整的生命過(guò)程,而這一過(guò)程又因該事物或?qū)ο笄昂蟊憩F(xiàn)出不同的形態(tài)可劃分為多個(gè)不同的階段。網(wǎng)絡(luò)輿情事件的發(fā)展歷程跟上述生命周期類似,同樣要經(jīng)歷生物體從出生到死亡的全過(guò)程。如某一輿情事件發(fā)生后,隨之而來(lái)的是輿情信息在網(wǎng)絡(luò)平臺(tái)的擴(kuò)散和傳播,且輿情信息隨著網(wǎng)民之間的互動(dòng),不斷傳播迭代,其形態(tài)和發(fā)展方向會(huì)逐步變化。目前,生命周期理論在網(wǎng)絡(luò)輿情演化研究中的應(yīng)用主要體現(xiàn)在兩個(gè)方面[19-20]:①使用生命周期理論可以表明輿情事件在網(wǎng)絡(luò)中的傳播具備生命周期特征;②根據(jù)生命周期理論為輿情事件劃分階段,便于研究輿情事件在不同階段的特征差異,為輿情演化研究提供分析思路。
綜上所述,學(xué)者們對(duì)相關(guān)內(nèi)容進(jìn)行了許多研究。但是,利用諸如用戶行為等非文本特征進(jìn)行輿情主題發(fā)現(xiàn)的研究仍然較少,有待繼續(xù)深入。網(wǎng)絡(luò)輿情在社交媒體平臺(tái)中的傳播深受平臺(tái)用戶行為的影響,如用戶的發(fā)布、轉(zhuǎn)發(fā)、評(píng)論和點(diǎn)贊等行為推動(dòng)著輿情信息的產(chǎn)生和傳播。由于平臺(tái)中的輿情信息不僅包括文本內(nèi)容,還包含用戶、時(shí)間、地理位置等非文本特征的信息,對(duì)這些信息進(jìn)行深度挖掘與分析才能反映輿情主題及其變化?;谇閳?bào)學(xué)的輿情分析是圖書情報(bào)學(xué)領(lǐng)域的特色主題[21],因此,本文認(rèn)為利用用戶行為等非文本特征信息從內(nèi)容層面和時(shí)間維度相結(jié)合的角度進(jìn)行網(wǎng)絡(luò)輿情主題發(fā)現(xiàn)與分析的研究將是值得深入研究的方向。
3 ? 研究設(shè)計(jì)
3.1 ? ?研究思路
研究選取微博平臺(tái)作為數(shù)據(jù)來(lái)源,以網(wǎng)絡(luò)輿情事件作為研究對(duì)象,將研究主要流程設(shè)計(jì)劃分為:網(wǎng)絡(luò)輿情生命周期階段劃分、網(wǎng)絡(luò)輿情社區(qū)發(fā)現(xiàn)與關(guān)鍵節(jié)點(diǎn)識(shí)別、輿情事件主題發(fā)現(xiàn)三個(gè)部分,并提出研究設(shè)計(jì)的總體思路(見圖1)。
其中,第一部分,輿情事件的生命周期階段劃分:導(dǎo)入生命周期理論,按照輿情事件的發(fā)展態(tài)勢(shì),將輿情事件從產(chǎn)生到消亡的整個(gè)過(guò)程劃分為若干個(gè)階段;第二部分,網(wǎng)絡(luò)輿情社區(qū)發(fā)現(xiàn)與關(guān)鍵節(jié)點(diǎn)識(shí)別:首先,以微博用戶為節(jié)點(diǎn),用戶行為(轉(zhuǎn)發(fā)和評(píng)論)為連線,構(gòu)建輿情社會(huì)網(wǎng)絡(luò);其次,利用社區(qū)發(fā)現(xiàn)算法進(jìn)行用戶社區(qū)發(fā)現(xiàn);最后,識(shí)別每個(gè)社區(qū)的關(guān)鍵節(jié)點(diǎn);第三部分,網(wǎng)絡(luò)輿情主題發(fā)現(xiàn):首先,建立“用戶社區(qū)-關(guān)鍵節(jié)點(diǎn)-微博”映射,獲得每個(gè)社區(qū)的微博內(nèi)容;其次,利用TF-IDF算法進(jìn)行用戶社區(qū)關(guān)鍵詞過(guò)濾,提取TF-IDF值排名Top20的關(guān)鍵詞作為輿情主題詞,并歸納每個(gè)社區(qū)的主題。在完成輿情主題發(fā)現(xiàn)后,歸納輿情主題并分析。
3.2 ? ?網(wǎng)絡(luò)輿情社區(qū)發(fā)現(xiàn)與關(guān)鍵節(jié)點(diǎn)識(shí)別的研究設(shè)計(jì)
(1)輿情社會(huì)網(wǎng)絡(luò)構(gòu)建。節(jié)點(diǎn)和連線是社會(huì)網(wǎng)絡(luò)中最基本的兩類元素,節(jié)點(diǎn)代表用戶或行為者,連線代表行為者之間的關(guān)系,構(gòu)建社會(huì)網(wǎng)絡(luò)需要確定節(jié)點(diǎn)和連線。輿情事件在微博中的傳播與擴(kuò)散主要靠的是用戶的轉(zhuǎn)發(fā)和評(píng)論,基于轉(zhuǎn)發(fā)和評(píng)論關(guān)系構(gòu)建的微博社會(huì)網(wǎng)絡(luò)具有更明確的事件性和主題性。因此,本文基于轉(zhuǎn)發(fā)和評(píng)論兩類用戶行為構(gòu)建微博輿情社會(huì)網(wǎng)絡(luò):以微博用戶為節(jié)點(diǎn),以用戶對(duì)微博的轉(zhuǎn)發(fā)或評(píng)論行為建立轉(zhuǎn)發(fā)者、評(píng)論者與被轉(zhuǎn)發(fā)者、被評(píng)論者之間的聯(lián)系作為連線,構(gòu)建微博輿情社會(huì)網(wǎng)絡(luò)。同時(shí),本文對(duì)轉(zhuǎn)發(fā)和評(píng)論兩類用戶行為賦予不同的權(quán)重(具體說(shuō)明見表1)。
其中, C(Ui)是所有與Ui發(fā)生交互的節(jié)點(diǎn)數(shù)目,本文中的社會(huì)網(wǎng)絡(luò)是基于權(quán)重的網(wǎng)絡(luò),需要考慮邊的權(quán)重;d是阻尼系數(shù),可設(shè)定在(0,1)之間, 通常取0.85。通過(guò)迭代,可以計(jì)算所有用戶的L(Ui)。
3.3 ? ?網(wǎng)絡(luò)輿情主題發(fā)現(xiàn)的研究設(shè)計(jì)
(1)“用戶社區(qū)-關(guān)鍵節(jié)點(diǎn)-微博”映射。根據(jù)本文研究,我們可通過(guò)計(jì)算微博用戶的影響力來(lái)識(shí)別微博輿情社會(huì)網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)。用戶影響力取決于用戶屬性和用戶行為,其外在表現(xiàn)以具體的微博內(nèi)容形式呈現(xiàn),高影響力用戶的微博內(nèi)容的傳播效果更大、影響范圍更廣。在識(shí)別每個(gè)用戶社區(qū)的關(guān)鍵節(jié)點(diǎn)后,提取其微博內(nèi)容,建立“用戶社區(qū)-關(guān)鍵節(jié)點(diǎn)-微博內(nèi)容”的映射,是進(jìn)行主題發(fā)現(xiàn)的前提。具體操作說(shuō)明如下:首先,根據(jù)用戶社區(qū)編號(hào)和用戶ID精確匹配用戶社區(qū)和關(guān)鍵節(jié)點(diǎn);其次,根據(jù)微博用戶發(fā)布者ID將關(guān)鍵節(jié)點(diǎn)用戶與其所發(fā)微博內(nèi)容對(duì)應(yīng)起來(lái);最后,形成“用戶社區(qū)-關(guān)鍵節(jié)點(diǎn)-微博內(nèi)容”映射,構(gòu)成各用戶社區(qū)的微博文本集合。
(2)用戶社區(qū)關(guān)鍵詞過(guò)濾及輿情主題提取。由于微博文本具有字?jǐn)?shù)少、不規(guī)范等特點(diǎn),為提高主題的識(shí)別準(zhǔn)確度,需要將分散的微博文本集中起來(lái)。首先,將用戶社區(qū)微博文本集中的所有微博文本進(jìn)行合并,包括原創(chuàng)微博、轉(zhuǎn)發(fā)微博。部分微博文本中含有一些網(wǎng)頁(yè)鏈接,鏈接內(nèi)容多為相關(guān)的新聞報(bào)道和點(diǎn)評(píng)文章,用戶發(fā)布這些鏈接的初衷就是希望讓更多的人查看鏈接內(nèi)容。而且鏈接內(nèi)容被發(fā)布或轉(zhuǎn)發(fā)也代表被對(duì)應(yīng)的發(fā)布和轉(zhuǎn)發(fā)用戶熟知并贊同,一定程度上代表其觀點(diǎn)和看法。因此,微博文本中鏈接內(nèi)容也要并入上述文本集中;其次,計(jì)算文本集中詞語(yǔ)的TF-IDF值,按照從高到低的順序排列,并選取TF-IDF值排名前20的關(guān)鍵詞作為輿情主題詞,并進(jìn)行歸納。
TF-IDF算法是一種利用統(tǒng)計(jì)原理的分析方法,用以評(píng)估某一個(gè)字或詞對(duì)一個(gè)文檔集或一個(gè)語(yǔ)料庫(kù)中的某一份文件的重要性,常用于長(zhǎng)文本的關(guān)鍵詞重要性分析,其主要思想為:某一字詞的重要性與其在文檔中的出現(xiàn)頻次正相關(guān),同時(shí)與該字詞在整個(gè)語(yǔ)料庫(kù)中的出現(xiàn)頻次負(fù)相關(guān)。其中“TF”代表詞頻(termfrequency,TF),表示某個(gè)詞在文檔中的出現(xiàn)次數(shù),文章有長(zhǎng)短之分,為了便于不同文章的比較,需要做“詞頻”標(biāo)準(zhǔn)化,因此本文規(guī)定,詞頻(TF)=某個(gè)詞在文檔中的出現(xiàn)次數(shù) / 文檔總詞數(shù);“IDF”代表逆向文件頻率(inverse document frequency,IDF),它的大小與詞的常見程度成反比,逆文檔頻率(IDF)= log(語(yǔ)料庫(kù)的文檔總數(shù)/包含該詞的文檔總數(shù)+1)。TF-TDF值計(jì)算公式如下所示:
TF-IDF = 詞頻(TF) * 逆文檔頻率(IDF) ? ? (7)
綜上所述,文檔中某一詞的TF-IDF值越大,表示該詞對(duì)文檔越重要,越能表示文檔內(nèi)容的主題。TF-IDF算法可用于自動(dòng)提取文檔的關(guān)鍵詞,即計(jì)算出文檔的每個(gè)詞的TF-IDF值,然后按降序排列,取排在最前面的幾個(gè)詞。
4 ? 實(shí)證分析
4.1 ? ?數(shù)據(jù)來(lái)源及其說(shuō)明
本文的數(shù)據(jù)來(lái)源為新浪微博(littp://weibo.com),采集策略為:以輿情事件“上海踩踏”為檢索詞,使用微博爬蟲采集輿情事件數(shù)據(jù),并將獲取的數(shù)據(jù)存入MySQL數(shù)據(jù)庫(kù)。根據(jù)前期調(diào)查,將數(shù)據(jù)的時(shí)間跨度設(shè)為:2015年1月1日-2015年3月20日。采集后的數(shù)據(jù)存放在四張信息表中:(1)微博信息表(weibo_info),主要記錄用戶發(fā)布和轉(zhuǎn)發(fā)的微博內(nèi)容信息;(2)轉(zhuǎn)發(fā)表(weibo_forward),主要記錄用戶的轉(zhuǎn)發(fā)行為信息,包括轉(zhuǎn)發(fā)者、被轉(zhuǎn)發(fā)者以及轉(zhuǎn)發(fā)的微博內(nèi)容;(3)評(píng)論表(weibo_comment),主要記錄用戶的評(píng)論行為信息和評(píng)論內(nèi)容;(4)用戶信息表(weibo_blogger),主要記錄參與輿情事件的用戶信息。
4.2 ? ?輿情事件生命周期階段劃分
輿情事件從產(chǎn)生到消亡的整個(gè)過(guò)程總是要持續(xù)一段時(shí)間的,此過(guò)程歷經(jīng)輿情的產(chǎn)生、擴(kuò)散、爆發(fā)和消亡等多個(gè)階段,且伴隨著用戶的情緒、意見、觀點(diǎn)等的發(fā)展與變化。經(jīng)過(guò)統(tǒng)計(jì),可以看到上海踩踏事件的微博發(fā)文數(shù)和轉(zhuǎn)發(fā)數(shù)按天計(jì)算的結(jié)果(見圖2),并發(fā)現(xiàn)在微博平臺(tái)中的輿情傳播呈現(xiàn)出明顯的階段性特征。
根據(jù)生命周期理論,本文依據(jù)微博發(fā)文數(shù)和轉(zhuǎn)發(fā)數(shù)的變化情況來(lái)劃分輿情事件的傳播階段。由圖2中可知上海外灘踩踏事件一是相對(duì)跨越的時(shí)間較長(zhǎng),二是中間經(jīng)歷了幾次起伏變化,所以,結(jié)合生命周期理論與輿情變化數(shù),將輿情事件的整個(gè)過(guò)程劃分為五個(gè)階段:
(1)爆發(fā)期一:1月1日-1月6日;
(2)衰退期一:1月7日-1月11日;
(3)爆發(fā)期二:1月12日-1月19日;
(4)爆發(fā)期三:1月20日-1月27日;
(5)衰退期二及平緩期:1月28日-3月20日;
由于,“爆發(fā)期一”處于事件發(fā)生后的最初幾天,數(shù)據(jù)信息量過(guò)于龐大,故本研究對(duì)其進(jìn)行進(jìn)一步劃分,以“天”為單位,又將其劃分為6個(gè)小階段。
4.3 ? ?網(wǎng)絡(luò)輿情的社區(qū)發(fā)現(xiàn)與關(guān)鍵節(jié)點(diǎn)識(shí)別
(1)輿情社會(huì)網(wǎng)絡(luò)構(gòu)建。目前國(guó)內(nèi)外用于社會(huì)網(wǎng)絡(luò)關(guān)系構(gòu)建的應(yīng)用軟件包括:Gephi、Citespace、Network Workbench Tool以及Pajek等。由于Gephi能夠處理的數(shù)據(jù)量較大,可視化效果較好,本文采用Gephi軟件來(lái)實(shí)現(xiàn)基于用戶轉(zhuǎn)發(fā)和評(píng)論關(guān)系的輿情事件社會(huì)網(wǎng)絡(luò)構(gòu)建,并使其可視化。具體操作步驟如下:①映射:以微博信息表中的微博ID(或mid)為橋梁,匹配轉(zhuǎn)發(fā)表中的轉(zhuǎn)發(fā)者ID(forwarder_id)和被轉(zhuǎn)發(fā)者ID(用戶信息表中查找用戶ID),形成用戶轉(zhuǎn)發(fā)關(guān)系映射;匹配評(píng)論表中的評(píng)論者ID(reviewer_id)和被評(píng)論微博發(fā)布者ID(用戶信息表中查找用戶ID),形成用戶評(píng)論關(guān)系映射;②賦權(quán):根據(jù)微博用戶轉(zhuǎn)發(fā)、評(píng)論權(quán)重,給上述轉(zhuǎn)發(fā)關(guān)系映射和評(píng)論關(guān)系映射分別賦予2和1的權(quán)重值;③合并:將相同的轉(zhuǎn)發(fā)關(guān)系映射和評(píng)論關(guān)系映射合并,對(duì)應(yīng)的權(quán)重值求和,如:A用戶轉(zhuǎn)發(fā)B用戶一次,評(píng)論一次,“A-B”用戶行為關(guān)系映射的權(quán)重為:2+1=3;④Gephi導(dǎo)入數(shù)據(jù)初始化:進(jìn)一步處理上述合并后的用戶行為映射表,提取表中所有節(jié)點(diǎn),去重,統(tǒng)計(jì)每個(gè)節(jié)點(diǎn)的出現(xiàn)頻次,形成“節(jié)點(diǎn)”數(shù)據(jù)表;原有的用戶行為關(guān)系映射表則作為“邊”數(shù)據(jù)表(兩類表格樣例分別見圖3、圖4)。
(2)社區(qū)發(fā)現(xiàn)。在本文構(gòu)建輿情社會(huì)網(wǎng)絡(luò)的基礎(chǔ)上,利用公式2進(jìn)行用戶社區(qū)的發(fā)現(xiàn)。選取輿情事件生命周期各階段用戶數(shù)占比在1%以上的社區(qū),并將其編號(hào)并按照規(guī)模大小降序排列(部分社區(qū)信息見表2)。
(3)關(guān)鍵節(jié)點(diǎn)識(shí)別。利用公式4、5和6計(jì)算輿情生命周期各階段每個(gè)社區(qū)中用戶的影響力,并按照其大小降序排列。研究發(fā)現(xiàn),除了常見的擁有高粉絲數(shù)的高影響力用戶外,社區(qū)中同樣存在擁有低粉絲數(shù)的高影響力用戶,其PageRank值較高,說(shuō)明該類用戶在輿情事件中積極傳播信息,受到高度關(guān)注。這一實(shí)驗(yàn)結(jié)果也應(yīng)證了將PageRank值與粉絲數(shù)相結(jié)合來(lái)表示微博用戶影響力這一方式是有效的。根據(jù)“二八定律”(20%的用戶占據(jù)了80%以上的影響力),研究選取影響力值占比前80%的用戶作為該社區(qū)的關(guān)鍵節(jié)點(diǎn)(見圖5)。
4.4 ? ?網(wǎng)絡(luò)輿情主題發(fā)現(xiàn)
(1)“用戶社區(qū)-關(guān)鍵節(jié)點(diǎn)-微博”映射。根據(jù)關(guān)鍵節(jié)點(diǎn)的ID,在微博信息表和轉(zhuǎn)發(fā)表中查詢與關(guān)鍵節(jié)點(diǎn)相關(guān)的微博內(nèi)容,包括:原創(chuàng)微博內(nèi)容、轉(zhuǎn)發(fā)的微博內(nèi)容及轉(zhuǎn)發(fā)評(píng)語(yǔ)、微博內(nèi)容中的URL網(wǎng)址所對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容。將屬于同一個(gè)關(guān)鍵節(jié)點(diǎn)的內(nèi)容進(jìn)行合并,并映射到該用戶,最終形成用戶社區(qū)的微博文本集合(見圖6)。
(2)用戶社區(qū)關(guān)鍵詞過(guò)濾及輿情主題提取。根據(jù)上述實(shí)驗(yàn)結(jié)果研究發(fā)現(xiàn),同一個(gè)用戶社區(qū)的關(guān)鍵節(jié)點(diǎn)的微博內(nèi)容雖有部分差異,但整體內(nèi)容基本趨于一致。其表現(xiàn)通常為:①某一或兩個(gè)關(guān)鍵節(jié)點(diǎn)發(fā)布內(nèi)容,大量微博用戶轉(zhuǎn)發(fā),圍繞這一或兩個(gè)關(guān)鍵節(jié)點(diǎn)形成用戶社區(qū);②某一或兩個(gè)關(guān)鍵節(jié)點(diǎn)發(fā)布內(nèi)容,少數(shù)用戶轉(zhuǎn)發(fā)其微博并作評(píng)價(jià),大量用戶再轉(zhuǎn)發(fā)評(píng)價(jià)后的微博,形成多層級(jí)的轉(zhuǎn)發(fā)關(guān)系,再形成用戶社區(qū)。兩類社區(qū)中的微博內(nèi)容基本都是在個(gè)別原創(chuàng)微博的基礎(chǔ)上增加內(nèi)容,同質(zhì)化情況較為嚴(yán)重,而且單條微博文本也存在字?jǐn)?shù)較少的問(wèn)題,不利于主題提取。因此,研究中將用戶社區(qū)關(guān)鍵節(jié)點(diǎn)的微博合并,以用戶社區(qū)為單位抽取關(guān)鍵詞。利用公式7計(jì)算用戶社區(qū)中所有詞語(yǔ)的TF-IDF值,并由高到低排序,選取TF-IDF值排序在前20的詞語(yǔ)作為用戶社區(qū)的輿情主題詞(見表3)。并將輿情事件生命周期每個(gè)階段的不同用戶社區(qū)的輿情主題詞及其主題內(nèi)容進(jìn)行歸納(見表4)。
4.5 ? ?輿情事件主題的歸類與分析
根據(jù)提取的上海踩踏事件生命周期各階段的主題詞及其歸納主題,本文在此基礎(chǔ)上結(jié)合事件的發(fā)展,將所有主題按照踩踏事件主題、關(guān)聯(lián)事件主題、觀點(diǎn)看法主題、情感表達(dá)主題四大類進(jìn)行總結(jié)和分析,得出事件全部主題內(nèi)容細(xì)節(jié)(見表5),本文將詳細(xì)分析各類輿情事件揭示的主題內(nèi)容。
從整體上看,事件的主題內(nèi)容主要集中在:(1)對(duì)踩踏事件的跟蹤報(bào)道:踩踏發(fā)生、傷員遇難者信息、警力部署、事故調(diào)查等;(2)相似或關(guān)聯(lián)的事件:哈爾濱大火、郴州工地坍塌、西北大學(xué)爭(zhēng)議文章等;(3)觀點(diǎn)看法的表達(dá):遇到類似事故如何自救、對(duì)城市管理水平的思考、發(fā)達(dá)國(guó)家的優(yōu)秀經(jīng)驗(yàn)、追究相關(guān)人員責(zé)任、反腐敗等;(4)情感表法:默哀、心痛、難過(guò)、譴責(zé)排外言論、譴責(zé)腐敗行為、痛斥散布謠言等。
從相鄰階段主題的演化上看,在“爆發(fā)期一”階段,事件剛發(fā)生時(shí),主題主要為事故現(xiàn)場(chǎng)信息及其跟蹤報(bào)道,緊接著便是遇難者統(tǒng)計(jì)、傷員救治等事故處理類的主題,這一過(guò)程中夾雜著網(wǎng)友的情緒宣泄;事件發(fā)生兩天后,一些與事件間接相關(guān)的事件主題被網(wǎng)絡(luò)媒體和網(wǎng)民拋出,同時(shí)針對(duì)事故進(jìn)行反思和觀點(diǎn)看法的表達(dá)迅速增多,整個(gè)網(wǎng)絡(luò)社區(qū)充斥著各種討論,其中不乏謠言和極端言論;隨著傷員救治和遇難者善后工作的逐步完成,與事件直接相關(guān)的主題過(guò)渡到事故原因調(diào)查,政府出臺(tái)相關(guān)規(guī)定,以及處理責(zé)任人上。同時(shí)網(wǎng)民討論的重點(diǎn)也是對(duì)各項(xiàng)規(guī)章制度的比較與反思,這段時(shí)間整體言論都偏理性,感性言論較少;隨著西北大學(xué)發(fā)文《上海踩踏事故證明我院的管理無(wú)比正確》和遇難者“頭七”的到來(lái),網(wǎng)絡(luò)上隨即出現(xiàn)了大量的聲討、諷刺和譴責(zé)西北大學(xué)的主題,情緒宣泄的感覺強(qiáng)烈,同時(shí)“頭七”當(dāng)天大量的默哀類主題占據(jù)主流。
在“衰退期一”階段,微博的發(fā)文數(shù)和轉(zhuǎn)發(fā)數(shù)逐漸降低,事件開始逐漸走向平息,事件進(jìn)展類的主題被關(guān)聯(lián)事件主題、觀點(diǎn)看法和情緒表達(dá)的主題所取代。
在“爆發(fā)期二”階段,隨著“踩踏事件發(fā)生當(dāng)晚,黃浦區(qū)領(lǐng)導(dǎo)在外灘高檔餐廳公款吃喝”這一消息的披露,事件再次被點(diǎn)燃。該階段內(nèi),用餐細(xì)節(jié)和涉事官員的信息被披露,輿情主題從之前的事故反思和吸取教訓(xùn)逐漸分化為:(1)公款吃喝類主題:處理涉事官員、反腐敗、依法治國(guó);(2)事故反思和吸取教訓(xùn)類主題。
在“爆發(fā)期三”階段,由于“爆發(fā)期二”階段披露的公款吃喝事件的倍受關(guān)注以及相關(guān)處理結(jié)果的公布,網(wǎng)民的討論熱情迅速高漲,輿情在“爆發(fā)期二”階段后被再次推向高潮,此階段的主題集中在對(duì)公款吃喝事件的深度挖掘和情感表達(dá)上,內(nèi)容更豐富,情緒更激烈。
在“衰退期二及平緩期”階段,隨著“公款吃喝”這一插曲熱度減退,網(wǎng)民的討論熱情逐漸降低,關(guān)注重點(diǎn)又再次回到關(guān)聯(lián)事件分析、觀點(diǎn)表達(dá)等較為理性的主題上。
5 ? 結(jié)語(yǔ)
為了深入探究網(wǎng)絡(luò)輿情演化的特點(diǎn)與規(guī)律,解決在內(nèi)容層面上有效地從網(wǎng)絡(luò)輿情的大量數(shù)據(jù)中發(fā)現(xiàn)高價(jià)值的輿情主題,并結(jié)合時(shí)間維度將各個(gè)時(shí)間點(diǎn)孤立的輿情內(nèi)容整合起來(lái)的問(wèn)題,本文提出了基于社區(qū)發(fā)現(xiàn)和關(guān)鍵節(jié)點(diǎn)識(shí)別的網(wǎng)絡(luò)輿情主題發(fā)現(xiàn)的研究設(shè)計(jì),并選取“上海踩踏”事件進(jìn)行實(shí)證分析,取得如下研究成果:
(1)在主題發(fā)現(xiàn)研究中加入用戶屬性和用戶行為等非文本特征,彌補(bǔ)了用戶關(guān)系的缺失。由于社交網(wǎng)絡(luò)平臺(tái)高交互性的特點(diǎn),網(wǎng)絡(luò)輿情主題在形成過(guò)程中一直伴隨著用戶屬性和用戶行為的信息生成,這類非文本特征在深層次上起著聯(lián)系輿情內(nèi)容的作用。利用這類非文本特征可以規(guī)避傳統(tǒng)主題發(fā)現(xiàn)方法僅從文本特征一個(gè)維度進(jìn)行主題發(fā)現(xiàn)的缺陷,較好地識(shí)別重要的輿情主題,提高主題發(fā)現(xiàn)的效率。
(2)設(shè)計(jì)的主題發(fā)現(xiàn)方法一定程度上降低了微博文本稀疏性的影響。本研究利用輿情事件的用戶數(shù)據(jù)和行為數(shù)據(jù),在構(gòu)建基于用戶行為關(guān)系的輿情社會(huì)網(wǎng)絡(luò)的基礎(chǔ)上,進(jìn)行用戶社區(qū)發(fā)現(xiàn),將用戶聚合于不同的用戶社區(qū)中,并識(shí)別各個(gè)社區(qū)的關(guān)鍵節(jié)點(diǎn),最后提取其內(nèi)容進(jìn)行主題發(fā)現(xiàn)。相比單純從輿情文本數(shù)據(jù)中直接提取主題,利用本文所提出的主題發(fā)現(xiàn)方法提前進(jìn)行了一輪篩選,有效識(shí)別重要內(nèi)容,因而提取的主題更能表征輿情內(nèi)容。
(3)研究發(fā)現(xiàn)了輿情事件在整個(gè)生命周期中主題內(nèi)容變化的狀態(tài),所提研究方案可為相關(guān)決策提供有效的方法支撐,研究結(jié)論具有情報(bào)參考價(jià)值。
此外,鑒于本文實(shí)證分析時(shí)數(shù)據(jù)來(lái)源較為單一和選取事件案例較少的不足,為提高研究設(shè)計(jì)的普適性和研究結(jié)論的代表性,后續(xù)將考慮融合多個(gè)網(wǎng)絡(luò)平臺(tái)的數(shù)據(jù)、選取多個(gè)同類事件案例進(jìn)行更為全面的研究。
參考文獻(xiàn):
[1] ?梁曉賀,田儒雅,吳蕾,等.微博主題發(fā)現(xiàn)研究方法述評(píng)[J].圖書情報(bào)工作,2017,61(14):141-148.
[2] ?路榮,項(xiàng)亮,劉明榮,等.基于隱主題分析和文本聚類的微博客中新聞話題的發(fā)現(xiàn)[J].模式識(shí)別與人工智能,2012,25(3):382-387.
[3] ?唐曉波,房小可.基于文本聚類與LDA相融合的微博主題檢索模型研究[J].情報(bào)理論與實(shí)踐,2013,36(8):85-90.
[4] ?阮光冊(cè).基于LDA的網(wǎng)絡(luò)評(píng)論主題發(fā)現(xiàn)研究[J].情報(bào)雜志,2014,33(3):161-164.
[5] ?WengJ,Lim E P,Jiang J,et al.TwitterRank:finding topic-sensitive influential twitterers[EB/OL].[2018-09-15].https://www.researchgate.net/publication/221520147_Twitterrank_Finding_Topic-Sensitive_Influential_Twitterers.
[6] ?Rosen-Zvi M,Griffiths T,Steyvers M,et al.The author-topic model for authors and documents[EB/OL].[2018-09-15].https://arxiv.org/ftp/arxiv/papers/1207/1207.4169.pdf.
[7] ?Titov I,Mcdonald R.Modeling online reviews with multi-grain topic models[C].Proceedings of the 17th international conference on World Wide Web,ACM.China: Beijing,April 21-5,2008:111-120.
[8] ?王莉軍,楊炳儒,翟云,等.動(dòng)態(tài)社區(qū)發(fā)現(xiàn)算法的研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2011,28(9):3211-3214.
[9] ?Girvan M,Newman M E J.Community structure in social and biologicalnetworks[J].Proceedings of National Academy of Sciencesof USA,2002,99(12):7821-7826.
[10] ?ClausetA,Newman M E J,Moore C.Finding community structure in very large network[J].Physical review E,2004,70(6 Pt 2):066111.
[11] ?Shi Jian-Bo,Malik J.Normalized cuts and image segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2000,22(8):888-905.
[12] ?淦文燕,赫南,李德毅,等.一種基于拓?fù)鋭?shì)的網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法[J].軟件學(xué)報(bào),2009,20(8):2241-2254.
[13] ?林友芳,王天宇,唐銳,等.一種有效的社會(huì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)模型和算法[J].計(jì)算機(jī)研究與發(fā)展,2012,49(2):337-345.
[14] ?Zhou H,Zeng D,Zhang C.Finding leaders from opinion networks[C].IEEE International Conference on Intelligence and Security Informatics,IEEE,2009: 266-268.
[15] ?王曰芬,杭偉梁,丁潔.微博輿情社會(huì)網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)識(shí)別與應(yīng)用研究[J].情報(bào)資料工作,2016,37(3):6-11.
[16] ?Darus N M,Yasin A,Omar M,et al.Team formation model of selecting team leader:an Analytic Hierarchy Process(AHP) approach[J].ARPN Journal of Engineering and Applied Sciences,2015,10(3):1060-1067.
[17] ?譚雪晗,涂艷,馬哲坤.基于SNA的事故災(zāi)難輿情關(guān)鍵用戶識(shí)別及治理[J].情報(bào)學(xué)報(bào),2017,36(3):297-306.
[18] ?肖宇,許煒,夏霖.一種基于情感傾向分析的網(wǎng)絡(luò)團(tuán)體意見領(lǐng)袖識(shí)別算法[J].計(jì)算機(jī)科學(xué),2012,39(2): 34-37.
[19] ?丁潔.基于社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情演化研究[D].南京:南京理工大學(xué),2015.
[20] ?謝科范,趙湜,陳剛,等.網(wǎng)絡(luò)輿情突發(fā)事件的生命周期原理及集群決策研究[J].武漢理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2010,23(4):482-486.
[21] ?王連喜,曹樹金.學(xué)科交叉視角下的網(wǎng)絡(luò)輿情研究主題比較分析——以國(guó)內(nèi)圖書情報(bào)學(xué)和新聞傳播學(xué)為例[J].情報(bào)學(xué)報(bào),2017,36(2):159-169.
[22] ?Blondel V D,Guillaume J L,Lambiotte R,et al.Fast unfolding of communities in large networks[J].Journal of Statistical Mechanics:Theory and Experiment,2008(10):P10008.
[23] ?肖宇,許煒,夏霖.網(wǎng)絡(luò)社區(qū)中的意見領(lǐng)袖特征分析[J].計(jì)算機(jī)工程與科學(xué),2011,33(1):150-156.
作者簡(jiǎn)介:王曰芬(1963-),女,南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院、江蘇省社會(huì)公共安全科技協(xié)同創(chuàng)新中心教授,博士生導(dǎo)師,研究方向:文本挖掘與知識(shí)管理、數(shù)據(jù)科學(xué)與知識(shí)服務(wù)、輿情分析與情報(bào)研究;王一山(1994-),男,南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院碩士研究生,研究方向:輿情分析與情報(bào)研究;楊潔(1994-),女,南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院博士研究生。