冉朝霞
(中共鄭州市委黨校 公共管理教研部,河南 鄭州 450042)
微博成為大數(shù)據(jù)時(shí)代人們獲取信息、交流信息的重要渠道,每天有成千上萬的話題從微博上產(chǎn)生,能快速地從微博海量信息中完成熱點(diǎn)話題的采集,對了解社會發(fā)展形勢、掌握輿論動態(tài)將起到指導(dǎo)性的作用。目前,普遍采用的微博輿情采集技術(shù)是通過對特定時(shí)間段內(nèi)特定話題下的微博數(shù)量進(jìn)行對比,通過數(shù)量排序找到最熱的微博話題,微博數(shù)量越多說明話題活躍程度越高。由于微博數(shù)量比對技術(shù)是僅對單一話題的微博數(shù)量進(jìn)行統(tǒng)計(jì),因此容易將短時(shí)間內(nèi)大規(guī)模集中發(fā)布的話題誤判為熱點(diǎn)話題。這種技術(shù)沒有考慮到微博轉(zhuǎn)發(fā)數(shù)量和微博評論數(shù)量對微博話題的影響因素,從而導(dǎo)致有些評論熱烈的微博話題被忽略。此外,數(shù)量排序技術(shù)也沒有考慮微博認(rèn)證用戶(加V用戶)的影響因素,認(rèn)證用戶參與程度越多的事件越是熱門話題。綜上所述,現(xiàn)有的微博輿情大數(shù)據(jù)采集技術(shù)并不能全面、準(zhǔn)確地挖掘出微博熱點(diǎn)話題。而基于數(shù)據(jù)挖掘技術(shù)的微博輿情大數(shù)據(jù)采集框架可以規(guī)避上述技術(shù)缺陷,全面、準(zhǔn)確地挖掘出微博輿情熱點(diǎn)話題。數(shù)據(jù)挖掘技術(shù)首先對采集到的微博大數(shù)據(jù)進(jìn)行分詞處理,并抽取出熱門關(guān)鍵詞組,隨后啟動計(jì)算模塊,對涉及熱門關(guān)鍵詞組的微博數(shù)量進(jìn)行統(tǒng)計(jì),根據(jù)微博數(shù)量和相應(yīng)參數(shù)進(jìn)行加權(quán)計(jì)算,獲得熱門關(guān)鍵詞組的熱度值后啟動排序模塊,對熱門微博關(guān)鍵詞組熱度值進(jìn)行排序,從而獲取微博熱點(diǎn)話題排行。
運(yùn)用數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)分析軟件,可以對微博轉(zhuǎn)發(fā)和評論數(shù)據(jù)進(jìn)行抓取、采集,繪制出時(shí)間軸和主題分析,全面揭示微博輿情大數(shù)據(jù)的采集模式及微博熱點(diǎn)話題的挖掘方法。本文以2017年陜西榆林縣“產(chǎn)婦跳樓事件”入手,給出大數(shù)據(jù)挖掘的實(shí)例。
第一步,利用大數(shù)據(jù)技術(shù)繪制“產(chǎn)婦跳樓事件微博評論轉(zhuǎn)發(fā)”時(shí)間軸是在軟件自動采集到的微博大數(shù)據(jù)的基礎(chǔ)上運(yùn)用數(shù)據(jù)挖掘技術(shù)繪制出事件傳播時(shí)間軸圖表。從事件發(fā)生的時(shí)間節(jié)點(diǎn)可以看出輿論傳播的基本脈絡(luò)如下:9月5日大V開始轉(zhuǎn)發(fā)榆林產(chǎn)婦跳樓事件,引起廣泛討論;9月6日院方再次發(fā)布聲明,公布事件監(jiān)控視頻截圖,引起了更為廣泛的關(guān)注,輿論出現(xiàn)一邊倒,聲討產(chǎn)婦家屬;9月7日跳樓產(chǎn)婦的母親做出回應(yīng),且院方說法出現(xiàn)前后矛盾,聲援產(chǎn)婦家屬的聲音開始出現(xiàn);9月8日官方公布調(diào)查結(jié)果,聲討醫(yī)院之聲漸起;9月9日院方產(chǎn)科副主任和助產(chǎn)士的說辭引發(fā)的社會質(zhì)疑聲越來越多;9月10日醫(yī)院與產(chǎn)婦家屬達(dá)成和解協(xié)議;9月11日院方兩名工作人員被停職?;诖髷?shù)據(jù)挖掘技術(shù),以4小時(shí)為區(qū)間繪制的事件時(shí)間軸,可以清晰判斷輿情演進(jìn)的脈絡(luò)和關(guān)鍵的轉(zhuǎn)折點(diǎn)。
第二步,運(yùn)用大數(shù)據(jù)挖掘技術(shù),對榆林產(chǎn)婦跳樓事件在微博傳播中的詞頻進(jìn)行采集和統(tǒng)計(jì)。第一階段(9月5日至9月6日),“怒”“微笑”(貶義)的表情符比例較高,多數(shù)民眾在表示對產(chǎn)婦家屬的憤怒;“嫁”“這家”“老婆”“一家人”“媽”“恐婚”等與“家庭關(guān)系”相關(guān)的詞語比重較大,微博輿論的矛頭直接指向產(chǎn)婦家屬,民眾認(rèn)為“不該嫁到這樣的家庭”,從而又引發(fā)了對“女性權(quán)利”“婆媳關(guān)系”“夫妻關(guān)系”等問題的相關(guān)討論。第二階段(9月7日至9月8日),“責(zé)任”“同意”“簽字”“拒絕”“真相”等詞出現(xiàn),輿論開始對醫(yī)院進(jìn)行質(zhì)疑和指責(zé),質(zhì)疑治療過程中家屬拒絕剖腹產(chǎn)這一說法是否屬實(shí),質(zhì)疑醫(yī)院沒有承擔(dān)相應(yīng)責(zé)任,進(jìn)而民眾呼吁相關(guān)部門公布事件真相。
第三步,數(shù)據(jù)挖掘技術(shù)在上述詞頻統(tǒng)計(jì)的基礎(chǔ)上,繼續(xù)對主題詞進(jìn)行挖掘分析,以一些規(guī)模較小的網(wǎng)絡(luò)為傳播形式,形成聚合的“主題詞話題圈”[1]。
通過主題分析能夠看出,從9月5日、6日到9月7日、8日,輿論從完全一邊倒的情況到發(fā)生輿情反轉(zhuǎn),從指責(zé)產(chǎn)婦家屬轉(zhuǎn)向指責(zé)醫(yī)院,由震驚和憤怒等負(fù)面垃圾情緒的宣泄轉(zhuǎn)向理性的討論和反思。
從上述陜西榆林縣“產(chǎn)婦跳樓事件”大數(shù)據(jù)挖掘?qū)嵗梢钥闯?,基于?shù)據(jù)挖掘技術(shù)的微博輿情大數(shù)據(jù)采集包括如下幾種模式。
1.分詞技術(shù)與主題詞搜索模式。分詞技術(shù)與核心詞搜索是微博大數(shù)據(jù)挖掘的基礎(chǔ),分詞技術(shù)是將微博內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化向量,針對提交查詢的關(guān)鍵詞串進(jìn)行處理,再根據(jù)查詢后的關(guān)鍵詞串用各種匹配方法進(jìn)行分詞的一種技術(shù)。分詞技術(shù)包括詞語切分、詞語信息標(biāo)注、內(nèi)容核心詞和實(shí)體詞提取及語義依存分析等。核心詞搜索功能模塊包括內(nèi)嵌正負(fù)面情感極性分析、單點(diǎn)故障容錯(cuò)、語義聯(lián)想搜索、臨近搜索、支持增量索引、自動緩存機(jī)制、自動備份與恢復(fù)機(jī)制、搜索屏蔽與恢復(fù)和自動優(yōu)化機(jī)制等等。
2.聚類技術(shù)模式。聚類技術(shù)主要用于熱點(diǎn)話題的挖掘以及為相關(guān)內(nèi)容推薦提供關(guān)聯(lián)資源。根據(jù)收集的微博內(nèi)容采用自動聚類的方法對微博進(jìn)行分類,獲取不同的微博類別。
3.詞擴(kuò)展技術(shù)模式。聚類技術(shù)的效果取決于內(nèi)容分析的深度。微博的內(nèi)容比較短,可提取的關(guān)鍵信息比較少,做相關(guān)運(yùn)算時(shí)容易因?yàn)閿?shù)據(jù)稀疏而難以平衡推薦召回率和準(zhǔn)確率。因此有必要引入詞擴(kuò)展技術(shù),優(yōu)化核心詞擴(kuò)展效果,以此為基礎(chǔ)開展詞聚類的工作,實(shí)現(xiàn)推薦召回率和準(zhǔn)確率的同步提升。
4.結(jié)構(gòu)化分析和相關(guān)性運(yùn)算模式。從采集的各微博類別下的微博內(nèi)容中提取一個(gè)或多個(gè)中心詞,對從同一微博內(nèi)容中提取的中心詞進(jìn)行結(jié)構(gòu)化分析,并將分析后的中心詞進(jìn)行組合,獲取中心詞組,計(jì)算各微博類別下每個(gè)中心詞組所涉及的微博數(shù)量,并根據(jù)微博數(shù)量從中心詞組中抽取出各微博類別下的熱門關(guān)鍵詞組。運(yùn)算模塊進(jìn)一步對同一微博類別下涉及熱門關(guān)鍵詞組的微博數(shù)量進(jìn)行統(tǒng)計(jì),并根據(jù)微博數(shù)量和微博參數(shù)進(jìn)行加權(quán)計(jì)算,獲取各微博類別下熱門關(guān)鍵詞組的熱度值。
運(yùn)用數(shù)據(jù)挖掘技術(shù)構(gòu)建微博輿情大數(shù)據(jù)研判機(jī)制要注重以下幾個(gè)方面的轉(zhuǎn)變。
1.輿情研判主體:由人工型向智能型轉(zhuǎn)變。輿情收集的智能化、輿情分析的智能化、輿情引導(dǎo)的智能化不僅可以從數(shù)據(jù)挖掘和分析的層面運(yùn)用大數(shù)據(jù)助力輿情研判工作,還可以在輿情處置中整合專家數(shù)據(jù)庫,把大數(shù)據(jù)的分析結(jié)果與輿情研判專家的經(jīng)驗(yàn)相結(jié)合,實(shí)現(xiàn)人與機(jī)器的良性互動溝通機(jī)制,從而達(dá)到提升微博輿情大數(shù)據(jù)的實(shí)用效能。此外,在實(shí)踐中還應(yīng)注意優(yōu)化和創(chuàng)新人與機(jī)器的互動溝通機(jī)制,以便更好地發(fā)揮微博輿情大數(shù)據(jù)在輿情研判中的效用。在大數(shù)據(jù)的支撐下,輿情研判主體可以建立開放式、可擴(kuò)展的全息模擬仿真環(huán)境,提供自然、社會與人文的標(biāo)準(zhǔn)化建模,以呈現(xiàn)輿情事件全過程的動態(tài)建模;可以自動獲取微博輿情大數(shù)據(jù)與其他多源異構(gòu)數(shù)據(jù),實(shí)現(xiàn)人工與真實(shí)事件系統(tǒng)的交互協(xié)同演化;可以提供基于模擬仿真平臺的綜合集成支持,實(shí)現(xiàn)對多種過程與結(jié)果的研判。這些都將為輿情研判提供極為有力的輔助作用,也將更有利于微博輿情大數(shù)據(jù)效用的發(fā)揮。
2.輿情研判對象:由模糊型向可視型轉(zhuǎn)變。數(shù)據(jù)可視化是指將大型數(shù)據(jù)以圖像形式表示,利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。在大數(shù)據(jù)時(shí)代,作為輿情研判對象,可以通過關(guān)聯(lián)不同領(lǐng)域、不同維度的微博大數(shù)據(jù),利用數(shù)據(jù)交叉復(fù)現(xiàn)和鏈接推送技術(shù)還原輿情研判對象多維度的真實(shí)信息,實(shí)現(xiàn)對輿情研判對象的可視化[2]。針對微博環(huán)境下數(shù)據(jù)體量大、數(shù)據(jù)生產(chǎn)速度快、數(shù)據(jù)類型及內(nèi)容龐雜等特點(diǎn),在對微博輿情大數(shù)據(jù)進(jìn)行實(shí)時(shí)、全面、準(zhǔn)確地進(jìn)行分布式處理的同時(shí),還應(yīng)考慮如何優(yōu)化集群規(guī)模,以便能充分利用各節(jié)點(diǎn)的性能來實(shí)現(xiàn)輿情研判對象的可視化。從微博輿情監(jiān)管的角度,還應(yīng)進(jìn)一步發(fā)揮大數(shù)據(jù)的預(yù)測功能,將全部相關(guān)輿情大數(shù)據(jù)信息,如網(wǎng)民評論、情緒波動、社會關(guān)系等,以量化的形式轉(zhuǎn)化為可供運(yùn)算的標(biāo)準(zhǔn)數(shù)據(jù),從而實(shí)現(xiàn)輿情研判對象由模糊型向可視型的轉(zhuǎn)變。
3.輿情研判機(jī)制:由控制型向預(yù)測型轉(zhuǎn)變。在輿情研判機(jī)制中,需要處理的大多是由人類社會這個(gè)復(fù)雜開放的巨大系統(tǒng)所產(chǎn)生的超大規(guī)模的各種數(shù)據(jù)。面對超大規(guī)模的數(shù)據(jù),傳統(tǒng)的因果分析方法往往難以奏效,因?yàn)檎麄€(gè)系統(tǒng)中若干組成部分相互影響,甚至有可能互為因果,故而因果關(guān)系隱藏在整個(gè)系統(tǒng)之中。傳統(tǒng)的因果分析方法可以很容易實(shí)現(xiàn)對采集到的微博輿情大數(shù)據(jù)進(jìn)行分類和控制。與傳統(tǒng)的以邏輯推理為基礎(chǔ)的因果分析方法不同的是,基于大數(shù)據(jù)挖掘技術(shù)的輿情研判機(jī)制更側(cè)重于對數(shù)量巨大的數(shù)據(jù)實(shí)施搜索、比對、聚類、分析和歸納,更多關(guān)注的是數(shù)據(jù)之間通過數(shù)據(jù)挖掘技術(shù)才能洞知的隱含的相關(guān)關(guān)系,即尋找數(shù)據(jù)集合里隱藏的相關(guān)性[3]。建立在這種相關(guān)關(guān)系基礎(chǔ)之上的預(yù)測,正是構(gòu)建基于大數(shù)據(jù)挖掘技術(shù)微博輿情研判機(jī)制的核心議題。
[1]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時(shí)代:生活工作與思維的大變革[M].盛楊燕,周濤譯.杭州:浙江人民出版社,2013.51-58.
[2]李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2016,(6).
[3]李磊,劉繼,張雄魅.基于共現(xiàn)分析的網(wǎng)絡(luò)輿情話題發(fā)現(xiàn)及態(tài)勢演化研究[J].情報(bào)科學(xué),2016,(1).