洪小娟 宗江燕 于建坤 黃衛(wèi)東
摘? 要:大數(shù)據(jù)時(shí)代下,網(wǎng)絡(luò)輿情監(jiān)測(cè)對(duì)政府合理控制輿情方向、進(jìn)行輿情治理具有重要意義。網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)主要根據(jù)網(wǎng)絡(luò)輿情需求,構(gòu)建在.NET平臺(tái)下基于Entity Framework模型的網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的C/S和B/S框架體系。系統(tǒng)對(duì)信息采集、信息過(guò)濾、關(guān)鍵詞挖掘、輿情主題分類等模塊進(jìn)行優(yōu)化分析設(shè)計(jì)和實(shí)現(xiàn)。應(yīng)用馬爾可夫模型,將輿情發(fā)展態(tài)勢(shì)劃分為生成期、發(fā)展期、極速發(fā)展期和衰退期,通過(guò)對(duì)歷史數(shù)據(jù)的計(jì)算實(shí)現(xiàn)了輿情的未來(lái)發(fā)展區(qū)間。
關(guān)鍵詞:輿情監(jiān)測(cè);網(wǎng)頁(yè)文本分析;網(wǎng)絡(luò)爬蟲;輿情預(yù)警;預(yù)測(cè)
中圖分類號(hào):TP399? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:Under the era of big data,network public opinion monitoring is of great significance for governments to reasonably control the public opinion direction and public opinion governance.To meet the requirements in the network public opinion,the network public opinion monitoring system mainly constructs the C/S and B/S framework system of the network public opinion monitoring system based on the Entity Framework model under the .NET platform.The system optimizes the analysis and design of modules such as information collection,information filtering,keyword mining,and lyric topic classification.The Markov model is applied to the system to divide the development situation of the public opinion into the generation period,the development period,the rapid development period and the recession period.The calculation of the historical data realizes the future development range of the public opinion.
Keywords:public opinion monitoring;web page text analysis;web crawler;public opinion warning;prediction
1? ?引言(Introduction)
互聯(lián)網(wǎng)作為一種新的信息傳播形式迅速發(fā)展,對(duì)人們的日常生活產(chǎn)生了巨大影響[1],已然引起學(xué)術(shù)界的廣泛關(guān)注,目前研究方向包括網(wǎng)絡(luò)輿論的傳播、控制及相關(guān)問(wèn)題[2,3]。據(jù)《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展統(tǒng)計(jì)報(bào)告》顯示,截至2018年上半年,我國(guó)網(wǎng)民數(shù)量已達(dá)8.02億人[4],互聯(lián)網(wǎng)已被公認(rèn)為是繼報(bào)紙、廣播、電視之后能夠反映社會(huì)輿情的重要載體之一[5]。此外,超過(guò)六成的中國(guó)網(wǎng)民經(jīng)常在網(wǎng)上就各種話題發(fā)表言論并進(jìn)行討論[6],以充分表達(dá)自身的思想觀點(diǎn)和利益訴求。
由于網(wǎng)絡(luò)中的輿情在一定程度上能夠代表現(xiàn)實(shí)世界中人們的觀點(diǎn),并且對(duì)現(xiàn)實(shí)世界的穩(wěn)定產(chǎn)生一定的影響,因此如何才能監(jiān)測(cè)和發(fā)現(xiàn)網(wǎng)絡(luò)輿情,為政府或者企業(yè)提供決策上的數(shù)據(jù)支持成為輿情問(wèn)題研究的一個(gè)重要課題,本文旨在通過(guò)對(duì)網(wǎng)絡(luò)爬蟲、中文分詞、信息存儲(chǔ)方式、馬爾可夫模型等的研究,來(lái)實(shí)現(xiàn)一個(gè)可以及時(shí)、準(zhǔn)確的輿情監(jiān)測(cè)和預(yù)測(cè)系統(tǒng),為相關(guān)領(lǐng)域的工作人員提供數(shù)據(jù)上的支持。
2 網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)需求分析(Requirements analysis of the network public opinion monitoring system)
運(yùn)用互聯(lián)網(wǎng)平臺(tái)進(jìn)行交流具有匿名、及時(shí)、參與程度廣、影響面寬、破壞面大等特點(diǎn),這些特點(diǎn)給輿情監(jiān)督的工作人員帶來(lái)了極大的困難和挑戰(zhàn)。因此,國(guó)內(nèi)外普遍重視輿情監(jiān)測(cè)關(guān)鍵技術(shù)的研究,目前,輿情監(jiān)測(cè)涉及的技術(shù)非常多,其核心多為網(wǎng)絡(luò)信息抓取技術(shù)、網(wǎng)絡(luò)信息提取技術(shù)、自然語(yǔ)言處理技術(shù)。其中,網(wǎng)絡(luò)信息抓取技術(shù)多指利用網(wǎng)絡(luò)爬蟲工具進(jìn)行信息抓取工作[7];網(wǎng)絡(luò)信息提取技術(shù)則指將文本里的信息進(jìn)行結(jié)構(gòu)化處理,多被處理為表格形式[8];自然語(yǔ)言處理技術(shù)主要研究人與計(jì)算機(jī)交互的語(yǔ)言問(wèn)題,通過(guò)分詞、關(guān)鍵詞提取等一系列操作對(duì)輿情狀況進(jìn)行分析,從而達(dá)到輿情監(jiān)測(cè)的目的。
國(guó)內(nèi)對(duì)網(wǎng)絡(luò)輿情的監(jiān)測(cè)起步較晚,又由于中西文的差異造成中文分詞技術(shù)、文本挖掘技術(shù)等許多先進(jìn)技術(shù)無(wú)法借鑒,同時(shí)研究機(jī)構(gòu)與應(yīng)用機(jī)構(gòu)又嚴(yán)重脫節(jié),直接導(dǎo)致我國(guó)的輿情產(chǎn)品比較昂貴同時(shí)發(fā)展也較為遲緩。不過(guò),隨著電子計(jì)算機(jī)和互聯(lián)網(wǎng)絡(luò)在中國(guó)的普及,網(wǎng)絡(luò)輿情對(duì)社會(huì)生活的影響越來(lái)越大,網(wǎng)絡(luò)輿情監(jiān)控的產(chǎn)品也越來(lái)越多,其中以網(wǎng)智天元、北大方正、西盈信息、人民網(wǎng)輿情為代表的軟件公司紛紛推出了自己的產(chǎn)品,并且都實(shí)現(xiàn)了24小時(shí)實(shí)時(shí)監(jiān)控、關(guān)鍵詞監(jiān)測(cè)設(shè)置、輿情分析報(bào)告等基本功能。雖然國(guó)內(nèi)的軟件可以完成對(duì)網(wǎng)絡(luò)輿情的監(jiān)測(cè)任務(wù),并且提供完整的分析報(bào)告,但是還沒(méi)有提供對(duì)于輿情事件的趨勢(shì)預(yù)測(cè)功能。
3? 網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)概要設(shè)計(jì)(Overview of network public opinion monitoring system)
3.1? ?系統(tǒng)總體功能介紹
網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)主要由輿情數(shù)據(jù)處理系統(tǒng)和輿情趨勢(shì)預(yù)測(cè)系統(tǒng)兩個(gè)部分組成,在輿情數(shù)據(jù)處理系統(tǒng)中,又包括信息采集、信息處理、關(guān)鍵詞提取等模塊。系統(tǒng)的功能模塊圖如圖1所示。
系統(tǒng)采用C/S和B/S相結(jié)合結(jié)構(gòu)進(jìn)行設(shè)計(jì),C/S客戶端主要負(fù)責(zé)自動(dòng)采集指定網(wǎng)站上的信息,并且對(duì)信息進(jìn)行過(guò)濾和分析,最后對(duì)信息進(jìn)行存儲(chǔ);B/S系統(tǒng)主要用于數(shù)據(jù)展現(xiàn)、數(shù)據(jù)查詢以及輿情趨勢(shì)預(yù)測(cè)等功能,系統(tǒng)的架構(gòu)圖如圖2所示。
3.2? ?系統(tǒng)數(shù)據(jù)流程圖
系統(tǒng)的數(shù)據(jù)流來(lái)自采集模塊,從自定義的采集網(wǎng)站中開始采集網(wǎng)絡(luò)信息,采集的結(jié)果直接通過(guò)信息過(guò)濾模塊,將用戶所需信息從采集的網(wǎng)頁(yè)源代碼中分離出來(lái),保存到本地?cái)?shù)據(jù)庫(kù)。隨后,關(guān)鍵詞提取模塊讀取采集信息的正文,利用中科院的ICTCLAS 2013版分詞系統(tǒng)提取正文信息中的關(guān)鍵詞及關(guān)鍵詞在文本中權(quán)重,并將其保存到數(shù)據(jù)庫(kù)中,系統(tǒng)的數(shù)據(jù)流圖如圖3所示。
4? 網(wǎng)絡(luò)輿情監(jiān)系統(tǒng)關(guān)鍵模塊的設(shè)計(jì)與實(shí)現(xiàn)(Design and implementation of the key modules in the network public opinion monitoring system)
網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)主要分為兩大部分,即輿情數(shù)據(jù)處理系統(tǒng)以及數(shù)據(jù)查詢顯示系統(tǒng)。其中輿情數(shù)據(jù)處理系統(tǒng)又包括信息采集、信息處理、趨勢(shì)預(yù)測(cè)等三個(gè)主要模塊。該系統(tǒng)主要用于數(shù)據(jù)的采集分析與處理,為用戶提供有效的輿情信息。數(shù)據(jù)查詢顯示系統(tǒng)主要用于信息查詢與趨勢(shì)預(yù)測(cè)。該系統(tǒng)主要為用戶提供輿情信息、輿情分析統(tǒng)計(jì),以及輿情趨勢(shì)判斷等功能。其中,信息采集、信息處理、趨勢(shì)預(yù)測(cè)也是網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)中的重點(diǎn)與難點(diǎn)。
信息采集模塊的實(shí)現(xiàn)步驟如下:
Step1:在數(shù)據(jù)庫(kù)中準(zhǔn)備好需要抓取信息的網(wǎng)站的URL地址,并且配置好每個(gè)網(wǎng)站中的信息過(guò)濾規(guī)則。
Step2:根據(jù)用戶預(yù)設(shè)的采集空間信息,初始化信息采集模型,并且通過(guò)該采集模型,對(duì)URL地址列表進(jìn)行循環(huán)采集,下載當(dāng)前頁(yè)面的HTML代碼到本地,然后由HTML解析模型進(jìn)行數(shù)據(jù)解析。
Step3:在HTML解析過(guò)程中,將網(wǎng)頁(yè)的HTML代碼根據(jù)相應(yīng)的網(wǎng)站信息過(guò)濾規(guī)則進(jìn)行解析,并且將有效的信息保存到本地?cái)?shù)據(jù)庫(kù)中。
Step4:循環(huán)上述過(guò)程,24*7小時(shí)執(zhí)行數(shù)據(jù)采集的過(guò)程,保持采集的數(shù)據(jù)的及時(shí)性。
信息處理模塊的實(shí)現(xiàn)步驟如下:
Step1:系統(tǒng)讀取數(shù)據(jù)庫(kù)中為被處理的帖子的信息。
Step2:利用中科院的ICTCLAS 2013分詞系統(tǒng),提取出文本中的關(guān)鍵詞,以及關(guān)鍵詞所占有的權(quán)重。
Step3:將關(guān)鍵詞信息保存到數(shù)據(jù)庫(kù)中,并且以此作為相應(yīng)帖子的內(nèi)容標(biāo)簽。
趨勢(shì)預(yù)測(cè)模塊的實(shí)現(xiàn)步驟如下:
Step1:將熱度趨勢(shì)劃分為四個(gè)狀態(tài)區(qū)間,大于0的分為兩個(gè)區(qū)間, =急速上升, =緩慢上升,小于0的也分為兩個(gè)區(qū)間 =緩慢下降, =快速下降。
Step2:統(tǒng)計(jì)出熱度趨勢(shì)值從當(dāng)前狀態(tài)到下一刻狀態(tài)的數(shù)目。
Step3:計(jì)算初始狀態(tài)概率向量以及轉(zhuǎn)移矩陣,預(yù)測(cè)對(duì)象在任何一個(gè)時(shí)期處于任何一個(gè)狀態(tài)的概率。
5? 網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的測(cè)試(Testing of the network public opinion monitoring system)
網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的測(cè)試主要分為功能測(cè)試和性能測(cè)試。功能測(cè)試中,主要對(duì)系統(tǒng)的UI界面操作,以及查詢顯示功能進(jìn)行測(cè)試,確保系統(tǒng)能夠給用戶提供簡(jiǎn)潔、準(zhǔn)確的數(shù)據(jù)以及良好的用戶體驗(yàn)。性能測(cè)試主要對(duì)系統(tǒng)的輿情主體分類和輿情趨勢(shì)預(yù)測(cè)的準(zhǔn)確性進(jìn)行測(cè)試,測(cè)試的結(jié)果表明,本系統(tǒng)可以準(zhǔn)確地對(duì)信息進(jìn)行輿情事件的劃分和對(duì)輿情趨勢(shì)進(jìn)行預(yù)測(cè)。
系統(tǒng)包括首頁(yè)、輿情監(jiān)測(cè)、輿情管理、輿情站點(diǎn)這四個(gè)欄目,涵蓋了系統(tǒng)需求部分所提及的所有功能。主頁(yè)為用戶提供了關(guān)鍵詞搜索界面,用戶在搜索的文本框中,輸入想要監(jiān)測(cè)的輿情的關(guān)鍵詞,并且選擇想要監(jiān)測(cè)的時(shí)間段和監(jiān)測(cè)的網(wǎng)站范圍,就可以得到與關(guān)鍵詞相關(guān)的帖子數(shù)量日均變化圖、帖子熱度日均變化圖、帖子各站點(diǎn)比例圖,以及帖子在未來(lái)一段時(shí)間內(nèi)的趨勢(shì)預(yù)測(cè),搜索的結(jié)果頁(yè)面如圖4至圖6所示。
6? ?結(jié)論(Conclusion)
綜觀本文的研究過(guò)程和結(jié)果,存在以下幾點(diǎn)不足與改進(jìn):
(1)在輿情趨勢(shì)預(yù)測(cè)方面,通過(guò)將馬爾可夫模型運(yùn)用到輿情監(jiān)測(cè)的機(jī)制當(dāng)中,有效地對(duì)大區(qū)間內(nèi)的輿情事件趨勢(shì)進(jìn)行了預(yù)測(cè)。
(2)在輿情數(shù)據(jù)獲取方面,系統(tǒng)所建立的規(guī)則不僅可以對(duì)單個(gè)論壇使用,而是可以應(yīng)用于多個(gè)論壇當(dāng)中,保證了系統(tǒng)所監(jiān)測(cè)的論壇的普遍性。
(3)信息處理過(guò)程未詳細(xì)研究,只是借鑒了中科院的ICTCLAS分詞系統(tǒng),對(duì)中文分詞等過(guò)程及方法還需要進(jìn)一步的分析和研究。
(4)由于時(shí)間倉(cāng)促,本文對(duì)于輿情信息傾向性分析,時(shí)候評(píng)估分析等技術(shù)及應(yīng)用未進(jìn)行深入研究。
根據(jù)本文總結(jié)的改進(jìn)之處和不足,本課題展望如下:
通過(guò)實(shí)驗(yàn)論證,系統(tǒng)可以進(jìn)一步完善中文分詞模塊;對(duì)于本文未深入研究的技術(shù)和應(yīng)用,將進(jìn)行進(jìn)一步的研究,旨在全面提高網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的準(zhǔn)確性、合理性以及實(shí)用性,為輿情監(jiān)測(cè)領(lǐng)域提供優(yōu)秀的技術(shù)平臺(tái)。
參考文獻(xiàn)(References)
[1] ZHANG Le-jun,TONG Wang,JIN Zi-long,et al.The research on social networks public opinion propagation influence models and its controllability[J].中國(guó)通信,2018,15(07):98-110.
[2] WANG Qi-yao,JIN Yue-hui,ZHEN Lin,et al.Influence maximization in social networks under an Independent cascade-based model[J].Physica a:Statistical Mechanics and Its Applications,2016(444):20-34.
[3] FEI Xiong,YUN Liu,CHENG Jun-jun.Modeling and predicting opinion formation with trust propagation in online social networks[J].Communications in Nonlinear Science and Numerical Simulation,2017(44):513-524.
[4] 李朋朋,李英武.“互聯(lián)網(wǎng)+”背景下降低員工網(wǎng)絡(luò)閑散行為的思考[J].決策探索(下),2019(01):87.
[5] 尉譯心.網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的關(guān)鍵技術(shù)[J].電子技術(shù)與軟件工程,2018(07):26-27.
[6] 楊華.網(wǎng)絡(luò)言論失范與政府管理[J].采寫編,2011(05):54-56.
[7] 胡亞楠.社交網(wǎng)絡(luò)數(shù)據(jù)獲取技術(shù)與實(shí)現(xiàn)[D].哈爾濱工業(yè)大學(xué),2011.
[8] 程楠.一種基于大數(shù)據(jù)技術(shù)快速處理醫(yī)療文本的方法[J].中國(guó)數(shù)字醫(yī)學(xué),2017,12(09)45-46;58.