董堅峰
〔摘 要〕當前網(wǎng)絡突發(fā)事件頻發(fā),網(wǎng)絡輿情與突發(fā)事件的相互作用增加了輿情分析和預警的難度,現(xiàn)有輿情預警系統(tǒng)無法滿足需求。將Web挖掘技術(shù)引入到突發(fā)事件網(wǎng)絡輿情預警中,構(gòu)建了包括輿情采集層、輿情挖掘?qū)?、輿情分析層、預警研判層的基于Web挖掘的突發(fā)事件網(wǎng)絡輿情預警系統(tǒng)模型,集成和整合了突發(fā)事件網(wǎng)絡輿情預警全過程的重要功能,實現(xiàn)突發(fā)事件網(wǎng)絡輿情采集、分析處理、危機預警的自動化、智能化和實時化。
〔關(guān)鍵詞〕Web挖掘;突發(fā)事件;網(wǎng)絡輿情預警;系統(tǒng)模型
DOI:10.3969/j.issn.1008-0821.2014.02.009
〔中圖分類號〕G250.7 〔文獻標識碼〕A 〔文章編號〕1008-0821(2014)02-0043-05
近年來,隨著我國改革開放與社會轉(zhuǎn)型的推進,互聯(lián)網(wǎng)上突發(fā)事件和公共危機話題不斷凸現(xiàn),網(wǎng)絡逐步取代傳統(tǒng)媒體成為新的社會輿論場,基于互聯(lián)網(wǎng)的社會輿情生態(tài)環(huán)境逐步形成。據(jù)CNNIC《第32次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》統(tǒng)計,截至2013年6月,我國網(wǎng)民規(guī)模達到5.91億,網(wǎng)站和網(wǎng)絡論壇達到294萬個,手機上網(wǎng)用戶4.64億,全民網(wǎng)絡普及率高達44.1%,其中博客、論壇、微博使用人數(shù)分別為4.01億、1.41億、3.31億[1]。網(wǎng)絡在為社會公眾提供信息獲取、訴求表達、情緒宣泄、社會參與平臺的同時,也成為社會突發(fā)事件和群體性事件策源、醞釀的重要場域。網(wǎng)絡輿情熱點一方面直接發(fā)展、醞釀成為群體性事件,引發(fā)社會公共危機;另一方面,網(wǎng)絡輿情的非理性化、情緒化傾向加速突發(fā)事件的惡性發(fā)展,增加了突發(fā)事件的預警和處理難度。在這種背景下,如何利用現(xiàn)代技術(shù)手段和管理手段精確研判并有效應對突發(fā)事件網(wǎng)絡輿情,避免突發(fā)事件危機產(chǎn)生或者提供危機預警,是當前的一項重要工作。
1 突發(fā)事件網(wǎng)絡輿情分析和預警面臨的困難
1.1 網(wǎng)絡輿情與突發(fā)事件的相互作用增加了預警分析處理的難度 根據(jù)《中華人民共和國突發(fā)事件應對法》的界定,突發(fā)事件是指突然發(fā)生,造成或者可能造成嚴重社會危害,需要采取應急處置措施予以應對的自然災害、事故災難、公共衛(wèi)生事件和社會安全事件[2]。與一般事件不同,突發(fā)事件具有較強的突發(fā)性、破壞性、公共性、復雜性、持續(xù)性,并可能在一定情勢下轉(zhuǎn)化為公共危機。在突發(fā)事件的發(fā)生發(fā)展過程中,媒體和網(wǎng)民通過各種渠道發(fā)表各自的意見和看法,匯集而成的網(wǎng)絡輿情經(jīng)常會發(fā)展為突發(fā)事件,并左右突發(fā)事件的演變進程,同時對某些事件的演變起到了推波助瀾的作用。一方面,互聯(lián)網(wǎng)擁有自由民主、快速即時、便捷多向等優(yōu)勢,使其更易聚焦各類社會熱點問題,尤其是那些涉及群體利益、社會公平、貧富差距的話題極易激起大規(guī)模討論熱潮,導致網(wǎng)絡熱點直接發(fā)展、醞釀為突發(fā)事件,且發(fā)展迅速,影響極大;另一方面,由于網(wǎng)絡的匿名隱身、跨地域、無國界限制等特點,網(wǎng)絡輿情的非理性、情緒化特點明顯,導致一旦某個突發(fā)事件被網(wǎng)絡聚焦,一些不適當?shù)摹⑼崆?、情緒化的、偏激的言論甚至謠言即迅速傳播,從而加速突發(fā)事件的惡性發(fā)展。在突發(fā)事件爆發(fā)過程中,強大的網(wǎng)絡輿情與突發(fā)事件即時互動、互相強化、交流融合,使原本為時較短的突發(fā)事件成為持續(xù)時間較長的公共危機,從而大大增加了事件處理難度和處理成本。尤其是在網(wǎng)絡輿情的推動下,突發(fā)事件更加動態(tài)化、反復化、持久化,相關(guān)輿情信息無規(guī)律化程度加劇,任何組織和個人都無法完全決定和控制網(wǎng)絡輿情信息的內(nèi)容,網(wǎng)絡輿情監(jiān)控和預警面臨極大的挑戰(zhàn)[3]。
2 現(xiàn)有輿情系統(tǒng)對突發(fā)事件輿情分析預警支持不足 網(wǎng)絡輿情的分析預警是一個融匯計算機網(wǎng)絡、人工智能、數(shù)據(jù)挖掘、自然語言處理等多學科知識的前沿領(lǐng)域,涉及網(wǎng)絡輿情信息采集、分析、處理、分類、監(jiān)測和預警的全過程。近年來,國內(nèi)外眾多學者和研究機構(gòu)對此從不同領(lǐng)域和多個角度開展了探討,并研發(fā)了各種軟件產(chǎn)品或系統(tǒng)來自動或者輔助政府輿情工作人員進行輿情信息的分析和監(jiān)控,如國內(nèi)的谷尼、方正、TRS和國外的Review See、StatPac、Opinion Finder等系統(tǒng)。這些系統(tǒng)功能多樣,圍繞網(wǎng)絡輿情分析和預警提供了多種支持(如表1所示)。
表1 國內(nèi)外網(wǎng)絡輿情預警分析系統(tǒng)的比較[4-8]
輿情預警分析系統(tǒng)研發(fā)企業(yè)主 要 功 能方正智思輿情預警輔助決策支持系統(tǒng)北大方正網(wǎng)絡輿情的全文檢索、自動分類、自動聚類、主題監(jiān)測/追蹤、相關(guān)推薦與消重、關(guān)聯(lián)分析與趨勢分析、自動摘要與自動關(guān)鍵詞提取、突發(fā)事件分析、生成統(tǒng)計報表等功能谷尼輿情監(jiān)控分析系統(tǒng)谷尼國際軟件公司輿情信息自動獲取、自動聚類、敏感話題識別、熱點話題識別、輿情主題監(jiān)測與跟蹤、自動摘要、輿情趨勢分析、突發(fā)事件分析、輿情報警、輿情統(tǒng)計報告等功能TRS互聯(lián)網(wǎng)輿情信息監(jiān)控系統(tǒng)北京拓爾思信息技術(shù)股份有限公司網(wǎng)絡輿情實時監(jiān)測、輿情熱點發(fā)現(xiàn)和熱點跟蹤、敏感信息監(jiān)控、輔助決策支持、輿情預警等多種功能Beehoo3.0互聯(lián)網(wǎng)輿情監(jiān)測系統(tǒng)中科院計算所輿情信息的采集、熱點分析、重點話題檢測、輿情熱點的預警等樂思網(wǎng)絡輿情預警系統(tǒng)深圳市樂思軟件技術(shù)有限公司信息采集、信息處理(自動分類聚類、主題檢測、專題聚焦等)、信息服務(如自動生成輿情信息簡報、追蹤輿論焦點、趨勢分析,預警、決策支持等)Cision美國Cision公司博客、論壇、富媒體等網(wǎng)站的網(wǎng)絡輿情實時監(jiān)測,實時輿情報表生成,行業(yè)動態(tài)的趨勢分析和發(fā)展預測,一站式輿情綜合資訊,企業(yè)公關(guān)和媒體監(jiān)測等功能Review Seer多種評論性網(wǎng)站的輿情信息采集、網(wǎng)絡評論詞條的語義傾向性判斷、自動文摘和輿情報告生成等功能StatPacStatPac Inc支持互聯(lián)網(wǎng)、電子郵件、平板電腦、智能手機等多種網(wǎng)絡信息源的調(diào)查統(tǒng)計分析;自動生成輿情信息報告Opinion Finder匹茲堡大學、康奈爾大學、猶他大學自動分析網(wǎng)絡語句中那些含主觀性成分的內(nèi)容,并針對這些主觀性的關(guān)鍵字檢測其來源與傳播途徑
從表1可以看出,這些系統(tǒng)基本上都提供了網(wǎng)絡輿情分析和預警功能,能幫助政府或企業(yè)把握網(wǎng)絡輿情信息、預警可能發(fā)生的輿情危機。各個軟件在輿情分析和預警上各有優(yōu)勢,比如在輿情采集階段使用自動搜索技術(shù),在輿情分析階段綜合使用文本挖掘、自動摘要、主題聚類等技術(shù),在輿情預警階段提供了多種預警途徑等。但總體來看,單個軟件的功能還遠未達到真正的網(wǎng)絡輿情分析的智能化要求,都存在這樣或那樣的不足,暫時沒有一個整體功能完備的系統(tǒng)。具體如下:
1.2.1 輿情信息源整合不夠,信息采集質(zhì)量不高對于輿情預警系統(tǒng)來說,其信息源來源多樣,尤其是在Web2.0環(huán)境下,以微博、社交網(wǎng)絡、即時通訊為載體的“微內(nèi)容”更成為主要信息來源,而現(xiàn)有的輿情預警系統(tǒng)支持信息源明顯不夠,對各類信息源的整合力度也不大,不能實現(xiàn)全網(wǎng)采集,從而制約了輿情預警的效果。另外,目前輿情預警系統(tǒng)大多數(shù)是借助搜索引擎等爬蟲工具進行信息采集,采集算法簡單,信息采集呈重復性、非相關(guān)性和表層化,導致檢索結(jié)果數(shù)量大且多為重復的、非相關(guān)的、淺層的,甚至是虛假的信息;采集過程也缺乏跟蹤和監(jiān)測,采集效率不高。
1.2.2 輿情分析過程缺乏智能性,信息分析深度不夠現(xiàn)有輿情預警系統(tǒng)在信息處理方面,要么是將收集的信息經(jīng)過簡單整理后交給工作人員進行人工定性分析和經(jīng)驗判斷,要么是借助輿情字典和統(tǒng)計學進行分析判斷,信息僅僅停留在相關(guān)數(shù)據(jù)的統(tǒng)計層面,沒有深入挖掘數(shù)據(jù)背后隱含的深層知識,更無法涉及輿情信息的語義層次,系統(tǒng)智能化程度不高。
1.2.3 輿情預警研判功能偏弱,無法滿足決策支持現(xiàn)有的輿情系統(tǒng)進行預警時多為自動輿情分析報告和人工經(jīng)驗相結(jié)合的方式,鮮有設(shè)置科學系統(tǒng)的預警研判指標體系,從而導致提供的預警結(jié)果無法滿足決策支持的需要。有鑒于此,本文結(jié)合突發(fā)事件網(wǎng)絡輿情預警的現(xiàn)實需求和現(xiàn)有的輿情分析預警系統(tǒng)的不足,將Web挖掘技術(shù)引入到突發(fā)事件網(wǎng)絡輿情信息分析和預警中,提出了基于Web挖掘的網(wǎng)絡輿情預警的思路和系統(tǒng)模型,以期為政府公共管理部門開展網(wǎng)絡輿情預警提供一些借鑒。
2 基于Web挖掘的網(wǎng)絡輿情預警
2.1 Web挖掘Web挖掘是數(shù)據(jù)挖掘在Web上的應用,它綜合使用數(shù)據(jù)挖掘、機器學習、自然語言處理和人工智能等智能信息處理技術(shù)從WWW的資源(Web文檔)和行為(Web服務)中自動發(fā)現(xiàn)并提取人們感興趣的、有用的模式和隱含的信息。根據(jù)挖掘?qū)ο蟮牟煌?,Web挖掘可以分為Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用挖掘。與傳統(tǒng)的網(wǎng)絡輿情分析方法,例如抽象分析、比較分析、相關(guān)分析和內(nèi)容分析法等相比,Web挖掘可以得到指定時間段內(nèi)網(wǎng)絡輿情的狀況和走向以及與之關(guān)聯(lián)的熱點問題,為網(wǎng)絡輿情的深層次分析和智能化預警提供了技術(shù)支持和解決方案[9]。
2.1.1 Web內(nèi)容挖掘Web內(nèi)容挖掘是從Web文檔本身的內(nèi)容或者Web搜索的結(jié)果中抽取知識的過程,它可以對大量的Web文本集合進行分類、聚類、關(guān)聯(lián)分析,以及利用Web內(nèi)容進行趨勢預測。在網(wǎng)絡輿情分析中,Web內(nèi)容挖掘可以發(fā)現(xiàn)與突發(fā)事件主題相關(guān)的知識內(nèi)容和語義關(guān)聯(lián)模式。
2.1.2 Web使用挖掘Web使用挖掘是通過挖掘Web使用數(shù)據(jù)或者訪問日志來提取瀏覽者的行為模式,獲取有價值的信息的過程。它通過挖掘用戶上網(wǎng)時產(chǎn)生的網(wǎng)絡服務器訪問記錄、代理服務器日志記錄、瀏覽器日志記錄、用戶登錄和注冊記錄、用戶對話或交易信息、用戶提問等交互式信息發(fā)現(xiàn)用戶的瀏覽習慣、相似用戶群體、Web頁面的訪問頻率等知識模式,從而更好地理解用戶行為和提供智能化的服務。通過Web使用挖掘,可以確定輿情熱點和焦點、預測網(wǎng)民行為。
2.1.3 Web結(jié)構(gòu)挖掘Web結(jié)構(gòu)挖掘就是對WWW的組織結(jié)構(gòu)、Web頁面的超鏈結(jié)構(gòu)等進行挖掘并從中提取出隱藏的有價值的知識的過程。大量的Web鏈接信息提供了豐富的關(guān)于Web內(nèi)容相關(guān)性、質(zhì)量和結(jié)構(gòu)方面的信息,是進行網(wǎng)絡輿情站點分析的重要資源[10]。通過Web結(jié)構(gòu)挖掘,可以獲得與輿情主題高度相關(guān)的鏈接以及鏈接邏輯結(jié)構(gòu)的語義知識,從而幫助輿情分析人員確定重要輿情源和中心頁面。
2.2 基于Web挖掘的網(wǎng)絡輿情預警流程一般來說,采用Web挖掘方法進行網(wǎng)絡輿情預警的處理流程包括輿情主題規(guī)劃、輿情信息采集、輿情信息預處理、輿情信息分析、輿情危機預警處理5個步驟(如圖1所示)[11]。(1)輿情主題規(guī)劃。根據(jù)輿情預警需求,設(shè)定輿情主題目標,同時確定輿情分析的對象(來源)、關(guān)鍵詞、主題等,并在實施過程中根據(jù)實際需求調(diào)整采集主題。(2)輿情信息采集。根據(jù)輿情主題規(guī)劃任務從多個信息源中提取相關(guān)數(shù)據(jù),并對目標Web數(shù)據(jù)進行網(wǎng)頁的特征提取、基于內(nèi)容的網(wǎng)頁聚類、網(wǎng)頁間內(nèi)容的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)等,從中得到和挖掘目的相關(guān)的數(shù)據(jù)。圖1 基于Web挖掘的網(wǎng)絡輿情危機預警流程圖
(3)輿情信息預處理。將先前獲取的網(wǎng)頁源碼作進一步的信息處理,包括網(wǎng)頁凈化、文本分詞、特征向量表示、停用詞及虛詞凈化、詞頻統(tǒng)計、降維處理等,最終為輿情分析做好充分的數(shù)據(jù)準備。(4)輿情信息分析。利用Web挖掘算法對輿情信息進行分析,挖掘出有效的、新穎的、潛在的、有用的及最終可以理解的信息和知識。常用的信息分析技術(shù)包括:文本挖掘、事件識別、主題發(fā)現(xiàn)、熱點跟蹤、關(guān)聯(lián)分析、趨勢分析、傾向性分析等。(5)危機預警處理。對挖掘出來的輿情信息進行分析、解釋,生成輿情分析報告,并根據(jù)分析結(jié)果對網(wǎng)絡輿情進行危機預警。
3 基于Web挖掘的突發(fā)事件網(wǎng)絡輿情預警系統(tǒng)模型
3.1 模型概述針對現(xiàn)有網(wǎng)絡輿情預警系統(tǒng)普遍存在的突出問題,根據(jù)Web數(shù)據(jù)挖掘在信息分析和知識發(fā)現(xiàn)中的優(yōu)勢,本文綜合應用Web挖掘、語義分析、信息集成等技術(shù),構(gòu)建了基于Web挖掘的突發(fā)事件網(wǎng)絡輿情預警系統(tǒng)模型,如圖2所示。本模型包括輿情采集層、輿情挖掘?qū)?、輿情分析層和預警應用層等4層,集成和整合了突發(fā)事件網(wǎng)絡輿情預警全過程的重要功能,實現(xiàn)突發(fā)事件網(wǎng)絡輿情采集、分析處理、危機預警的自動化、智能化和實時化。
3.1.1 輿情采集層輿情采集層是本模型的最底層,主要負責完成網(wǎng)絡輿情信息的采集和預處理,為輿情挖掘和分析提供所需的數(shù)據(jù)。在采集時,一方面可以利用聚集爬蟲對各主要門戶網(wǎng)站、新聞網(wǎng)站、時事論壇、微博和博客、BBS論壇進行信息抓取,獲取最新動態(tài);另一方面,可以結(jié)合近年來突發(fā)事件輿情多發(fā)主題,對網(wǎng)絡曝光率和點擊率較高的微博/QQ
圖2 基于Web挖掘的突發(fā)事件網(wǎng)絡輿情預警系統(tǒng)模型
空間、主流論壇/BBS、知名門戶網(wǎng)站、各大網(wǎng)絡媒體、知名人士博客/空間、主流搜索工具、國外媒體等網(wǎng)絡新媒體上的信息進行實時監(jiān)測,及時采集敏感信息。采集回來的輿情信息網(wǎng)頁進行URL抽取、網(wǎng)頁解析、關(guān)鍵內(nèi)容提取等處理后整理存儲到輿情信息庫中。
3.1.2 輿情挖掘?qū)虞浨橥诰驅(qū)又饕瓿蓪浨樾畔熘袃?nèi)容的多維挖掘和處理,利用Web挖掘技術(shù)對網(wǎng)絡輿情的內(nèi)容、結(jié)構(gòu)和使用記錄進行挖掘。為了更好地實現(xiàn)對網(wǎng)絡輿情突發(fā)事件的監(jiān)控和預警,在本層需要綜合采用多種Web挖掘方法,除前文提到了的Web使用挖掘、Web結(jié)構(gòu)挖掘和Web內(nèi)容挖掘外,還需要采用以下兩類挖掘技術(shù):(1)Web數(shù)據(jù)流挖掘。突發(fā)事件網(wǎng)絡輿情在網(wǎng)絡上的發(fā)生和演變具有極強的時空演化性,可以看成是一種連續(xù)不斷到達的、時變的、有序的且快速流動的數(shù)據(jù)元素組成的文本數(shù)據(jù)流,利用頻繁項挖掘或突變檢測等數(shù)據(jù)流挖掘方法可以快速獲取敏感網(wǎng)頁和話題。(2)Web語義挖掘。利用XML-Ontology技術(shù)對輿情信息庫中的數(shù)據(jù)進行語義抽取、標注和描述,在此基礎(chǔ)上建立與突發(fā)事件相關(guān)領(lǐng)域的語義知識庫,并利用工具挖掘輿情規(guī)律。
3.1.3 輿情分析層輿情分析層是本模型的核心層,也是實現(xiàn)突發(fā)事件輿情預警的前提。本層主要從輿情信息內(nèi)容和輿情演變態(tài)勢兩個方面分析突發(fā)事件網(wǎng)絡輿情的內(nèi)容和發(fā)展趨勢,并生成輿情分析報告。(1)輿情信息內(nèi)容分析。主要實現(xiàn)網(wǎng)絡突發(fā)事件的分類、應用語義分析對文本的分類、對論壇及評論中的輿情情感傾向性分析、對構(gòu)成危害的敏感信息的監(jiān)控和不良信息的過濾等功能。(2)輿情趨勢演化分析。主要根據(jù)突發(fā)事件體現(xiàn)出的網(wǎng)頁數(shù)量的變化、詞頻的變化、轉(zhuǎn)載及擴散的變化建立合適的統(tǒng)計模型來分析演變態(tài)勢和波動性,實現(xiàn)輿情演變的趨勢監(jiān)測功能[12]。
3.1.4 預警研判層本層主要根據(jù)在輿情分析層所得到的輿情分析報告,從輿情熱度、特性、危險性等指標進行輿情信息評測,研判是否發(fā)布輿情預警信號,并提供輿情信息摘要、輿情簡報等信息內(nèi)容展示,為相關(guān)職能部門快速了解輿情動態(tài)、掌握熱點事件突發(fā)事件的來龍去脈提供決策依據(jù)。(1)熱度研判。主要從報道量、點擊量、評論量、發(fā)帖/發(fā)文量、轉(zhuǎn)載/轉(zhuǎn)播量和搜索量等多個數(shù)據(jù)指標來判斷當前網(wǎng)民和媒體對事件或信息的關(guān)注度,判斷是否可能形成并爆發(fā)網(wǎng)絡輿情突發(fā)事件。通常,關(guān)注度或熱度越高,越容易形成和爆發(fā)網(wǎng)絡輿情,朝著存在安全隱患和不安全的路徑演變;反之亦然。(2)特性研判。主要從事件或信息的主題敏感程度、內(nèi)容真?zhèn)涡院蛠碓吹臋?quán)威性3個角度來判斷其自身特性。其中,涉及公共安全、貧富差距、國計民生、公平公正等主題為敏感主題,關(guān)注程度較高;內(nèi)容真?zhèn)涡灾饕钦鐒e信息內(nèi)容的虛假和失真性,避免被個別人或團體非法利用和轉(zhuǎn)播,以謠言和訛傳詆毀政府形象;來源的權(quán)威性主要是從信息發(fā)布者的知名度、活躍度、信息質(zhì)量等角度研判,越是權(quán)威的信息越容易成為網(wǎng)絡熱點。因此,輿情特性越明顯,隱含的不安全因素就越高,越容易向不安全和危險性路徑發(fā)展演變[13]。(3)危險性研判。主要從網(wǎng)絡覆蓋度、地域覆蓋度、網(wǎng)民情緒、網(wǎng)民態(tài)度和行為等5個角度進行網(wǎng)絡輿情的危險性研判。一般來說,網(wǎng)絡和地域覆蓋度越大,網(wǎng)民情緒越激動和憤怒,態(tài)度越負面,網(wǎng)絡行為越偏激,危險性則越大,突發(fā)事件越容易產(chǎn)生或者激化。
3.2 突發(fā)事件監(jiān)控與預警分析上述模型介紹了各功能層能完成的對網(wǎng)絡輿情突發(fā)事件從資源采集到事件預警的功能和流程,下面重點對突發(fā)事件監(jiān)控與預警實現(xiàn)的一些關(guān)鍵環(huán)節(jié)進行分析。(1)突發(fā)事件分類。由突發(fā)事件引發(fā)的網(wǎng)絡輿情信息,從內(nèi)容形式來看主要為文本,因此,突發(fā)事件分類可以轉(zhuǎn)化為文本分類問題。在具體實施時,可以通過網(wǎng)頁內(nèi)容的分類分析將相關(guān)主題網(wǎng)頁都劃分到同一個類別,并通過關(guān)聯(lián)分析和序列分析追蹤輿情源頭,有效地輔助發(fā)現(xiàn)并預警不良信息,及時制止輿情的進一步突變,起到輔助決策支持的作用。(2)文本數(shù)據(jù)流突發(fā)檢測。文本流突發(fā)檢測主要是借助Kleinberg方法來實現(xiàn):在文本分類的基礎(chǔ)上,針對某一特定主題的輿情文本,按照其到來的時間順序定義為文本序列,利用形式化方法的無窮狀態(tài)自動機對文本流進行建模。若{t1,t2,…,tn,tn+1,…}為文本序列,兩文本的時間間隔為xt,xt隨著單位時間內(nèi)的文本數(shù)量的變化而變化。如果有突發(fā)事件,短時間內(nèi)與此事件相關(guān)的文本增多,導致xt變短,就將此時的狀態(tài)定義為突發(fā)狀態(tài)Sb(Burst State),如果沒有突發(fā)即為普通狀態(tài)Sn(Normal State)。從普通狀態(tài)到突發(fā)狀態(tài)的轉(zhuǎn)換則可以通過時間間隔xt的變化帶來的改變檢測到。(3)趨勢預測分析。通過對某個與突發(fā)事件相關(guān)的主題在不同的時間段內(nèi)被關(guān)注的程度進行跟蹤,從而獲取輿情隨時間的發(fā)展變化趨勢或規(guī)律,實現(xiàn)對輿情環(huán)境的監(jiān)控和預警,進行適時控制和疏導。(4)敏感話題監(jiān)控。借助敏感詞典等工具對突發(fā)事件、涉及內(nèi)容安全的話題尤其是敏感話題進行有效監(jiān)控和預警。一方面,根據(jù)輿情分析結(jié)果對用戶關(guān)注的輿情內(nèi)容進行有效分類,從中找出與突發(fā)事件主題相關(guān)的敏感話題;另一方面,根據(jù)分類結(jié)果評估分析突發(fā)事件網(wǎng)絡輿情發(fā)展態(tài)勢并給出預警信息。(5)情感傾向分析。對網(wǎng)民發(fā)布的與突發(fā)事件主題相關(guān)的話題進行情感傾向性分析,了解和歸納網(wǎng)民的主流觀點和情感趨勢——贊同、反對、高興或者悲傷,識別和統(tǒng)計其情感傾向及隨時間的演化規(guī)律,從中獲取與突發(fā)事件相關(guān)的各類征兆。
4 結(jié)束語實踐證明,Web挖掘是一種自動化的信息分析與知識發(fā)現(xiàn)的方法和技術(shù)。將Web挖掘融入突發(fā)事件網(wǎng)絡輿情分析與預警之中,可以充分發(fā)揮Web挖掘技術(shù)在處理海量網(wǎng)絡數(shù)據(jù)和發(fā)現(xiàn)隱含知識規(guī)律的優(yōu)勢,實現(xiàn)網(wǎng)絡輿情信息的自動化、智能化獲取和深層次、多維化分析,達到突發(fā)事件網(wǎng)絡輿情動態(tài)預警和輔助決策的目的。在網(wǎng)絡輿情預警中應用Web挖掘的技術(shù)和方法,將是提高網(wǎng)絡輿情預警監(jiān)控系統(tǒng)智能性的有效途徑,也是其未來的發(fā)展方向,相關(guān)研究仍需進一步的探索和證明。
參考文獻
[1]中國互聯(lián)網(wǎng)絡信息中心.第32次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告[R].http:∥www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201307/t2013071740664.htm,2013-07-17.
[2]中華人民共和國突發(fā)事件應對法[EB/OL].http:∥www.gov.cn/ziliao/flfg/2007-08/30/content732593.htm,2007-08-30.
[3]曲淑華,劉.群體性事件網(wǎng)絡輿情應對策略研究[J].長春工業(yè)大學學報:社會科學版,2013,(5):146-148.
[4]丁菊玲,勒中堅,王根生.我國網(wǎng)絡輿情危機預警研究探討[J].情報雜志,2010,(10):5-8.
[5]董楊.中美兩國網(wǎng)絡輿情監(jiān)管體系比較研究[D].長春:吉林大學碩士學位論文,2013.
[6]www.founder.com.cn[EB].
[7]http:∥us.cision.com/[EB].
[8]http:∥www.statpac.com/[EB].
[9]張玉峰,何超.基于Web挖掘的網(wǎng)絡輿情智能分析研究[J].情報科學,2011,(4):64-68.
[10]周君.Web文本挖掘關(guān)鍵技術(shù)的研究與實現(xiàn)[D].西安:西安電子科技大學碩士學位論文,2009.
[11]梅中嶺.基于Web信息挖掘的網(wǎng)絡輿情分析技術(shù)[J].中國人民公安大學學報:自然科學版,2007,(4):85-88.
[12]萬源.基于語義統(tǒng)計分析的網(wǎng)絡輿情挖掘技術(shù)研究[D].武漢:武漢理工大學博士學位論文,2012.
[13]劉金榮.基于動態(tài)演變路徑的網(wǎng)絡輿情研判體系構(gòu)建[J].圖書館學研究,2013,(5):32-35,97.
(本文責任編輯:馬 卓)