曾嘉
摘 要:社交網(wǎng)站、微博、在線社區(qū)的社會(huì)網(wǎng)絡(luò)的快熟發(fā)展,一個(gè)新媒體的大數(shù)據(jù)時(shí)代在誕生,每個(gè)網(wǎng)民都能創(chuàng)造自己的內(nèi)容,大量網(wǎng)絡(luò)數(shù)據(jù)的產(chǎn)生,給網(wǎng)絡(luò)輿情監(jiān)控帶來(lái)了嚴(yán)峻的挑戰(zhàn),本文根據(jù)云計(jì)算中的Hadoop大數(shù)據(jù)處理模式研究出能夠大規(guī)模采集數(shù)據(jù)進(jìn)行挖掘、分析模式,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)輿情熱點(diǎn)話題的社會(huì)網(wǎng)絡(luò)分析,并且將分析結(jié)果可視化,為執(zhí)政黨發(fā)現(xiàn)敏感話題,掌握網(wǎng)絡(luò)輿情熱點(diǎn),把握輿情趨勢(shì)提供科學(xué)化的技術(shù)支持。
關(guān)鍵詞:網(wǎng)絡(luò)輿情;大數(shù)據(jù);Hadoop;輿情監(jiān)控
1.大數(shù)據(jù)時(shí)代對(duì)網(wǎng)絡(luò)輿情監(jiān)控的影響
大數(shù)據(jù)最廣泛的定義是:大數(shù)據(jù)是無(wú)法在一定時(shí)間內(nèi)用通常的軟件工具進(jìn)行收集、分析、管理的大量數(shù)據(jù)的集合。但隨著信息技術(shù)的進(jìn)步,工程師們采用了分布式架構(gòu),進(jìn)行分布式數(shù)據(jù)挖掘, 依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)和云儲(chǔ)存、虛擬化技術(shù)等, 實(shí)現(xiàn)了對(duì)海量數(shù)據(jù)的處理?!笆澜绲谋举|(zhì)是數(shù)據(jù),大數(shù)據(jù)將開(kāi)啟一次重大的時(shí)代轉(zhuǎn)型”[1],數(shù)據(jù)使社會(huì)輿情治理形態(tài)和監(jiān)測(cè)方式發(fā)生重大改變,開(kāi)啟了社會(huì)輿情治理的新時(shí)代擁有了對(duì)社會(huì)海量數(shù)據(jù)的占有,控制,分析,處理的主導(dǎo)權(quán),對(duì)社會(huì)輿情治理和預(yù)測(cè)有重要的意義。
2 我國(guó)目前的網(wǎng)絡(luò)輿情監(jiān)控技術(shù)分類(lèi)
網(wǎng)絡(luò)輿情對(duì)社會(huì)有著很深遠(yuǎn)的影響,政府為了提高輿論監(jiān)控的能力,要做到能及時(shí)的向公眾提供權(quán)威全面和真實(shí)的信息,目前我國(guó)的主要網(wǎng)絡(luò)輿情監(jiān)控技術(shù)分為以下幾種
2.1網(wǎng)絡(luò)輿情采集與提取技術(shù)
網(wǎng)絡(luò)輿情主要數(shù)據(jù)來(lái)源于,征服新聞網(wǎng)站,新聞媒體網(wǎng)站,大型商業(yè)門(mén)戶(hù)網(wǎng)站,代表性地方網(wǎng)絡(luò),論壇BBS,博客和個(gè)人空間等渠道形成和傳播,這些數(shù)據(jù)信息的主要來(lái)源于動(dòng)態(tài)網(wǎng)頁(yè)和局域網(wǎng),使得輿情信息抽取很有難度。
(1)網(wǎng)絡(luò)采集爬蟲(chóng)技術(shù)
又稱(chēng)做Robots(機(jī)器人)、Spiders(蜘蛛)、Wanders(漫游者),是一種駐留于主機(jī)上的程序軟件。網(wǎng)絡(luò)爬蟲(chóng)通過(guò)網(wǎng)絡(luò)鏈接的拓?fù)浣Y(jié)構(gòu)自動(dòng)漫游于所能遍歷到的所有網(wǎng)站[2]。在Web上按某種策略進(jìn)行遠(yuǎn)程數(shù)據(jù)(如HTML文檔、圖像、文本等多種資源)搜索,并建立本地索引,產(chǎn)生一個(gè)本地?cái)?shù)據(jù)庫(kù),以便能根據(jù)用戶(hù)的查詢(xún)快速搜索到所需結(jié)果并反饋給用戶(hù)。
(2)網(wǎng)絡(luò)垂直搜索技術(shù)
主要是自動(dòng)對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行監(jiān)控和采集專(zhuān)業(yè)領(lǐng)域相關(guān)的 Web 網(wǎng)絡(luò)數(shù)據(jù),垂直網(wǎng)絡(luò)搜索能專(zhuān)注于某一主題和領(lǐng)域,對(duì)網(wǎng)頁(yè)信息進(jìn)行預(yù)測(cè)和數(shù)據(jù)的提取,保存和話題相關(guān)的網(wǎng)頁(yè)信息內(nèi)容。
(3)需求配置采集技術(shù)
根據(jù)實(shí)際需要,可對(duì)數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)靈活配置的 Web Robot 的數(shù)據(jù)搜索策略,并應(yīng)用面向輿情需求對(duì)象的方法,對(duì)Robot系統(tǒng)設(shè)計(jì)用戶(hù)服務(wù)接口層、應(yīng)用程序接口層和核心層來(lái)實(shí)現(xiàn)對(duì)數(shù)據(jù)的獲取。
2.2 網(wǎng)絡(luò)輿情的分析處理技術(shù)
(1)網(wǎng)絡(luò)輿情話題發(fā)現(xiàn)和追蹤技術(shù)
熱點(diǎn)話題發(fā)現(xiàn)與追蹤技術(shù)將internet網(wǎng)上大量的信息進(jìn)行檢查與歸類(lèi),檢測(cè)出某一段時(shí)間用戶(hù)特別感興趣的話題,并且對(duì)話題能夠進(jìn)行持續(xù)的追蹤。[3]熱點(diǎn)話題可以給政府的輿情管理帶來(lái)新的控制手段,并且可以用可視化的方式呈現(xiàn)給執(zhí)政者,這個(gè)技術(shù)突破了原來(lái)人工的篩選話題,不僅提高了可信度而且大大降低了政府治理的反應(yīng)時(shí)間。主要的工作原理是在系統(tǒng)的預(yù)制模塊里,分詞系統(tǒng)把整個(gè)文檔進(jìn)行整理后形成特征項(xiàng),然后使用聚類(lèi)算法SHDC進(jìn)行話題分類(lèi),最后通過(guò)整理的話題進(jìn)行追蹤觀察。
(2)網(wǎng)民觀點(diǎn)傾向向分析技術(shù)
這種方法通過(guò)設(shè)計(jì)問(wèn)卷、抽樣調(diào)查、統(tǒng)計(jì)分析等一整套科學(xué)程序,能夠客觀地推論社情民意。這種方法已經(jīng)開(kāi)始廣泛的應(yīng)用,比如一些熱點(diǎn)新聞的網(wǎng)頁(yè)下方有評(píng)論的功能,近幾年來(lái)在召開(kāi)大會(huì)的時(shí)候也會(huì)對(duì)網(wǎng)名關(guān)注的熱點(diǎn)問(wèn)題在網(wǎng)絡(luò)上例如微博、各大門(mén)戶(hù)網(wǎng)站進(jìn)行調(diào)查。
(3)情威脅估計(jì)技術(shù)
在國(guó)內(nèi),中科天璣公司的“天璣輿情監(jiān)測(cè)系統(tǒng)”具有很強(qiáng)的輿情信息分析能力,但是輿情信息的采集能力比較弱[3]思公司(TRS)的網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),具有極好的輿情信息整體檢索能力,但是輿情信息的內(nèi)容分析能力不足[4],中科點(diǎn)擊的“軍犬輿情監(jiān)控系統(tǒng)”具有最好的數(shù)據(jù)挖掘和收集能力,無(wú)需規(guī)則就能自動(dòng)采集多種文本格式的輿情信息,但是輿情信息的內(nèi)容分析功能不突出[5],王鐵套,基于BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情威脅估計(jì)技術(shù),BP 神經(jīng)網(wǎng)絡(luò)具有自適應(yīng)、自學(xué)習(xí)能力,能夠處理不完整的數(shù)據(jù),并找到輸入與輸出之間的,絡(luò)輿情威脅估計(jì)是一個(gè)威脅度的界定過(guò)程,通過(guò)定性到定量再到定性的結(jié)合分析,將網(wǎng)絡(luò)輿情威脅度分為四個(gè)等級(jí):藍(lán)色預(yù)警(級(jí))、黃色預(yù)警(級(jí))、橙色預(yù)警(級(jí))和紅色預(yù)警(級(jí))。[6]
3.大數(shù)據(jù)處理hadoop云計(jì)算模式的構(gòu)建
Hadoop來(lái)源于google公司,是處理大數(shù)據(jù)的技術(shù),而目前該技術(shù)大多用于企業(yè)的管理,而應(yīng)用于突發(fā)事件的網(wǎng)絡(luò)輿情監(jiān)控的卻十分少,網(wǎng)絡(luò)輿情監(jiān)控的范圍是廣域網(wǎng)(Wide Aera Network, WAN) 。廣域網(wǎng)由眾多局域網(wǎng)組成, 橫向來(lái)看有多種主要的局域網(wǎng), 例如各大型企業(yè)局域網(wǎng)、各科研機(jī)構(gòu)局域網(wǎng)、各級(jí)政府政務(wù)網(wǎng)、各學(xué)校校園網(wǎng)及各城區(qū)電信城域網(wǎng)等; 而從縱向來(lái)看, 很多局域網(wǎng)在自身體系內(nèi)擁有相近的技術(shù)架構(gòu),例如各級(jí)政府政務(wù)網(wǎng)、各學(xué)校校園網(wǎng)及各城區(qū)電信、城域網(wǎng)。各局域網(wǎng)橫向縱向結(jié)合, 構(gòu)成了廣域網(wǎng), 云計(jì)算hadoop監(jiān)測(cè)因此將重點(diǎn)放在各局域網(wǎng)的輿情監(jiān)測(cè)數(shù)據(jù)收集和監(jiān)測(cè)結(jié)果的整合。
Hadoop由開(kāi)源社區(qū)Apache負(fù)責(zé),并且由Yahoo公司支持該項(xiàng)目。Hadoop采用Java語(yǔ)言開(kāi)發(fā),其中的HDFS、MapReduce、HBase分別是來(lái)自Google云計(jì)算中最核心技術(shù)的GFS、MapReduce、BigTable的開(kāi)源實(shí)現(xiàn)。而Hadoop的云計(jì)算網(wǎng)絡(luò)輿情監(jiān)控模式構(gòu)建就是通過(guò)Flume Master對(duì)各個(gè)局域網(wǎng)的數(shù)據(jù)收集分析再整合成Hadoop分布式文件系統(tǒng)HDFS,再通過(guò)MapReduce并行處理框架,采集到的Web數(shù)據(jù)經(jīng)預(yù)處理后存儲(chǔ)到數(shù)據(jù)庫(kù),為輿情分析提供高質(zhì)量的數(shù)據(jù)源。
Flume日志收集,F(xiàn)lume是一個(gè)分布式、可靠、和高可用的海量日志聚合的系統(tǒng),支持在系統(tǒng)中定制各類(lèi)數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù)時(shí)[7],,對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫(xiě)到各種數(shù)據(jù)接受方能力。需要在被監(jiān)控的機(jī)器上安裝Flume,agent的作用是將數(shù)據(jù)源的數(shù)據(jù)發(fā)送給collector。這里的agent代表的是各個(gè)局域網(wǎng)。
HDFS分布式文件系統(tǒng),Hadoop 的分布式文件系統(tǒng)(Hadoop Distribution File System,簡(jiǎn)稱(chēng) HDFS)起初是為了滿(mǎn)足Apache旗下的網(wǎng)絡(luò)爬蟲(chóng)項(xiàng)目Nutch的大量網(wǎng)絡(luò)數(shù)據(jù)存儲(chǔ)而設(shè)計(jì)開(kāi)發(fā),屬于Hadoop項(xiàng)目的一部分。HDFS具備的高容錯(cuò)性是以往任何存儲(chǔ)系統(tǒng)所不具備的,它為上層應(yīng)用程序提供的接口能夠進(jìn)行高吞吐量數(shù)據(jù)訪問(wèn),且能夠滿(mǎn)足超大數(shù)據(jù)集存儲(chǔ)的需求。它可以和MapReduce編程模型很好的結(jié)合,能夠?yàn)閼?yīng)用程序提供高吞吐量的數(shù)據(jù)訪問(wèn),適用大數(shù)據(jù)集應(yīng)用程序。
MapReduce 是 Google 的核心計(jì)算模型是一種編程模式,MapReduce致力于解決大規(guī)模數(shù)據(jù)處理的問(wèn)題,因此在設(shè)計(jì)之初就考慮了數(shù)據(jù)的局部性原理,利用局部性原理將整個(gè)問(wèn)題。數(shù)據(jù)再處理之前就已經(jīng)分布到各個(gè)節(jié)點(diǎn)上,處理的時(shí)候就近讀取本地存儲(chǔ)數(shù)據(jù)來(lái)進(jìn)行簡(jiǎn)Map處理,將Map處理后的數(shù)據(jù)進(jìn)行合并排序再分發(fā)到Reduce節(jié)點(diǎn)。主要運(yùn)用的技術(shù)是把數(shù)據(jù)處理拆解成MAP(映射)和REDUCE(化簡(jiǎn))的方式,這是該操作的核心,MAP把數(shù)據(jù)映射成不同的版塊,分配給計(jì)算機(jī)運(yùn)算,再通過(guò)REDUCE程序?qū)⒔Y(jié)果整合,輸出開(kāi)發(fā)者需要的結(jié)果。
4.基于Hadoop 云計(jì)算模式網(wǎng)絡(luò)輿情監(jiān)控模式構(gòu)建
大數(shù)據(jù)時(shí)代下云計(jì)算的提出給政府的網(wǎng)絡(luò)輿情監(jiān)控也帶來(lái)了機(jī)遇,云計(jì)算中主要的Hadoop處理大數(shù)據(jù)著稱(chēng),他的運(yùn)行模式主要是在監(jiān)控各種局域網(wǎng)Hadoop的技術(shù)也日漸成熟,隨著web2.0時(shí)代,數(shù)據(jù)的迅猛增加,計(jì)算機(jī)硬件的革新也是給這個(gè)模式構(gòu)建提供了有力的條件,綜上所述,我根據(jù)Hadoop云計(jì)算模式構(gòu)建了一套我國(guó)的網(wǎng)絡(luò)輿情監(jiān)控模式,見(jiàn)這一套是從收集到分析網(wǎng)絡(luò)輿情信息提出一整套輿論監(jiān)控模式,整合了如今已經(jīng)有的Hadoop云計(jì)算計(jì)算模式,針對(duì)是對(duì)某一區(qū)域或多個(gè)地區(qū)的海量數(shù)據(jù)處理,但是這對(duì)大數(shù)據(jù)也提出了一下問(wèn)題,例如信息源的法律問(wèn)題、數(shù)據(jù)的傳輸和處理硬件支持、網(wǎng)絡(luò)輿情中心的建設(shè)。
技術(shù)的不斷創(chuàng)新給網(wǎng)絡(luò)輿情的治理帶來(lái)了機(jī)遇也帶來(lái)了挑戰(zhàn),面對(duì)當(dāng)今數(shù)億網(wǎng)民的網(wǎng)絡(luò)環(huán)境,我們需要不斷提高網(wǎng)絡(luò)輿情監(jiān)控和分析的技術(shù),自動(dòng)化的數(shù)據(jù)分析要對(duì)大數(shù)據(jù)進(jìn)行處理,為了保障網(wǎng)絡(luò)輿情安全科持續(xù)發(fā)展,面對(duì)可能涉及的信息隱私問(wèn)題和數(shù)據(jù)的公開(kāi)和共享,還有模式的應(yīng)用都是,大數(shù)據(jù)對(duì)輿情分析的潮流和趨勢(shì)。(作者單位:天津工業(yè)大學(xué)管理學(xué)院)
參考文獻(xiàn):
[1] 宋翎丹.大數(shù)據(jù)背景下的新媒體發(fā)展. 消費(fèi)電子,2014.08
[2] 互聯(lián)網(wǎng)主題信息定向采集研究.http://www.doc88.com/p-2758103157528.html
[3] 天璣輿情監(jiān)測(cè)系統(tǒng)[EB/OL]. http://www.golaxy.cn/pro/index.html. 2011
[4] TRS 互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)白皮書(shū)[EB/OL].http://www.trs.com.cn/products/wse/om. 2011.
[5] 軍犬輿情監(jiān)控系統(tǒng)[EB/OL]. http://www.54yuqing.com/yuqing_16.html. 2011.
[6] 王鐵套. 突發(fā)事件網(wǎng)絡(luò)輿情分析與威脅估計(jì)方法研究.解放軍信息工程大學(xué),2012
[7] Flume日志收集-互聯(lián)網(wǎng)和電子商務(wù)數(shù)據(jù).http://www.dataguru.cn/thread-477981-1-1.html