肖晨陽
摘要:網(wǎng)絡輿情突如其來,帶來的影響越來越大,實現(xiàn)一種可對互聯(lián)網(wǎng)新媒體進行監(jiān)控的軟件是對互聯(lián)網(wǎng)輿情可控的基礎(chǔ)。該文介紹了軟件實現(xiàn)的系統(tǒng)架構(gòu)以及使用的全文庫、搜索等關(guān)鍵技術(shù),最后指出了互聯(lián)網(wǎng)輿情監(jiān)控軟件的存在的不足以及努力的方向。
關(guān)鍵詞:網(wǎng)絡輿情;全文庫;搜索
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2012)34-8177-03
1互聯(lián)網(wǎng)輿情監(jiān)控軟件的起源
互聯(lián)網(wǎng)以超乎人想象的速度快速普及,互聯(lián)網(wǎng)的影響力也隨著越來越大,從近期一系列事件,如“陜西表叔”、“廣東房叔”、“重慶雷政富”等,可以看出互聯(lián)網(wǎng)影響巨大,為了能夠及時了解互聯(lián)網(wǎng)的民意和輿論,利于正確地引導輿論,因此對監(jiān)控技術(shù)也提出了更高地要求,互聯(lián)網(wǎng)輿情軟件應用而生。
2互聯(lián)網(wǎng)輿情軟件的技術(shù)基礎(chǔ)
2.1系統(tǒng)架構(gòu)圖
互聯(lián)網(wǎng)輿情監(jiān)控技術(shù)是一基于互聯(lián)網(wǎng)信息下載和全文本搜索技術(shù)基礎(chǔ)上發(fā)展起來的,互聯(lián)網(wǎng)輿情軟件對指定的網(wǎng)站、論壇、博客、微博等媒體進行及時全面的下載,對所下載的內(nèi)容進行處理,如URL排重、標題排重、正文排重、HTML格式轉(zhuǎn)換、PDF(文檔內(nèi)容)進行轉(zhuǎn)換,將轉(zhuǎn)換后的信息建立全文本庫索引。輿情監(jiān)控軟件根據(jù)定義的監(jiān)控需求進行快速查找,從而發(fā)現(xiàn)輿情事件,同時分析輿情熱點等。
在對全文庫,進行搜索的同時,可以根據(jù)軟件下載內(nèi)容排重度、用戶的使用習慣、搜索次數(shù)的多少,分析出熱點新聞、論壇熱門帖子;并由此給出輿情事件的趨勢,輿情信息監(jiān)控報表等,在軟件系統(tǒng)的工作基礎(chǔ)上,經(jīng)過人工處理后,最終生成可提交決策用的輿情監(jiān)控報表。
由于監(jiān)控網(wǎng)站、論壇等媒體數(shù)量眾多,致使監(jiān)控數(shù)據(jù)量非常龐大,要求硬件和軟件均需要數(shù)據(jù)吞吐能力,傳統(tǒng)的數(shù)據(jù)庫技術(shù)是無法滿足海量數(shù)據(jù)的快速檢索,因此必須使用搜索引擎必須使用的全文本搜索技術(shù),實現(xiàn)海量數(shù)據(jù)的搜索。
2.2應用流程
如圖2“監(jiān)控流程示意圖”所示:
1)系統(tǒng)管理員設置監(jiān)控網(wǎng)站列表,并根據(jù)網(wǎng)站類型進行細致調(diào)整,保證網(wǎng)站下載數(shù)據(jù)的完整性,設置下級監(jiān)控人員的賬號;
2)監(jiān)控人員,根據(jù)監(jiān)控目標的需求,設置監(jiān)控專題,設置和調(diào)整關(guān)鍵詞,根據(jù)熱點關(guān)鍵詞對關(guān)鍵詞進行調(diào)整;
3)系統(tǒng)根據(jù)監(jiān)控人員要求生成報表。
4)監(jiān)控人員參考系統(tǒng)報表,編制輿情報告,提交相關(guān)決策部門參考。
5)系統(tǒng)配備大容量的存儲,系統(tǒng)將監(jiān)控數(shù)據(jù)存儲保存形成內(nèi)容豐富的監(jiān)控信息全文庫,利于將來進行趨勢預測和歷史分析。
3互聯(lián)網(wǎng)輿情軟件的關(guān)鍵技術(shù)
3.1搶先多線程爬蟲采集技術(shù)
爬蟲技術(shù)是進行輿情信息采集的基本技術(shù),為了提高其性能,采用搶先式多線程是提高性能一種比較合適的方法。爬蟲程序通過頁面中的URL鏈接檢查更新頁面。通過URL排重、標題排重、正文排重等排重措施,減少下載的數(shù)量。
3.2面向監(jiān)控的全文庫技術(shù)
由于監(jiān)控需要進行大量的數(shù)據(jù)吞吐,即使大型的關(guān)系型數(shù)據(jù)庫也無法滿足應用的要求,因此監(jiān)控數(shù)據(jù)的管理采用的是全文庫技術(shù)。軟件實現(xiàn)了一種倒排序的全文庫技術(shù),更在此基礎(chǔ)上為監(jiān)控系統(tǒng)特殊要求進行了改造和優(yōu)化。
3.3模糊匹配
監(jiān)控違規(guī)內(nèi)容發(fā)布時,有些內(nèi)容為了逃避監(jiān)控,常常使用暗語及不完整的表達方式,甚至音同字不同。這樣大大增加了監(jiān)管難度,如果使用傳統(tǒng)的技術(shù)是很難有效監(jiān)控的。系統(tǒng)率先使用模糊匹配技術(shù),支持對多種違規(guī)情況進行有效監(jiān)控。表1是我們實現(xiàn)四種常見的模糊匹配方式。
4現(xiàn)有的互聯(lián)網(wǎng)輿情監(jiān)控軟件的不足及展望
目前互聯(lián)網(wǎng)輿情監(jiān)控軟件也明顯的存在不足之處。
1)由于需要監(jiān)控的網(wǎng)站數(shù)量眾多,而用戶采用的硬件設備有限,導致對網(wǎng)站的監(jiān)控輪詢的周期較長;
2)對網(wǎng)站內(nèi)容的獲取的頻率需要訂制,有些網(wǎng)站支持獲取的頻率高,而有些網(wǎng)站獲取的頻率很低,稍微不留意就會被列入網(wǎng)站的黑名單中,導致下次無法訪問;
3)隨著數(shù)據(jù)量的增大,索引的數(shù)據(jù)也越來越打,導致數(shù)據(jù)檢索速度下降;單機的檢索速度有一定的閥值;如果用戶具有足夠的硬件設備,可以通過分布式的處理來解決;
4)對于分析部分,由于用戶的需求多變,很難提供一個統(tǒng)一的界面滿足用戶的需求。這些問題均有待于去解決。
參考文獻:
[1]何精華.網(wǎng)絡空間的政府治理[M].上海:上海社會科學院出版社,2006.
[2]北京迅奧網(wǎng)絡輿情突發(fā)事件監(jiān)測方案[Z].2011.
[3]于水英,王輝,賈翔.一種文本檢索與信息化系統(tǒng)的設計[J].信息安全與通信保密,2010(6):64-68.
[4]劉玉國.基于內(nèi)容的互聯(lián)網(wǎng)輿情信息挖掘關(guān)鍵技術(shù)研究[D].濟南:山東大學,2011.