国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種互聯(lián)網(wǎng)輿情監(jiān)控軟件實現(xiàn)

2012-04-29 12:01:39肖晨陽
電腦知識與技術(shù) 2012年34期
關(guān)鍵詞:文庫輿情監(jiān)控

肖晨陽

摘要:網(wǎng)絡輿情突如其來,帶來的影響越來越大,實現(xiàn)一種可對互聯(lián)網(wǎng)新媒體進行監(jiān)控的軟件是對互聯(lián)網(wǎng)輿情可控的基礎(chǔ)。該文介紹了軟件實現(xiàn)的系統(tǒng)架構(gòu)以及使用的全文庫、搜索等關(guān)鍵技術(shù),最后指出了互聯(lián)網(wǎng)輿情監(jiān)控軟件的存在的不足以及努力的方向。

關(guān)鍵詞:網(wǎng)絡輿情;全文庫;搜索

中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2012)34-8177-03

1互聯(lián)網(wǎng)輿情監(jiān)控軟件的起源

互聯(lián)網(wǎng)以超乎人想象的速度快速普及,互聯(lián)網(wǎng)的影響力也隨著越來越大,從近期一系列事件,如“陜西表叔”、“廣東房叔”、“重慶雷政富”等,可以看出互聯(lián)網(wǎng)影響巨大,為了能夠及時了解互聯(lián)網(wǎng)的民意和輿論,利于正確地引導輿論,因此對監(jiān)控技術(shù)也提出了更高地要求,互聯(lián)網(wǎng)輿情軟件應用而生。

2互聯(lián)網(wǎng)輿情軟件的技術(shù)基礎(chǔ)

2.1系統(tǒng)架構(gòu)圖

互聯(lián)網(wǎng)輿情監(jiān)控技術(shù)是一基于互聯(lián)網(wǎng)信息下載和全文本搜索技術(shù)基礎(chǔ)上發(fā)展起來的,互聯(lián)網(wǎng)輿情軟件對指定的網(wǎng)站、論壇、博客、微博等媒體進行及時全面的下載,對所下載的內(nèi)容進行處理,如URL排重、標題排重、正文排重、HTML格式轉(zhuǎn)換、PDF(文檔內(nèi)容)進行轉(zhuǎn)換,將轉(zhuǎn)換后的信息建立全文本庫索引。輿情監(jiān)控軟件根據(jù)定義的監(jiān)控需求進行快速查找,從而發(fā)現(xiàn)輿情事件,同時分析輿情熱點等。

在對全文庫,進行搜索的同時,可以根據(jù)軟件下載內(nèi)容排重度、用戶的使用習慣、搜索次數(shù)的多少,分析出熱點新聞、論壇熱門帖子;并由此給出輿情事件的趨勢,輿情信息監(jiān)控報表等,在軟件系統(tǒng)的工作基礎(chǔ)上,經(jīng)過人工處理后,最終生成可提交決策用的輿情監(jiān)控報表。

由于監(jiān)控網(wǎng)站、論壇等媒體數(shù)量眾多,致使監(jiān)控數(shù)據(jù)量非常龐大,要求硬件和軟件均需要數(shù)據(jù)吞吐能力,傳統(tǒng)的數(shù)據(jù)庫技術(shù)是無法滿足海量數(shù)據(jù)的快速檢索,因此必須使用搜索引擎必須使用的全文本搜索技術(shù),實現(xiàn)海量數(shù)據(jù)的搜索。

2.2應用流程

如圖2“監(jiān)控流程示意圖”所示:

1)系統(tǒng)管理員設置監(jiān)控網(wǎng)站列表,并根據(jù)網(wǎng)站類型進行細致調(diào)整,保證網(wǎng)站下載數(shù)據(jù)的完整性,設置下級監(jiān)控人員的賬號;

2)監(jiān)控人員,根據(jù)監(jiān)控目標的需求,設置監(jiān)控專題,設置和調(diào)整關(guān)鍵詞,根據(jù)熱點關(guān)鍵詞對關(guān)鍵詞進行調(diào)整;

3)系統(tǒng)根據(jù)監(jiān)控人員要求生成報表。

4)監(jiān)控人員參考系統(tǒng)報表,編制輿情報告,提交相關(guān)決策部門參考。

5)系統(tǒng)配備大容量的存儲,系統(tǒng)將監(jiān)控數(shù)據(jù)存儲保存形成內(nèi)容豐富的監(jiān)控信息全文庫,利于將來進行趨勢預測和歷史分析。

3互聯(lián)網(wǎng)輿情軟件的關(guān)鍵技術(shù)

3.1搶先多線程爬蟲采集技術(shù)

爬蟲技術(shù)是進行輿情信息采集的基本技術(shù),為了提高其性能,采用搶先式多線程是提高性能一種比較合適的方法。爬蟲程序通過頁面中的URL鏈接檢查更新頁面。通過URL排重、標題排重、正文排重等排重措施,減少下載的數(shù)量。

3.2面向監(jiān)控的全文庫技術(shù)

由于監(jiān)控需要進行大量的數(shù)據(jù)吞吐,即使大型的關(guān)系型數(shù)據(jù)庫也無法滿足應用的要求,因此監(jiān)控數(shù)據(jù)的管理采用的是全文庫技術(shù)。軟件實現(xiàn)了一種倒排序的全文庫技術(shù),更在此基礎(chǔ)上為監(jiān)控系統(tǒng)特殊要求進行了改造和優(yōu)化。

3.3模糊匹配

監(jiān)控違規(guī)內(nèi)容發(fā)布時,有些內(nèi)容為了逃避監(jiān)控,常常使用暗語及不完整的表達方式,甚至音同字不同。這樣大大增加了監(jiān)管難度,如果使用傳統(tǒng)的技術(shù)是很難有效監(jiān)控的。系統(tǒng)率先使用模糊匹配技術(shù),支持對多種違規(guī)情況進行有效監(jiān)控。表1是我們實現(xiàn)四種常見的模糊匹配方式。

4現(xiàn)有的互聯(lián)網(wǎng)輿情監(jiān)控軟件的不足及展望

目前互聯(lián)網(wǎng)輿情監(jiān)控軟件也明顯的存在不足之處。

1)由于需要監(jiān)控的網(wǎng)站數(shù)量眾多,而用戶采用的硬件設備有限,導致對網(wǎng)站的監(jiān)控輪詢的周期較長;

2)對網(wǎng)站內(nèi)容的獲取的頻率需要訂制,有些網(wǎng)站支持獲取的頻率高,而有些網(wǎng)站獲取的頻率很低,稍微不留意就會被列入網(wǎng)站的黑名單中,導致下次無法訪問;

3)隨著數(shù)據(jù)量的增大,索引的數(shù)據(jù)也越來越打,導致數(shù)據(jù)檢索速度下降;單機的檢索速度有一定的閥值;如果用戶具有足夠的硬件設備,可以通過分布式的處理來解決;

4)對于分析部分,由于用戶的需求多變,很難提供一個統(tǒng)一的界面滿足用戶的需求。這些問題均有待于去解決。

參考文獻:

[1]何精華.網(wǎng)絡空間的政府治理[M].上海:上海社會科學院出版社,2006.

[2]北京迅奧網(wǎng)絡輿情突發(fā)事件監(jiān)測方案[Z].2011.

[3]于水英,王輝,賈翔.一種文本檢索與信息化系統(tǒng)的設計[J].信息安全與通信保密,2010(6):64-68.

[4]劉玉國.基于內(nèi)容的互聯(lián)網(wǎng)輿情信息挖掘關(guān)鍵技術(shù)研究[D].濟南:山東大學,2011.

猜你喜歡
文庫輿情監(jiān)控
The Great Barrier Reef shows coral comeback
專家文庫
優(yōu)秀傳統(tǒng)文化啟蒙文庫
幽默大師(2020年10期)2020-11-10 09:07:22
關(guān)于推薦《當代詩壇百家文庫》入選詩家的啟事
中華詩詞(2019年1期)2019-11-14 23:33:56
你被監(jiān)控了嗎?
Zabbix在ATS系統(tǒng)集中監(jiān)控中的應用
專家文庫
看監(jiān)控攝像機的4K之道
輿情
中國民政(2016年16期)2016-09-19 02:16:48
輿情
中國民政(2016年10期)2016-06-05 09:04:16
抚宁县| 大姚县| 清流县| 武义县| 天全县| 阳江市| 乾安县| 亚东县| 句容市| 尖扎县| 沭阳县| 从化市| 阜城县| 九江市| 千阳县| 吐鲁番市| 桂阳县| 吉木乃县| 岳普湖县| 杭州市| 延吉市| 安化县| 佛山市| 沈丘县| 湘潭市| 泰兴市| 武夷山市| 芮城县| 石家庄市| 体育| 三穗县| 林州市| 阿克苏市| 福泉市| 寿阳县| 平远县| 略阳县| 彩票| 新平| 正定县| 乌拉特中旗|