国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡(luò)輿情爬蟲系統(tǒng)關(guān)鍵技術(shù)研究與應(yīng)用

2024-12-31 00:00:00王小月
中國(guó)新通信 2024年19期
關(guān)鍵詞:爬蟲網(wǎng)絡(luò)輿情預(yù)防

摘要:在網(wǎng)絡(luò)輿情業(yè)務(wù)監(jiān)測(cè)中,以傳統(tǒng)爬蟲的方式進(jìn)行監(jiān)測(cè),容易產(chǎn)生監(jiān)測(cè)效率低、成本高等問題,在此背景下,采用分布式爬蟲技術(shù),能夠?qū)W(wǎng)絡(luò)輿情數(shù)據(jù)進(jìn)行快速監(jiān)測(cè),進(jìn)而進(jìn)行數(shù)據(jù)的處理與分析,以此能夠高效率感知輿情信息,進(jìn)一步提升輿情管控與預(yù)防能力。

關(guān)鍵詞:網(wǎng)絡(luò)輿情;分布式;爬蟲;預(yù)防

一、 引言

近年來,我國(guó)社會(huì)進(jìn)入社交媒體爆炸式發(fā)展的階段,信息的傳播速度極快,網(wǎng)絡(luò)輿情信息不僅是一個(gè)個(gè)熱門話題,更是對(duì)政府的感知能力和社會(huì)治理能力提出了全新的挑戰(zhàn)[1]。基于該現(xiàn)狀,一款能夠自動(dòng)獲取網(wǎng)絡(luò)輿情信息并對(duì)輿情信息進(jìn)行分析的軟件是相關(guān)職能部門迫切需要的。相關(guān)職能部門可以通過該系統(tǒng)在海量數(shù)據(jù)中抓取網(wǎng)民對(duì)某事件的評(píng)論和情感傾向,來了解并把握群眾的情緒,從而對(duì)輿情事件做出更加高效、正確的決策。

二、網(wǎng)絡(luò)輿情爬蟲系統(tǒng)關(guān)鍵技術(shù)

(一)Python開發(fā)語(yǔ)言

在信息技術(shù)體系的開發(fā)中,采用Python語(yǔ)言對(duì)網(wǎng)絡(luò)爬蟲系統(tǒng)實(shí)現(xiàn)的過程進(jìn)行實(shí)現(xiàn),以此明確需求階段、設(shè)計(jì)階段與實(shí)現(xiàn)階段的工作內(nèi)容與目標(biāo)。Python語(yǔ)言與Java語(yǔ)言、C語(yǔ)言是彼此相互獨(dú)立,采用開發(fā)的方式為面向?qū)ο蟮哪J?,吸取其他開發(fā)語(yǔ)言的優(yōu)點(diǎn),能夠指導(dǎo)軟件開發(fā)過程[2]。

(二)MongoDB數(shù)據(jù)庫(kù)

信息技術(shù)的快速發(fā)展,推動(dòng)了數(shù)據(jù)存儲(chǔ)、前端開發(fā)等技術(shù)的進(jìn)步,能夠完成業(yè)務(wù)數(shù)據(jù)信息的存儲(chǔ)與處理。目前業(yè)務(wù)系統(tǒng)需要存儲(chǔ)的數(shù)據(jù)信息越來越多,主要采用的主要是面向?qū)ο蟮年P(guān)系數(shù)據(jù)庫(kù),目前典型的關(guān)系數(shù)據(jù)庫(kù)有SQL Server系列的數(shù)據(jù)庫(kù)、Oracle數(shù)據(jù)庫(kù)與MySQL數(shù)據(jù)庫(kù)。目前網(wǎng)絡(luò)爬蟲系統(tǒng)開發(fā)中,MongoDB數(shù)據(jù)庫(kù)是目前典型的非結(jié)構(gòu)化應(yīng)用的數(shù)據(jù)庫(kù)。數(shù)據(jù)信息存儲(chǔ)在一個(gè)大倉(cāng)庫(kù),而是根據(jù)數(shù)據(jù)信息的類別存儲(chǔ)到不同的表格中,能夠有效增加數(shù)據(jù)信息的靈活性。數(shù)據(jù)信息的查詢能夠采用標(biāo)準(zhǔn)的SQL語(yǔ)句,方便技術(shù)人員快速上手進(jìn)行操作[3]。

三、需求分析

(一)系統(tǒng)業(yè)務(wù)分析

爬蟲系統(tǒng)的基本工作原理為:爬蟲系統(tǒng)從待抓取URL隊(duì)列中取出一個(gè)URL作為程序的入口地址,通過DNS解析后找到該URL對(duì)應(yīng)的網(wǎng)站頁(yè)面,在頁(yè)面中提取到的頁(yè)面內(nèi)容存入MongoDB數(shù)據(jù)庫(kù)[4]。爬蟲系統(tǒng)體系結(jié)構(gòu)如圖1所示。

(二)系統(tǒng)功能需求分析

系統(tǒng)業(yè)務(wù)功能主要包括頁(yè)面抓取、頁(yè)面解析與頁(yè)面存儲(chǔ),詳細(xì)系統(tǒng)總體用例圖如圖2所示。

圖2 系統(tǒng)業(yè)務(wù)功能用例圖

具體系統(tǒng)業(yè)務(wù)功能用例內(nèi)容包括:首先,頁(yè)面抓取功能:在頁(yè)面抓取的工作過程中,先給出一個(gè)URL作為起始點(diǎn),網(wǎng)絡(luò)爬蟲處于該位置點(diǎn)進(jìn)行檢索提取操作,找到使用的客戶端主機(jī)名稱和網(wǎng)絡(luò)端口信息[5]。其次,頁(yè)面解析功能:對(duì)于網(wǎng)絡(luò)中的各類網(wǎng)頁(yè),能夠通過正則表達(dá)式進(jìn)行規(guī)則搜索及解析。最后,數(shù)據(jù)存儲(chǔ)功能:在過程中,通過正則表達(dá)式來對(duì)頁(yè)面進(jìn)行篩選,將信息以JSON的形式存儲(chǔ)[6]。

(三)系統(tǒng)性能需求分析

對(duì)這些性能指標(biāo)明確敘述后,主要的工作需要對(duì)系統(tǒng)的性能進(jìn)行說明,以此保障系統(tǒng)的性能具備良好的運(yùn)行保障,這些性能方面的內(nèi)容主要分為響應(yīng)的時(shí)間、系統(tǒng)用戶并發(fā)與系統(tǒng)穩(wěn)定操作方面的內(nèi)容,詳細(xì)的這些性能指標(biāo)具體闡述:

首先,可靠性方面的指標(biāo)。一方面是需要確保系統(tǒng)遇到攻擊時(shí)候同時(shí)具備良好的穩(wěn)定性,能夠快速恢復(fù)穩(wěn)定運(yùn)行;另外一方面是系統(tǒng)能夠穩(wěn)定運(yùn)行的時(shí)間,因此需要系統(tǒng)能夠長(zhǎng)時(shí)間保持穩(wěn)定狀態(tài)運(yùn)行[7]。其次,并發(fā)人數(shù)。對(duì)于系統(tǒng)的使用而言,需要考慮并發(fā)性的因素,結(jié)合系統(tǒng)的需求來確定,系統(tǒng)的并發(fā)人數(shù)客戶應(yīng)在500用戶以上,使得系統(tǒng)后期在系統(tǒng)運(yùn)行時(shí)候能夠適應(yīng)人數(shù)的并發(fā)使用[8]。最后,系統(tǒng)功能模塊響應(yīng)時(shí)間。對(duì)于系統(tǒng)而言,每次用戶操作后,系統(tǒng)進(jìn)行響應(yīng),這些功能模塊的最大響應(yīng)時(shí)間不宜超過5s,如果超過該響應(yīng)時(shí)間,則必然降低系統(tǒng)使用的交互性,以此提升系統(tǒng)的響應(yīng)效率,滿足用戶的操作需要[9]。

四、關(guān)鍵技術(shù)研究與應(yīng)用

(一)體系架構(gòu)設(shè)計(jì)

在系統(tǒng)總體設(shè)計(jì)中,按目前系統(tǒng)設(shè)計(jì)模式,需要完成系統(tǒng)架構(gòu)設(shè)計(jì)。這些架構(gòu)設(shè)計(jì)工作重點(diǎn)是確定三層架構(gòu)設(shè)計(jì),每一層設(shè)計(jì)架構(gòu)包括數(shù)據(jù)層、表現(xiàn)層與業(yè)務(wù)邏輯層,這些層次架構(gòu)每一的目標(biāo)與使用方式不同,設(shè)計(jì)架構(gòu)如圖3所示。

圖3 系統(tǒng)體系架構(gòu)設(shè)計(jì)

結(jié)合系統(tǒng)體系架構(gòu)設(shè)計(jì)來說,系統(tǒng)采用微服務(wù)的設(shè)計(jì)方式,主要從三層架構(gòu)設(shè)計(jì)的方式進(jìn)行處理,不同層次架構(gòu)之間耦合度應(yīng)盡量降低,每一層工作內(nèi)容與工作目標(biāo)不同,以此滿足系統(tǒng)的處理需要。

1.表現(xiàn)層

系統(tǒng)中的用戶角色分為用戶與管理員,這些用戶在表現(xiàn)層對(duì)系統(tǒng)的功能進(jìn)行操作,用戶能夠完成網(wǎng)絡(luò)輿情信息的抓取、解析與存儲(chǔ)操作。表現(xiàn)層設(shè)計(jì)的原則是友好便利化,用戶根據(jù)系統(tǒng)的提示能夠快速完成各個(gè)模塊的操作[10]。

2.業(yè)務(wù)處理層

在系統(tǒng)中,系統(tǒng)的主要處理源碼在業(yè)務(wù)處理層,結(jié)合需求分析階段的功能,這部分源碼包括頁(yè)面抓取、頁(yè)面解析、頁(yè)面存儲(chǔ)等功能。用戶與管理員對(duì)這些模塊進(jìn)行操作,每一項(xiàng)業(yè)務(wù)功能的操作需要完成對(duì)應(yīng)數(shù)據(jù)的存儲(chǔ)與更新,后將數(shù)據(jù)信息返回到表現(xiàn)層。

3.數(shù)據(jù)層

這一層次主要目標(biāo)是完成系統(tǒng)中所有數(shù)據(jù)信息的存儲(chǔ),結(jié)合系統(tǒng)處理需要,系統(tǒng)需要存儲(chǔ)表格包括頁(yè)面信息等內(nèi)容,不同的數(shù)據(jù)庫(kù)表格需要確定數(shù)據(jù)存儲(chǔ)的字段、長(zhǎng)度與類型,這些數(shù)據(jù)庫(kù)存儲(chǔ)用戶操作的信息。

(二)系統(tǒng)技術(shù)架構(gòu)設(shè)計(jì)

在實(shí)現(xiàn)的網(wǎng)絡(luò)爬蟲管理系統(tǒng)中,中心節(jié)點(diǎn)負(fù)責(zé)控制,包括URL控制、抽取器學(xué)習(xí)及主題控制,如圖4所示。

圖4 中心節(jié)點(diǎn)服務(wù)器業(yè)務(wù)流程示意圖

在中心節(jié)點(diǎn)服務(wù)器中,主要包括的模塊:第一,主題控制模塊。本模塊完成關(guān)于主題的操作,包括對(duì)主題的描述、添加和刪除;控制主題抓取頻率;編輯每個(gè)主題種子隊(duì)列。第二,抽取器學(xué)習(xí)模塊。本模塊采用基于內(nèi)容的網(wǎng)頁(yè)分析算法,從URL種子入手,訓(xùn)練形成針對(duì)種子代表的權(quán)威站點(diǎn)的數(shù)據(jù)抽取器。第三,URL控制器。URL模塊主要負(fù)責(zé)中心節(jié)點(diǎn)內(nèi)的URL隊(duì)列的排序,并根據(jù)各子節(jié)點(diǎn)負(fù)載反饋進(jìn)行任務(wù)分割[11]。

(三)系統(tǒng)測(cè)試效果分析

在網(wǎng)絡(luò)爬蟲系統(tǒng)的測(cè)試操作中,系統(tǒng)的測(cè)試目標(biāo)需要滿足穩(wěn)定運(yùn)行,因此需要確定系統(tǒng)在功能、接口與性能等多個(gè)方面的反應(yīng)需要。在功能方面,通過系統(tǒng)的功能測(cè)試能夠有效發(fā)現(xiàn)每一個(gè)前臺(tái)與后臺(tái)功能可能出現(xiàn)的缺陷,有效識(shí)別這些可能出現(xiàn)的缺陷,滿足系統(tǒng)的穩(wěn)定可靠運(yùn)行。對(duì)于系統(tǒng)的性能,需要結(jié)合性能需求方面提出的目標(biāo),主要是響應(yīng)時(shí)間、并發(fā)性與可靠性方面的要求,測(cè)試階段需要滿足這些具體的性能指標(biāo);對(duì)于系統(tǒng)的接口,需要判斷數(shù)據(jù)處理的流程、前后臺(tái)接口能否正常完成數(shù)據(jù)的流轉(zhuǎn)處理,以此滿足系統(tǒng)穩(wěn)定可靠地運(yùn)行,實(shí)現(xiàn)網(wǎng)絡(luò)輿情信息的抓取、解析與存儲(chǔ)等操作[12]。

五、 結(jié)束語(yǔ)

對(duì)于網(wǎng)絡(luò)輿情爬蟲系統(tǒng)實(shí)現(xiàn)來說,開發(fā)關(guān)鍵的內(nèi)容主要是確定兩個(gè)方面,第一個(gè)是確定系統(tǒng)采用的開發(fā)技術(shù),充分對(duì)比不同開發(fā)技術(shù)的優(yōu)劣,確定采用Python開發(fā)語(yǔ)言;第二個(gè)方面是以實(shí)現(xiàn)系統(tǒng)的需求為核心,以此完成系統(tǒng)的功能模塊的分析、設(shè)計(jì)與測(cè)試,核心功能包括頁(yè)面抓取、頁(yè)面解析與頁(yè)面存儲(chǔ)等內(nèi)容。目前系統(tǒng)在測(cè)試后,其總體的功能保持穩(wěn)定可靠地運(yùn)行,后期主要在系統(tǒng)穩(wěn)定可靠性方面不斷進(jìn)行持續(xù)改進(jìn)優(yōu)化,第二個(gè)方面結(jié)合用戶的具體使用意見完善系統(tǒng)的操作界面。

作者單位:王小月 江蘇宿遷澤達(dá)職業(yè)技術(shù)學(xué)院

參考文獻(xiàn)

[1]李琳.基于Python的網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 信息通信,2017,(09):26-27.

[2]趙茉莉. 網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實(shí)現(xiàn)[D].電子科技大學(xué),2013.

[3]張明杰.基于網(wǎng)絡(luò)爬蟲技術(shù)的輿情數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代計(jì)算機(jī),2015,(12):72-75.

[4]Aghamohammadi A, Eydgahi A. A novel defense mechanism against web crawlers intrusion. Electronics, Computer and Computation (ICECCO), 2013 International Conference on. IEEE, 2013:269-272.

[5]段兵營(yíng). 搜索引擎中網(wǎng)絡(luò)爬蟲的研究與實(shí)現(xiàn)[D].西安電子科技大學(xué),2014.

[6]Bhushan R, Nath R. Web Crawler–A Review. International Journal of Advanced Research in Computer Science and Software Engineering. 2013, 8(03): 54-57.

[7]郭麗蓉. 基于Python的網(wǎng)絡(luò)爬蟲程序設(shè)計(jì)[J]. 電子技術(shù)與軟件工程,2017,(23):248-249.

[8]龔千軍. 基于網(wǎng)絡(luò)爬蟲的多媒體課件下載系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 電腦編程技巧與維護(hù),2016,(9):70-71.

[9]Brin, Sergey, and Lawrence Page. “The anatomy of a large-scale hypertextual Web search engine.” Computer networks and ISDN systems30.1 (1998): 107-117.

[10]褚宏爽.主題搜索引擎網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[D].北京郵電大學(xué),2013.

[11]姜杉彪,黃凱林,盧昱江,等. 基于Python的專業(yè)網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J]. 企業(yè)科技與發(fā)展,2016,(08):17-19.

[12]惠瑩.基于爬蟲技術(shù)的校園網(wǎng)絡(luò)輿情監(jiān)測(cè)元數(shù)據(jù)管理研究[J]. 電腦編程技巧與維護(hù),2018,(01):116-118.

猜你喜歡
爬蟲網(wǎng)絡(luò)輿情預(yù)防
利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
電子制作(2017年9期)2017-04-17 03:00:46
“互聯(lián)網(wǎng)+”背景下高校平安校園建設(shè)研究
淺析網(wǎng)絡(luò)輿情治理
淺談跑步運(yùn)動(dòng)中膝關(guān)節(jié)的損傷和預(yù)防
鋁箔針孔產(chǎn)生原因與預(yù)防方法探討
基于社會(huì)穩(wěn)定視角的網(wǎng)絡(luò)輿情預(yù)警機(jī)制構(gòu)建的思考
今傳媒(2016年9期)2016-10-15 22:02:52
新形勢(shì)下預(yù)防校園暴力的策略研究
成才之路(2016年25期)2016-10-08 09:52:32
古交市| 思南县| 托克托县| 潮州市| 东源县| 大姚县| 台北市| 叙永县| 全州县| 陈巴尔虎旗| 多伦县| 文昌市| 石泉县| 四平市| 北碚区| 黔东| 吉首市| 瓮安县| 三江| 建湖县| 商南县| 米林县| 海晏县| 托里县| 山阴县| 连南| 玉门市| 古浪县| 宜君县| 茶陵县| 伊春市| 游戏| 宁陵县| 武强县| 长寿区| 新建县| 佛学| 平潭县| 留坝县| 达日县| 汾西县|