国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種并行的網(wǎng)上新聞評(píng)論中地理位置信息抓取方法

2018-06-06 10:17:30潘欣李浩源
科技創(chuàng)新與應(yīng)用 2018年14期
關(guān)鍵詞:網(wǎng)頁服務(wù)器模板

潘欣 李浩源

摘 要:互聯(lián)網(wǎng)門戶網(wǎng)站的評(píng)論通常帶有地理空間位置信息,對(duì)它們進(jìn)行收集具有較高的決策支持價(jià)值。然而,隨著網(wǎng)站頁面內(nèi)容的復(fù)雜化以及網(wǎng)站門戶服務(wù)器安全性的提高;單純的抓取網(wǎng)頁提取文本信息方式難以實(shí)現(xiàn)有效的地理位置信息提取,本研究提出了一種并行的網(wǎng)上新聞評(píng)論地理位置信息抓取方法,通過引入并行化、虛擬瀏覽器運(yùn)行、位置模板技術(shù)實(shí)現(xiàn)了有效的網(wǎng)上新聞評(píng)論中地理位置信息的獲取。實(shí)驗(yàn)表明,通過本方法可以實(shí)現(xiàn)快速的海量的網(wǎng)頁內(nèi)容獲取。

關(guān)鍵詞:空間數(shù)據(jù)挖掘;地理位置信息;動(dòng)態(tài)評(píng)論網(wǎng)頁;空間數(shù)據(jù)收集;社會(huì)網(wǎng)絡(luò)

中圖分類號(hào):TP393 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2018)14-0030-03

Abstract: Comments from Internet portals usually contain information of geospatial location, and collecting them has high value of decision support. However, with the complexity of the webpage content and the improvement of the security of the web portal server, it is difficult to effectively extract the geographic location information by simply fetching the webpage to extract text information. In this paper, a parallel method of geo-location information capture for online news reviews is proposed. By introducing parallelization, virtual browser running and location template technology, the effective geo-location information acquisition in online news reviews is realized. Experiments show that this method can achieve a rapid, massive web content acquisition.

Keywords: spatial data mining; geographic location information; dynamic review webpage; spatial data collection; social networks

1 概述

近年來互聯(lián)網(wǎng)技術(shù)發(fā)展迅速,新聞的評(píng)論是廣大網(wǎng)民經(jīng)常瀏覽并參與的對(duì)象,這些評(píng)論通常直接帶有地理空間位置信息[1]。這些評(píng)論信息每天均會(huì)以海量出現(xiàn),利用空間數(shù)據(jù)挖掘技術(shù)對(duì)這些信息加以分析可以地區(qū)層面上反映的網(wǎng)民關(guān)注的焦點(diǎn)、看法以及經(jīng)濟(jì)發(fā)展?fàn)顩r,為相關(guān)單位提供基于地理位置的決策知識(shí),具有較高的應(yīng)用價(jià)值[2]。近年來出現(xiàn)了大量的利用網(wǎng)絡(luò)爬蟲技術(shù)的算法,實(shí)現(xiàn)了海量網(wǎng)頁信息的收集[3-5]。

當(dāng)前的方法主要面臨兩個(gè)問題:(1)門戶網(wǎng)站服務(wù)器的安全性通常較高,單機(jī)大量同時(shí)訪問會(huì)被主機(jī)禁封,使

得對(duì)應(yīng)程序無法讀取到數(shù)據(jù);(2)當(dāng)前網(wǎng)頁內(nèi)容較為豐富通常采用動(dòng)態(tài)加載技術(shù),單純的HTTP讀取文本內(nèi)容只能獲得對(duì)應(yīng)網(wǎng)頁的程序框架無法獲得真正的內(nèi)容數(shù)據(jù)。

針對(duì)以上問題,本文提出了一種并行的網(wǎng)上新聞評(píng)論中地理位置信息抓取方法(A parallel online location information of Internet news' comments fetching method, P-Fetch),通過引入并行化、虛擬瀏覽器運(yùn)行、位置模板技術(shù)實(shí)現(xiàn)了有效的網(wǎng)上新聞評(píng)論中地理位置信息的獲取。實(shí)驗(yàn)表明,通過本方法可以實(shí)現(xiàn)快速的海量的網(wǎng)頁內(nèi)容獲取。

2 方法描述

2.1 網(wǎng)頁動(dòng)態(tài)信息的抽取

當(dāng)前主流門戶網(wǎng)站的新聞評(píng)論均采用動(dòng)態(tài)加載技術(shù),單純使用HTTP傳輸方式僅能獲得網(wǎng)頁的框架結(jié)構(gòu)難于獲得其中的文本內(nèi)容。同時(shí)在網(wǎng)頁中地理位置信息通常有固定的位置,如圖1所示:

針對(duì)這些位置信息本方法構(gòu)造了網(wǎng)頁信息模板,每個(gè)模板的內(nèi)容包括:

提取信息的類型ID:對(duì)應(yīng)信息的類型編號(hào)。

執(zhí)行動(dòng)作類型:分為獲取文本內(nèi)容、點(diǎn)擊操作、下拉滾動(dòng)操作、獲得焦點(diǎn)操作。

模板的XPath位置:通過XPath描述圖1所示的層級(jí)位置結(jié)構(gòu)。

迭代標(biāo)志:該模板指定的位置是否是多條同級(jí)別的信息,如果有需要迭代向下查找。

針對(duì)這一模板內(nèi)容,本方法通過調(diào)用瀏覽器模擬用戶訪問網(wǎng)站來獲取地理位置的信息,對(duì)應(yīng)算法如下:

ContentTemplateFetch 基于模板的內(nèi)容獲取算法

輸入:網(wǎng)頁URL, 信息獲取模板Template

輸出:由獲取內(nèi)容構(gòu)成的XML文件Content

Begin

1:Content=空白XML文件;

2:DOM=啟動(dòng)瀏覽器訪問URL對(duì)應(yīng)的地址,運(yùn)行網(wǎng)頁內(nèi)容獲得其中信息;

3:XPATH, ID=從模板Template中獲取內(nèi)容位置信息和信息對(duì)應(yīng)編號(hào);

4:VALUE=從DOM的XPATH獲取文本內(nèi)容

5:Content←(ID, VALUE);

6:if 模板的迭代標(biāo)志=true&& XPATH同級(jí)別的下一位置還有內(nèi)容 then

XPATH= XPATH同級(jí)別的下一位置;

goto 4;

7:return Content;

End

通過該方法可以實(shí)現(xiàn)基于模板網(wǎng)頁動(dòng)態(tài)生成內(nèi)容信息獲取。

2.2 方法總體架構(gòu)

一種并行的網(wǎng)上新聞評(píng)論中地理位置信息抓取方法(P-Fetch)運(yùn)行的系統(tǒng)架構(gòu)如下圖所示:

如圖2所示,本文提出的方法運(yùn)行的系統(tǒng)結(jié)構(gòu)包含如下組成部分:

任務(wù)分配服務(wù)器:該服務(wù)器指定一個(gè)待收集的域名(如:http://sports.163.com/)之后,在該域名范圍內(nèi)利用普通網(wǎng)絡(luò)爬蟲收集新聞評(píng)論的獨(dú)立頁面,這些頁面的URL被加入到待收集列表之中,等待并行內(nèi)容獲取計(jì)算機(jī)的訪問。

并行內(nèi)容獲取計(jì)算機(jī):P-Fetch運(yùn)行的系統(tǒng)環(huán)境包含多個(gè)不同網(wǎng)段的并行內(nèi)容獲取計(jì)算機(jī),這些計(jì)算機(jī)不斷的從任務(wù)分配服務(wù)器獲取任務(wù),獲取新聞評(píng)論內(nèi)容并存儲(chǔ)到XML文件中,對(duì)應(yīng)的方法如下:

ParallelFetch 并行獲取

Begin

1:啟動(dòng)M個(gè)進(jìn)程;構(gòu)建任務(wù)互斥列表MutexList,該列表包含M個(gè)

2:foreach (對(duì)于M個(gè)進(jìn)程,循環(huán)執(zhí)行如下操作)

2.1:task=讀取任務(wù)分配服務(wù)器的待收集列表,找到一個(gè)與MutexList中其他M-1個(gè)項(xiàng)目域名差距最大的任務(wù)

2.2:將對(duì)應(yīng)任務(wù)task的域名存儲(chǔ)到MutexList的對(duì)應(yīng)位置

2.3:利用ContentTemplateFetch算法讀取task中的內(nèi)容,并存儲(chǔ)到XML文件中

End

利用該方法,每一個(gè)并行內(nèi)容獲取計(jì)算機(jī)可以并行的從網(wǎng)頁中讀取動(dòng)態(tài)加載的新聞評(píng)論信息,并且在每次讀取的過程中盡量規(guī)避同時(shí)對(duì)新聞內(nèi)容服務(wù)器集中訪問,規(guī)避因過量訪問引起的被封閉。

數(shù)據(jù)庫服務(wù)器:數(shù)據(jù)庫服務(wù)器每間隔一定時(shí)間訪問并行內(nèi)容獲取計(jì)算機(jī),獲取其存儲(chǔ)的新聞評(píng)論XML文件并存儲(chǔ)到數(shù)據(jù)庫之中。

通過P-Fetch方法,可以實(shí)現(xiàn)大量的新聞評(píng)論數(shù)據(jù)收集工作,由于采用多計(jì)算機(jī)同時(shí)執(zhí)行,每個(gè)計(jì)算機(jī)采用多任務(wù)并行,可以達(dá)到較高的收集速度。

3 實(shí)驗(yàn)

本文提出的方法采用C#和Python實(shí)現(xiàn),其中C#用于服務(wù)器端用戶界面的交互,Python負(fù)責(zé)運(yùn)行瀏覽器并獲取數(shù)據(jù)。以網(wǎng)易的體育、財(cái)經(jīng)、科技、時(shí)尚和汽車這五個(gè)欄目作為新聞評(píng)論數(shù)據(jù)收集的來源,以2017年1月至2月

作為收集的時(shí)間范圍;實(shí)驗(yàn)計(jì)算機(jī)環(huán)境采用Intel I5/8G 的計(jì)算機(jī),每臺(tái)并行內(nèi)容獲取計(jì)算機(jī)最大進(jìn)程數(shù)指定為20,P-Fetch方法獲取全部數(shù)據(jù)的速度與容獲取計(jì)算機(jī)的個(gè)數(shù)關(guān)系如下圖所示:

從圖中可以看出,利用本文提出的P-Fetch方法可以充分利用多計(jì)算機(jī)并行計(jì)算能力,隨著更多內(nèi)容獲取計(jì)算機(jī)的加入,獲取數(shù)據(jù)的速度明顯加快。

4 結(jié)束語

從Internet的新聞評(píng)論中的地理位置信息是一種輔助決策的大數(shù)據(jù),快速有效的獲取此類數(shù)據(jù)對(duì)于構(gòu)建高效的決策支持系統(tǒng)、提高企業(yè)的競爭力十分重要。本文提出了一種并行的網(wǎng)上新聞評(píng)論中地理位置信息抓取方法,通過多機(jī)并行、虛擬瀏覽器運(yùn)行、基于模板的內(nèi)容獲取可以實(shí)現(xiàn)快速的新聞評(píng)論中的地理位置信息的獲取,具有較高的實(shí)際應(yīng)用價(jià)值。

參考文獻(xiàn):

[1]Mok D, Wellman B, Basu R. Did distance matter before the Internet: Interpersonal contact and support in the 1970s[J].Social Networks, 2007,39(3):430-461.

[2]Anderson K, Schram A. Design and implementation of a data analytics infrastructure in support of crisis informatics research[C].Proceedings of the 33rd International Conference on Software Engineering, Hawaii, USA, 2011:844-847.

[3]Pastor-Satorras R, Vespignani A. Evolution and structure of the Internet: A statistical physics approach[M]. Cambridge University Press, 2004.

[4]Menczer F, Belew R. Adaptive retrieval agents: Internalizing local context and scaling up to the Web[J].Machine Learning, 2000,39(2):203-242.

[5]Menczer F. Mapping the semantics of web text and links[J].IEEE Internet Computing, 2005,9(3):27-36.

猜你喜歡
網(wǎng)頁服務(wù)器模板
鋁模板在高層建筑施工中的應(yīng)用
鋁模板在高層建筑施工中的應(yīng)用
通信控制服務(wù)器(CCS)維護(hù)終端的設(shè)計(jì)與實(shí)現(xiàn)
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
電子制作(2018年10期)2018-08-04 03:24:38
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
電子制作(2017年2期)2017-05-17 03:54:56
得形忘意的服務(wù)器標(biāo)準(zhǔn)
計(jì)算機(jī)網(wǎng)絡(luò)安全服務(wù)器入侵與防御
鋁模板在高層建筑施工中的應(yīng)用
網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
電子測試(2015年18期)2016-01-14 01:22:58
城市綜改 可推廣的模板較少
安仁县| 应城市| 当雄县| 太仆寺旗| 满城县| 霸州市| 云南省| 三亚市| 家居| 峨眉山市| 睢宁县| 张家界市| 肇东市| 博白县| 九龙县| 扶余县| 睢宁县| 岳西县| 鲁山县| 德化县| 灯塔市| 黔东| 罗江县| 兴国县| 伊金霍洛旗| 建湖县| 司法| 鹤壁市| 阜新市| 贞丰县| 抚松县| 民权县| 盐山县| 屯昌县| 抚宁县| 姜堰市| 新郑市| 万源市| 遵义县| 米泉市| 温宿县|