国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種動(dòng)員潛力數(shù)據(jù)增量更新技術(shù)方法研究

2021-12-30 10:21:09吳曉萍李國(guó)明唐歡
科技信息·學(xué)術(shù)版 2021年4期
關(guān)鍵詞:網(wǎng)絡(luò)爬蟲(chóng)

吳曉萍 李國(guó)明 唐歡

摘要:動(dòng)員潛力數(shù)據(jù)主要包括交通戰(zhàn)備、經(jīng)濟(jì)動(dòng)員、人民武裝、軍工生產(chǎn)、醫(yī)療救護(hù)、政治動(dòng)員、裝備動(dòng)員等幾大類(lèi),2000多項(xiàng)小類(lèi),種類(lèi)繁雜,體量較大。目前,動(dòng)員潛力數(shù)據(jù)大多是依靠人工輸入完成采集更新,工作量巨大。因此,本文構(gòu)建了一種兼容多種數(shù)據(jù)源的可持續(xù)網(wǎng)絡(luò)爬蟲(chóng)方法,提出了基于基態(tài)修正的動(dòng)員潛力數(shù)據(jù)增量更新方法。結(jié)果表明:該方法可快速有效的開(kāi)展動(dòng)員潛力數(shù)據(jù)增量更新。

關(guān)鍵詞:動(dòng)員潛力、增量更新、網(wǎng)絡(luò)爬蟲(chóng)、基態(tài)修正

引言

騰訊、高德、百度等LBS日均支持服務(wù)請(qǐng)求已達(dá)千億次,每天為用戶(hù)提供百億次POI檢索服務(wù)。龐大的用戶(hù)體量和全面多維的位置數(shù)據(jù),賦予了互聯(lián)網(wǎng)動(dòng)員潛力數(shù)據(jù)較高的現(xiàn)勢(shì)性。如何有效的從互聯(lián)網(wǎng)中獲取到所需的動(dòng)員潛力數(shù)據(jù),仍是一個(gè)技術(shù)研究的熱點(diǎn)問(wèn)題。本研究利用檢索詞搜索的網(wǎng)絡(luò)爬蟲(chóng)方法對(duì)電子地圖中的POI數(shù)據(jù)進(jìn)行獲取,為動(dòng)員潛力數(shù)據(jù)的檢索和獲取提供了一種方法。

由于動(dòng)員潛力數(shù)據(jù)的來(lái)源較多,在對(duì)其屬性信息的描述過(guò)程中,不同數(shù)據(jù)源對(duì)同一POI點(diǎn)在名稱(chēng)地址信息的描述上會(huì)有所差異。在進(jìn)行數(shù)據(jù)更新時(shí),很容易將不同源數(shù)據(jù)中對(duì)同一個(gè)POI點(diǎn)識(shí)別為多個(gè)數(shù)據(jù)點(diǎn),造成大量的冗余數(shù)據(jù)。本研究使用基于詞典與統(tǒng)計(jì)相結(jié)合的中文分詞方法,對(duì)POI點(diǎn)的名稱(chēng)地址進(jìn)行拆分后,保留核心詞匯,提高同名POI點(diǎn)的識(shí)別率,減少重復(fù)數(shù)據(jù),提高數(shù)據(jù)質(zhì)量。

1多源動(dòng)員潛力數(shù)據(jù)的自動(dòng)采集爬蟲(chóng)設(shè)計(jì)

本研究設(shè)計(jì)了一種兼容多種數(shù)據(jù)源的可持續(xù)網(wǎng)絡(luò)爬蟲(chóng),實(shí)現(xiàn)POI數(shù)據(jù)的持續(xù)獲取。爬蟲(chóng)程序主要由任務(wù)分配、數(shù)據(jù)下載、數(shù)據(jù)解析三個(gè)基本模塊組成。整個(gè)爬取流程及模塊間的銜接呈環(huán)狀,使得爬蟲(chóng)能夠自動(dòng)化、持續(xù)化運(yùn)行,基本架構(gòu)見(jiàn)圖。

第一步:原始網(wǎng)頁(yè)地址輸入

多源POI數(shù)據(jù)有垂直網(wǎng)站、各類(lèi)網(wǎng)頁(yè)服務(wù)等多種來(lái)源,因此在設(shè)計(jì)爬蟲(chóng)程序時(shí)必須考慮到周全,能夠做到多類(lèi)數(shù)據(jù)源都能夠進(jìn)行爬取。網(wǎng)頁(yè)服務(wù)的獲取是通過(guò)向數(shù)據(jù)服務(wù)提交查詢(xún)的請(qǐng)求后等待網(wǎng)頁(yè)進(jìn)行數(shù)據(jù)反饋,因而要對(duì)數(shù)據(jù)源的數(shù)據(jù)庫(kù)做到最達(dá)的覆蓋率,以保證數(shù)據(jù)的全面性。

第二步:爬蟲(chóng)任務(wù)協(xié)調(diào)

任務(wù)協(xié)調(diào)模塊是有著URL過(guò)濾、去重的功能,還要對(duì)多線程爬取的情況下對(duì)每個(gè)線程的任務(wù)進(jìn)行協(xié)調(diào)分配。針對(duì)垂直網(wǎng)頁(yè),任務(wù)協(xié)調(diào)模塊通過(guò)解析網(wǎng)頁(yè)頁(yè)面中的URL地址,與已有地址列表進(jìn)行比對(duì)剔除已爬取過(guò)的網(wǎng)頁(yè)鏈接。

第三步:數(shù)據(jù)下載模塊

爬蟲(chóng)程序基礎(chǔ)就是數(shù)據(jù)的下載模塊,它向網(wǎng)頁(yè)鏈接發(fā)出請(qǐng)求并獲取底層服務(wù)器的回應(yīng)。利用輔助線程對(duì)數(shù)據(jù)異步獲取狀態(tài)的跟蹤而主線程仍舊持續(xù)請(qǐng)求的方式對(duì)下載效率進(jìn)行提升,避免了多個(gè)網(wǎng)頁(yè)內(nèi)容同時(shí)下載時(shí)候的網(wǎng)絡(luò)阻塞,提高了數(shù)據(jù)采集的效率。

第四步:數(shù)據(jù)解析模塊

數(shù)據(jù)解析模塊是對(duì)下載完成后的信息進(jìn)行預(yù)處理,得到格式化的信息數(shù)據(jù)。對(duì)于Html等結(jié)構(gòu)化半結(jié)構(gòu)化的網(wǎng)頁(yè)數(shù)據(jù)會(huì)形成相應(yīng)的解析模型,以便后續(xù)能夠程序化的對(duì)數(shù)據(jù)進(jìn)行快速解析工作。針對(duì)獲取得到的不同格式數(shù)據(jù),需要根據(jù)特定的解析方式將其解析為固定格式的結(jié)構(gòu)存儲(chǔ)在內(nèi)存中,方便后續(xù)的數(shù)據(jù)分析與應(yīng)用工作。

2多源POI數(shù)據(jù)的獲取

2.1多源數(shù)據(jù)的坐標(biāo)一致化處

從互聯(lián)網(wǎng)獲取的POI數(shù)據(jù),由于數(shù)據(jù)源不同,因此數(shù)據(jù)存在坐標(biāo)信息不一致的問(wèn)題。為了數(shù)據(jù)的保密性、專(zhuān)有性,各大地圖服務(wù)提供商出版、發(fā)布的地理坐標(biāo)點(diǎn)是經(jīng)過(guò)原始坐標(biāo)點(diǎn)進(jìn)行加密、偏移等操作得到的結(jié)果。因此不同的來(lái)源的數(shù)據(jù)存在不同的坐標(biāo)信息,為了使多源數(shù)據(jù)能夠進(jìn)行整合處理,多源POI數(shù)據(jù)要進(jìn)行坐標(biāo)轉(zhuǎn)換,具有統(tǒng)一的坐標(biāo)系。地圖數(shù)據(jù)的坐標(biāo)轉(zhuǎn)換實(shí)質(zhì)是對(duì)兩個(gè)異源坐標(biāo)點(diǎn)集建立映射關(guān)系,常用的方法有平均位移法,相似變換法、多項(xiàng)式法等。本研究采用基于網(wǎng)格劃分自動(dòng)提取控制點(diǎn)的方法對(duì)多源POI資料進(jìn)行坐標(biāo)糾正處理,流程如下圖所示:

第一步:確定POI點(diǎn)集的地理范圍,將地理范圍進(jìn)行單元網(wǎng)格劃分,對(duì)網(wǎng)格單元進(jìn)行二次劃分,對(duì)劃分為M×N單元網(wǎng)格的每個(gè)網(wǎng)格進(jìn)行再次劃分,劃分為3×3的控制

點(diǎn)子網(wǎng)格和6×6的檢核點(diǎn)子網(wǎng)格。

第二步:選取兩套在控制點(diǎn)子網(wǎng)格內(nèi)的異源數(shù)據(jù)點(diǎn)集,用語(yǔ)義匹配選取一組同名點(diǎn)作為其所在網(wǎng)格的控制點(diǎn),用相同方式進(jìn)行檢核點(diǎn)的選取。

第三步:用二階多項(xiàng)式變換模型計(jì)算變換系數(shù)并計(jì)算點(diǎn)的殘差和中誤差,對(duì)控制點(diǎn)進(jìn)行粗差剔除以獲得可使用的控制點(diǎn)。

第四步:再次使用二階多項(xiàng)式變換模型對(duì)糾正網(wǎng)格進(jìn)行變換系數(shù)計(jì)算,得到每個(gè)網(wǎng)格單元的各類(lèi)誤差數(shù)并存入數(shù)據(jù)庫(kù),最終實(shí)現(xiàn)POI數(shù)據(jù)的位置糾正。

2.2POI數(shù)據(jù)集的噪聲去除

每一條POI數(shù)據(jù)按照一定的數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲(chǔ),由多個(gè)字段組成一條數(shù)據(jù)的屬性描述集合,該集合分別由“ID”、“名稱(chēng)”、“地址”、“經(jīng)緯度”、“分類(lèi)”、“地址編碼”等字段構(gòu)成。名稱(chēng)字段表地理實(shí)體,地址字段表名實(shí)體具體位置,分類(lèi)字段是根據(jù)分類(lèi)屬性表明確所屬類(lèi)別,經(jīng)緯度字段可用于地理位置的確定,POI數(shù)據(jù)集因網(wǎng)頁(yè)解析等原因會(huì)出現(xiàn)一些噪聲數(shù)據(jù),即字段表達(dá)錯(cuò)誤或記錄有誤,需要對(duì)這些噪聲數(shù)據(jù)進(jìn)行處理,以保證數(shù)據(jù)集的統(tǒng)一性和準(zhǔn)確性。

2.3數(shù)據(jù)預(yù)處理結(jié)果

對(duì)采集完成的原始數(shù)據(jù)按照噪聲去除及坐標(biāo)一致化進(jìn)行數(shù)據(jù)的預(yù)處理。

3基于基態(tài)修正的動(dòng)員潛力數(shù)據(jù)更新

本研究基于基態(tài)修正的方式對(duì)動(dòng)員潛力數(shù)據(jù)進(jìn)行更新,通過(guò)對(duì)POI數(shù)據(jù)的變化信息獲取即相對(duì)增量獲取,對(duì)數(shù)據(jù)進(jìn)行更新,以保證POI數(shù)據(jù)的現(xiàn)勢(shì)性與準(zhǔn)確性?;诨鶓B(tài)修正的POI數(shù)據(jù)更新步驟如圖所示:

步驟一:待更新區(qū)域的確定

為了實(shí)現(xiàn)數(shù)據(jù)的快速動(dòng)態(tài)更新,使用基態(tài)修正的POI數(shù)據(jù)更新方法對(duì)某區(qū)域的POI數(shù)據(jù)進(jìn)行局部更新,需要確定待更新區(qū)域進(jìn)行POI數(shù)據(jù)的快速更新。

步驟二:局域網(wǎng)絡(luò)POI獲取

利用網(wǎng)絡(luò)爬蟲(chóng)對(duì)確定區(qū)域的多源網(wǎng)絡(luò)POI數(shù)據(jù)持續(xù)性獲取,對(duì)獲取的到POI數(shù)據(jù)進(jìn)行噪聲去除、坐標(biāo)一致化處理以及整合去重工作后作為對(duì)比數(shù)據(jù)源,將地理信息公共服務(wù)平臺(tái)的數(shù)據(jù)作為標(biāo)準(zhǔn)POI數(shù)據(jù)庫(kù),達(dá)到平臺(tái)數(shù)據(jù)的快速動(dòng)態(tài)更新。

步驟三:變化信息監(jiān)測(cè)

通過(guò)處理網(wǎng)絡(luò)數(shù)據(jù)與平臺(tái)的標(biāo)準(zhǔn)POI數(shù)據(jù)進(jìn)行對(duì)比分析,采用同名點(diǎn)識(shí)別算法得到網(wǎng)絡(luò)多源POI數(shù)據(jù)與地理信息平臺(tái)數(shù)據(jù)的同名點(diǎn),進(jìn)而可以得到網(wǎng)絡(luò)數(shù)據(jù)相對(duì)于平臺(tái)數(shù)據(jù)的增量即數(shù)據(jù)的變化信息。因在進(jìn)行平臺(tái)數(shù)據(jù)更新時(shí)采用了區(qū)域更新的方式,選定某個(gè)地區(qū)后對(duì)該地區(qū)的所有POI數(shù)據(jù)進(jìn)行更新工作,同時(shí)在進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)采集時(shí)也選定的使該區(qū)域,使得多源網(wǎng)絡(luò)POI數(shù)據(jù)與平臺(tái)庫(kù)POI建立起了區(qū)域?qū)?yīng)關(guān)系。

步驟四:增量資料生產(chǎn)

通過(guò)變化信息監(jiān)測(cè),對(duì)多源網(wǎng)絡(luò)POI數(shù)據(jù)與動(dòng)員潛力數(shù)據(jù)庫(kù)POI數(shù)據(jù)統(tǒng)一進(jìn)行名稱(chēng)特征抽取與地址特征化的工作后,再進(jìn)行相對(duì)增量數(shù)據(jù)的提取,杜絕了簡(jiǎn)化后的網(wǎng)絡(luò)名稱(chēng)地址數(shù)據(jù)不能與原數(shù)據(jù)庫(kù)名稱(chēng)地址相對(duì)應(yīng)而造成“虛假”增量的問(wèn)題。為數(shù)據(jù)更新提供很好的數(shù)據(jù)基礎(chǔ)。

步驟五:數(shù)據(jù)更新

增量數(shù)據(jù)相對(duì)于原數(shù)據(jù)的庫(kù)的變化部分,將其更新至動(dòng)員潛力數(shù)據(jù)庫(kù),即可完成基于基態(tài)修正的數(shù)據(jù)更新。因?yàn)榫W(wǎng)絡(luò)數(shù)據(jù)的多源性與高更新頻率,保證了數(shù)據(jù)的準(zhǔn)確性與現(xiàn)勢(shì)性。

4結(jié)論

本文使用的基于網(wǎng)絡(luò)爬蟲(chóng)與基態(tài)修正的動(dòng)員潛力數(shù)據(jù)增量更新方法,經(jīng)過(guò)驗(yàn)證可快速有效的開(kāi)展動(dòng)員潛力數(shù)據(jù)增量更新。較傳統(tǒng)人工更新模式,可節(jié)約人力資源成本,提高工作效率。

參考文獻(xiàn)

[1]于濤方,顧朝林,吳泓.中國(guó)城市功能格局與轉(zhuǎn)型:基于五普和第一次經(jīng)濟(jì)普查數(shù)據(jù)的分析[J].城市規(guī)劃學(xué)刊,2006,165(5):13-21.

[2]沈忱,宋鷹.地理數(shù)據(jù)增量更新策略及方法探討[J].國(guó)土與自然資源研究,2013(2):29-31.

[3]羅國(guó)瑋,張新長(zhǎng),齊立新.顧及地理要素變化過(guò)程的數(shù)據(jù)增量更新方法[J].中山大學(xué)學(xué)報(bào):自然科學(xué)版,2014,53(4):131-135,141.

[4]向紅梅,譚立力,曾光清.基礎(chǔ)地理空間數(shù)據(jù)庫(kù)增量更新與動(dòng)態(tài)管理方法[J].測(cè)繪科學(xué),2016,41(11):189-193.

[5]徐毅,金德琨,敬忠良.數(shù)據(jù)融合研究的回顧與展望[J].信息與控制,2002,31(3):250-255.

基金編號(hào):四川省科技計(jì)劃資助:2020YFG0373、2021YFG0378

猜你喜歡
網(wǎng)絡(luò)爬蟲(chóng)
基于分布式的農(nóng)業(yè)信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
微信平臺(tái)下的教務(wù)信息獲取和隱私保護(hù)方法研究
基于網(wǎng)絡(luò)爬蟲(chóng)的電子易購(gòu)軟件設(shè)計(jì)與實(shí)現(xiàn)
搜索引擎技術(shù)的發(fā)展現(xiàn)狀與前景
煉鐵廠鐵量網(wǎng)頁(yè)數(shù)據(jù)獲取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
基于社會(huì)網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁(yè)挖掘研究
主題搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)研究
淺析如何應(yīng)對(duì)網(wǎng)絡(luò)爬蟲(chóng)流量
基于淘寶某商品銷(xiāo)售量監(jiān)控系統(tǒng)
網(wǎng)絡(luò)爬蟲(chóng)針對(duì)“反爬”網(wǎng)站的爬取策略研究
八宿县| 宜良县| 霍州市| 阿拉善右旗| 新余市| 乐东| 辰溪县| 潞城市| 石渠县| 收藏| 英山县| 高台县| 漳平市| 铜梁县| 关岭| 巫溪县| 聂拉木县| 金山区| 江阴市| 崇义县| 云安县| 柳州市| 揭西县| 衡阳县| 邹平县| 彭泽县| 临夏县| 定南县| 伊宁市| 海口市| 蚌埠市| 昌都县| 宿迁市| 轮台县| 饶河县| 巧家县| 清水河县| 沂水县| 巨野县| 舒兰市| 池州市|