国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

詳解4種類型的爬蟲技術(shù)

2021-06-01 10:33:04傅一平
計算機與網(wǎng)絡 2021年6期
關(guān)鍵詞:表單爬蟲深層

傅一平

聚焦爬蟲技術(shù)

聚焦網(wǎng)絡爬蟲也就是主題網(wǎng)絡爬蟲,它增加了鏈接評價和內(nèi)容評價模塊,其爬行策略實現(xiàn)要點就是評價頁面內(nèi)容以及鏈接的重要性。

基于鏈接評價的爬行策略,主要是以Web頁面作為半結(jié)構(gòu)化文檔,其中擁有很多結(jié)構(gòu)信息可用于評價鏈接重要性。還有一個是利用Web結(jié)構(gòu)來評價鏈接價值的方法,也就是HITS法,通過計算每個訪問頁面的Authority權(quán)重和Hub權(quán)重來決定鏈接訪問順序。

而基于內(nèi)容評價的爬行策略,主要是將與文本相似的計算法加以應用。Fish-Search算法就是把用戶輸入查詢詞當作主題,在算法的進一步改進后,通過Shark-Search算法就能利用空間向量模型計算頁面和主題相關(guān)度大小。

而面向主題爬蟲與面向需求爬蟲會針對某種特定的內(nèi)容去爬取信息,而且會保證信息和需求盡可能相關(guān)。

通用爬蟲技術(shù)

通用爬蟲技術(shù)也就是全網(wǎng)爬蟲,其實現(xiàn)過程如下。

第一,獲取初始URL。初始URL地址可以由用戶人為指定,也可以由用戶指定的某個或某幾個初始爬取網(wǎng)頁決定。

第二,根據(jù)初始的URL爬取頁面并獲得新的URL。獲得初始的URL地址之后,需要先爬取對應URL地址中的網(wǎng)頁,接著將網(wǎng)頁存儲到原始數(shù)據(jù)庫中,并且在爬取網(wǎng)頁的同時,發(fā)現(xiàn)新的URL地址,并將已爬取的URL地址存放到一個URL列表中,用于去重及判斷爬取的進程。

第三,將新的URL放到URL隊列中,再于第二步內(nèi)獲取下一個新的URL地址之后,再將新的URL地址放到URL隊列中。

第四,從URL隊列中讀取新的URL,并依據(jù)新的URL爬取網(wǎng)頁,同時從新的網(wǎng)頁中獲取新的URL并重復上述的爬取過程。

第五,滿足爬蟲系統(tǒng)設(shè)置的停止條件時,停止爬取。在編寫爬蟲的時候,一般會設(shè)置相應的停止條件。如果沒有設(shè)置停止條件,爬蟲便會一直爬取下去,一直到無法獲取新的URL地址為止,若設(shè)置了停止條件,爬蟲則會在停止條件滿足時停止爬取。

通用爬蟲技術(shù)應用有著不同的爬取策略,其中的廣度優(yōu)先策略以及深度優(yōu)先策略都比較關(guān)鍵,深度優(yōu)先策略的實施是依照深度從低到高的順序來訪問下一級網(wǎng)頁鏈接。

增量爬蟲技術(shù)

某些網(wǎng)站會定時在原有網(wǎng)頁數(shù)據(jù)的基礎(chǔ)上更新一批數(shù)據(jù)。例如某電影網(wǎng)站會實時更新一批最近熱門的電影,小說網(wǎng)站會根據(jù)作者創(chuàng)作的進度實時更新最新的章節(jié)數(shù)據(jù)等。在遇到類似的場景時,便可以采用增量式爬蟲。

增量爬蟲技術(shù)就是通過爬蟲程序監(jiān)測某網(wǎng)站數(shù)據(jù)更新的情況,以便可以爬取到該網(wǎng)站更新后的新數(shù)據(jù)。

關(guān)于如何進行增量式的爬取工作,以下給出3種檢測重復數(shù)據(jù)的思路。

在發(fā)送請求之前判斷這個URL是否曾爬取過;

在解析內(nèi)容后判斷這部分內(nèi)容是否曾爬取過;

寫入存儲介質(zhì)時判斷內(nèi)容是否已存在于介質(zhì)中。

第一種思路適合不斷有新頁面出現(xiàn)的網(wǎng)站,比如小說的新章節(jié)、每天的實時新聞等。

第二種思路則適合頁面內(nèi)容會定時更新的網(wǎng)站。

第三種思路則相當于最后一道防線,這樣做可以最大限度地達到去重的目的。

不難發(fā)現(xiàn),實現(xiàn)增量爬取的核心是去重,目前存在2種去重方法。

第一,對爬取過程中產(chǎn)生的URL進行存儲,存儲在Redis的set中。當下次進行數(shù)據(jù)爬取時,首先在存儲URL的set中對即將發(fā)起的請求所對應的URL進行判斷,如果存在則不進行請求,否則進行請求。

第二,對爬取到的網(wǎng)頁內(nèi)容進行唯一標識的制定(數(shù)據(jù)指紋),然后將該唯一標識存儲至Redis的set中。當下次爬取到網(wǎng)頁數(shù)據(jù)的時候,在進行持久化存儲之前,可以先判斷該數(shù)據(jù)的唯一標識在Redis的set中是否存在,從而決定是否進行持久化存儲。

深層網(wǎng)絡爬蟲技術(shù)

在互聯(lián)網(wǎng)中,網(wǎng)頁按存在方式可以分為表層網(wǎng)頁和深層網(wǎng)頁兩類。

所謂的表層網(wǎng)頁,是指不需要提交表單,使用靜態(tài)鏈接就能夠到達的靜態(tài)頁面。而深層網(wǎng)頁則隱藏在表單后面,不能通過靜態(tài)鏈接直接獲取,是需要提交一定的關(guān)鍵詞后才能夠獲取到的頁面,深層網(wǎng)絡爬蟲最重要的部分即為表單填寫部分。

在互聯(lián)網(wǎng)中深層網(wǎng)頁的數(shù)量往往要比表層網(wǎng)頁的數(shù)量多很多,故而,我們需要想辦法爬取深層網(wǎng)頁。

深層網(wǎng)絡爬蟲的基本構(gòu)成包括:URL列表、LVS列表(LVS指的是標簽/數(shù)值集合,即填充表單的數(shù)據(jù)源)、爬行控制器、解析器、LVS控制器、表單分析器、表單處理器以及響應分析器。

深層網(wǎng)絡爬蟲的表單填寫有2種類型:

基于領(lǐng)域知識的表單填寫(建立一個填寫表單的關(guān)鍵詞庫,在需要時根據(jù)語義分析選擇對應的關(guān)鍵詞進行填寫);

基于網(wǎng)頁結(jié)構(gòu)分析的表單填寫,一般在領(lǐng)域知識有限的情況下使用,這種方式會根據(jù)網(wǎng)頁結(jié)構(gòu)進行分析,并自動進行表單填寫。

猜你喜歡
表單爬蟲深層
利用網(wǎng)絡爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
電子表單系統(tǒng)應用分析
華東科技(2021年9期)2021-09-23 02:15:24
基于Python的網(wǎng)絡爬蟲和反爬蟲技術(shù)研究
考慮各向異性滲流的重力壩深層抗滑穩(wěn)定分析
SAM系統(tǒng)對TDCS數(shù)據(jù)的優(yōu)化處理與深層應用
淺談網(wǎng)頁制作中表單的教學
利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
電子測試(2018年1期)2018-04-18 11:53:04
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡爬蟲技術(shù)
電子制作(2017年9期)2017-04-17 03:00:46
對“醫(yī)患失去信任”的深層憂慮
電視節(jié)目低俗化的深層反思
游戏| 遂川县| 澄迈县| 高青县| 南郑县| 玉环县| 措勤县| 凌源市| 平南县| 金秀| 甘南县| 渝北区| 香港| 辽阳市| 抚顺县| 安国市| 怀宁县| 旌德县| 屏东市| 同仁县| 若羌县| 剑阁县| 湛江市| 博兴县| 方山县| 武功县| 固始县| 科技| 綦江县| 通辽市| 宜宾县| 大田县| 稻城县| 通州市| 开阳县| 阿拉善左旗| 韩城市| 阿勒泰市| 安多县| 察雅县| 雅安市|