Web爬蟲檢測(cè)技術(shù)綜述

2012-11-28 03:42:36吳曉暉紀(jì)星

湖北汽車工業(yè)學(xué)院學(xué)報(bào) 2012年1期

吳曉暉，紀(jì)星

（1.湖北汽車工業(yè)學(xué) 院經(jīng)管學(xué)院，湖北十堰42002；2.湖北省金螞蟻網(wǎng)絡(luò)有限公司，湖北十堰442002）

0 前言

隨著互聯(lián)網(wǎng)的不斷發(fā)展，搜索引擎技術(shù)的越來(lái)越普及，帶來(lái)的弊端是許多搜索引擎網(wǎng)絡(luò)爬蟲大量地占據(jù)了互聯(lián)網(wǎng)帶寬。一旦一個(gè)中型的網(wǎng)站被技術(shù)不精的惡意或者非允許的網(wǎng)絡(luò)爬蟲爬取數(shù)據(jù)，很可能使得網(wǎng)站速度降低甚至不能訪問(wèn)。還有，好多的網(wǎng)絡(luò)爬蟲是以非法獲取數(shù)據(jù)為目的，把獲取的數(shù)據(jù)放到網(wǎng)站，制造虛假的PV，或者以獲得非法商業(yè)利潤(rùn)為目的，例如：在點(diǎn)擊付費(fèi)的網(wǎng)絡(luò)廣告中，利用網(wǎng)絡(luò)蜘蛛來(lái)模仿用戶點(diǎn)擊獲取付費(fèi)。因此，網(wǎng)絡(luò)爬蟲不僅給網(wǎng)絡(luò)帶來(lái)沉重的負(fù)擔(dān)，使得網(wǎng)站性能大大降低，同時(shí)還會(huì)帶來(lái)非法盜竊數(shù)據(jù)，隱私，知識(shí)產(chǎn)權(quán)，非法獲取商業(yè)利潤(rùn)等問(wèn)題，已經(jīng)嚴(yán)重妨礙了與互聯(lián)網(wǎng)相關(guān)的產(chǎn)業(yè)的健康發(fā)展。

為消除惡意網(wǎng)絡(luò)爬蟲帶來(lái)的危害，國(guó)內(nèi)外相關(guān)學(xué)者，高校等對(duì)網(wǎng)絡(luò)爬蟲檢測(cè)識(shí)別技術(shù)進(jìn)行了廣泛深入的研究。在國(guó)外，研究爬蟲檢測(cè)技術(shù)的代表性學(xué)者是塞浦路斯的Marios D.Dikaiakos和Athena Stassopoulou等[1-4]，他們?cè)趪?guó)際知名期刊（Computer Network等）上發(fā)表了關(guān)于研究Web爬蟲的系列論文，其中包括通過(guò)分析訪問(wèn)日志來(lái)獲取Web爬蟲行為與普通用戶訪問(wèn)行為的特征區(qū)別[1，4]，并在此基礎(chǔ)上采用了概率推理方法（即貝葉斯網(wǎng)絡(luò)）[2-3]來(lái)進(jìn)行Web爬蟲檢測(cè)，取得了一定的成果。

國(guó)內(nèi)的研究網(wǎng)絡(luò)爬蟲檢測(cè)技術(shù)的代表性學(xué)者主要有郭偉剛、菊時(shí)光、范純龍等研究的Web Robot識(shí)別檢測(cè)算法。郭等[9]在文獻(xiàn)中闡述了利用一個(gè)事務(wù)中人與爬蟲所請(qǐng)求的URL訪問(wèn)模式不同來(lái)檢測(cè)網(wǎng)絡(luò)蜘蛛，同時(shí)還闡述了利用爬行內(nèi)容不同和設(shè)置閥值的方法來(lái)檢測(cè)蜘蛛，但這些方法都要依賴于用戶會(huì)話和日志分析，其實(shí)時(shí)反應(yīng)慢。于是范等[7]在文獻(xiàn)中闡述了在網(wǎng)頁(yè)中設(shè)置陷阱的方法來(lái)捕獲蜘蛛，這種方法優(yōu)點(diǎn)是能快速實(shí)時(shí)的檢測(cè)出蜘蛛，同時(shí)不需根據(jù)事務(wù)中人與爬蟲所請(qǐng)求的URL的訪問(wèn)特征的不同來(lái)檢測(cè)網(wǎng)絡(luò)蜘蛛，另外本文還闡述了利用爬行內(nèi)容不同和設(shè)置閥值的方法來(lái)檢測(cè)蜘蛛，但這些方法都要依賴用戶會(huì)話和日志分析，同時(shí)陷阱的方法也容易會(huì)造成鏈接污染，對(duì)正規(guī)合法搜索引擎形成影響，再者其特征明顯，也很容易被新的網(wǎng)絡(luò)蜘蛛所規(guī)避。

1 爬蟲檢測(cè)技術(shù)的思路和方法

到目前為止，在爬蟲檢測(cè)思路上，主要有2類：1）基于日志中的爬蟲和用戶行為不同特征分析再利用閥值，決策樹，貝葉斯網(wǎng)絡(luò)等來(lái)進(jìn)行判斷檢測(cè)網(wǎng)絡(luò)蜘蛛；2）基于在網(wǎng)頁(yè)上布置陷阱方法來(lái)捕獲網(wǎng)絡(luò)爬蟲。

1.1 基于特征分析的檢測(cè)技術(shù)

基于行為分析的研究都是通過(guò)對(duì)Web訪問(wèn)日志進(jìn)行會(huì)話和事務(wù)劃分，然后找出會(huì)話中和事務(wù)訪問(wèn)蜘蛛和人的訪問(wèn)行為特征不同，來(lái)進(jìn)行爬蟲檢測(cè)。在分析國(guó)內(nèi)外相關(guān)代表研究文獻(xiàn)基礎(chǔ)上，總結(jié)出人和蜘蛛的主要不同訪問(wèn)行為特征：

1）最大連續(xù)點(diǎn)擊率從直覺(jué)上來(lái)講，用戶在一定的時(shí)間內(nèi)，存在著一個(gè)最大點(diǎn)擊數(shù)，……

2）會(huì)話時(shí)長(zhǎng)網(wǎng)絡(luò)蜘蛛的一個(gè)會(huì)話時(shí)長(zhǎng)要比人的會(huì)話時(shí)長(zhǎng)大的多的多。

3）圖片訪問(wèn)的百分比在圖片嵌入的網(wǎng)頁(yè)中，爬蟲會(huì)話中，爬蟲所訪問(wèn)的圖片所占訪問(wèn)總量的百分比遠(yuǎn)遠(yuǎn)少于用戶會(huì)話中用戶所訪問(wèn)的圖片所占訪問(wèn)總量的百分比。

4）4XX錯(cuò)誤響應(yīng)百分比在爬蟲訪問(wèn)請(qǐng)求中，4XX錯(cuò)誤響應(yīng)所出現(xiàn)的百分比比用戶訪問(wèn)請(qǐng)求要更高。

5）對(duì)robot.txt文件的訪問(wèn) 合法的爬行蜘蛛會(huì)請(qǐng)求訪問(wèn)robot.txt文件，但用戶不會(huì)對(duì)其訪問(wèn)。

6）Url訪問(wèn)行為用戶對(duì)一個(gè)網(wǎng)站的訪問(wèn)通常都是按照網(wǎng)頁(yè)設(shè)計(jì)者思路走下去，即訪問(wèn)的鏈接是滿足鏈接關(guān)系的。而爬蟲訪問(wèn)通常是雜亂無(wú)章的，一般不會(huì)形成鏈接關(guān)系路徑。因?yàn)榕老x抓取網(wǎng)頁(yè)通常只抓取新的或者已經(jīng)更新了的網(wǎng)頁(yè)。

7）訪問(wèn)內(nèi)容在一個(gè)會(huì)話中，人訪問(wèn)的內(nèi)容通常是雜亂無(wú)章的。而蜘蛛訪問(wèn)內(nèi)容通常都是有規(guī)律可循的，要么都是Html，或者都是pdf/jpg，MP3等。

基于以上特征，國(guó)內(nèi)外的學(xué)者采用了流量分析，機(jī)器學(xué)習(xí)，閥值控制等方法來(lái)

1.2 基于陷阱捕獲的檢測(cè)技術(shù)

基于陷阱方法捕獲蜘蛛的思路是通過(guò)在網(wǎng)頁(yè)上布置陷阱（即用戶看不到而爬蟲容易抓取的與URL相關(guān)的文件、網(wǎng)頁(yè)等）來(lái)捕獲網(wǎng)絡(luò)爬蟲。傳統(tǒng)的布置陷阱方法有3種：

1）利用分布式蜜罐系統(tǒng) Honeynet Project[12]，在大范圍內(nèi)捕獲和建設(shè)Spider地址庫(kù)；

2）利用陷阱將Spider訪問(wèn)引導(dǎo)到爬蟲收集網(wǎng)；

3）將Spider訪問(wèn)引入到能產(chǎn)生無(wú)限鏈接循環(huán)的頁(yè)面，惡意消耗Spider訪問(wèn)能力，污染其鏈接和內(nèi)容空間。

這3種傳統(tǒng)的方式都有其缺點(diǎn)：第1種方式忽略考慮網(wǎng)絡(luò)上IP地址是動(dòng)態(tài)分配的；第2種方式，對(duì)于爬蟲網(wǎng)站鏈接加入到黑名單中蜘蛛可以輕易跳過(guò)陷阱。第3種方式是損人不利己的方式，消耗蜘蛛資源同時(shí)也消耗自己資源。

基于以上傳統(tǒng)的陷阱方式的缺點(diǎn)，國(guó)內(nèi)學(xué)者[7]陷阱檢測(cè)技術(shù)的理論及其模型進(jìn)行了詳細(xì)分析和研究，得出可以通過(guò)網(wǎng)頁(yè)上布置一些url，這些url事實(shí)上是不存在的，如果爬蟲訪問(wèn)這些url，就被重定向器定向到專門檢測(cè)蜘蛛的網(wǎng)頁(yè)集合中的理論模型和方法來(lái)捕捉蜘蛛。這種方法很好地彌補(bǔ)了傳統(tǒng)方法的缺點(diǎn)，布置靈活方便。

2 爬蟲檢測(cè)技術(shù)效果評(píng)價(jià)

由于基于爬蟲檢測(cè)技術(shù)而開發(fā)的識(shí)別分類器是二分類，即識(shí)別爬蟲類和用戶訪問(wèn)類。因此對(duì)于爬蟲檢測(cè)方法效果的評(píng)價(jià)主要是基于精度（Precision），召回率（Recall）和F1-measure。其假設(shè)在集合中爬蟲類的訪問(wèn)有N個(gè)，那么經(jīng)過(guò)識(shí)別分類器分類后，分出屬于爬蟲類的正確和錯(cuò)誤分類和屬于非爬蟲類的正確和錯(cuò)誤分類，其結(jié)果如表1所示。

表1 爬蟲類識(shí)別分類情況

根據(jù)表1，其檢測(cè)方法的定義如下：

1）正確率：P＝TP/（TP+TF），衡量原本是爬蟲類的劃為爬蟲類的精度。

2）召回率：R＝TP/（TP+FP），衡量原本屬于爬蟲類的正確識(shí)別能力。

3）F1_measure＝2PR/(P+R)，是衡量一個(gè)爬蟲識(shí)別分類器的正確率和召回率的一個(gè)綜合指標(biāo)，比較全面的測(cè)量爬蟲識(shí)別分類器的總體性能。

2.1 各種爬蟲檢測(cè)技術(shù)的效果比較

到目前為止，對(duì)于爬蟲檢測(cè)技術(shù)來(lái)講，還沒(méi)有建立一個(gè)公開權(quán)威的測(cè)試數(shù)據(jù)集，各個(gè)學(xué)者所采用的數(shù)據(jù)來(lái)源各不相同，大部分是來(lái)自于大學(xué)網(wǎng)站上的訪問(wèn)日志數(shù)據(jù)，記錄有幾千條到幾萬(wàn)條不等，百萬(wàn)條記錄以上的訪問(wèn)日志數(shù)據(jù)很少。

表2是各文獻(xiàn)中的實(shí)驗(yàn)結(jié)果對(duì)比，由于國(guó)內(nèi)外的學(xué)者所采用的方法不同，如國(guó)外學(xué)者建立分類器的方法，國(guó)內(nèi)學(xué)者采用統(tǒng)計(jì)閥值的方法；測(cè)試數(shù)據(jù)不同，國(guó)外選擇人工標(biāo)好的數(shù)據(jù)，國(guó)內(nèi)是選擇的原始訪問(wèn)日志，故國(guó)外學(xué)者給出了比較精確的測(cè)試結(jié)果。國(guó)內(nèi)學(xué)者給出的結(jié)果由于會(huì)話項(xiàng)目中訪問(wèn)記錄數(shù)目的限制等原因，例如文獻(xiàn)[5]，沒(méi)有能按測(cè)試三大指標(biāo)（P，R，F(xiàn)1）給出各個(gè)精確測(cè)試結(jié)果，要么只是給出了部分指標(biāo)的精確結(jié)果，要么只是給出了檢測(cè)出的網(wǎng)絡(luò)蜘蛛的列表。造成此結(jié)果差異的原因主要是采用的方法不同，缺乏權(quán)威測(cè)試集。例如，從理論上講，閥值限制的方法對(duì)于低于閥值的爬蟲，檢測(cè)出蜘蛛的百分比幾乎為零，高于閥值檢測(cè)的百分比幾乎為100%，所以比較難于進(jìn)行效果測(cè)試。即使這樣，還是根據(jù)以上評(píng)價(jià)方法對(duì)各個(gè)網(wǎng)絡(luò)蜘蛛檢測(cè)技術(shù)性能做個(gè)大體的對(duì)比。

表2 文獻(xiàn)中的實(shí)驗(yàn)結(jié)果對(duì)比

3 存在的問(wèn)題和挑戰(zhàn)

總體來(lái)講，當(dāng)今的爬蟲檢測(cè)技術(shù)對(duì)于單點(diǎn)式爬蟲檢測(cè)的召回率較高，基本能穩(wěn)定在80%以上[7]，但也存在著以下挑戰(zhàn)∶

1）對(duì)于針對(duì)某些主題、模仿用戶行為、探測(cè)檢測(cè)閥值等網(wǎng)絡(luò)爬蟲，正確的檢測(cè)還面臨著檢測(cè)效果不理想的問(wèn)題。隨著爬蟲檢測(cè)技術(shù)的不斷提高，惡意爬蟲技術(shù)也在不斷進(jìn)行改進(jìn)升級(jí)，從而達(dá)到躲避檢測(cè)的目的。例如，一些爬蟲減少單位時(shí)間內(nèi)訪問(wèn)次數(shù)，以低于檢測(cè)閥值的頻率訪問(wèn)網(wǎng)站，躲過(guò)蜘蛛檢測(cè)系統(tǒng)竊取數(shù)據(jù)。

2）當(dāng)前國(guó)內(nèi)外研究對(duì)于爬蟲的身份標(biāo)識(shí)基本都是基于IP地址的，這樣的身份標(biāo)識(shí)很不合理，因?yàn)榛ヂ?lián)網(wǎng)上的好多IP地址也是動(dòng)態(tài)分配的，不是一直不變的，同時(shí)存在著有一個(gè)IP地址可能會(huì)有多個(gè)用戶共同使用，來(lái)源于此IP中的爬蟲或許只是其中一個(gè)或幾個(gè)用戶發(fā)出的，不一定是所有共享此IP地址的用戶發(fā)出的。因此基于IP標(biāo)識(shí)爬蟲身份的方法是不合理的。

3）這些成果研究的實(shí)驗(yàn)數(shù)據(jù)基本上是來(lái)自于大學(xué)網(wǎng)站的訪問(wèn)日志，研究的爬蟲更多的是正規(guī)的網(wǎng)絡(luò)爬蟲特征，因此此成果是否具有很好地普實(shí)性，還有待于進(jìn)行進(jìn)一步的驗(yàn)證。同時(shí)，其研究所用培訓(xùn)數(shù)據(jù)是2個(gè)月的訪問(wèn)日志，測(cè)試數(shù)據(jù)是1個(gè)月的訪問(wèn)日志。但是對(duì)于這樣1個(gè)月時(shí)間范圍內(nèi)數(shù)據(jù)總體測(cè)試效果，到了具體的實(shí)時(shí)的時(shí)間內(nèi)識(shí)別網(wǎng)絡(luò)爬蟲的效果是否理想，作者也沒(méi)有進(jìn)一步的進(jìn)行深入的研究。

4）布置陷阱捕獲的方法對(duì)合法訪問(wèn)蜘蛛產(chǎn)生鏈接污染。

5）提出布置陷阱方法的學(xué)者在理論上還缺考慮到一個(gè)特殊情況，即非法用戶也可以通過(guò)正當(dāng)搜索引擎獲得自己想要的數(shù)據(jù)，例如，可以通過(guò)google搜索返回的結(jié)果，提取特定主題相關(guān)的信息，即利用google具體網(wǎng)站限定功能，對(duì)某個(gè)具體網(wǎng)站返回的搜索結(jié)果進(jìn)行提取。

4 結(jié) 語(yǔ)

本文從網(wǎng)絡(luò)蜘蛛特征和檢測(cè)方法出發(fā)，對(duì)其進(jìn)行了優(yōu)點(diǎn)和存在的問(wèn)題和挑戰(zhàn)進(jìn)行了分析總結(jié)?；诖?，筆者認(rèn)為，要想達(dá)到實(shí)時(shí)的準(zhǔn)確的識(shí)別惡意蜘蛛并加以拒絕，可以采用陷阱結(jié)合內(nèi)容加密的方式來(lái)防止非法蜘蛛獲取數(shù)據(jù)。這也是作者接下來(lái)要研究的方法。

[1]Marios D.Dikaiakos,Athena Stassopoulou，Loizos Papage Orgiou.An Investigation of Web Crawler Behaviour∶Chracterization and Metrics[J].Computer Communication，2005，28∶880-897.

[2]Athena Stassopoulou，Marios D.Dikaiakos.Web Robot Detection∶A Probabilistic Reasoning Approach[J].Computer Networks，2009，53∶265-278.

[3]Athena Stassopoulou，Marios D.Dikaiakos.A Probabilistic Reasoning Approach for Discovering Web Crawler Session[D].LNCS 4505，2007：265-272.

[4]Marios D.Dikaiakos，Athena Stassopoulou，Loizos Papage Orgiou.Characterizing Crawler Behavior from Web-Server Access Logs[D].LNCS 2738，2003：369-378.

[5]郭偉剛，菊時(shí)光.基于訪問(wèn)內(nèi)容類型統(tǒng)計(jì)的Web Robot檢測(cè)算法[J].計(jì)算機(jī)科學(xué)，2005（32）∶179-181.

[6]Tan Pang-Ning，Kumar v.Discovery of Robot Sessions based on their Navigational Patterns[J].Data Mining and Knowledge Discovery，2002，6（1）：9～35k.

[7]范純龍，袁濱，余周華，徐蕾.基于陷阱技術(shù)的網(wǎng)絡(luò)爬蟲檢測(cè)[J].計(jì)算機(jī)應(yīng)用，2010（7）∶1782-1784.

[8]郭偉剛，菊時(shí)光.電子商務(wù)網(wǎng)站中Web Robot的檢測(cè)技術(shù)[J].計(jì)算機(jī)工程，2005（12）：219-221.

[9]郭偉剛，菊時(shí)光.一個(gè)基于實(shí)務(wù)分析的Web Robot檢測(cè)算法[J].計(jì)算機(jī)應(yīng)用，2005（7）：1580-1583.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡