吳曉暉 ,紀(jì)星
(1.湖北汽車工業(yè)學(xué) 院經(jīng)管學(xué)院,湖北十堰42002;2.湖北省金螞蟻網(wǎng)絡(luò)有限公司,湖北十堰442002)
隨著互聯(lián)網(wǎng)的不斷發(fā)展,搜索引擎技術(shù)的越來(lái)越普及,帶來(lái)的弊端是許多搜索引擎網(wǎng)絡(luò)爬蟲大量地占據(jù)了互聯(lián)網(wǎng)帶寬。一旦一個(gè)中型的網(wǎng)站被技術(shù)不精的惡意或者非允許的網(wǎng)絡(luò)爬蟲爬取數(shù)據(jù),很可能使得網(wǎng)站速度降低甚至不能訪問(wèn)。還有,好多的網(wǎng)絡(luò)爬蟲是以非法獲取數(shù)據(jù)為目的,把獲取的數(shù)據(jù)放到網(wǎng)站,制造虛假的PV,或者以獲得非法商業(yè)利潤(rùn)為目的,例如:在點(diǎn)擊付費(fèi)的網(wǎng)絡(luò)廣告中,利用網(wǎng)絡(luò)蜘蛛來(lái)模仿用戶點(diǎn)擊獲取付費(fèi)。因此,網(wǎng)絡(luò)爬蟲不僅給網(wǎng)絡(luò)帶來(lái)沉重的負(fù)擔(dān),使得網(wǎng)站性能大大降低,同時(shí)還會(huì)帶來(lái)非法盜竊數(shù)據(jù),隱私,知識(shí)產(chǎn)權(quán),非法獲取商業(yè)利潤(rùn)等問(wèn)題,已經(jīng)嚴(yán)重妨礙了與互聯(lián)網(wǎng)相關(guān)的產(chǎn)業(yè)的健康發(fā)展。
為消除惡意網(wǎng)絡(luò)爬蟲帶來(lái)的危害,國(guó)內(nèi)外相關(guān)學(xué)者,高校等對(duì)網(wǎng)絡(luò)爬蟲檢測(cè)識(shí)別技術(shù)進(jìn)行了廣泛深入的研究。在國(guó)外,研究爬蟲檢測(cè)技術(shù)的代表性學(xué)者是塞浦路斯的Marios D.Dikaiakos和Athena Stassopoulou等[1-4],他們?cè)趪?guó)際知名期刊(Computer Network等)上發(fā)表了關(guān)于研究Web爬蟲的系列論文,其中包括通過(guò)分析訪問(wèn)日志來(lái)獲取Web爬蟲行為與普通用戶訪問(wèn)行為的特征區(qū)別[1,4],并在此基礎(chǔ)上采用了概率推理方法(即貝葉斯網(wǎng)絡(luò))[2-3]來(lái)進(jìn)行Web爬蟲檢測(cè),取得了一定的成果。
國(guó)內(nèi)的研究網(wǎng)絡(luò)爬蟲檢測(cè)技術(shù)的代表性學(xué)者主要有郭偉剛、菊時(shí)光、范純龍等研究的Web Robot識(shí)別檢測(cè)算法。郭等[9]在文獻(xiàn)中闡述了利用一個(gè)事務(wù)中人與爬蟲所請(qǐng)求的URL訪問(wèn)模式不同來(lái)檢測(cè)網(wǎng)絡(luò)蜘蛛,同時(shí)還闡述了利用爬行內(nèi)容不同和設(shè)置閥值的方法來(lái)檢測(cè)蜘蛛,但這些方法都要依賴于用戶會(huì)話和日志分析,其實(shí)時(shí)反應(yīng)慢。于是范等[7]在文獻(xiàn)中闡述了在網(wǎng)頁(yè)中設(shè)置陷阱的方法來(lái)捕獲蜘蛛,這種方法優(yōu)點(diǎn)是能快速實(shí)時(shí)的檢測(cè)出蜘蛛,同時(shí)不需根據(jù)事務(wù)中人與爬蟲所請(qǐng)求的URL的訪問(wèn)特征的不同來(lái)檢測(cè)網(wǎng)絡(luò)蜘蛛,另外本文還闡述了利用爬行內(nèi)容不同和設(shè)置閥值的方法來(lái)檢測(cè)蜘蛛,但這些方法都要依賴用戶會(huì)話和日志分析,同時(shí)陷阱的方法也容易會(huì)造成鏈接污染,對(duì)正規(guī)合法搜索引擎形成影響,再者其特征明顯,也很容易被新的網(wǎng)絡(luò)蜘蛛所規(guī)避。
到目前為止,在爬蟲檢測(cè)思路上,主要有2類:1)基于日志中的爬蟲和用戶行為不同特征分析再利用閥值,決策樹,貝葉斯網(wǎng)絡(luò)等來(lái)進(jìn)行判斷檢測(cè)網(wǎng)絡(luò)蜘蛛;2)基于在網(wǎng)頁(yè)上布置陷阱方法來(lái)捕獲網(wǎng)絡(luò)爬蟲。
基于行為分析的研究都是通過(guò)對(duì)Web訪問(wèn)日志進(jìn)行會(huì)話和事務(wù)劃分,然后找出會(huì)話中和事務(wù)訪問(wèn)蜘蛛和人的訪問(wèn)行為特征不同,來(lái)進(jìn)行爬蟲檢測(cè)。在分析國(guó)內(nèi)外相關(guān)代表研究文獻(xiàn)基礎(chǔ)上,總結(jié)出人和蜘蛛的主要不同訪問(wèn)行為特征:
1)最大連續(xù)點(diǎn)擊率 從直覺(jué)上來(lái)講,用戶在一定的時(shí)間內(nèi),存在著一個(gè)最大點(diǎn)擊數(shù),……
2)會(huì)話時(shí)長(zhǎng)網(wǎng)絡(luò)蜘蛛的一個(gè)會(huì)話時(shí)長(zhǎng)要比人的會(huì)話時(shí)長(zhǎng)大的多的多。
3)圖片訪問(wèn)的百分比 在圖片嵌入的網(wǎng)頁(yè)中,爬蟲會(huì)話中,爬蟲所訪問(wèn)的圖片所占訪問(wèn)總量的百分比遠(yuǎn)遠(yuǎn)少于用戶會(huì)話中用戶所訪問(wèn)的圖片所占訪問(wèn)總量的百分比。
4)4XX錯(cuò)誤響應(yīng)百分比 在爬蟲訪問(wèn)請(qǐng)求中,4XX錯(cuò)誤響應(yīng)所出現(xiàn)的百分比比用戶訪問(wèn)請(qǐng)求要更高。
5)對(duì)robot.txt文件的訪問(wèn) 合法的爬行蜘蛛會(huì)請(qǐng)求訪問(wèn)robot.txt文件,但用戶不會(huì)對(duì)其訪問(wèn)。
6)Url訪問(wèn)行為 用戶對(duì)一個(gè)網(wǎng)站的訪問(wèn)通常都是按照網(wǎng)頁(yè)設(shè)計(jì)者思路走下去,即訪問(wèn)的鏈接是滿足鏈接關(guān)系的。而爬蟲訪問(wèn)通常是雜亂無(wú)章的,一般不會(huì)形成鏈接關(guān)系路徑。因?yàn)榕老x抓取網(wǎng)頁(yè)通常只抓取新的或者已經(jīng)更新了的網(wǎng)頁(yè)。
7)訪問(wèn)內(nèi)容在 一個(gè)會(huì)話中,人訪問(wèn)的內(nèi)容通常是雜亂無(wú)章的。而蜘蛛訪問(wèn)內(nèi)容通常都是有規(guī)律可循的,要么都是Html,或者都是pdf/jpg,MP3等。
基于以上特征,國(guó)內(nèi)外的學(xué)者采用了流量分析,機(jī)器學(xué)習(xí),閥值控制等方法來(lái)
基于陷阱方法捕獲蜘蛛的思路是通過(guò)在網(wǎng)頁(yè)上布置陷阱(即用戶看不到而爬蟲容易抓取的與URL相關(guān)的文件、網(wǎng)頁(yè)等)來(lái)捕獲網(wǎng)絡(luò)爬蟲。傳統(tǒng)的布置陷阱方法有3種:
1)利用分布式蜜罐系統(tǒng) Honeynet Project[12],在大范圍內(nèi)捕獲和建設(shè)Spider地址庫(kù);
2)利用陷阱將Spider訪問(wèn)引導(dǎo)到爬蟲收集網(wǎng);
3)將Spider訪問(wèn)引入到能產(chǎn)生無(wú)限鏈接循環(huán)的頁(yè)面,惡意消耗Spider訪問(wèn)能力,污染其鏈接和內(nèi)容空間。
這3種傳統(tǒng)的方式都有其缺點(diǎn):第1種方式忽略考慮網(wǎng)絡(luò)上IP地址是動(dòng)態(tài)分配的;第2種方式,對(duì)于爬蟲網(wǎng)站鏈接加入到黑名單中蜘蛛可以輕易跳過(guò)陷阱。第3種方式是損人不利己的方式,消耗蜘蛛資源同時(shí)也消耗自己資源。
基于以上傳統(tǒng)的陷阱方式的缺點(diǎn),國(guó)內(nèi)學(xué)者[7]陷阱檢測(cè)技術(shù)的理論及其模型進(jìn)行了詳細(xì)分析和研究,得出可以通過(guò)網(wǎng)頁(yè)上布置一些url,這些url事實(shí)上是不存在的,如果爬蟲訪問(wèn)這些url,就被重定向器定向到專門檢測(cè)蜘蛛的網(wǎng)頁(yè)集合中的理論模型和方法來(lái)捕捉蜘蛛。這種方法很好地彌補(bǔ)了傳統(tǒng)方法的缺點(diǎn),布置靈活方便。
由于基于爬蟲檢測(cè)技術(shù)而開發(fā)的識(shí)別分類器是二分類,即識(shí)別爬蟲類和用戶訪問(wèn)類。因此對(duì)于爬蟲檢測(cè)方法效果的評(píng)價(jià)主要是基于精度(Precision),召回率(Recall)和F1-measure。其假設(shè)在集合中爬蟲類的訪問(wèn)有N個(gè),那么經(jīng)過(guò)識(shí)別分類器分類后,分出屬于爬蟲類的正確和錯(cuò)誤分類和屬于非爬蟲類的正確和錯(cuò)誤分類,其結(jié)果如表1所示。
表1 爬蟲類識(shí)別分類情況
根據(jù)表1,其檢測(cè)方法的定義如下:
1)正確率:P=TP/(TP+TF),衡量原本是爬蟲類的劃為爬蟲類的精度。
2)召回率:R=TP/(TP+FP),衡量原本屬于爬蟲類的正確識(shí)別能力。
3)F1_measure=2PR/(P+R),是衡量一個(gè)爬蟲識(shí)別分類器的正確率和召回率的一個(gè)綜合指標(biāo),比較全面的測(cè)量爬蟲識(shí)別分類器的總體性能。
到目前為止,對(duì)于爬蟲檢測(cè)技術(shù)來(lái)講,還沒(méi)有建立一個(gè)公開權(quán)威的測(cè)試數(shù)據(jù)集,各個(gè)學(xué)者所采用的數(shù)據(jù)來(lái)源各不相同,大部分是來(lái)自于大學(xué)網(wǎng)站上的訪問(wèn)日志數(shù)據(jù),記錄有幾千條到幾萬(wàn)條不等,百萬(wàn)條記錄以上的訪問(wèn)日志數(shù)據(jù)很少。
表2是各文獻(xiàn)中的實(shí)驗(yàn)結(jié)果對(duì)比,由于國(guó)內(nèi)外的學(xué)者所采用的方法不同,如國(guó)外學(xué)者建立分類器的方法,國(guó)內(nèi)學(xué)者采用統(tǒng)計(jì)閥值的方法;測(cè)試數(shù)據(jù)不同,國(guó)外選擇人工標(biāo)好的數(shù)據(jù),國(guó)內(nèi)是選擇的原始訪問(wèn)日志,故國(guó)外學(xué)者給出了比較精確的測(cè)試結(jié)果。國(guó)內(nèi)學(xué)者給出的結(jié)果由于會(huì)話項(xiàng)目中訪問(wèn)記錄數(shù)目的限制等原因,例如文獻(xiàn)[5],沒(méi)有能按測(cè)試三大指標(biāo)(P,R,F(xiàn)1)給出各個(gè)精確測(cè)試結(jié)果,要么只是給出了部分指標(biāo)的精確結(jié)果,要么只是給出了檢測(cè)出的網(wǎng)絡(luò)蜘蛛的列表。造成此結(jié)果差異的原因主要是采用的方法不同,缺乏權(quán)威測(cè)試集。例如,從理論上講,閥值限制的方法對(duì)于低于閥值的爬蟲,檢測(cè)出蜘蛛的百分比幾乎為零,高于閥值檢測(cè)的百分比幾乎為100%,所以比較難于進(jìn)行效果測(cè)試。即使這樣,還是根據(jù)以上評(píng)價(jià)方法對(duì)各個(gè)網(wǎng)絡(luò)蜘蛛檢測(cè)技術(shù)性能做個(gè)大體的對(duì)比。
表2 文獻(xiàn)中的實(shí)驗(yàn)結(jié)果對(duì)比
總體來(lái)講,當(dāng)今的爬蟲檢測(cè)技術(shù)對(duì)于單點(diǎn)式爬蟲檢測(cè)的召回率較高,基本能穩(wěn)定在80%以上[7],但也存在著以下挑戰(zhàn)∶
1)對(duì)于針對(duì)某些主題、模仿用戶行為、探測(cè)檢測(cè)閥值等網(wǎng)絡(luò)爬蟲,正確的檢測(cè)還面臨著檢測(cè)效果不理想的問(wèn)題。隨著爬蟲檢測(cè)技術(shù)的不斷提高,惡意爬蟲技術(shù)也在不斷進(jìn)行改進(jìn)升級(jí),從而達(dá)到躲避檢測(cè)的目的。例如,一些爬蟲減少單位時(shí)間內(nèi)訪問(wèn)次數(shù),以低于檢測(cè)閥值的頻率訪問(wèn)網(wǎng)站,躲過(guò)蜘蛛檢測(cè)系統(tǒng)竊取數(shù)據(jù)。
2)當(dāng)前國(guó)內(nèi)外研究對(duì)于爬蟲的身份標(biāo)識(shí)基本都是基于IP地址的,這樣的身份標(biāo)識(shí)很不合理,因?yàn)榛ヂ?lián)網(wǎng)上的好多IP地址也是動(dòng)態(tài)分配的,不是一直不變的,同時(shí)存在著有一個(gè)IP地址可能會(huì)有多個(gè)用戶共同使用,來(lái)源于此IP中的爬蟲或許只是其中一個(gè)或幾個(gè)用戶發(fā)出的,不一定是所有共享此IP地址的用戶發(fā)出的。因此基于IP標(biāo)識(shí)爬蟲身份的方法是不合理的。
3)這些成果研究的實(shí)驗(yàn)數(shù)據(jù)基本上是來(lái)自于大學(xué)網(wǎng)站的訪問(wèn)日志,研究的爬蟲更多的是正規(guī)的網(wǎng)絡(luò)爬蟲特征,因此此成果是否具有很好地普實(shí)性,還有待于進(jìn)行進(jìn)一步的驗(yàn)證。同時(shí),其研究所用培訓(xùn)數(shù)據(jù)是2個(gè)月的訪問(wèn)日志,測(cè)試數(shù)據(jù)是1個(gè)月的訪問(wèn)日志。但是對(duì)于這樣1個(gè)月時(shí)間范圍內(nèi)數(shù)據(jù)總體測(cè)試效果,到了具體的實(shí)時(shí)的時(shí)間內(nèi)識(shí)別網(wǎng)絡(luò)爬蟲的效果是否理想,作者也沒(méi)有進(jìn)一步的進(jìn)行深入的研究。
4)布置陷阱捕獲的方法對(duì)合法訪問(wèn)蜘蛛產(chǎn)生鏈接污染。
5)提出布置陷阱方法的學(xué)者在理論上還缺考慮到一個(gè)特殊情況,即非法用戶也可以通過(guò)正當(dāng)搜索引擎獲得自己想要的數(shù)據(jù),例如,可以通過(guò)google搜索返回的結(jié)果,提取特定主題相關(guān)的信息,即利用google具體網(wǎng)站限定功能,對(duì)某個(gè)具體網(wǎng)站返回的搜索結(jié)果進(jìn)行提取。
本文從網(wǎng)絡(luò)蜘蛛特征和檢測(cè)方法出發(fā),對(duì)其進(jìn)行了優(yōu)點(diǎn)和存在的問(wèn)題和挑戰(zhàn)進(jìn)行了分析總結(jié)?;诖?,筆者認(rèn)為,要想達(dá)到實(shí)時(shí)的準(zhǔn)確的識(shí)別惡意蜘蛛并加以拒絕,可以采用陷阱結(jié)合內(nèi)容加密的方式來(lái)防止非法蜘蛛獲取數(shù)據(jù)。這也是作者接下來(lái)要研究的方法。
[1]Marios D.Dikaiakos,Athena Stassopoulou,Loizos Papage Orgiou.An Investigation of Web Crawler Behaviour∶Chracterization and Metrics[J].Computer Communication,2005,28∶880-897.
[2]Athena Stassopoulou,Marios D.Dikaiakos.Web Robot Detection∶A Probabilistic Reasoning Approach[J].Computer Networks,2009,53∶265-278.
[3]Athena Stassopoulou,Marios D.Dikaiakos.A Probabilistic Reasoning Approach for Discovering Web Crawler Session[D].LNCS 4505,2007:265-272.
[4]Marios D.Dikaiakos,Athena Stassopoulou,Loizos Papage Orgiou.Characterizing Crawler Behavior from Web-Server Access Logs[D].LNCS 2738,2003:369-378.
[5]郭偉剛,菊時(shí)光.基于訪問(wèn)內(nèi)容類型統(tǒng)計(jì)的Web Robot檢測(cè)算法[J].計(jì)算機(jī)科學(xué),2005(32)∶179-181.
[6]Tan Pang-Ning,Kumar v.Discovery of Robot Sessions based on their Navigational Patterns[J].Data Mining and Knowledge Discovery,2002,6(1):9~35k.
[7]范純龍,袁濱,余周華,徐蕾.基于陷阱技術(shù)的網(wǎng)絡(luò)爬蟲檢測(cè)[J].計(jì)算機(jī)應(yīng)用,2010(7)∶1782-1784.
[8]郭偉剛,菊時(shí)光.電子商務(wù)網(wǎng)站中Web Robot的檢測(cè)技術(shù)[J].計(jì)算機(jī)工程,2005(12):219-221.
[9]郭偉剛,菊時(shí)光.一個(gè)基于實(shí)務(wù)分析的Web Robot檢測(cè)算法[J].計(jì)算機(jī)應(yīng)用,2005(7):1580-1583.
湖北汽車工業(yè)學(xué)院學(xué)報(bào)2012年1期