劉曉旭
摘要:近年來,隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模呈現(xiàn)出指數(shù)級(jí)增長的趨勢。這些龐大的互聯(lián)網(wǎng)數(shù)據(jù)在給人們生活帶來便利的同時(shí),也給信息的查找?guī)砹司薮蟮奶魬?zhàn)。傳統(tǒng)的通用網(wǎng)絡(luò)爬蟲在面對越來越大規(guī)模的數(shù)據(jù)抓取工作時(shí),逐漸顯得力不從心。隨著用戶對網(wǎng)絡(luò)信息個(gè)性化需求的不斷增加,主題網(wǎng)絡(luò)爬蟲作為一種創(chuàng)新的解決方案應(yīng)運(yùn)而生。文章詳細(xì)闡述了主題網(wǎng)絡(luò)爬蟲的定義及其工作原理,并系統(tǒng)梳理了近幾年來主題網(wǎng)絡(luò)爬蟲在國內(nèi)外的研究狀況。同時(shí),我們也指出了當(dāng)前存在的問題,并提出了進(jìn)一步研究的方向,以期為主題網(wǎng)絡(luò)爬蟲的發(fā)展和完善提供有益的參考。
關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;主題爬蟲;搜索策略;鏈接分析;相關(guān)度計(jì)算
中圖分類號(hào):TP393? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)08-0097-03
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)
0 引言
21世紀(jì)以來,互聯(lián)網(wǎng)科技進(jìn)入高速發(fā)展時(shí)代,網(wǎng)絡(luò)全面普及,人們開始廣泛應(yīng)用計(jì)算機(jī)、互聯(lián)網(wǎng)及其他智能電子設(shè)備。在這樣的背景下,互聯(lián)網(wǎng)上的信息在數(shù)量和復(fù)雜性上都呈現(xiàn)指數(shù)級(jí)增長。為了從海量的信息中快速獲取所需內(nèi)容,信息檢索工具應(yīng)運(yùn)而生,傳統(tǒng)的搜索引擎如谷歌、雅虎等,成為用戶獲取網(wǎng)絡(luò)信息的有效工具。然而,面對日益增長的非結(jié)構(gòu)化數(shù)據(jù)以及越來越精確、定制化的用戶需求,以通用爬蟲為本質(zhì)的傳統(tǒng)搜索引擎已經(jīng)無法滿足用戶的差異化需求。因此,以主題網(wǎng)絡(luò)爬蟲為核心的垂直搜索引擎應(yīng)運(yùn)而生。如何實(shí)現(xiàn)更精準(zhǔn)、快速的信息抓取已成為爬蟲領(lǐng)域的重要研究方向之一[1]。最近幾年,大量關(guān)于網(wǎng)絡(luò)主題爬蟲的研究涌現(xiàn),因此,這一領(lǐng)域近些年來的研究成果亟待進(jìn)行總結(jié)。
本文旨在對主題網(wǎng)絡(luò)爬蟲進(jìn)行綜合論述,主要包括主題網(wǎng)絡(luò)爬蟲的定義及其工作原理、近年來國內(nèi)外有關(guān)聚焦爬蟲的研究狀況、所面臨的挑戰(zhàn)與問題以及未來研究方向的展望。通過對這些方面的闡述,本文旨在為未來主題網(wǎng)絡(luò)爬蟲的研究提供有價(jià)值的參考依據(jù)。
1 主題網(wǎng)絡(luò)爬蟲的定義及工作原理
1.1 主題網(wǎng)絡(luò)爬蟲定義
網(wǎng)絡(luò)爬蟲是一種能夠按照設(shè)計(jì)者要求,對目標(biāo)網(wǎng)站進(jìn)行自動(dòng)化瀏覽并抓取目標(biāo)信息的程序。通常在給定一個(gè)或多個(gè)初始URL的情況下,爬蟲會(huì)從初始頁面開始采集數(shù)據(jù)。在采集過程中,爬蟲會(huì)自動(dòng)識(shí)別網(wǎng)頁中所有的URL,并將新的URL不斷放入待爬隊(duì)列,重復(fù)這一采集過程,直到達(dá)到系統(tǒng)設(shè)置的停止條件為止。
主題網(wǎng)絡(luò)爬蟲,又稱為聚焦型網(wǎng)絡(luò)爬蟲,是一種能夠按照預(yù)先定義好的爬行策略,對頁面內(nèi)容及爬行方向進(jìn)行分析與篩選的爬蟲。在給定初始URL種子集后,主題網(wǎng)絡(luò)爬蟲會(huì)根據(jù)一定的分析算法,對頁面的主題相關(guān)程度以及每個(gè)URL與主題的潛在相似度程度進(jìn)行相關(guān)分析,從而過濾掉與主題無關(guān)的頁面,將與主題相關(guān)的URL放入待爬隊(duì)列。當(dāng)滿足一定條件時(shí),爬蟲會(huì)停止工作。
1.2 主題網(wǎng)絡(luò)爬蟲工作原理
主題網(wǎng)絡(luò)爬蟲相較于通用爬蟲,更專注于特定主題,因此能夠更有效地針對特定主題進(jìn)行信息抓取。它與通用網(wǎng)絡(luò)爬蟲的差異主要體現(xiàn)在以下幾個(gè)方面:
1) 初始種子URL和抓取范圍。主題網(wǎng)絡(luò)爬蟲需要明確定義初始種子URL,同時(shí)還需要設(shè)定明確的抓取范圍,然后通過解析頁面中的鏈接來遞歸地爬取更多頁面以限制爬取的主題相關(guān)性。
2) 鏈接過濾和評(píng)估。主題網(wǎng)絡(luò)爬蟲在鏈接過濾方面相較于通用爬蟲更為嚴(yán)格。它會(huì)自動(dòng)分析頁面相關(guān)度,僅保留與主題相關(guān)的鏈接,并根據(jù)主題相關(guān)度對鏈接進(jìn)行優(yōu)先級(jí)評(píng)估和排序。
3) 深度控制策略。主題網(wǎng)絡(luò)爬蟲需要實(shí)施爬取深度控制,通過限制爬取深度或設(shè)定停止條件,避免過度爬取與主題無關(guān)的頁面[2]。主題網(wǎng)絡(luò)爬蟲工作流程如圖1所示。
2 主題網(wǎng)絡(luò)爬蟲研究現(xiàn)狀
2.1 國外研究現(xiàn)狀
國外學(xué)者對于主題爬蟲的研究開始于90年代,1994年,DeBra等人[3]首次提出Fish-Search算法。該算法采取二元分類來判斷遇到的內(nèi)容是否與主題相關(guān),但在判斷相關(guān)性時(shí)只有0和1兩個(gè)離散值,導(dǎo)致結(jié)果過于離散化。Hersovici M等人[4]針對這一不足對算法進(jìn)行修改然后提出Shark-Search算法。通過超鏈接中顯示的可點(diǎn)擊的文本內(nèi)容價(jià)值以及父級(jí)節(jié)點(diǎn)與子級(jí)節(jié)點(diǎn)之間建立的超鏈接關(guān)系來評(píng)判主題相似度,將主題相似度計(jì)算結(jié)果擴(kuò)大到[0,1]整個(gè)實(shí)數(shù)范圍。1999年, Chakrabarti S等人[5]提出了主題網(wǎng)絡(luò)爬蟲的概念,其主要方向就是主題相似度計(jì)算和文本鏈接分析評(píng)價(jià)。
1996年P(guān)age L和Brin S[6]提出了PageRank算法。該算法通過分析網(wǎng)頁之間的鏈接數(shù)量和質(zhì)量來確定頁面的重要性。網(wǎng)頁的重要度由鏈接向這個(gè)網(wǎng)頁的遞歸總和確定。但該算法不考慮頁面的內(nèi)容和主題相關(guān)性,容易出現(xiàn)“主題漂移”[7]。Kleinber J M[8]提出HITS算法,在頁面連接關(guān)系的基礎(chǔ)上,對連接結(jié)構(gòu)改進(jìn)的算法。通過Authority Scores和Hub Scores兩個(gè)維度衡量頁面的價(jià)值并分開考慮,然后得出綜合評(píng)價(jià)。
2005 年,Shokouhi M等人[9]將遺傳算法結(jié)合到主題爬蟲程序中,利用遺傳算法加強(qiáng)主題爬蟲,使爬蟲程序能夠在眾多爬行路線中找到最優(yōu)解的同時(shí),通過遺傳操作對候選解優(yōu)化,尋找到最優(yōu)解從而豐富關(guān)鍵詞集合來增加爬準(zhǔn)率。2010 年,Hati D等人[10]提出改進(jìn)的專注爬取方法,將網(wǎng)頁劃分為塊處理,并通過一些策略來確定哪些塊可能包含主題相關(guān)信息,使爬蟲程序更有針對性地獲取所需頁面內(nèi)容,限制或減少搜索范圍來提高網(wǎng)頁相關(guān)度的判斷準(zhǔn)確度。2014 年,Goyal D等人[11]將一種基于樹形結(jié)構(gòu)的機(jī)器學(xué)習(xí)算法與神經(jīng)網(wǎng)絡(luò)相結(jié)合,得到一種新型主題相關(guān)信息網(wǎng)頁相關(guān)性預(yù)測模型,從Web地址、超鏈接中可點(diǎn)擊文本、當(dāng)前網(wǎng)頁的上一級(jí)網(wǎng)頁的角度分析,判斷特定主題下的頁面與給定查詢內(nèi)容的相關(guān)度。2015 年,AGRE G H等人[12]提出一種針對特定關(guān)鍵詞或領(lǐng)域信息進(jìn)行主動(dòng)獲取的主題網(wǎng)絡(luò)爬蟲算法,該算法分別從網(wǎng)頁web地址和關(guān)鍵詞兩個(gè)角度來判斷主題相關(guān)度,按照相關(guān)度進(jìn)行高低排列,使爬蟲程序優(yōu)先爬取相關(guān)度較高的URL。Diligenti M等人[13]利用Contex Graphs構(gòu)造分類器來指導(dǎo)爬蟲爬行方向。用網(wǎng)頁在語境圖的層次來表示網(wǎng)頁與主題網(wǎng)頁的距離,距離越近的網(wǎng)頁主題相關(guān)度越高,將優(yōu)先被訪問。Seyfi A等人[14]提出一種基于T-Graph原則的組合連接和內(nèi)容模型的專注爬蟲專用于采集特定主題相關(guān)頁面,并通過T-Graph原則對爬取的網(wǎng)頁web地址進(jìn)行評(píng)分,以提升爬取性能。
2.2 國內(nèi)研究現(xiàn)狀
相比國外,國內(nèi)研究開始得相對較晚,但發(fā)展速度很快,國內(nèi)有諸多學(xué)者在傳統(tǒng)算法的基礎(chǔ)上進(jìn)行優(yōu)化,來提高主題網(wǎng)絡(luò)爬蟲的性能。
王錦陽[15]根據(jù)網(wǎng)頁中的不同內(nèi)容反映了不同信息這一特點(diǎn),利用標(biāo)題構(gòu)建改標(biāo)題節(jié)點(diǎn)的子樹來判斷網(wǎng)頁主題相關(guān)度,由語義相似程度更改VSM對主題相關(guān)度進(jìn)行判定,提高了網(wǎng)頁主題相關(guān)度判別率和爬取信息的準(zhǔn)確率。張麗[16]受機(jī)器人象棋啟發(fā)完善了傳統(tǒng)PageRank算法,得到N-step PageRank 算法,在計(jì)算Web相關(guān)度排名時(shí)也考慮了網(wǎng)頁接下來更深度的鏈接內(nèi)容,因此就會(huì)獲得更多的相關(guān)信息來做出判斷,在網(wǎng)頁搜索準(zhǔn)確度的有效性方面優(yōu)于傳統(tǒng)的PageRank算法。Yuan F等人[17]根據(jù)“主題隨機(jī)瀏覽”的特點(diǎn),在傳遞網(wǎng)頁排名值的同時(shí)將主題之間的相關(guān)度一起送達(dá),用以克服算法容易主題漂移的問題。張翔等人[18]在算法中加入時(shí)效權(quán)重并采用Bagging方法來解決主題漂移問題,準(zhǔn)確率明顯提高。
羅林波等人[19]將利用相似性引擎對主題相似度進(jìn)行評(píng)分的Shark-Search算法和HITS算法相結(jié)合并應(yīng)用于主題爬蟲,彌補(bǔ)兩個(gè)算法各自的不足,相比其中任意一種算法查找準(zhǔn)確率都有提高。Peng Tao等人[20]認(rèn)為網(wǎng)頁中超鏈接包含的可點(diǎn)擊的文本內(nèi)容無法完全反映出網(wǎng)頁主題內(nèi)容,從而造成爬蟲程序網(wǎng)頁價(jià)值判斷失誤,降低爬取內(nèi)容準(zhǔn)確度。提出一種新的網(wǎng)頁劃分方法,將網(wǎng)頁劃分成若干塊不會(huì)被遮擋的小區(qū)域,繼而依據(jù)前后網(wǎng)頁信息判斷劃分區(qū)域的相關(guān)度。熊忠陽等人[21]通過衡量在特征選擇過程中一個(gè)特征對于分類任務(wù)的貢獻(xiàn)程度的指標(biāo),提出一種基于信息論熵增的專注爬蟲算法,采取一種能夠信息分類的樹狀結(jié)構(gòu)與主題關(guān)鍵詞建立所有單詞的TF-IDF權(quán)重所組成的向量,使得爬蟲程序運(yùn)行時(shí)除了抓取信息還可以學(xué)習(xí)已完成爬取的網(wǎng)頁信息,持續(xù)更新特征項(xiàng)在向量中的權(quán)值,不斷完善主題關(guān)鍵詞信息庫。
孫紅光等人[22]針對主題詞匯細(xì)化不足等問題,采用LDA基于語義相似度計(jì)算模型,設(shè)計(jì)了語義聚焦爬蟲。該算法爬取的網(wǎng)頁數(shù)量和主題相關(guān)度都高于其它算法。劉景發(fā)等人[23]結(jié)合潛狄利克雷分布和 Apriori 算法的領(lǐng)域本體半自動(dòng)構(gòu)建方法。基于鏈接評(píng)估的多目標(biāo)優(yōu)化模型和改進(jìn)的多目標(biāo)蟻群優(yōu)化算法來指導(dǎo)爬取方向,結(jié)合歷史爬行路線進(jìn)行修正,分別使用SVM與PageRank算法對鏈接相關(guān)性評(píng)價(jià),提出基于Wang-Landau抽樣的主題爬行方法,爬準(zhǔn)率與主題頁面相關(guān)度的標(biāo)準(zhǔn)差具有明顯優(yōu)勢。
3 研究中存在的問題及發(fā)展趨勢
3.1 面臨的挑戰(zhàn)與問題
近年來,隨著主題網(wǎng)絡(luò)爬蟲研究的日益深入,人們不斷對主題網(wǎng)絡(luò)爬蟲的算法和爬行策略進(jìn)行改良和完善,以適應(yīng)日益復(fù)雜的網(wǎng)絡(luò)環(huán)境和用戶需求。然而,在某些方面仍存在一定問題,具體分以下幾點(diǎn):
主題網(wǎng)絡(luò)爬蟲在運(yùn)行時(shí)需要計(jì)算網(wǎng)頁的主題相關(guān)度,通常會(huì)使用文字識(shí)別來識(shí)別文字鏈接和網(wǎng)站的關(guān)鍵性內(nèi)容。但其中包含了大量的重復(fù)無效內(nèi)容,目前仍缺少準(zhǔn)確高效的中文去重技術(shù)。
主題網(wǎng)絡(luò)爬蟲的搜索策略主要是對網(wǎng)頁文本內(nèi)容、鏈接結(jié)構(gòu)進(jìn)行價(jià)值評(píng)價(jià)。然而,爬蟲程序?qū)︽溄咏Y(jié)構(gòu)的價(jià)值評(píng)斷方法存在主觀性判斷和認(rèn)知不完善等問題,這影響了數(shù)據(jù)分析和挖掘的準(zhǔn)確性。
網(wǎng)絡(luò)爬蟲主要通過網(wǎng)絡(luò)鏈接來選擇爬行路徑,其中基于鏈接結(jié)構(gòu)分析是主題網(wǎng)絡(luò)爬蟲應(yīng)用中廣泛使用的方法之一。但由于網(wǎng)站是動(dòng)態(tài)變化的,且缺乏對已爬取網(wǎng)頁的統(tǒng)計(jì),這些與主題無關(guān)的網(wǎng)頁信息以及鏈接往往會(huì)干擾爬蟲程序的正常工作。
3.2 未來發(fā)展趨勢
主題網(wǎng)絡(luò)爬蟲采用的是相對固定的搜索策略。然而,在面對互聯(lián)網(wǎng)中不同網(wǎng)站之間網(wǎng)頁組織形式差異較大的情況時(shí),這樣的策略無法準(zhǔn)確判斷網(wǎng)頁結(jié)構(gòu)對主題相關(guān)性的影響,導(dǎo)致準(zhǔn)確率降低。因此,可以將數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)相結(jié)合,自動(dòng)更新評(píng)價(jià)策略,以提高爬取速度和準(zhǔn)確性。
隨著網(wǎng)站質(zhì)量的不斷提升和Web地址規(guī)范化程度的提高,基于鏈接的主題網(wǎng)絡(luò)爬蟲需要更精確地判斷鏈接與網(wǎng)頁內(nèi)容間的主題相關(guān)性。因此,在對爬取URL進(jìn)行主題相關(guān)度預(yù)測時(shí),可以采用主動(dòng)學(xué)習(xí)的方法,利用人工智能通過用戶的交互和反饋來主動(dòng)選擇要爬取的網(wǎng)頁,并動(dòng)態(tài)更新爬取策略。
4 結(jié)束語
主題網(wǎng)絡(luò)爬蟲已成為搜索引擎領(lǐng)域的重點(diǎn)研究方向之一。本文首先給出了主題網(wǎng)絡(luò)爬蟲的定義和基本工作原理,分析和梳理了國內(nèi)外主題網(wǎng)絡(luò)爬蟲研究的發(fā)展現(xiàn)狀,同時(shí)指出了目前存在的研究問題,并提出了未來進(jìn)一步研究的方向。希望這些研究能夠共同推動(dòng)主題網(wǎng)絡(luò)爬蟲研究的健康發(fā)展。
參考文獻(xiàn):
[1] 鄭文平.網(wǎng)絡(luò)爬蟲與爬蟲對抗技術(shù)研究[J].電腦編程技巧與維護(hù),2022(12):173-176.
[2] 單文遠(yuǎn).分布式主題網(wǎng)絡(luò)爬蟲研究與設(shè)計(jì)[D].成都:電子科技大學(xué),2020.
[3] DE BRA P M E,POST R D J.Information retrieval in the World-Wide Web:making client-based searching feasible[C]//Selected papers of the first conference on World-Wide Web.ACM,1994:183–192.
[4] HERSOVICI M,JACOVI M,MAAREK Y S,et al.The shark-search algorithm.An application:tailored Web site mapping[J].Computer Networks and ISDN Systems,1998,30(1/2/3/4/5/6/7):317-326.
[5] CHAKRABARTI S,VAN DEN BERG M,DOM B.Focused crawling:a new approach to topic-specific Web resource discovery[J].Computer Networks:the International Journal of Computer and Telecommunications Networking,1999,31(11/12/13/14/15/16):1623-1640.
[6] PAGE L, BRIN S, MOTWANI R. The pagerank citation ranking: Bring order to the web[R].Technical report,stanford University,1998.
[7] BRIN S. The PageRank citation ranking: bringing order to the web[J].Proceedings of ASIS,1998,98:161-172.
[8] KLEINBERG J M.Authoritative sources in a hyperlinked environment[J].Journal of the ACM,1999,46(5):604-632.
[9] SHOKOUHI M,CHUBAK P,RAEESY Z.Enhancing focused crawling with genetic algorithms[C]//International Conference on Information Technology:Coding and Computing (ITCC'05) - Volume II.Las Vegas,NV.IEEE,2005:503-508.
[10] HATI D,KUMAR A.Improved focused crawling approach for retrieving relevant pages based on block partitioning[C]//2010 2nd International Conference on Education Technology and Computer.Shanghai,China.IEEE,2010:V3-269-V3-273.
[11] GOYAL D,KALRA M.A novel prediction method of relevancy for focused crawling in topic specific search[C]//2014 International Conference on Signal Propagation and Computer Technology (ICSPCT 2014).Ajmer,India.IEEE,2014:257-262.
[12] AGRE G H,MAHAJAN N V.Keyword focused web crawler[C]//2015 2nd International Conference on Electronics and Communication Systems (ICECS).Coimbatore,India.IEEE,2015:1089-1092.
[13] DILIGENTI M, COETZEE F, LAWRENCE S, ET AL. Focused Crawling Using Context Graphs[C]//VLDB,2000:527-534.
[14] SEYFI A,PATEL A.A focused crawler combinatory link and content model based on T-Graph principles[J].Computer Standards & Interfaces,2016,43:1-11.
[15] 王錦陽.主題網(wǎng)絡(luò)爬蟲的并行化研究與設(shè)計(jì)[D].成都:西南石油大學(xué),2017.
[16] 張麗.PageRank算法的改進(jìn)[J].科學(xué)技術(shù)與工程,2007,7(5):673-677.
[17] YUAN F Y,YIN C X,LIU J.Improvement of PageRank for focused crawler[C]//Eighth ACIS International Conference on Software Engineering,Artificial Intelligence,Networking,and Parallel/Distributed Computing (SNPD 2007).Qingdao,China.IEEE,2007:797-802.
[18] 張翔,周明全,李智杰,等.基于PageRank與Bagging的主題爬蟲研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(14):3309-3312.
[19] 羅林波,陳綺,吳清秀.基于Shark-Search和Hits算法的主題爬蟲研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(11):76-79.
[20] PENG T,LIU L.Focused crawling enhanced by CBP–SLC[J].Knowledge-Based Systems,2013,51(1):15-26.
[21] 熊忠陽,史艷,張玉芳.基于信息增益的自適應(yīng)主題爬行策略[J].計(jì)算機(jī)應(yīng)用研究,2012,29(2):501-503.
[22] 孫紅光,藏潤強(qiáng),姬傳德,等.基于語義的聚焦爬蟲算法研究[J].東北師大學(xué)報(bào)(自然科學(xué)版),2018,50(2):51-57.
[23] 劉景發(fā),陳靖嵐,趙鵬.基于Wang-Landau抽樣的主題爬蟲方法[J].電子科技大學(xué)學(xué)報(bào),2023,52(4):578-587.
【通聯(lián)編輯:代影】