張 金,倪曉軍
(南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 南京 210003)
基于語(yǔ)義樹與VSM的主題爬取策略研究
張 金,倪曉軍
(南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 南京 210003)
主題爬蟲主要用于解決用戶的定制化搜索需求,即在日益增長(zhǎng)的網(wǎng)絡(luò)數(shù)據(jù)中快速、有效、準(zhǔn)確地選取用戶關(guān)注的主題內(nèi)容進(jìn)行爬取。提高爬取特定信息的準(zhǔn)確性,需要對(duì)網(wǎng)頁(yè)的內(nèi)容相關(guān)度進(jìn)行主題相關(guān)判斷,而主題爬蟲關(guān)注的核心問題就是相關(guān)度計(jì)算,但現(xiàn)有的改進(jìn)算法大多采用人工智能和機(jī)器學(xué)習(xí)等技術(shù),不僅引起算法復(fù)雜度的提高,而且提升效果有限。為此,提出了一種基于語(yǔ)義樹與VSM的主題爬取策略,將語(yǔ)義相似度的計(jì)算加入到內(nèi)容相關(guān)度計(jì)算與鏈接排序中,并通過對(duì)策略中算法細(xì)節(jié)的改進(jìn)優(yōu)化相關(guān)度的主題判別。實(shí)驗(yàn)結(jié)果表明,使用基于語(yǔ)義樹與VSM爬取策略的主題爬蟲可將爬行路線一直保持在相關(guān)度較高的網(wǎng)頁(yè)鏈接中,對(duì)網(wǎng)頁(yè)鏈接進(jìn)行了相關(guān)與不相關(guān)的有效分類,顯著地提高了爬取的準(zhǔn)確率。
主題爬蟲;語(yǔ)義樹;向量空間模型;內(nèi)容相關(guān)度;鏈接排序
主題爬取是指遵循一定的規(guī)則對(duì)相應(yīng)主題進(jìn)行爬取操作,有別于傳統(tǒng)的爬取策略(爬取所有的頁(yè)面以供用戶后期的檢索,信息范圍廣泛),而主題爬取盡可能多地爬取只與主題相關(guān)的網(wǎng)頁(yè),避免其他無關(guān)頁(yè)面,信息領(lǐng)域特定,結(jié)果專業(yè),提高了爬蟲爬取的效率。在互聯(lián)網(wǎng)的飛速發(fā)展下,網(wǎng)絡(luò)上的信息資源呈指數(shù)級(jí)增長(zhǎng),爬取的信息量也隨之增長(zhǎng),如何在海量數(shù)據(jù)中為用戶提供個(gè)性化需求的信息成為當(dāng)下爬取研究的重點(diǎn)。
主題爬取基于主題爬蟲,主題爬蟲[1]在1999年被Chakrabarti等提出,主要用于解決爬取特定主題、個(gè)性化需求的網(wǎng)頁(yè)時(shí)查準(zhǔn)率不高的問題。主題爬蟲在爬取過程中對(duì)網(wǎng)頁(yè)判斷主題是否相關(guān),相關(guān)則抓取,通過這樣的判斷減少了無關(guān)頁(yè)面的抓取,從而降低了帶寬、時(shí)間以及存儲(chǔ)空間的需求,既提高了抓取的準(zhǔn)確率,又提高了系統(tǒng)的抓取效率。與通用爬蟲相比,主題爬蟲的網(wǎng)頁(yè)相關(guān)度判斷需要解決鏈接的主題相關(guān)性、鏈接優(yōu)先級(jí)等問題,這就需要實(shí)現(xiàn)基于主題搜索場(chǎng)景設(shè)計(jì)的爬蟲。目前傳統(tǒng)的主題爬蟲對(duì)于主題相關(guān)性算法主要從兩方面進(jìn)行分析:內(nèi)容與鏈接。在內(nèi)容分析方面,主要通過計(jì)算主題與頁(yè)面的相似度來確定抓取隊(duì)列,主要代表有Fish-Search[2]算法和Shark-Search[3]算法。而鏈接分析主要通過鏈接間的相互引用決定鏈接的重要性排序,代表算法有PageRank[4]與HITS[5]。這兩類算法都得到了研究人員的大量關(guān)注,并對(duì)此進(jìn)行了許多改進(jìn),但這些算法大都只是對(duì)算法的適用度進(jìn)行增強(qiáng),因此如何在對(duì)用戶主題的特定需求下,既準(zhǔn)確又高效地進(jìn)行網(wǎng)頁(yè)抓取成為研究重點(diǎn)。
在一般主題爬蟲的基礎(chǔ)上,提出一種改進(jìn)的語(yǔ)義樹[6]與VSM[7]相結(jié)合的主題爬取策略,優(yōu)化主題相關(guān)度計(jì)算與鏈接排序,提高抓取的準(zhǔn)確率。在向量空間模型計(jì)算頁(yè)面相似度的基礎(chǔ)上,發(fā)揮語(yǔ)義樹在計(jì)算內(nèi)容語(yǔ)義相似度的關(guān)鍵性作用,判斷頁(yè)面相關(guān)度,使用多次鏈接的相似度計(jì)算對(duì)鏈接進(jìn)行候選優(yōu)先級(jí)排序,實(shí)現(xiàn)了在個(gè)性化場(chǎng)景下爬取的準(zhǔn)確與高效。
在信息采集領(lǐng)域,相關(guān)度理論的研究一直是焦點(diǎn),尤其是主題爬蟲中的網(wǎng)頁(yè)相關(guān)度算法的研究與改進(jìn)。傳統(tǒng)的相關(guān)度算法主要分為基于鏈接的重要度分析和基于內(nèi)容的相似度計(jì)算分析兩大類。基于鏈接分析主要是通過PageRank等算法來建立主題相關(guān)度計(jì)算模塊,PageRank算法通過鏈接到頁(yè)面的鏈接重要性遞歸計(jì)算來計(jì)算頁(yè)面的等級(jí),鏈接的頁(yè)面越多,計(jì)算得到的等級(jí)也越高。但在PageRank算法中,由于出度鏈接的不確定性、用戶點(diǎn)擊概率的非均等性等問題,抓取時(shí)會(huì)出現(xiàn)“主題漂移”,導(dǎo)致無效抓取,浪費(fèi)資源?;趦?nèi)容分析是依據(jù)向量空間模型,首先依據(jù)主題特征詞生成主題特征向量,再將頁(yè)面關(guān)鍵詞權(quán)重用TF*IDF表示,然后對(duì)頁(yè)面向量與主題詞特征向量進(jìn)行相似度計(jì)算,通過設(shè)定相應(yīng)的閾值對(duì)網(wǎng)頁(yè)進(jìn)行相關(guān)匹配,解決無關(guān)頁(yè)面的資源占用,但是如果頁(yè)面對(duì)關(guān)鍵詞進(jìn)行虛假設(shè)置,就會(huì)導(dǎo)致相關(guān)度計(jì)算結(jié)果的不準(zhǔn)確,從而導(dǎo)致誤判現(xiàn)象,同時(shí)也忽略了網(wǎng)絡(luò)結(jié)構(gòu)的作用。文獻(xiàn)[8]考慮了關(guān)鍵詞出現(xiàn)位置的差異性,根據(jù)關(guān)鍵詞出現(xiàn)的不同位置賦予不同權(quán)重系數(shù),這樣能更加精確地描述頁(yè)面間相關(guān)度,抓取更為準(zhǔn)確。但是并沒有考慮特征詞之間的語(yǔ)義差別,而語(yǔ)義上的差別肯定會(huì)干擾頁(yè)面相關(guān)度的判斷,進(jìn)而影響相關(guān)頁(yè)面的確定與抓取。
主題爬蟲在之前發(fā)展的基礎(chǔ)上,加入了更多技術(shù)手段來優(yōu)化相關(guān)度的計(jì)算,比如遺傳算法、蟻群算法、神經(jīng)網(wǎng)絡(luò)等。文獻(xiàn)[9]通過關(guān)鍵詞來定義頁(yè)面信息,使用在線增量學(xué)習(xí)的方式進(jìn)行鏈接爬行,對(duì)錨文本、URL串、父子頁(yè)面間的關(guān)系進(jìn)行頁(yè)面綜合價(jià)值的計(jì)算并排序。這類算法使得抓取的精度更高,不容易產(chǎn)生主題漂移現(xiàn)象,但同時(shí)加大了算法復(fù)雜度,降低了抓取效率。文獻(xiàn)[10]通過對(duì)URL中的關(guān)鍵字出現(xiàn)次數(shù)與父頁(yè)面相關(guān)性進(jìn)行總相關(guān)性計(jì)算來確定鏈接的相關(guān)得分。在此基礎(chǔ)上,文獻(xiàn)[11]通過樸素貝葉斯分類算法模型計(jì)算鏈接的相關(guān)度,但是無法對(duì)關(guān)鍵詞不同的頁(yè)面進(jìn)行有效處理,不管頁(yè)面的主題是否相似。文獻(xiàn)[12]將語(yǔ)義計(jì)算與主題爬蟲結(jié)合起來,提高了相關(guān)度計(jì)算的準(zhǔn)確度以及抓取的準(zhǔn)確性,有效地過濾無關(guān)頁(yè)面,但其時(shí)間與空間復(fù)雜度相較于其他有了明顯提高。文獻(xiàn)[13]使用語(yǔ)義來對(duì)頁(yè)面的語(yǔ)義關(guān)系進(jìn)行評(píng)估,并對(duì)相關(guān)度的頁(yè)面賦予高優(yōu)先級(jí)進(jìn)行抓取。在語(yǔ)義關(guān)系的比較中,最常用的是語(yǔ)義樹,文獻(xiàn)[14]在對(duì)基于語(yǔ)義樹的語(yǔ)義計(jì)算方法進(jìn)行大量研究的基礎(chǔ)上,提出了計(jì)算各個(gè)特征詞向量之間的相似度來判斷詞的相似性,但是針對(duì)詞的相似判斷基礎(chǔ)是特征詞所在的上下文也是相同的,這顯然會(huì)出現(xiàn)比較明顯的錯(cuò)誤。
文獻(xiàn)[15]通過大量實(shí)驗(yàn)研究對(duì)比了不同主題算法的效果后發(fā)現(xiàn),無論是基于分類增加型學(xué)習(xí)的算法,還是基于遺傳和神經(jīng)網(wǎng)絡(luò)的算法,實(shí)際上抓取效果提升平平,并沒有對(duì)抓取進(jìn)行實(shí)際明顯的優(yōu)化。
為了進(jìn)一步提升主題抓取的準(zhǔn)確率和效率,對(duì)語(yǔ)義樹在計(jì)算相似度方面的算法進(jìn)行深度的分析與挖掘,將基于語(yǔ)義樹的語(yǔ)義判斷加入算法中,同時(shí)仍采用VSM計(jì)算頁(yè)面間基本的相似度,將兩者結(jié)合以提高相似度計(jì)算的準(zhǔn)確性。通過對(duì)父子URL鏈接的多次相關(guān)度計(jì)算與語(yǔ)義距離綜合計(jì)算頁(yè)面得分并對(duì)候選URL進(jìn)行排序,從而達(dá)到準(zhǔn)確率提高的效果。
2.1內(nèi)容相關(guān)度計(jì)算
內(nèi)容相關(guān)度計(jì)算就是對(duì)即將爬取的頁(yè)面主題相關(guān)程度進(jìn)行計(jì)算,對(duì)相關(guān)度高的頁(yè)面進(jìn)行抓取,以盡可能避免發(fā)生“主題漂移”現(xiàn)象,主要涉及如何對(duì)主題與網(wǎng)頁(yè)特征的相似比較。首先需要確定的是爬取主題,其次需要將主題信息轉(zhuǎn)化為可計(jì)算的模式,通過主題特征詞的轉(zhuǎn)化建立主題特征向量:
T={t1,t2,…,tn}
(1)
其中,n為主題特征值的個(gè)數(shù),tn為特征值的權(quán)重。
主題特征向量可以通過兩種方式進(jìn)行設(shè)定,一種是通過人工設(shè)定主題的特征值與特征權(quán)重來形成向量,這里的特征值指的就是主題特征詞;另外一種就是通過對(duì)抓取的初始頁(yè)面進(jìn)行分析得到主題特征向量。
采用基于語(yǔ)義相似度與VSM的頁(yè)面特征相似度算法進(jìn)行相關(guān)度計(jì)算,首先需要提取頁(yè)面文本信息,即對(duì)網(wǎng)頁(yè)特征值進(jìn)行提取并映射成設(shè)定的網(wǎng)頁(yè)特征向量:
W={w1,w2,…,wn}
(2)
考慮到出現(xiàn)在不同位置的關(guān)鍵詞,對(duì)網(wǎng)頁(yè)所起的重要性也不同,對(duì)用于特征提取的TF計(jì)算公式進(jìn)行改進(jìn):
(3)
其中,wtf表示詞頻;vi表示不同位置的特征向量;wvi表示對(duì)應(yīng)位置的權(quán)重向量;tvi表示關(guān)鍵詞出現(xiàn)的次數(shù)向量。
通過對(duì)不同位置的關(guān)鍵詞加權(quán),比如錨文本、標(biāo)題等,從而更加精確地描述了頁(yè)面的主題,生成合理的特征向量。在得到網(wǎng)頁(yè)特征向量之后,計(jì)算向量余弦距離:
(4)
其中,T表示主題特征向量;W表示網(wǎng)頁(yè)的特征向量。
但是單純地將特征向量的余弦距離作為頁(yè)面內(nèi)容相關(guān)度得分是不可靠的,因?yàn)檫@里的關(guān)鍵詞受到頁(yè)面噪聲的干擾較大,同時(shí)也存在人為設(shè)置關(guān)鍵詞的問題,容易引發(fā)誤判。因此需要進(jìn)一步研究語(yǔ)義樹在計(jì)算相似度方面的作用,考慮語(yǔ)義的影響因素,以此解決VSM的局限性,提高內(nèi)容相關(guān)度計(jì)算的精確性。將語(yǔ)義樹應(yīng)用到語(yǔ)義相似度計(jì)算中,語(yǔ)義樹中的每一個(gè)節(jié)點(diǎn)都是語(yǔ)義相關(guān)的,不同的是語(yǔ)義樹節(jié)點(diǎn)間的父子關(guān)系不同,所計(jì)算的節(jié)點(diǎn)距離不同。這里通過各個(gè)特征詞在語(yǔ)義樹上的節(jié)點(diǎn)距離來計(jì)算語(yǔ)義相似度,首先計(jì)算各個(gè)特征詞的語(yǔ)義相似度:
(5)
其中,α取節(jié)點(diǎn)相似度為一半的距離;dist(wi,wj)計(jì)算節(jié)點(diǎn)間的距離以對(duì)相似度進(jìn)行校正。首先設(shè)定節(jié)點(diǎn)X,Y,P,其中節(jié)點(diǎn)P為節(jié)點(diǎn)X與Y的距離兩個(gè)最近的共同祖先節(jié)點(diǎn),有:
dist(wi,wj)=
(6)
dep(X,Y)=|dep(X)-dep(Y)|
(7)
在此基礎(chǔ)上,對(duì)特征向量的n個(gè)特征值相似度求和,計(jì)算網(wǎng)頁(yè)特征向量的語(yǔ)義相似度:
SemanticSim(Wi,Wj)=
(8)
最終綜合特征向量的余弦距離與語(yǔ)義相似度,得出網(wǎng)頁(yè)特征向量的相似度,作為內(nèi)容相關(guān)度的得分:
Sim(T,W)=
(9)
2.2鏈接隊(duì)列排序
確定鏈接隊(duì)列順序,對(duì)于優(yōu)先爬取相關(guān)度高的頁(yè)面來說尤為重要,同時(shí)也是主題爬蟲研究的關(guān)鍵問題之一。優(yōu)先級(jí)隊(duì)列的確定可以保證主題抓取始終保持在高相關(guān)度的頁(yè)面中。傳統(tǒng)的鏈接重要分析使用在PageRank算法基礎(chǔ)上進(jìn)行改進(jìn)的策略,PageRank算法建立在用戶的點(diǎn)擊操作不僅是隨機(jī)的,而且對(duì)每一個(gè)鏈接來說點(diǎn)擊的概率是均等的基礎(chǔ)上,這種情況在實(shí)際當(dāng)中并不普遍存在,而且依此分析出來的頁(yè)面也并非都是主題相關(guān)的。因此,提出依據(jù)頁(yè)面子鏈接的分析為基礎(chǔ)的鏈接排序算法。根據(jù)大量的研究表明,子鏈接通常與頁(yè)面內(nèi)容也有一定關(guān)系,因此可以考慮子鏈接的相關(guān)度對(duì)當(dāng)前的鏈接相關(guān)度進(jìn)行加權(quán),但是頁(yè)面中的子鏈接并不都是有用的,有些頁(yè)面含有大量的廣告鏈接、導(dǎo)航鏈接等,這些無效的鏈接需要剔除掉,以減少對(duì)當(dāng)前鏈接的影響,因此最終選擇的鏈接的優(yōu)先級(jí)得分計(jì)算公式為:
Scoreurl=
(10)
其中,T為主題特征向量;V為當(dāng)前鏈接特征向量;vi為子鏈接;m為有效鏈接數(shù);n為總鏈接數(shù);δ為權(quán)重因子;使用式(9)計(jì)算相似度。
對(duì)于上文提出的問題,分三種情況進(jìn)行計(jì)算。當(dāng)子鏈接大部分相關(guān)度高時(shí),拋棄相關(guān)度低的鏈接后再計(jì)算鏈接的得分;當(dāng)大部分子鏈接都不相關(guān)時(shí),忽略子鏈接對(duì)當(dāng)前鏈接的加權(quán);其他情況則正常計(jì)算鏈接的得分值。
通過加權(quán)計(jì)算所得的得分進(jìn)行鏈接隊(duì)列的排序與更新,保證了抓取時(shí)的爬行路線可以保持在較高相關(guān)度的鏈接中,確保抓取的都是主題相關(guān)高的頁(yè)面,從而提高了爬取的準(zhǔn)確性,避免了無效抓取。同時(shí)由于加權(quán)使鏈接延伸,有利于爬蟲進(jìn)行隧道穿越。
2.3算法流程實(shí)現(xiàn)
主題爬蟲的特點(diǎn)就是使得爬蟲永遠(yuǎn)在主題相關(guān)的頁(yè)面上爬行,拋棄不相關(guān)的頁(yè)面?;谡Z(yǔ)義樹與VSM的內(nèi)容相關(guān)度計(jì)算成了主題爬蟲的重點(diǎn),采用當(dāng)前鏈接與子鏈接的相關(guān)度計(jì)算對(duì)鏈接進(jìn)行排序,從而優(yōu)化爬行路線。提出的爬取策略主要在兩個(gè)部分進(jìn)行改進(jìn),一個(gè)是內(nèi)容相關(guān)度計(jì)算,一個(gè)是鏈接隊(duì)列排序,依據(jù)該算法的爬取結(jié)構(gòu)如圖1所示。
圖1 爬取結(jié)構(gòu)圖
首先確定搜索主題,生成可用于相關(guān)計(jì)算的主題特征向量,根據(jù)鏈接隊(duì)列爬取頁(yè)面并抽取特征詞生成頁(yè)面的特征向量,同時(shí)加入語(yǔ)義判斷計(jì)算判斷頁(yè)面是否相關(guān),并將主題相關(guān)的頁(yè)面進(jìn)行存儲(chǔ),同時(shí)提取頁(yè)面中的子鏈接,根據(jù)鏈接的相關(guān)度得分進(jìn)行優(yōu)先級(jí)排列并更新鏈接隊(duì)列,然后重復(fù)此抓取過程直到達(dá)到設(shè)定的停止條件。
算法流程如下:
(1)初始化主題特征向量,人工指定或使用訓(xùn)練集訓(xùn)練;
(2)從鏈接隊(duì)列按序取得網(wǎng)頁(yè)鏈接抓取頁(yè)面;
(3)對(duì)各個(gè)頁(yè)面進(jìn)行特征向量提取,通過式(9)計(jì)算相似度并進(jìn)行比較,取得相關(guān)性高的頁(yè)面并抓取存儲(chǔ),更新頁(yè)面庫(kù);
(4)對(duì)頁(yè)面中的種子鏈接通過式(10)遍歷計(jì)算與主題的相似度得分,并更新排序鏈接隊(duì)列;
(5)重復(fù)步驟(2)~(4),直到達(dá)到系統(tǒng)指定的結(jié)束條件,抓取的總頁(yè)面數(shù)或者抓取深度。
通過查全率與查準(zhǔn)率對(duì)主題爬取策略進(jìn)行衡量。查全率是指網(wǎng)絡(luò)中所有相關(guān)網(wǎng)頁(yè)中被主題爬取的網(wǎng)頁(yè)所占的比例,要計(jì)算查全率,就需要知道整個(gè)網(wǎng)絡(luò)中的網(wǎng)頁(yè)資源,而這個(gè)在實(shí)際實(shí)驗(yàn)中基本上是不能的,雖然可以通過公式模擬計(jì)算查全率,但意義不大。查準(zhǔn)率是指在所有已爬取的相關(guān)頁(yè)面中真正主題相關(guān)的頁(yè)面所占的比例。計(jì)算公式為:
(11)
其中,p為已爬取的所有頁(yè)面數(shù);p*為其中主題相關(guān)的頁(yè)面數(shù)。
除查準(zhǔn)率之外,算法提升對(duì)時(shí)間效率上的影響也是評(píng)價(jià)一個(gè)主題爬取策略優(yōu)越性的重要指標(biāo)。
綜上所訴,在比較不同策略查準(zhǔn)率的同時(shí),也考慮對(duì)同一時(shí)間內(nèi)不同策略抓取的相關(guān)頁(yè)面的數(shù)量進(jìn)行比較,綜合比較策略的準(zhǔn)確性與效率。在確定好評(píng)價(jià)標(biāo)準(zhǔn)的基礎(chǔ)上,將基于傳統(tǒng)VSM策略的爬蟲與提出的策略進(jìn)行比較,以驗(yàn)證該策略的有效性。
實(shí)驗(yàn)以教授、專家、學(xué)者、報(bào)告、講座、匯報(bào)為關(guān)鍵詞集,通過搜索引擎獲取部分鏈接與人工設(shè)定鏈接作為初始鏈接,同時(shí)設(shè)定爬取深度為3,設(shè)定權(quán)重因子δ為0.8。保證在兩種策略的主題、初始鏈接、停止條件相同的情況下進(jìn)行比較實(shí)驗(yàn),結(jié)果如圖2和圖3所示。
圖2 查準(zhǔn)率對(duì)比
圖3 時(shí)間對(duì)比
從圖2中可以看出,改進(jìn)策略在爬取相同頁(yè)面數(shù)時(shí),爬取準(zhǔn)確率普遍提升。傳統(tǒng)策略平均查準(zhǔn)率為46.37%,改進(jìn)策略平均查準(zhǔn)率為55.55%,提高了9.18個(gè)百分點(diǎn)。同時(shí)還可以發(fā)現(xiàn),隨著頁(yè)面數(shù)的增加,查準(zhǔn)率隨之下降,而傳統(tǒng)策略下降得更快,這是因?yàn)樘岢霾呗约尤肓苏Z(yǔ)義相似度的計(jì)算,保證了爬蟲可以在相關(guān)度更高的頁(yè)面中爬行。
從圖3中可以看出,改進(jìn)策略在獲取相同相關(guān)頁(yè)面數(shù)的情況下,一開始所耗時(shí)間高于傳統(tǒng)策略,而后逐漸縮小差距,這是因?yàn)樵摬呗愿倪M(jìn)了相關(guān)度算法、鏈接排序算法,提高了算法復(fù)雜度,繼而增加了開銷,使得在查準(zhǔn)率高的情況下,總數(shù)會(huì)相對(duì)減少,但是隨著頁(yè)面數(shù)的增加,優(yōu)勢(shì)也逐漸凸顯。
為了進(jìn)一步提高主題爬蟲的抓取準(zhǔn)確率,提出了一種基于語(yǔ)義樹與VSM的主題爬取策略,以優(yōu)化爬蟲的爬行路線,盡可能多地避開無關(guān)頁(yè)面。通過將語(yǔ)義樹應(yīng)用于內(nèi)容相關(guān)度計(jì)算,解決了使用傳統(tǒng)向量余弦距離計(jì)算頁(yè)面相似度沒有考慮語(yǔ)義的問題。另一方面,分析子鏈接的相關(guān)度對(duì)當(dāng)前鏈接相關(guān)度得分的影響,通過對(duì)鏈接進(jìn)一步的分析,使得鏈接排序更加合理,有利于爬蟲穿越隧道。實(shí)驗(yàn)結(jié)果及其分析均表明,該策略進(jìn)一步提高了抓取的準(zhǔn)確性,減少了無關(guān)的爬取存儲(chǔ)操作。但語(yǔ)義相似度的計(jì)算需要依賴于語(yǔ)義樹的構(gòu)建,且該策略本身也沒有涉及對(duì)爬取效率的提升。由于爬取效率與準(zhǔn)確率一樣,對(duì)主題爬取至關(guān)重要,因此提升主題爬取準(zhǔn)確率將成為下一步工作中的研究重點(diǎn)。
[1] Chakrabarti S,van den Berg M,Dom B.Focused crawling:a new approach to topic-specific web resource discovery[J].Computer Networks,1999,31(11-16):1623-1640.
[2] de Bra P M E,Post R D J.Information retrieval in the world-wide web:making client-based searching feasible[J].Computer Networks and ISDN Systems,1994,27(2):183-192.
[3] Hersovici M,Jacovi M,Maarek Y S,et al.The shark-search algorithm.An application:tailored Web site mapping[J].Computer Networks and ISDN Systems,1998,30(1-7):317-326.
[4] Page L.The PageRank citation ranking:bringing order to the web[D].California:Stanford University,1998.
[5] Kleinberg J M.Authoritative sources in a hyperlinked environment[J].Journal of the ACM,1999,46(5):604-632.
[6] 張 亮,尹存燕,陳家駿.基于語(yǔ)義樹的中文詞語(yǔ)相似度計(jì)算與分析[J].中文信息學(xué)報(bào),2010,24(6):23-30.
[7] 劉冬明,楊爾弘.話題內(nèi)相關(guān)文本的內(nèi)容計(jì)算[J].中文信息學(xué)報(bào),2015,29(5):98-103.
[8] Pal A,Tomar D S,Shrivastava S C.Effective focused crawling based on content and link structure analysis[J].International Journal of Computer Science and Information Security,2009,2(1):1-5.
[9] Aggarwal C C,A1·Garawi F,Yu P S.On the design of a learning crawler for topical resource discovery[J].ACM Transactions on Information Systems,2001,19(3):286-309.
[10] Hati D,Kumar A.An approach for identifying URLs based on division score and link score in focused crawler[J].International Journal of Computer Applications,2010,2(3):48-53.
[11] Hati D,Kumar A,Mishra L.Unvisited URL relevancy calculation in focused crawling based on Native Bayesian classification[J].International Journal of Computer Applications,2010,3(9):23-30.
[12] Ehrig M,Maedche A.Ontology-focused crawling of web documents[C]//Proceedings of the 2003 ACM symposium on applied computing.[s.l.]:ACM,2003:1174-1178.
[13] Ganesh S,Jayaraj M,Kalyan V,et al.Ontology-based web crawler[C]//International conference on information technology:coding and computing.[s.l.]:IEEE,2004:337-341.
[14] 于甜甜.基于語(yǔ)義樹的語(yǔ)句相似度和相關(guān)度在問答系統(tǒng)中的研究[D].濟(jì)南:山東財(cái)經(jīng)大學(xué),2014.
[15] Mencaer F,Pant G,Srinivasan P.Topical web crawlers: evaluating adaptive algorithms[J].ACM Transactions on Internet Technology,2004,4(4):378-419.
ResearchonTopicCrawlingStrategyBasedonSemanticTreeandVSM
ZHANG Jin,NI Xiao-jun
(College of Computer,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)
Topic crawler is mainly adopted to solve the customized search needs of users,that is to select the concerning topics of users for crawling quickly,effectively and accurately in the growing network data.In order to improve the accuracy of crawling specific information,the relevance of the content of the page needs to be subject-related judgments while the main concern of the topic crawler is the correlation calculation.But the most of the existing improved algorithms adopt techniques like artificial intelligence and machine learning,which not only improve their complexity,but also own limitations in effect enhancement.Therefore,a topic crawling strategy based on semantic tree and VSM is proposed and the semantic similarity calculation is added to the content relevance calculation and link ranking to optimize the subject discrimination of relevance through the improvement of detail of the algorithm in the strategy.Experimental results show that it can always keep the crawl course in the link of the web page with high relevance,which has effectively classified the web links relevant or not and significantly improved accuracy of crawling.
topic crawler;semantic tree;VSM;content relevance;link ranking
2016-11-12
2017-02-23 < class="emphasis_bold">網(wǎng)絡(luò)出版時(shí)間
時(shí)間:2017-07-19
教育部專項(xiàng)研究項(xiàng)目(2013116)
張 金(1992-),男,碩士研究生,研究方向?yàn)榇髷?shù)據(jù)、網(wǎng)絡(luò)爬蟲技術(shù);倪曉軍,教授,研究方向?yàn)榍度胧健?/p>
http://kns.cnki.net/kcms/detail/61.1450.TP.20170719.1110.044.html
TP301
A
1673-629X(2017)11-0066-05
10.3969/j.issn.1673-629X.2017.11.014