黃利斌 陳慧
摘要:主題爬蟲已經(jīng)成為當(dāng)下信息采集的重要方式。傳統(tǒng)的主題爬蟲技術(shù),主題詞與其相關(guān)性權(quán)重是固定不變的,因此,存在隨著爬取頁面的增加而爬準(zhǔn)率下降,錯誤率上升的問題。本文采用的主題爬蟲技術(shù),運(yùn)用BP神經(jīng)網(wǎng)絡(luò),根據(jù)下載網(wǎng)頁的特征,動態(tài)更新主題詞與其相關(guān)性權(quán)重,從而實(shí)現(xiàn)隨著爬取頁面的增加而爬準(zhǔn)率上升,錯誤率下降?;贐P神經(jīng)網(wǎng)絡(luò)的主題爬蟲技術(shù),能提高信息采集的效率,降低因采集錯誤而產(chǎn)生的損失。
關(guān)鍵詞:主題爬蟲;BP神經(jīng)網(wǎng)絡(luò);信息采集;主題詞表
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2019)04-0160-03
Abstract:Theme crawler has been an important way of obtaining modern information. For traditional theme crawler technology, the theme words and its relevance weights are fixed, which is a problem that the crawl rate decreases and the error rate increases as the number of crawling pages increases. Therefore, we propose a theme crawler technology based on BP neural network, which can dynamically update keywords and their relevance weights according to the characteristics of the downloaded webpage.Intelligent thematic crawler technology based on BP neural network can improve the efficiency of information collection and reduce the loss caused by the acquisition error.
Key words:Theme crawler; BP neural network; Information Collection; Thesaurus
1 引言
互聯(lián)網(wǎng)具有豐富龐大的數(shù)據(jù),為了充分有效地利用互聯(lián)網(wǎng)的信息資源,并快速構(gòu)建專業(yè)知識庫和數(shù)據(jù)庫,應(yīng)用爬蟲技術(shù)來采集信息是一種方便、快捷和有效的方式[1]。主題爬蟲是一種能在一定時(shí)間內(nèi)運(yùn)用較少的計(jì)算資源、網(wǎng)絡(luò)資源和存儲資源來盡可能采集更多與主題相關(guān)的網(wǎng)頁文檔的特殊爬蟲技術(shù)[2],它能更好地滿足特地用戶的特地目的。主題爬蟲在抓取頁面之后進(jìn)行解析,判斷這些頁面是否與主題相關(guān),從而決定是否采集,并且根據(jù)相關(guān)性制定采集的優(yōu)先順序,可以減少采集的數(shù)量,增加網(wǎng)頁文檔與主題的相關(guān)性,提高信息采集的效率,降低信息采集的錯誤率[3]。傳統(tǒng)的主題爬蟲技術(shù)主要基于鏈接地址和主題詞來解析、爬取,其關(guān)鍵詞的權(quán)重是固定不變的,因此,會隨著爬取頁面的增加,爬準(zhǔn)率下降和錯誤率上升[4]。
BP(back propagation)神經(jīng)網(wǎng)絡(luò)是目前研究最為成熟、應(yīng)用最為廣泛的人工神經(jīng)網(wǎng)絡(luò)模型之一[5]。由于具有較強(qiáng)的非線性模擬能力、強(qiáng)大的自學(xué)習(xí)和自適應(yīng)能力,且結(jié)構(gòu)簡單、可操作性強(qiáng)、具有較好的自學(xué)習(xí)能力、能夠有效地解決非線性目標(biāo)函數(shù)的逼近問題等優(yōu)點(diǎn),因此被廣泛應(yīng)用于自動控制、模式識別、圖像識別、信號處理、預(yù)測、函數(shù)擬合、系統(tǒng)仿真等學(xué)科和領(lǐng)域中[6]。
本文基于BP神經(jīng)網(wǎng)絡(luò)的主題爬蟲,主要通過計(jì)算網(wǎng)頁中的關(guān)鍵字與主題的相關(guān)性,來判斷此網(wǎng)頁是否符合這個主題。如果符合,下載并放入數(shù)據(jù)庫中,作為BP神經(jīng)網(wǎng)絡(luò)計(jì)算主題詞權(quán)重的資源。傳統(tǒng)的主題爬蟲技術(shù)運(yùn)用關(guān)鍵詞來判斷網(wǎng)頁權(quán)重,其關(guān)鍵詞的權(quán)重是固定不變的。而本文采用BP神經(jīng)網(wǎng)絡(luò)算法,動態(tài)更新關(guān)鍵詞的權(quán)重,因此,他不僅不會隨著爬取頁面數(shù)量的增加而降低查準(zhǔn)率,反而會隨著網(wǎng)頁數(shù)據(jù)庫中頁面的增加而增加查準(zhǔn)率,降低錯誤率,實(shí)現(xiàn)信息采集效率的提高,降低因采集錯誤而產(chǎn)生的損失。
2 系統(tǒng)設(shè)計(jì)
本文采用的系統(tǒng)設(shè)計(jì),在傳統(tǒng)的爬蟲技術(shù)上增加了詞匯權(quán)重處理模塊,動態(tài)更新主題詞與其相關(guān)性權(quán)重。詞匯權(quán)重處理模塊運(yùn)用優(yōu)化后的BP神經(jīng)網(wǎng)絡(luò)算法和改進(jìn)后的TF-IDF算法,判斷網(wǎng)頁中的關(guān)鍵詞與主題的相關(guān)度[7],篩選出一部分與主題密切相關(guān)的關(guān)鍵詞,作為主題詞,從而建立主題詞表。再判斷網(wǎng)頁中的詞匯與詞表中的詞匯是否相同,如果相同,給予它相應(yīng)的權(quán)重,所有主題詞權(quán)重之和就是網(wǎng)頁與主題相關(guān)性的權(quán)重。網(wǎng)頁權(quán)重如果大于設(shè)置的閾值,下載并保存到數(shù)據(jù)庫中,否則,拋棄網(wǎng)頁。
如圖1所示,具體流程如下:
1)通過關(guān)鍵詞爬取部分網(wǎng)頁,放入網(wǎng)頁數(shù)據(jù)庫中;
2)運(yùn)用BP神經(jīng)網(wǎng)絡(luò)算法,計(jì)算出與主題相關(guān)詞匯的權(quán)值;
3)選取權(quán)值大于閾值的關(guān)鍵詞,作為主題詞,構(gòu)建主題詞表;
4)運(yùn)用主題爬蟲,爬取下一個頁面,找到網(wǎng)頁中與主題詞表相同的關(guān)鍵詞,如果大于閾值,則下載到網(wǎng)頁數(shù)據(jù)庫中,否則丟棄;
5)重復(fù)上述步驟,達(dá)到需要爬取的數(shù)量。
3 詞匯處理模塊
3.1 爬取數(shù)據(jù)的來源
網(wǎng)頁是由HTML(Hypertext Markup Language)的標(biāo)記語言,用于組織和標(biāo)準(zhǔn)化其在瀏覽器上的顯示效果[8]。HTML主要運(yùn)用一些預(yù)定義的文檔、標(biāo)簽來標(biāo)記文檔的標(biāo)題、頁面結(jié)構(gòu)和頁面關(guān)系等元素,這些元素共同修飾了網(wǎng)頁內(nèi)容的顯示效果。
在數(shù)據(jù)爬取過程中,爬蟲程序無法直接判斷網(wǎng)頁與主題的相關(guān)性。因此,采取與瀏覽器處理網(wǎng)頁文檔類似的方式,來了解文檔的價(jià)值。瀏覽器系統(tǒng)直接處理的是以HTML標(biāo)簽為主的網(wǎng)頁源碼,通過這些源碼,來處理網(wǎng)頁中的內(nèi)容。這些半結(jié)構(gòu)化的網(wǎng)頁標(biāo)簽為本文獲得網(wǎng)頁相關(guān)信息提供了良好的定位,通過了解標(biāo)簽以及其屬性的含義,可以從中了解到這網(wǎng)頁內(nèi)容所涉及的主題[9]。網(wǎng)頁,通??梢苑譃槿糠?,第一部分是
標(biāo)簽所影響的頭部區(qū)域,它一般是對這個頁面的概述,以及說明編碼等狀態(tài)信息;第二部分是標(biāo)簽所影響的主體部分,它主要顯示網(wǎng)頁的正文;第三部分是頭部區(qū)域具有三個描述網(wǎng)頁文檔信息的重要元素
3.2 詞匯權(quán)重處理
在爬取網(wǎng)頁頭部信息后,運(yùn)用分詞技術(shù)對信息進(jìn)行分詞。本文運(yùn)用TF-IDF這一傳統(tǒng)的詞匯權(quán)重計(jì)算方法為關(guān)鍵詞[i]計(jì)算本身的權(quán)值[10]。TF-IDF作為詞匯價(jià)值的統(tǒng)計(jì)方法被廣泛運(yùn)用在多個領(lǐng)域。考慮到不同的文檔位置代表不同的價(jià)值,因此,為不同標(biāo)簽的關(guān)鍵字建立特別的權(quán)值,使其對其他關(guān)鍵詞更具代表性,增加算法的可操作性和準(zhǔn)確度。
4 實(shí)驗(yàn)設(shè)計(jì)與數(shù)據(jù)分析
本系統(tǒng)采用Python語言實(shí)現(xiàn),Python擁有豐富的框架和庫,能快速實(shí)現(xiàn)基于BP神經(jīng)網(wǎng)絡(luò)算法的智能主題爬蟲,操作系統(tǒng)為Windows7,數(shù)據(jù)庫為Mysql,內(nèi)存為4G,硬盤500G。主要爬取的網(wǎng)站為百度百科,百度百科中擁有各個領(lǐng)域和行業(yè)的相關(guān)信息且區(qū)分度高,本文爬取的主題為農(nóng)業(yè),程序運(yùn)行界面如圖3所示。
為驗(yàn)證基于BP神經(jīng)網(wǎng)絡(luò)的主題爬蟲的優(yōu)勢,本文比較了基于主題詞表和基于PageRank鏈接的主題爬蟲。如圖4所示,通過對比三種算法的爬準(zhǔn)率,爬準(zhǔn)率為下載總數(shù)除以爬取總數(shù),可以明顯看到隨著爬取總數(shù)的增加,基于BP神經(jīng)網(wǎng)絡(luò)算法的爬準(zhǔn)率隨著爬取總數(shù)的增加而增加。如圖5所示,通過對比三種算法的錯誤率,錯誤率為與主題無關(guān)的下載數(shù)除以下載總數(shù)??梢悦黠@看到隨著爬取總數(shù)的增加,基于BP神經(jīng)網(wǎng)絡(luò)算法的錯誤率隨著爬取總數(shù)的增加而降低。
5 結(jié)束語
本論文設(shè)計(jì)了一種基于BP神經(jīng)網(wǎng)絡(luò)算法的主題爬蟲,實(shí)驗(yàn)結(jié)果表明,基于BP神經(jīng)網(wǎng)絡(luò)算法的主題爬蟲能動態(tài)更新主題詞表,具有隨著爬取數(shù)量的增加,爬準(zhǔn)率提升的優(yōu)勢,因此適合需要大量爬取網(wǎng)絡(luò)信息資源的相關(guān)業(yè)務(wù),實(shí)現(xiàn)提升信息采集的效率,降低信息采集的錯誤率。
參考文獻(xiàn):
[1]于娟,劉強(qiáng).主題網(wǎng)絡(luò)爬蟲研究綜述[J].計(jì)算機(jī)工程與科學(xué),2015,37(2):231-237.
[2]朱幸輝.論農(nóng)村信息綜合服務(wù)平臺設(shè)計(jì)[J].農(nóng)村經(jīng)濟(jì)與科技,2014,25(6):131-132+134.
[3]方逵,羅武,朱幸輝.農(nóng)業(yè)知識庫系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].農(nóng)機(jī)化研究,2013,35(5):8-11.
[4]邢敏玲. 基于網(wǎng)頁分塊的主題爬蟲方法研究[D].重慶大學(xué),2011.
[5]鄒永斌,陳興蜀,王文賢.基于貝葉斯分類器的主題爬蟲研究[J].計(jì)算機(jī)應(yīng)用研究,2009,26(9):3418-3420+3439.
[6]孫玲芳,周加波,林偉健,等.基于BP神經(jīng)網(wǎng)絡(luò)和遺傳算法的網(wǎng)絡(luò)輿情危機(jī)預(yù)警研究[J].情報(bào)雜志,2014,33(11):18-24.
[7]潘芳,張霞,仲偉俊.基于BP神經(jīng)網(wǎng)絡(luò)的微博網(wǎng)絡(luò)社群突發(fā)輿情的預(yù)警監(jiān)控[J].情報(bào)雜志,2014,33(05):125-128.
[8]許興軍,顏鋼鋒.基于BP神經(jīng)網(wǎng)絡(luò)的股價(jià)趨勢分析[J].浙江金融,2011(11):57-59+64.
[9]Wang Ying, Lu Cuijie, Zuo Cuiping.Coal mine safety production forewarning based on improved BP neural network[J].International Journal of Mining Science and Technology,2015,25(02):319-324.
[10]Zhao Qiu, Ceng Jun Dai, Tao Liu. Design of Theme Crawler for Web Forum[J]. Applied Mechanics and Materials,2014,3147(548).
[11]H. Hu, Y. J. Ge. Using Web Crawler Technology for Text Analysis of Geo-Events: A Case Study of the Huangyan Island Incident[J]. ISPRS - International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences,2013,XL-4/W3(1).
[12]Gaiyun He, Can Huang, Longzhen Guo, et al. Identification and Adjustment of Guide Rail Geometric Errors Based on BP Neural Network[J]. Measurement Science Review,2017,17(3).
【通聯(lián)編輯:唐一東】