基于主題網(wǎng)絡(luò)爬蟲的網(wǎng)絡(luò)學(xué)習(xí)資源收集平臺(tái)的設(shè)計(jì)

2010-10-18 07:53:20鄭志高劉慶圣陳立彬

中國(guó)教育信息化 2010年1期

關(guān)鍵詞：爬蟲列表頁(yè)面

鄭志高，劉慶圣，陳立彬

（1.陜西師范大學(xué) 新聞傳播學(xué)院知識(shí)媒體研究所，陜西西安710062；2.西安陸軍學(xué)院軍訓(xùn)教研室，陜西西安 710108）

基于主題網(wǎng)絡(luò)爬蟲的網(wǎng)絡(luò)學(xué)習(xí)資源收集平臺(tái)的設(shè)計(jì)

鄭志高1，劉慶圣1，陳立彬2

（1.陜西師范大學(xué) 新聞傳播學(xué)院知識(shí)媒體研究所，陜西西安710062；2.西安陸軍學(xué)院軍訓(xùn)教研室，陜西西安 710108）

收集現(xiàn)存于網(wǎng)絡(luò)中的信息，對(duì)其進(jìn)行加工、處理使其成為可用的學(xué)習(xí)資源是網(wǎng)絡(luò)學(xué)習(xí)資源建設(shè)中一項(xiàng)重要工作，主題網(wǎng)絡(luò)爬蟲為在網(wǎng)絡(luò)學(xué)習(xí)資源建設(shè)過(guò)程實(shí)現(xiàn)信息的自動(dòng)收集提供了可能，本文以此為基礎(chǔ)設(shè)計(jì)了一個(gè)能滿足資源建設(shè)需要的網(wǎng)絡(luò)學(xué)習(xí)資源收集平臺(tái)并對(duì)設(shè)計(jì)過(guò)程中的關(guān)鍵問(wèn)題進(jìn)行了分析。

主題網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)學(xué)習(xí)資源網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)設(shè)計(jì)

收集現(xiàn)存于網(wǎng)絡(luò)中的各類信息，對(duì)其進(jìn)行加工、處理使其成為可用的學(xué)習(xí)資源是網(wǎng)絡(luò)學(xué)習(xí)資源建設(shè)中一項(xiàng)重要工作，在其過(guò)程中資源建設(shè)者面臨兩大難題：

（1）如何高效、快速地從網(wǎng)絡(luò)海量信息中篩選出資源建設(shè)所需的各種信息；

（2）如何使加工完成的資源更新速度跟上網(wǎng)絡(luò)信息快速更新的速度。

這兩個(gè)問(wèn)題的解決不能靠人工操作完成，較好的解決方案是使用功能程序輔助資源建設(shè)者進(jìn)行信息收集和檢測(cè)，目前被廣泛使用于網(wǎng)絡(luò)搜索引擎的網(wǎng)絡(luò)爬蟲能較好地解決上述兩個(gè)問(wèn)題，本文就網(wǎng)絡(luò)爬蟲在網(wǎng)絡(luò)學(xué)習(xí)資源建設(shè)中的應(yīng)用方法進(jìn)行研究。

一、主題網(wǎng)絡(luò)爬蟲及其工作原理

網(wǎng)絡(luò)爬蟲是一個(gè)網(wǎng)頁(yè)自動(dòng)提取程序，它從一個(gè)或若干初始網(wǎng)頁(yè)開(kāi)始，獲取包含在其中的URL（Uniform Resourcl Locator，統(tǒng)一資源定位符）進(jìn)行網(wǎng)頁(yè)抓取，在抓取網(wǎng)頁(yè)過(guò)程中，從被抓取的網(wǎng)頁(yè)中抽取新的URL放入抓取隊(duì)列，直到滿足系統(tǒng)設(shè)定的停止條件終止抓取過(guò)程。主題網(wǎng)絡(luò)爬蟲是根據(jù)一定網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接，只保留主題相關(guān)的鏈接進(jìn)行網(wǎng)頁(yè)抓取。[1]主題網(wǎng)絡(luò)爬蟲工作原理如圖1所示。[2]

主題網(wǎng)絡(luò)爬蟲各個(gè)組成部分功能如下：

（1）初始頁(yè)面：包含超鏈接的一個(gè)或若干個(gè)網(wǎng)頁(yè)，主題網(wǎng)絡(luò)爬蟲從中獲取要抓取的起始頁(yè)面。

（2）頁(yè)面預(yù)處理模塊：用于頁(yè)面的分析和去除頁(yè)面中的無(wú)用信息（如廣告鏈接等）。

（3）鏈接分析模塊：用于分析頁(yè)面中提取的超鏈接，并將有效鏈接放入下載URL隊(duì)列等待抓取。

（4）下載模塊：從下載隊(duì)列中獲取URL進(jìn)行網(wǎng)頁(yè)抓取。

（5）主題過(guò)濾模塊：對(duì)抓取的頁(yè)面按照主題進(jìn)行過(guò)濾，去除跟主題無(wú)關(guān)的頁(yè)面，將滿足條件的頁(yè)面放入頁(yè)面庫(kù)。

（6）頁(yè)面庫(kù)：用于存放被抓取滿足條件的頁(yè)面。

根據(jù)其工作原理，主題網(wǎng)絡(luò)爬蟲能夠從一個(gè)或若干個(gè)初始頁(yè)面開(kāi)始自動(dòng)收集分析滿足特定要求的頁(yè)面并對(duì)其進(jìn)行保存，完成信息的收集。因而在網(wǎng)絡(luò)學(xué)習(xí)資源建設(shè)過(guò)程中，可以以此為基礎(chǔ)設(shè)計(jì)一個(gè)自動(dòng)收集信息的平臺(tái)有效地解決前文所述網(wǎng)絡(luò)學(xué)習(xí)資源建設(shè)過(guò)程中面對(duì)的兩個(gè)難題。

二、平臺(tái)的結(jié)構(gòu)及運(yùn)行流程

1.將主題網(wǎng)絡(luò)爬蟲直接應(yīng)用網(wǎng)絡(luò)學(xué)習(xí)資源的收集會(huì)產(chǎn)生的問(wèn)題

（1）主題網(wǎng)絡(luò)爬蟲工作時(shí)需要從一個(gè)或若干個(gè)起始頁(yè)面獲取URL啟動(dòng)抓取過(guò)程，但它本身不能產(chǎn)生，需要資源建設(shè)者提供，而且初始頁(yè)面的內(nèi)容會(huì)直接影響主題網(wǎng)絡(luò)爬蟲抓取的信息的覆蓋率和準(zhǔn)確性。

（2）主題網(wǎng)絡(luò)爬蟲只能夠按照要求進(jìn)行頁(yè)面的獲取和保存，不能分析其內(nèi)容的科學(xué)性和準(zhǔn)確性，而科學(xué)準(zhǔn)確是學(xué)習(xí)資源對(duì)信息最重要的要求。

（3）主題網(wǎng)絡(luò)爬蟲不提供對(duì)抓取、保存的信息進(jìn)行處理的功能，而信息需要進(jìn)行加工處理才能成為可用的學(xué)習(xí)資源。

因此以主題網(wǎng)絡(luò)爬蟲為基礎(chǔ)構(gòu)建網(wǎng)絡(luò)學(xué)習(xí)資源收集平臺(tái)必須解決這三個(gè)問(wèn)題，綜合網(wǎng)絡(luò)主題網(wǎng)絡(luò)爬蟲的工作原理和網(wǎng)絡(luò)學(xué)習(xí)資源建設(shè)內(nèi)在的要求，基于主題網(wǎng)絡(luò)爬蟲的網(wǎng)絡(luò)學(xué)習(xí)資源收集平臺(tái)結(jié)構(gòu)如圖2所示。

2.整個(gè)平臺(tái)由數(shù)據(jù)層、系統(tǒng)層和應(yīng)用層構(gòu)成

數(shù)據(jù)層用于保存平臺(tái)運(yùn)行過(guò)程中需要以及產(chǎn)生的數(shù)據(jù)，包括：

（1）初始頁(yè)面列表：用于保存初始頁(yè)面的URL，初始頁(yè)面既可以是已存在于網(wǎng)絡(luò)中的頁(yè)面，也可以是根據(jù)資源建設(shè)需要由建設(shè)者整理編輯完成的頁(yè)面。

（2）保存頁(yè)面URL列表：用于保存頁(yè)面庫(kù)中頁(yè)面的URL。該數(shù)據(jù)可用于注明已下載的頁(yè)面的出處以及減少平臺(tái)在資源下載過(guò)程中對(duì)相同位置上的同一資源進(jìn)行重復(fù)下載。

（3）主題列表：用于保存在信息篩選時(shí)使用的主題信息，通過(guò)修改和設(shè)置主題列表可以使平臺(tái)收集不同主題的信息，提高平臺(tái)的通用性。

（4）頁(yè)面庫(kù)：用于保存由平臺(tái)下載且經(jīng)過(guò)主題篩選的頁(yè)面。

系統(tǒng)層核心是一個(gè)主題網(wǎng)絡(luò)爬蟲，根據(jù)網(wǎng)絡(luò)學(xué)習(xí)資源建設(shè)需要進(jìn)行了優(yōu)化和功能擴(kuò)展。體現(xiàn)在以下兩方面：

第一，主題過(guò)濾模塊每次工作時(shí)首先從主題列表中讀取主題，以確定本次工作的主題信息。

第二，下載模塊進(jìn)行頁(yè)面下載時(shí)，首先查詢下載頁(yè)面的URL是否存在于保存頁(yè)面URL列表中，如果存在則跳過(guò)該頁(yè)面的下載，進(jìn)行下一個(gè)頁(yè)面的下載；完成頁(yè)面下載后將其URL加入保存頁(yè)面URL列表中。

應(yīng)用層用于平臺(tái)運(yùn)行環(huán)境設(shè)置和資源的處理，包括：

初始頁(yè)面設(shè)置模塊，用于初始頁(yè)面的編輯和初始頁(yè)面URL列表的管理；主題處理模塊，用于主題列表的管理，包括主題的添加、刪除、修改等；學(xué)習(xí)資源處理模塊，用于對(duì)平臺(tái)自動(dòng)收集信息進(jìn)行處理，使其成為滿足需求的學(xué)習(xí)資源。不同類型的學(xué)習(xí)資源建設(shè)對(duì)信息處理的要求會(huì)有所差別，如有些網(wǎng)絡(luò)學(xué)習(xí)資源建設(shè)只要求提供資源清單，而有些需要對(duì)相關(guān)信息進(jìn)行重組處理，該模塊要根據(jù)資源建設(shè)要求進(jìn)行設(shè)計(jì)，也可以直接使用現(xiàn)有的信息處理軟件。

3.平臺(tái)運(yùn)行流程

（1）用戶根據(jù)資源建設(shè)需要確定主題信息，使用主題處理模塊將有關(guān)信息加入主題列表或者對(duì)主題列表中的有關(guān)內(nèi)容進(jìn)行編輯修改。

（2）用戶收集網(wǎng)絡(luò)中與資源相關(guān)、代表性的網(wǎng)頁(yè)作為起始頁(yè)，這些頁(yè)面一般要包含豐富的超鏈接，利用初始頁(yè)面處理模塊將其URL填入初始頁(yè)面列表中或者對(duì)列表中的有關(guān)內(nèi)容進(jìn)行修改；資源建設(shè)者也可根據(jù)資源建設(shè)需要編輯初始頁(yè)面并將相關(guān)信息填入初始頁(yè)面列表。

（3）運(yùn)行平臺(tái)系統(tǒng)層完成信息的自動(dòng)收集。

（4）運(yùn)行資源處理程序完成資源的處理。

平臺(tái)運(yùn)行包含四個(gè)環(huán)節(jié)，這四個(gè)環(huán)節(jié)相互獨(dú)立，在資源建設(shè)和維護(hù)過(guò)程中，資源建設(shè)者可以從任意一個(gè)環(huán)節(jié)開(kāi)始信息的收集和處理操作；通過(guò)反復(fù)運(yùn)行平臺(tái)，可以實(shí)現(xiàn)跟蹤相關(guān)網(wǎng)站中的信息更新，從而使處理完成的資源跟上網(wǎng)絡(luò)信息的更新。

三、平臺(tái)設(shè)計(jì)中的關(guān)鍵問(wèn)題

1.如何提高網(wǎng)絡(luò)學(xué)習(xí)資源收集平臺(tái)信息搜索覆蓋率

這一問(wèn)題的解決取決于兩個(gè)因素，一是初始頁(yè)面的選擇，選擇內(nèi)容與主題密切相關(guān)且包含豐富超鏈接的頁(yè)面作為初始頁(yè)面（如與資源建設(shè)內(nèi)容相關(guān)的主題網(wǎng)站）和適當(dāng)增加初始頁(yè)面的數(shù)目可以提高平臺(tái)搜索的范圍，從而提高收集資源的覆蓋率。二是平臺(tái)核心構(gòu)件主題網(wǎng)絡(luò)爬蟲采用的搜索策略。作為主題網(wǎng)絡(luò)爬蟲的核心技術(shù)國(guó)內(nèi)外有大量與之相關(guān)的研究，文獻(xiàn)[3][4][5][6]對(duì)目前國(guó)內(nèi)外比較成熟的搜索策略進(jìn)行了綜述，以主題網(wǎng)路爬蟲設(shè)計(jì)網(wǎng)絡(luò)學(xué)習(xí)資源收集平臺(tái)，可根據(jù)資源建設(shè)需要選擇合適的搜索策略。

2.如何提高下載信息的有效性

下載信息對(duì)資源建設(shè)的有效性取決于主題網(wǎng)絡(luò)爬蟲采用的主題搜索算法。高效的主題搜索算法有助于平臺(tái)從下載的頁(yè)面包含的超鏈接中篩選出與主題密切相關(guān)的URL進(jìn)行頁(yè)面下載，從而提高下載信息的準(zhǔn)確率。另外與主題內(nèi)容密切相關(guān)的頁(yè)面作為初始頁(yè)在一定程度上也能提高下載信息的有效性。

3.完成處理的資源是否能跟蹤網(wǎng)絡(luò)信息的更新

網(wǎng)絡(luò)信息的更新包括兩種情況：一是新信息的添加；二是原有信息的修改。文中設(shè)計(jì)的平臺(tái)可以在一定程度上跟蹤其所能覆蓋網(wǎng)站添加的信息，但不能夠跟蹤網(wǎng)站修改的信息。如果要跟蹤相關(guān)網(wǎng)站修改的信息需在平臺(tái)中應(yīng)用網(wǎng)絡(luò)爬蟲的資源更新策略以及相關(guān)的算法。

4.頁(yè)面庫(kù)的組織形式

網(wǎng)絡(luò)爬蟲對(duì)下載的頁(yè)面通常采用兩種形式進(jìn)行存儲(chǔ)：純文件和數(shù)據(jù)庫(kù)。純文件存儲(chǔ)是用統(tǒng)一的文件格式對(duì)下載的頁(yè)面進(jìn)行保存，這種方式結(jié)構(gòu)統(tǒng)一，比較容易實(shí)現(xiàn)用現(xiàn)有的信息處理程序?qū)ζ溥M(jìn)行處理，但存在不能適應(yīng)數(shù)據(jù)的動(dòng)態(tài)變化、如果文件內(nèi)容缺失會(huì)導(dǎo)致程序無(wú)法正常讀取等諸多缺點(diǎn)。數(shù)據(jù)庫(kù)存儲(chǔ)方式是將相關(guān)數(shù)據(jù)以記錄形式存入庫(kù)中，這種存儲(chǔ)方式比較容易實(shí)現(xiàn)對(duì)平臺(tái)下載的大量數(shù)據(jù)進(jìn)行高效管理和維護(hù)，而且支持快速查詢，但需要數(shù)據(jù)庫(kù)系統(tǒng)環(huán)境的支持，如果用現(xiàn)有的信息處理程序?qū)ζ溥M(jìn)行處理可能會(huì)產(chǎn)生程序無(wú)法從數(shù)據(jù)庫(kù)中提取數(shù)據(jù)的障礙。在平臺(tái)設(shè)計(jì)過(guò)程中可以綜合考慮資源建設(shè)需要和信息處理要求選擇合適的數(shù)據(jù)存儲(chǔ)方式。

[1]劉金紅,陸余良.主題網(wǎng)絡(luò)爬蟲研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2007（10）:26-29.

[2]戚欣.基于本體的主題網(wǎng)絡(luò)爬蟲設(shè)計(jì)[J].武漢理工大學(xué)學(xué)報(bào),2009（2）:138-141.

[3]陳方,譚愛(ài)平.主題爬蟲技術(shù)研究綜述[J].湖南工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報(bào),2008（10）:13-16.

[4]劉漢興,劉財(cái)興.主題爬蟲的搜索策略研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2008（6）：3160-3162.

[5]楊貞.基于本體的主題爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[D].中國(guó)優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫(kù),2008.

[6]周立柱,林玲.聚焦爬蟲技術(shù)研究綜述[J].計(jì)算機(jī)應(yīng)用,2005（9）:1966-1968.

（編輯：楊馥紅）

G250.73

1673-8454（2010）01-0036-03

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于主題網(wǎng)絡(luò)爬蟲的網(wǎng)絡(luò)學(xué)習(xí)資源收集平臺(tái)的設(shè)計(jì)

一、主題網(wǎng)絡(luò)爬蟲及其工作原理

二、平臺(tái)的結(jié)構(gòu)及運(yùn)行流程

三、平臺(tái)設(shè)計(jì)中的關(guān)鍵問(wèn)題

二、平臺(tái)的結(jié)構(gòu)及運(yùn)行流程

三、平臺(tái)設(shè)計(jì)中的關(guān)鍵問(wèn)題