基于網(wǎng)絡(luò)爬蟲(chóng)原理的Web內(nèi)容挖掘技術(shù)分析

2013-04-29 00:44:03何翼陳文娟蒲天銀

計(jì)算機(jī)時(shí)代 2013年7期

何翼　陳文娟　蒲天銀

摘要：目前Web數(shù)據(jù)挖掘技術(shù)已得到廣泛應(yīng)用，通過(guò)對(duì)Web挖掘分類和挖掘基本理論的分析，提出網(wǎng)絡(luò)爬蟲(chóng)原理內(nèi)容挖掘方法，深入分析這種方法的原理和工作流程。爬蟲(chóng)原理的應(yīng)用可滿足特定用戶的需求，實(shí)現(xiàn)高效、快捷、針對(duì)性強(qiáng)的查詢。

關(guān)鍵詞： Web挖掘分析；網(wǎng)絡(luò)爬蟲(chóng)；原理分析

中圖分類號(hào)：TP391 文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：1006-8228（2013）07-01-02

0 引言

隨著Internet的日益普及，電子商務(wù)正以其成本低廉、方便、不受時(shí)空限制等突出優(yōu)點(diǎn)而逐步在全球流行。同時(shí)經(jīng)濟(jì)模式也發(fā)生了變化，從傳統(tǒng)的實(shí)體商店到Internet上的電子交易，改變了銷售商和顧客的關(guān)系?，F(xiàn)在，網(wǎng)上顧客的流動(dòng)性很大，他們更多關(guān)注商品的使用價(jià)值和價(jià)格，而不像以前更多關(guān)注品牌和地理因素。因此，電子銷售商一個(gè)主要的挑戰(zhàn)是盡可能多地了解到客戶的興趣愛(ài)好和價(jià)值取向，以保證在電子商務(wù)時(shí)代的競(jìng)爭(zhēng)力。通過(guò)Web日志挖掘，可以發(fā)現(xiàn)顧客的購(gòu)買(mǎi)偏好；發(fā)現(xiàn)忠實(shí)客戶，為他們提供個(gè)性化的服務(wù)，延長(zhǎng)客戶的駐留時(shí)間；發(fā)現(xiàn)潛在用戶，為他們提供個(gè)性化頁(yè)面，變潛在用戶為忠實(shí)客戶，擴(kuò)大市場(chǎng)占有率；分析客戶未來(lái)可能發(fā)生的行為，進(jìn)行有針對(duì)性的電子商務(wù)營(yíng)銷活動(dòng)，提高廣告的投資回報(bào)率。所以從長(zhǎng)遠(yuǎn)看對(duì)基于Web數(shù)據(jù)挖掘的研究很有必要。

1 Web數(shù)據(jù)挖掘概述

Web數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)的重要應(yīng)用，它是指在大量訓(xùn)練樣本的基礎(chǔ)上，得到數(shù)據(jù)對(duì)象間的內(nèi)在特性，并以此為依據(jù)在網(wǎng)絡(luò)資源中進(jìn)行有目的的信息提取[1]。

1.1 Web數(shù)據(jù)挖掘流程

Web數(shù)據(jù)挖掘總體上講來(lái)，可以由五個(gè)流程來(lái)完成，如圖1所示。

⑴ Web查找資源：根據(jù)所提供的目標(biāo)Web文檔內(nèi)容，采用一定的技術(shù)方法獲得相應(yīng)的數(shù)據(jù)，形成挖掘的數(shù)據(jù)源。需要說(shuō)明的是，這部分資源不僅局限于在線Web文檔資源，還包括與其相關(guān)的電子郵件、電子文檔、新聞組，或者網(wǎng)站的日志數(shù)據(jù)資源，甚至還可包括通過(guò)Web形成的交易數(shù)據(jù)庫(kù)中的數(shù)據(jù)資源。如何對(duì)這些資源進(jìn)行融合是一個(gè)極為重要的問(wèn)題。

⑵ 信息選擇和預(yù)處理：通過(guò)查詢獲得的數(shù)據(jù)源，從中篩選出有用的信息，并將其按一定的類型進(jìn)行歸集。

⑶ 模式發(fā)現(xiàn)：針對(duì)歸集得到的有用信息，將其應(yīng)用于某一具體的站點(diǎn)或多個(gè)相應(yīng)的站點(diǎn)，并進(jìn)行自動(dòng)模式發(fā)現(xiàn)。

⑷ 模式分析：對(duì)模式發(fā)現(xiàn)階段得到的一些模式進(jìn)行分析，驗(yàn)證、解釋每一步驟間產(chǎn)生的模式的關(guān)聯(lián)關(guān)系。這一階段的工作可以由機(jī)器自動(dòng)完成，也可以與分析人員進(jìn)行交互來(lái)完成，主要依據(jù)模式發(fā)現(xiàn)規(guī)模來(lái)確定。

⑸ 信息整理：對(duì)經(jīng)過(guò)模式分析得到的信息進(jìn)行進(jìn)一步挖掘整理，將其應(yīng)用于Web商務(wù)中。

1.2 Web數(shù)據(jù)挖掘分類

Web挖掘技術(shù)研究至今，已有一些不同的方法，一般根據(jù)對(duì)Web數(shù)據(jù)的感興趣程度不同，可將Web數(shù)據(jù)挖掘分為Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘、Web用法挖掘三類。

⑴ Web內(nèi)容挖掘：Web內(nèi)容挖掘指從Web內(nèi)容中發(fā)現(xiàn)有用信息[2]。Web上的信息由各種類型的數(shù)據(jù)源組成，包括WWW、FTP、Telnet等，比如數(shù)字圖書(shū)館、政府信息服務(wù)、電子商務(wù)數(shù)據(jù)，以及其他可以通過(guò)Web訪問(wèn)的數(shù)據(jù)庫(kù)。

⑵ Web結(jié)構(gòu)挖掘：從廣義上講，Web的結(jié)構(gòu)包含三個(gè)內(nèi)容：一是不同網(wǎng)頁(yè)間的超鏈接；二是網(wǎng)頁(yè)內(nèi)部的網(wǎng)絡(luò)地址字符串中的目錄路徑結(jié)構(gòu)信息；三是網(wǎng)頁(yè)內(nèi)部?jī)?nèi)容可以用HTML、XML表示成的樹(shù)形結(jié)構(gòu)信息[3]。

⑶ Web用法挖掘：即Web使用紀(jì)錄挖掘技術(shù)[4]，在新興的電子商務(wù)領(lǐng)域有重要意義，它通過(guò)挖掘相關(guān)的Web日志紀(jì)錄，來(lái)發(fā)現(xiàn)用戶訪問(wèn)Web頁(yè)面的模式；通過(guò)分析日志紀(jì)錄中的規(guī)律，可以識(shí)別用戶的喜好與滿意度，這些分析數(shù)據(jù)可以幫助我們提高站點(diǎn)的服務(wù)質(zhì)量，同時(shí)發(fā)現(xiàn)未來(lái)潛在用戶。

2 爬蟲(chóng)原理

爬蟲(chóng)是一個(gè)用來(lái)分解Web中超文本結(jié)構(gòu)的工具，而網(wǎng)絡(luò)爬蟲(chóng)則可以認(rèn)為是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序，它為搜索引擎從萬(wàn)維網(wǎng)下載網(wǎng)頁(yè)，是搜索引擎的重要組成部分。一個(gè)商業(yè)網(wǎng)站的Web頁(yè)面是以超鏈接的關(guān)系存在的，這就組成了類似一張張的網(wǎng)。

網(wǎng)絡(luò)爬蟲(chóng)是通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找網(wǎng)頁(yè)，從網(wǎng)站某一個(gè)頁(yè)面（通常是首頁(yè)）開(kāi)始，讀取網(wǎng)頁(yè)的內(nèi)容，同時(shí)找到在網(wǎng)頁(yè)中的其他鏈接地址，通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè)，這樣一直循環(huán)下去，最終把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止[5]。

假設(shè)把整個(gè)互聯(lián)網(wǎng)當(dāng)成一張網(wǎng)，那么網(wǎng)絡(luò)爬蟲(chóng)就可以用這個(gè)原理在這張網(wǎng)上把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)信息都抓取下來(lái)。具體可按如下步驟。

Step1：從一個(gè)或若干初始網(wǎng)頁(yè)的網(wǎng)頁(yè)地址開(kāi)始，獲得初始網(wǎng)頁(yè)上的網(wǎng)頁(yè)地址；

Step2：不斷從當(dāng)前頁(yè)面上抽取新的地址放入隊(duì)列，直到滿足系統(tǒng)的一定條件才停止。聚焦爬蟲(chóng)的工作流程較為復(fù)雜，需要根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接，保留有用的鏈接并將其放入等待抓取的地址隊(duì)列；

Step3：根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè)地址；

Setp4：不斷重復(fù)步驟2-3，直到達(dá)到系統(tǒng)的某個(gè)條件發(fā)出停止指令，不再往下訪問(wèn)；

Setp5：將所有被爬蟲(chóng)抓取的網(wǎng)頁(yè)存貯，并進(jìn)行一定的分析、過(guò)濾，并建立索引，以便之后的查詢和檢索。對(duì)于聚焦爬蟲(chóng)來(lái)說(shuō)，這一過(guò)程所得到的分析結(jié)果還可能對(duì)以后的抓取過(guò)程給出反饋和指導(dǎo)；

Setp6：任務(wù)完成。

3 基于爬蟲(chóng)內(nèi)容挖掘分析

3.1 內(nèi)容挖掘過(guò)程

同Web挖掘總體過(guò)程一樣，內(nèi)容挖掘過(guò)程由數(shù)據(jù)獲得、數(shù)據(jù)分析、數(shù)據(jù)保存、內(nèi)容挖掘四個(gè)過(guò)程組成[6]，具體介紹如下。

⑴ 數(shù)據(jù)的獲得：利用爬蟲(chóng)原理對(duì)Web相應(yīng)數(shù)據(jù)進(jìn)行查找，從需要的信息起始頁(yè)開(kāi)始運(yùn)行爬蟲(chóng)程序取得數(shù)據(jù)信息，得到與商務(wù)相關(guān)的大多數(shù)Web頁(yè)面上的信息。這部分資源不僅局限于在線Web文檔資源，同時(shí)還有與其相關(guān)的電子郵件、電子文檔、新聞組，或者網(wǎng)站的日志數(shù)據(jù)資源。

⑵ 數(shù)據(jù)的分析：對(duì)Web相關(guān)數(shù)據(jù)進(jìn)行分析，在對(duì)鏈接頁(yè)面進(jìn)行搜索的過(guò)程中，經(jīng)常需要判斷信息的屬性或分析信息的價(jià)值。這一階段的數(shù)據(jù)非常多，必須在前一階段進(jìn)行分類，同時(shí)對(duì)有些數(shù)據(jù)要進(jìn)行必要的處理，不必要的必須將其刪除，否則影響分析進(jìn)程，比如一些廣告信息等并不是我們所需要的數(shù)據(jù)。

⑶ 數(shù)據(jù)的保存：通過(guò)前一過(guò)程的分析，需要把經(jīng)過(guò)分析得到有效的數(shù)據(jù)最終保存到一定數(shù)據(jù)庫(kù)（就目前針對(duì)海量數(shù)據(jù)來(lái)講，一般選擇如SQL Server2008等）當(dāng)中，目的是為了下一步最終的挖掘作準(zhǔn)備工作。

⑷ 數(shù)據(jù)挖掘：利用一定的挖掘技術(shù)對(duì)數(shù)據(jù)進(jìn)行深入分析，最終獲取有效的信息，同時(shí)對(duì)信息模式進(jìn)行相應(yīng)的分類，并對(duì)這些分類模式進(jìn)行驗(yàn)證。

3.2 網(wǎng)絡(luò)爬蟲(chóng)挖掘技術(shù)實(shí)現(xiàn)

本爬蟲(chóng)技術(shù)采用非遞歸方式來(lái)實(shí)現(xiàn)爬行過(guò)程。在實(shí)現(xiàn)過(guò)程中要構(gòu)建等待隊(duì)列、運(yùn)行隊(duì)列、完成隊(duì)列、錯(cuò)誤隊(duì)列四個(gè)隊(duì)列，需經(jīng)過(guò)三個(gè)流程[7]。

這四個(gè)隊(duì)列如下：

⑴ 等待隊(duì)列是爬蟲(chóng)初始網(wǎng)頁(yè)地址和爬蟲(chóng)程序新發(fā)現(xiàn)的網(wǎng)頁(yè)地址的集合；

⑵ 運(yùn)行隊(duì)列是爬蟲(chóng)程序正在處理的網(wǎng)頁(yè)地址的集合；

⑶ 完成隊(duì)列是已經(jīng)被爬行完成的網(wǎng)頁(yè)地址的集合；

⑷ 錯(cuò)誤隊(duì)列是爬蟲(chóng)程序在解析頁(yè)面出錯(cuò)或讀取數(shù)據(jù)超時(shí)網(wǎng)頁(yè)地址的集合。

網(wǎng)絡(luò)爬蟲(chóng)程序在執(zhí)行時(shí)，同一時(shí)刻一個(gè)網(wǎng)頁(yè)地址只能在一個(gè)隊(duì)列中，我們把它稱為一個(gè)網(wǎng)頁(yè)地址狀態(tài)。程序按狀態(tài)圖從一個(gè)狀態(tài)變換到一個(gè)狀態(tài)，如圖2所示。

通過(guò)圖2過(guò)程圖可以看出，一個(gè)網(wǎng)頁(yè)地址從被待處理到此網(wǎng)頁(yè)地址處理完畢要經(jīng)歷四個(gè)網(wǎng)頁(yè)地址狀態(tài)過(guò)程。首先是在等待隊(duì)列中，網(wǎng)頁(yè)地址等待被自動(dòng)機(jī)進(jìn)行處理，新發(fā)現(xiàn)的網(wǎng)頁(yè)地址被加入到這個(gè)隊(duì)列中；當(dāng)自動(dòng)機(jī)開(kāi)始處理某個(gè)網(wǎng)頁(yè)的網(wǎng)頁(yè)地址時(shí)，這個(gè)網(wǎng)頁(yè)地址就被送到運(yùn)行隊(duì)列中進(jìn)行處理；在處理過(guò)程中，可能有兩種情況出現(xiàn)，即這個(gè)網(wǎng)頁(yè)是否存在問(wèn)題，要根據(jù)這個(gè)問(wèn)題作出相應(yīng)的處理，如果自動(dòng)機(jī)在抓獲某個(gè)網(wǎng)頁(yè)時(shí)有問(wèn)題，那么這個(gè)網(wǎng)頁(yè)的地址將被送到錯(cuò)誤隊(duì)列，錯(cuò)誤隊(duì)列中的地址不能被移入到其他隊(duì)列中；如果自動(dòng)機(jī)成功地獲取某個(gè)網(wǎng)頁(yè)，那么這個(gè)網(wǎng)頁(yè)的地址將被送到完成隊(duì)列，完成隊(duì)列中的地址也不能被移入到其他隊(duì)列中。

需要注意的是，等待隊(duì)列中的地址向運(yùn)行隊(duì)列移交過(guò)程中，需要有一個(gè)判斷，這個(gè)判斷是確定這個(gè)網(wǎng)頁(yè)是否被訪問(wèn)過(guò)，若訪問(wèn)過(guò)則不能重復(fù)爬行；當(dāng)運(yùn)行隊(duì)列中一個(gè)網(wǎng)頁(yè)地址處理完成后，等待隊(duì)列中地址按照先進(jìn)先出的原則被加入到該隊(duì)列，同時(shí)隊(duì)列中相應(yīng)的地址被刪除。

4 結(jié)束語(yǔ)

電子商務(wù)正在企業(yè)和商貿(mào)領(lǐng)域中占據(jù)著越來(lái)越多的市場(chǎng)份額，Web挖掘支持網(wǎng)絡(luò)應(yīng)用，具有很強(qiáng)的平臺(tái)適應(yīng)能力，它的適用性和可移植性強(qiáng)。現(xiàn)在世界上的主要數(shù)據(jù)庫(kù)廠商紛紛開(kāi)始把數(shù)據(jù)挖掘功能集成到自己的產(chǎn)品中。作為電子商務(wù)成功的重要因素，它必將成為一種關(guān)鍵技術(shù)。

本文介紹了Web挖掘的基本流程，引入了基于圖形的爬蟲(chóng)技術(shù)挖掘方法，闡述了挖掘步驟，能有效挖掘Web有價(jià)值的數(shù)據(jù)，完成挖掘任務(wù)。但由于這種技術(shù)基于圖形形式，當(dāng)面對(duì)海量數(shù)據(jù)時(shí)，對(duì)圖形的掃描仍然存在一定的困難，這些問(wèn)題尚需深入分析研究。

參考文獻(xiàn)：

[1] 蔡遒花，張支山.Web使用模式及其在電子商務(wù)領(lǐng)域的應(yīng)用[J].科技管理研究，2005.11：126-127

[2] 陳美榮，楊莉.基于電子商務(wù)網(wǎng)站的Web內(nèi)容挖掘[J].電子商務(wù)，2008.2：149

[3] 王玉珍.基于電子商務(wù)的Web挖掘技術(shù)研究[J].北京電子科學(xué)院學(xué)報(bào)，2005.4：22-25

[4] 吳海珍，鄭群明.Web記錄挖掘及其在旅游電子商務(wù)中的應(yīng)用[J].電腦學(xué)習(xí)，2005.5：41-42

[5] 周建梁.聚焦爬蟲(chóng)原理及關(guān)鍵技術(shù)研究[J].科技資訊，2008.22：26

[6] 李霞.Web內(nèi)容挖掘在企業(yè)電子商務(wù)網(wǎng)站的應(yīng)用研究[J].網(wǎng)絡(luò)財(cái)富，2010.5：130

[7] 胡晟.基于網(wǎng)絡(luò)爬蟲(chóng)的Web挖掘應(yīng)用[J].軟件，2012.7：145-147

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于網(wǎng)絡(luò)爬蟲(chóng)原理的Web內(nèi)容挖掘技術(shù)分析