国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于網(wǎng)絡(luò)爬蟲(chóng)原理的Web內(nèi)容挖掘技術(shù)分析

2013-04-29 00:44:03何翼陳文娟蒲天銀
計(jì)算機(jī)時(shí)代 2013年7期
關(guān)鍵詞:網(wǎng)絡(luò)爬蟲(chóng)

何翼 陳文娟 蒲天銀

摘 要: 目前Web數(shù)據(jù)挖掘技術(shù)已得到廣泛應(yīng)用,通過(guò)對(duì)Web挖掘分類和挖掘基本理論的分析,提出網(wǎng)絡(luò)爬蟲(chóng)原理內(nèi)容挖掘方法,深入分析這種方法的原理和工作流程。爬蟲(chóng)原理的應(yīng)用可滿足特定用戶的需求,實(shí)現(xiàn)高效、快捷、針對(duì)性強(qiáng)的查詢。

關(guān)鍵詞: Web挖掘分析; 網(wǎng)絡(luò)爬蟲(chóng); 原理分析

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2013)07-01-02

0 引言

隨著Internet的日益普及,電子商務(wù)正以其成本低廉、方便、不受時(shí)空限制等突出優(yōu)點(diǎn)而逐步在全球流行。同時(shí)經(jīng)濟(jì)模式也發(fā)生了變化,從傳統(tǒng)的實(shí)體商店到Internet上的電子交易,改變了銷售商和顧客的關(guān)系?,F(xiàn)在,網(wǎng)上顧客的流動(dòng)性很大,他們更多關(guān)注商品的使用價(jià)值和價(jià)格,而不像以前更多關(guān)注品牌和地理因素。因此,電子銷售商一個(gè)主要的挑戰(zhàn)是盡可能多地了解到客戶的興趣愛(ài)好和價(jià)值取向,以保證在電子商務(wù)時(shí)代的競(jìng)爭(zhēng)力。通過(guò)Web日志挖掘,可以發(fā)現(xiàn)顧客的購(gòu)買(mǎi)偏好;發(fā)現(xiàn)忠實(shí)客戶,為他們提供個(gè)性化的服務(wù),延長(zhǎng)客戶的駐留時(shí)間;發(fā)現(xiàn)潛在用戶,為他們提供個(gè)性化頁(yè)面,變潛在用戶為忠實(shí)客戶,擴(kuò)大市場(chǎng)占有率;分析客戶未來(lái)可能發(fā)生的行為,進(jìn)行有針對(duì)性的電子商務(wù)營(yíng)銷活動(dòng),提高廣告的投資回報(bào)率。所以從長(zhǎng)遠(yuǎn)看對(duì)基于Web數(shù)據(jù)挖掘的研究很有必要。

1 Web數(shù)據(jù)挖掘概述

Web數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)的重要應(yīng)用,它是指在大量訓(xùn)練樣本的基礎(chǔ)上,得到數(shù)據(jù)對(duì)象間的內(nèi)在特性,并以此為依據(jù)在網(wǎng)絡(luò)資源中進(jìn)行有目的的信息提取[1]。

1.1 Web數(shù)據(jù)挖掘流程

Web數(shù)據(jù)挖掘總體上講來(lái),可以由五個(gè)流程來(lái)完成,如圖1所示。

⑴ Web查找資源:根據(jù)所提供的目標(biāo)Web文檔內(nèi)容,采用一定的技術(shù)方法獲得相應(yīng)的數(shù)據(jù),形成挖掘的數(shù)據(jù)源。需要說(shuō)明的是,這部分資源不僅局限于在線Web文檔資源,還包括與其相關(guān)的電子郵件、電子文檔、新聞組,或者網(wǎng)站的日志數(shù)據(jù)資源,甚至還可包括通過(guò)Web形成的交易數(shù)據(jù)庫(kù)中的數(shù)據(jù)資源。如何對(duì)這些資源進(jìn)行融合是一個(gè)極為重要的問(wèn)題。

⑵ 信息選擇和預(yù)處理:通過(guò)查詢獲得的數(shù)據(jù)源,從中篩選出有用的信息,并將其按一定的類型進(jìn)行歸集。

⑶ 模式發(fā)現(xiàn):針對(duì)歸集得到的有用信息,將其應(yīng)用于某一具體的站點(diǎn)或多個(gè)相應(yīng)的站點(diǎn),并進(jìn)行自動(dòng)模式發(fā)現(xiàn)。

⑷ 模式分析:對(duì)模式發(fā)現(xiàn)階段得到的一些模式進(jìn)行分析,驗(yàn)證、解釋每一步驟間產(chǎn)生的模式的關(guān)聯(lián)關(guān)系。這一階段的工作可以由機(jī)器自動(dòng)完成,也可以與分析人員進(jìn)行交互來(lái)完成,主要依據(jù)模式發(fā)現(xiàn)規(guī)模來(lái)確定。

⑸ 信息整理:對(duì)經(jīng)過(guò)模式分析得到的信息進(jìn)行進(jìn)一步挖掘整理,將其應(yīng)用于Web商務(wù)中。

1.2 Web數(shù)據(jù)挖掘分類

Web挖掘技術(shù)研究至今,已有一些不同的方法,一般根據(jù)對(duì)Web數(shù)據(jù)的感興趣程度不同,可將Web數(shù)據(jù)挖掘分為Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘、Web用法挖掘三類。

⑴ Web內(nèi)容挖掘:Web內(nèi)容挖掘指從Web內(nèi)容中發(fā)現(xiàn)有用信息[2]。Web上的信息由各種類型的數(shù)據(jù)源組成,包括WWW、FTP、Telnet等,比如數(shù)字圖書(shū)館、政府信息服務(wù)、電子商務(wù)數(shù)據(jù),以及其他可以通過(guò)Web訪問(wèn)的數(shù)據(jù)庫(kù)。

⑵ Web結(jié)構(gòu)挖掘:從廣義上講,Web的結(jié)構(gòu)包含三個(gè)內(nèi)容:一是不同網(wǎng)頁(yè)間的超鏈接;二是網(wǎng)頁(yè)內(nèi)部的網(wǎng)絡(luò)地址字符串中的目錄路徑結(jié)構(gòu)信息;三是網(wǎng)頁(yè)內(nèi)部?jī)?nèi)容可以用HTML、XML表示成的樹(shù)形結(jié)構(gòu)信息[3]。

⑶ Web用法挖掘:即Web使用紀(jì)錄挖掘技術(shù)[4],在新興的電子商務(wù)領(lǐng)域有重要意義,它通過(guò)挖掘相關(guān)的Web日志紀(jì)錄,來(lái)發(fā)現(xiàn)用戶訪問(wèn)Web頁(yè)面的模式;通過(guò)分析日志紀(jì)錄中的規(guī)律,可以識(shí)別用戶的喜好與滿意度,這些分析數(shù)據(jù)可以幫助我們提高站點(diǎn)的服務(wù)質(zhì)量,同時(shí)發(fā)現(xiàn)未來(lái)潛在用戶。

2 爬蟲(chóng)原理

爬蟲(chóng)是一個(gè)用來(lái)分解Web中超文本結(jié)構(gòu)的工具,而網(wǎng)絡(luò)爬蟲(chóng)則可以認(rèn)為是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)下載網(wǎng)頁(yè),是搜索引擎的重要組成部分。一個(gè)商業(yè)網(wǎng)站的Web頁(yè)面是以超鏈接的關(guān)系存在的,這就組成了類似一張張的網(wǎng)。

網(wǎng)絡(luò)爬蟲(chóng)是通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找網(wǎng)頁(yè),從網(wǎng)站某一個(gè)頁(yè)面(通常是首頁(yè))開(kāi)始,讀取網(wǎng)頁(yè)的內(nèi)容,同時(shí)找到在網(wǎng)頁(yè)中的其他鏈接地址,通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè),這樣一直循環(huán)下去,最終把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止[5]。

假設(shè)把整個(gè)互聯(lián)網(wǎng)當(dāng)成一張網(wǎng),那么網(wǎng)絡(luò)爬蟲(chóng)就可以用這個(gè)原理在這張網(wǎng)上把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)信息都抓取下來(lái)。具體可按如下步驟。

Step1:從一個(gè)或若干初始網(wǎng)頁(yè)的網(wǎng)頁(yè)地址開(kāi)始,獲得初始網(wǎng)頁(yè)上的網(wǎng)頁(yè)地址;

Step2:不斷從當(dāng)前頁(yè)面上抽取新的地址放入隊(duì)列,直到滿足系統(tǒng)的一定條件才停止。聚焦爬蟲(chóng)的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的地址隊(duì)列;

Step3:根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè)地址;

Setp4:不斷重復(fù)步驟2-3,直到達(dá)到系統(tǒng)的某個(gè)條件發(fā)出停止指令,不再往下訪問(wèn);

Setp5:將所有被爬蟲(chóng)抓取的網(wǎng)頁(yè)存貯,并進(jìn)行一定的分析、過(guò)濾,并建立索引,以便之后的查詢和檢索。對(duì)于聚焦爬蟲(chóng)來(lái)說(shuō),這一過(guò)程所得到的分析結(jié)果還可能對(duì)以后的抓取過(guò)程給出反饋和指導(dǎo);

Setp6:任務(wù)完成。

3 基于爬蟲(chóng)內(nèi)容挖掘分析

3.1 內(nèi)容挖掘過(guò)程

同Web挖掘總體過(guò)程一樣,內(nèi)容挖掘過(guò)程由數(shù)據(jù)獲得、數(shù)據(jù)分析、數(shù)據(jù)保存、內(nèi)容挖掘四個(gè)過(guò)程組成[6],具體介紹如下。

⑴ 數(shù)據(jù)的獲得:利用爬蟲(chóng)原理對(duì)Web相應(yīng)數(shù)據(jù)進(jìn)行查找,從需要的信息起始頁(yè)開(kāi)始運(yùn)行爬蟲(chóng)程序取得數(shù)據(jù)信息,得到與商務(wù)相關(guān)的大多數(shù)Web頁(yè)面上的信息。這部分資源不僅局限于在線Web文檔資源,同時(shí)還有與其相關(guān)的電子郵件、電子文檔、新聞組,或者網(wǎng)站的日志數(shù)據(jù)資源。

⑵ 數(shù)據(jù)的分析:對(duì)Web相關(guān)數(shù)據(jù)進(jìn)行分析,在對(duì)鏈接頁(yè)面進(jìn)行搜索的過(guò)程中,經(jīng)常需要判斷信息的屬性或分析信息的價(jià)值。這一階段的數(shù)據(jù)非常多,必須在前一階段進(jìn)行分類,同時(shí)對(duì)有些數(shù)據(jù)要進(jìn)行必要的處理,不必要的必須將其刪除,否則影響分析進(jìn)程,比如一些廣告信息等并不是我們所需要的數(shù)據(jù)。

⑶ 數(shù)據(jù)的保存:通過(guò)前一過(guò)程的分析,需要把經(jīng)過(guò)分析得到有效的數(shù)據(jù)最終保存到一定數(shù)據(jù)庫(kù)(就目前針對(duì)海量數(shù)據(jù)來(lái)講,一般選擇如SQL Server2008等)當(dāng)中,目的是為了下一步最終的挖掘作準(zhǔn)備工作。

⑷ 數(shù)據(jù)挖掘:利用一定的挖掘技術(shù)對(duì)數(shù)據(jù)進(jìn)行深入分析,最終獲取有效的信息,同時(shí)對(duì)信息模式進(jìn)行相應(yīng)的分類,并對(duì)這些分類模式進(jìn)行驗(yàn)證。

3.2 網(wǎng)絡(luò)爬蟲(chóng)挖掘技術(shù)實(shí)現(xiàn)

本爬蟲(chóng)技術(shù)采用非遞歸方式來(lái)實(shí)現(xiàn)爬行過(guò)程。在實(shí)現(xiàn)過(guò)程中要構(gòu)建等待隊(duì)列、運(yùn)行隊(duì)列、完成隊(duì)列、錯(cuò)誤隊(duì)列四個(gè)隊(duì)列,需經(jīng)過(guò)三個(gè)流程[7]。

這四個(gè)隊(duì)列如下:

⑴ 等待隊(duì)列是爬蟲(chóng)初始網(wǎng)頁(yè)地址和爬蟲(chóng)程序新發(fā)現(xiàn)的網(wǎng)頁(yè)地址的集合;

⑵ 運(yùn)行隊(duì)列是爬蟲(chóng)程序正在處理的網(wǎng)頁(yè)地址的集合;

⑶ 完成隊(duì)列是已經(jīng)被爬行完成的網(wǎng)頁(yè)地址的集合;

⑷ 錯(cuò)誤隊(duì)列是爬蟲(chóng)程序在解析頁(yè)面出錯(cuò)或讀取數(shù)據(jù)超時(shí)網(wǎng)頁(yè)地址的集合。

網(wǎng)絡(luò)爬蟲(chóng)程序在執(zhí)行時(shí),同一時(shí)刻一個(gè)網(wǎng)頁(yè)地址只能在一個(gè)隊(duì)列中,我們把它稱為一個(gè)網(wǎng)頁(yè)地址狀態(tài)。程序按狀態(tài)圖從一個(gè)狀態(tài)變換到一個(gè)狀態(tài),如圖2所示。

通過(guò)圖2過(guò)程圖可以看出,一個(gè)網(wǎng)頁(yè)地址從被待處理到此網(wǎng)頁(yè)地址處理完畢要經(jīng)歷四個(gè)網(wǎng)頁(yè)地址狀態(tài)過(guò)程。首先是在等待隊(duì)列中,網(wǎng)頁(yè)地址等待被自動(dòng)機(jī)進(jìn)行處理,新發(fā)現(xiàn)的網(wǎng)頁(yè)地址被加入到這個(gè)隊(duì)列中;當(dāng)自動(dòng)機(jī)開(kāi)始處理某個(gè)網(wǎng)頁(yè)的網(wǎng)頁(yè)地址時(shí),這個(gè)網(wǎng)頁(yè)地址就被送到運(yùn)行隊(duì)列中進(jìn)行處理;在處理過(guò)程中,可能有兩種情況出現(xiàn),即這個(gè)網(wǎng)頁(yè)是否存在問(wèn)題,要根據(jù)這個(gè)問(wèn)題作出相應(yīng)的處理,如果自動(dòng)機(jī)在抓獲某個(gè)網(wǎng)頁(yè)時(shí)有問(wèn)題,那么這個(gè)網(wǎng)頁(yè)的地址將被送到錯(cuò)誤隊(duì)列,錯(cuò)誤隊(duì)列中的地址不能被移入到其他隊(duì)列中;如果自動(dòng)機(jī)成功地獲取某個(gè)網(wǎng)頁(yè),那么這個(gè)網(wǎng)頁(yè)的地址將被送到完成隊(duì)列,完成隊(duì)列中的地址也不能被移入到其他隊(duì)列中。

需要注意的是,等待隊(duì)列中的地址向運(yùn)行隊(duì)列移交過(guò)程中,需要有一個(gè)判斷,這個(gè)判斷是確定這個(gè)網(wǎng)頁(yè)是否被訪問(wèn)過(guò),若訪問(wèn)過(guò)則不能重復(fù)爬行;當(dāng)運(yùn)行隊(duì)列中一個(gè)網(wǎng)頁(yè)地址處理完成后,等待隊(duì)列中地址按照先進(jìn)先出的原則被加入到該隊(duì)列,同時(shí)隊(duì)列中相應(yīng)的地址被刪除。

4 結(jié)束語(yǔ)

電子商務(wù)正在企業(yè)和商貿(mào)領(lǐng)域中占據(jù)著越來(lái)越多的市場(chǎng)份額,Web挖掘支持網(wǎng)絡(luò)應(yīng)用,具有很強(qiáng)的平臺(tái)適應(yīng)能力,它的適用性和可移植性強(qiáng)。現(xiàn)在世界上的主要數(shù)據(jù)庫(kù)廠商紛紛開(kāi)始把數(shù)據(jù)挖掘功能集成到自己的產(chǎn)品中。作為電子商務(wù)成功的重要因素,它必將成為一種關(guān)鍵技術(shù)。

本文介紹了Web挖掘的基本流程,引入了基于圖形的爬蟲(chóng)技術(shù)挖掘方法,闡述了挖掘步驟,能有效挖掘Web有價(jià)值的數(shù)據(jù),完成挖掘任務(wù)。但由于這種技術(shù)基于圖形形式,當(dāng)面對(duì)海量數(shù)據(jù)時(shí),對(duì)圖形的掃描仍然存在一定的困難,這些問(wèn)題尚需深入分析研究。

參考文獻(xiàn):

[1] 蔡遒花,張支山.Web使用模式及其在電子商務(wù)領(lǐng)域的應(yīng)用[J].科技管理研究,2005.11:126-127

[2] 陳美榮,楊莉.基于電子商務(wù)網(wǎng)站的Web內(nèi)容挖掘[J].電子商務(wù),2008.2:149

[3] 王玉珍.基于電子商務(wù)的Web挖掘技術(shù)研究[J].北京電子科學(xué)院學(xué)報(bào),2005.4:22-25

[4] 吳海珍,鄭群明.Web記錄挖掘及其在旅游電子商務(wù)中的應(yīng)用[J].電腦學(xué)習(xí),2005.5:41-42

[5] 周建梁.聚焦爬蟲(chóng)原理及關(guān)鍵技術(shù)研究[J].科技資訊,2008.22:26

[6] 李霞.Web內(nèi)容挖掘在企業(yè)電子商務(wù)網(wǎng)站的應(yīng)用研究[J].網(wǎng)絡(luò)財(cái)富,2010.5:130

[7] 胡晟.基于網(wǎng)絡(luò)爬蟲(chóng)的Web挖掘應(yīng)用[J].軟件,2012.7:145-147

猜你喜歡
網(wǎng)絡(luò)爬蟲(chóng)
基于分布式的農(nóng)業(yè)信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
微信平臺(tái)下的教務(wù)信息獲取和隱私保護(hù)方法研究
基于網(wǎng)絡(luò)爬蟲(chóng)的電子易購(gòu)軟件設(shè)計(jì)與實(shí)現(xiàn)
搜索引擎技術(shù)的發(fā)展現(xiàn)狀與前景
煉鐵廠鐵量網(wǎng)頁(yè)數(shù)據(jù)獲取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
基于社會(huì)網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁(yè)挖掘研究
主題搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)研究
淺析如何應(yīng)對(duì)網(wǎng)絡(luò)爬蟲(chóng)流量
基于淘寶某商品銷售量監(jiān)控系統(tǒng)
網(wǎng)絡(luò)爬蟲(chóng)針對(duì)“反爬”網(wǎng)站的爬取策略研究
涞水县| 西林县| 临猗县| 柳林县| 板桥市| 安岳县| 上犹县| 江城| 濮阳县| 繁峙县| 汕尾市| 青龙| 阳曲县| 分宜县| 德阳市| 和政县| 哈巴河县| 宁津县| 桂林市| 罗平县| 出国| 个旧市| 久治县| 石屏县| 彭山县| 蕉岭县| 冷水江市| 开平市| 宁阳县| 蛟河市| 哈尔滨市| 温州市| 寻甸| 宝丰县| 黔南| 蒙山县| 固阳县| 婺源县| 临沭县| 鲁山县| 兰考县|