摘要:Web挖掘是通過挖掘Web日志記錄來發(fā)現(xiàn)客戶訪問Web頁面的模式。用戶在面對(duì)大量的網(wǎng)上信息束手無策時(shí),Web挖掘技術(shù)為用戶提供了方便快捷的解決方案。
關(guān)鍵詞:Web 挖掘;數(shù)據(jù)挖掘
引 言
近年來,Internet在不斷地普及,WWW在迅速地發(fā)展,人們可以通過網(wǎng)絡(luò)方便地得到自己需要的信息,但是網(wǎng)上信息的大量涌現(xiàn)使得用戶經(jīng)常感到束手無策,甚至常常不知道如何查找自己所需要的信息,用戶為此苦惱萬分。Web數(shù)據(jù)挖掘技術(shù)提供一個(gè)很好的解決方法,它不但可以為訪問用戶提供方便,而且對(duì)提高站點(diǎn)效率、吸引客戶等都有很大的幫助。
在現(xiàn)實(shí)當(dāng)中人們常常將Web挖掘與Web信息檢索或信息抽取等同起來。實(shí)際上它們不是等同的,并且是有區(qū)別的:一、信息檢索只能以關(guān)鍵詞去查找與關(guān)鍵字匹配的簡單目標(biāo),如果用戶給出的不是關(guān)鍵字,而是信息樣本,這時(shí)信息檢索就無法滿足用戶的要求,但是挖掘系統(tǒng)是可以滿足用戶要求的,它能夠從文本中提取出目標(biāo)信息的特征,然后根據(jù)目標(biāo)特征在網(wǎng)絡(luò)中有目的地進(jìn)行搜索,最后將搜索結(jié)果返給用戶。二、信息檢索實(shí)際上是在一定的領(lǐng)域內(nèi)對(duì)特定的信息進(jìn)行查找和檢索,在某種程度上可以看作是Web挖掘中文檔分類的一種特殊情況。三、信息檢索只是一部分使用到了數(shù)據(jù)挖掘技術(shù),正是因?yàn)檫@樣,在信息檢索中在一般情況下是很難發(fā)現(xiàn)隱式的數(shù)據(jù)聯(lián)系,而Web挖掘卻不同,它能從大量看似無關(guān)的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)聯(lián)系和知識(shí),并對(duì)于決策給予支持。
1 Web挖掘
Web挖掘是利用數(shù)據(jù)挖掘技術(shù)從Web頁面內(nèi)容、頁面之間的關(guān)系與結(jié)構(gòu)、用戶的訪問記錄等Web數(shù)據(jù)中提取滿足用戶目標(biāo)的有用知識(shí)、有用信息,以便為Web用戶的訪問提供方便或?yàn)榫W(wǎng)站經(jīng)營者改善站點(diǎn)結(jié)構(gòu)提供決策支持等[1]。Web挖掘不是一個(gè)單一的技術(shù),涉及互聯(lián)網(wǎng)技術(shù)、統(tǒng)計(jì)學(xué)、信息學(xué)等多個(gè)領(lǐng)域[2]。Web挖掘過程可分為多個(gè)處理階段:確定挖掘目標(biāo)、準(zhǔn)備源數(shù)據(jù)、數(shù)據(jù)選擇及數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘及模式識(shí)別、分析評(píng)價(jià)等階段。
傳統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)都是結(jié)構(gòu)化的數(shù)據(jù),而Web上的數(shù)據(jù)是半結(jié)構(gòu)化的,半結(jié)構(gòu)化是相對(duì)于數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)而言的。由于Web的異構(gòu)性、動(dòng)態(tài)性與開放性等特點(diǎn),要從這些分散的、沒有統(tǒng)一管理的、異構(gòu)的大量數(shù)據(jù)中準(zhǔn)確、迅速地獲取信息是Web挖掘要解決的問題,這也決定了在進(jìn)行Web挖掘時(shí)不能完全依賴于數(shù)據(jù)庫的挖掘技術(shù)。面向Web的數(shù)據(jù)挖掘比面向數(shù)據(jù)庫的數(shù)據(jù)挖掘要復(fù)雜很多,進(jìn)行Web挖掘要考慮很多問題[3]。
1.數(shù)據(jù)來源分析。進(jìn)行Web挖掘時(shí)所需要的數(shù)據(jù)主要來自于三個(gè)方面:Web服務(wù)器上記錄的訪問日志、Web服務(wù)器上的頁面所包含的信息以及客戶的相關(guān)資料信息。用戶訪問Web 站點(diǎn)時(shí),站點(diǎn)會(huì)記錄其訪問記錄。借助一些工具可以處理和分析Web服務(wù)器上的日志文件從而得到有意義、有價(jià)值的信息。Web服務(wù)器還可以記錄用戶其他的訪問信息,例如:Cookie和用戶提交的查詢信息等。與此同時(shí),服務(wù)器也記錄文件的相關(guān)屬性,例如文件的創(chuàng)建者、修改時(shí)間等。而注冊(cè)用戶的資料信息存儲(chǔ)在資料數(shù)據(jù)庫中,內(nèi)容如:客戶的姓名、年齡,對(duì)于產(chǎn)品的看法,顧客的個(gè)人偏好等。Web挖掘的一個(gè)難點(diǎn)就是如何從非結(jié)構(gòu)化數(shù)據(jù)信息中進(jìn)行有效地信息和數(shù)據(jù)挖掘。
2.異構(gòu)數(shù)據(jù)庫環(huán)境。從數(shù)據(jù)庫角度來看,Web網(wǎng)站上的信息也可以被當(dāng)作一種特殊的、復(fù)雜的數(shù)據(jù)庫。互聯(lián)網(wǎng)上的任何站點(diǎn)都是數(shù)據(jù)源,而且都是異構(gòu)的數(shù)據(jù)源,因而站點(diǎn)之間的信息和組織都是有差別的,這就構(gòu)成了一個(gè)巨大的異構(gòu)數(shù)據(jù)庫環(huán)境。如果想在這個(gè)巨大的異構(gòu)數(shù)據(jù)庫上進(jìn)行數(shù)據(jù)挖掘必須解決幾個(gè)問題。第一,必須要想辦法把這些分布的數(shù)據(jù)集成起來,只有將這些不同站點(diǎn)的數(shù)據(jù)都集成在一起,提供給用戶一個(gè)統(tǒng)一的視圖,才有可能從巨大的數(shù)據(jù)資源中獲取所需的信息或知識(shí)。第二,還要解決Web上的數(shù)據(jù)查詢問題,如果不能快速、準(zhǔn)確地查找這些數(shù)據(jù),就不能對(duì)這些數(shù)據(jù)進(jìn)行分析、集成和處理。
3.半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)庫中的數(shù)據(jù)和Web上的數(shù)據(jù)有著很大的不同,數(shù)據(jù)庫中的數(shù)據(jù)都是根據(jù)一定的數(shù)據(jù)模型來進(jìn)行具體描述的。而Web上的數(shù)據(jù)則不同,它沒有特定的數(shù)據(jù)模型來描述,各Web站點(diǎn)的數(shù)據(jù)是獨(dú)立設(shè)計(jì)出來的,之間的差異很大,并且在自述性和動(dòng)態(tài)性上也表現(xiàn)得相當(dāng)?shù)拇蟮牟町?。因而,Web上的數(shù)據(jù)的結(jié)構(gòu)性不是很強(qiáng),只能說有一定的結(jié)構(gòu)性,同時(shí)因自述層次的存在,Web上的數(shù)據(jù)是一種非完全結(jié)構(gòu)化的或者是半結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化是Web上數(shù)據(jù)的最大特點(diǎn)。
4.半結(jié)構(gòu)化的數(shù)據(jù)源問題的解決。由于數(shù)據(jù)源的特殊性,要進(jìn)行Web數(shù)據(jù)挖掘第一步就建立半結(jié)構(gòu)化數(shù)據(jù)源模型和半結(jié)構(gòu)化數(shù)據(jù)模型,解決其中的集成和查詢難題。這就必須要建立一個(gè)模型來來對(duì)Web上的數(shù)據(jù)進(jìn)行描述。Web上的半結(jié)構(gòu)化的數(shù)據(jù)需要定義一個(gè)半結(jié)構(gòu)化的數(shù)據(jù)模型和模型的抽取技術(shù)來對(duì)現(xiàn)有數(shù)據(jù)自動(dòng)地的抽取半結(jié)構(gòu)化模型。面向Web數(shù)據(jù)挖掘的前提條件就是半結(jié)構(gòu)化模型和半結(jié)構(gòu)化數(shù)據(jù)模型抽取技術(shù)這種技術(shù)。
Web挖掘的基本構(gòu)架如下圖所示:
2 Web數(shù)據(jù)挖掘中的常用技術(shù)
常用的Web數(shù)據(jù)挖掘中技術(shù)包括:路徑分析技術(shù),關(guān)聯(lián)規(guī)則挖掘技術(shù)、序列模式挖掘技術(shù)和聚類分類技術(shù)等[3]。下面對(duì)它們進(jìn)行簡單的分析:
1.路徑分析技術(shù)
對(duì)Web數(shù)據(jù)挖掘時(shí),路徑分析技術(shù)比較常用的是運(yùn)用圖的方法。因?yàn)槲覀兛梢杂靡粋€(gè)有向圖來表示W(wǎng)eb站點(diǎn),即:G=(P,I),P代表了頁面的集合,每一個(gè)頂點(diǎn)就是一個(gè)頁面,I表示的事頁面之間的超連接的集合,有向圖中的邊被定義為頁面之間的超鏈接。以頂點(diǎn)v為頭的邊來表示對(duì)v的引用,以頂點(diǎn)v為尾的邊定義為v引用了其他的頁面值,這樣形成網(wǎng)站結(jié)構(gòu)圖[4]。
2.關(guān)聯(lián)規(guī)則挖掘技術(shù)
數(shù)據(jù)挖掘中最常用、最易被人們所接受的研究方法就是關(guān)聯(lián)規(guī)則挖掘。使用關(guān)聯(lián)規(guī)則技術(shù)可以從Web訪問事務(wù)中找到有價(jià)值的知識(shí),這些有價(jià)值的知識(shí)是隱藏在數(shù)據(jù)集中的,是事先未知的,不是簡單通過數(shù)據(jù)庫的邏輯操作可以推出的,需要經(jīng)過仔細(xì)分析才能得到。例如:75%的用戶在訪問頁面A的同時(shí)也訪問了頁面B,A與B之間的關(guān)聯(lián)性就屬于隱式的知識(shí)。最常用的是用APRIOR算法,從事務(wù)數(shù)據(jù)庫中挖掘出最大頻繁訪問項(xiàng)集,它就是挖掘出來的用戶訪問模式。
3.序列模式挖掘技術(shù)
序列模式是指在時(shí)間有序的事務(wù)集上找出那些時(shí)間上有先后次序的數(shù)據(jù)項(xiàng),也就是尋找那些形如“一些項(xiàng)跟在另一些項(xiàng)后面”的內(nèi)部事務(wù)模式。例如:訪問過頁面A的客戶中有60%的人在上一禮拜內(nèi)也訪問過與頁面A相似的頁面B。發(fā)現(xiàn)序列模式可以預(yù)測用戶的訪問興趣。
4.聚類分類技術(shù)[4]
分類規(guī)則可以挖掘出識(shí)別特殊群體的公共特性的描述,這個(gè)特性可以用來對(duì)數(shù)據(jù)庫里的新數(shù)據(jù)項(xiàng)進(jìn)行分類。分類算法的研究比較多,常用的算法有:CART 、C4.5、 ID3等。聚類是將物理的或抽象的對(duì)象分為幾個(gè)組或群體,每個(gè)組內(nèi)的對(duì)象很相似,不同組內(nèi)的對(duì)象不相似,與分類最大的不同是事先并不知道類結(jié)構(gòu)及每個(gè)對(duì)象所屬的類。聚類技術(shù)則是對(duì)符合某一規(guī)律特征訪問的用戶進(jìn)行用戶特征挖掘。最后進(jìn)行模式分析,挖掘出人們可理解的知識(shí)的模式解釋。
3 結(jié)語
隨著互聯(lián)網(wǎng)應(yīng)用業(yè)務(wù)的不斷展開,互聯(lián)網(wǎng)已經(jīng)發(fā)展成為商業(yè)、政府等機(jī)構(gòu)從事業(yè)務(wù)和信息傳播的重要渠道。建立互聯(lián)網(wǎng)動(dòng)態(tài)應(yīng)用模型,已經(jīng)成為互聯(lián)網(wǎng)應(yīng)用中最活躍的研究領(lǐng)域之一。Web挖掘是利用數(shù)據(jù)挖掘技術(shù)從Web頁面內(nèi)容、頁面之間的關(guān)系與結(jié)構(gòu)、用戶的訪問記錄等Web數(shù)據(jù)中提取來滿足用戶目標(biāo)的有用知識(shí)、有用信息的。通過分析和探究Web日志記錄中的規(guī)律,可識(shí)別網(wǎng)站的潛在客戶,增強(qiáng)對(duì)最終客戶的國際網(wǎng)絡(luò)信息服務(wù)品質(zhì),并改進(jìn)Web站點(diǎn)的結(jié)構(gòu)、運(yùn)營形式、Web服務(wù)器系統(tǒng)的性能和結(jié)構(gòu)。
參考文獻(xiàn)
[1] Perkowitz M, Etzioni 0.Adaptive sites: automatically learning from user access patterns.6th Int. World Wide Web Conf.SantaClara, Califormia, 1997
[2] Hahn U,Schnattinger K.Deep Knowledge discovery from natural language texts.In Proc Of the 3rd Intl Conf on Knowledge Discovery and Data Mining.New port Beach,1997,pp.175-178
[3] Tan P N,Steinbach M,Kumar V.《數(shù)據(jù)挖掘?qū)д摗?范明等譯.北京:人民郵電出版社,2006年第95頁
[4] 王欣如:《基于關(guān)聯(lián)規(guī)則的Web日志挖掘技術(shù)研究》[D],《重慶大學(xué)碩士學(xué)位論文》,2007年。
作者簡介:
鄧紅梅(1977-),女(漢),廣東省輕工業(yè)高級(jí)技工學(xué)校教師,研究方向:計(jì)算機(jī)科學(xué)與技術(shù)。