姚 建 馬世軍 喬 文
[摘要]Web日志挖掘技術(shù)是Web數(shù)據(jù)挖掘中最重要的應(yīng)用。通過對(duì)挖掘服務(wù)器日志文件的分析和研究,可以對(duì)網(wǎng)站的組織結(jié)構(gòu)及其性能進(jìn)行改進(jìn),增加個(gè)性化服務(wù),發(fā)現(xiàn)潛在的讀者群體。數(shù)據(jù)預(yù)處理關(guān)系到Web日志挖掘的質(zhì)量。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清理、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充、格式化數(shù)據(jù)。
[關(guān)鍵詞]數(shù)據(jù)挖掘Web日志挖掘數(shù)據(jù)預(yù)處理
中圖分類號(hào):TP3文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1671-7597(2009)0710035-01
一、引言
目前,基于Web日志的數(shù)據(jù)挖掘研究大致分為3類:以分析系統(tǒng)性能為目標(biāo),以改進(jìn)系統(tǒng)設(shè)計(jì)為目標(biāo),以理解用戶意圖為目標(biāo)。Web日志挖掘主要分為3個(gè)步驟:
1.數(shù)據(jù)預(yù)處理。根據(jù)挖掘的目的,對(duì)原始Web日志文件中的數(shù)據(jù)進(jìn)行提取,分解,合并,最后轉(zhuǎn)換為適合進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)格式,并保存到關(guān)系型數(shù)據(jù)庫表或數(shù)據(jù)倉庫中,等待進(jìn)一步處理。
2.模式識(shí)別。運(yùn)用各種算法對(duì)處理后的數(shù)據(jù)進(jìn)行挖掘,生成模式。
3.模式分析。進(jìn)行用戶訪問模式的分析,從而將有價(jià)值的模式提取出來。數(shù)據(jù)預(yù)處理這個(gè)環(huán)節(jié)是整個(gè)過程的基礎(chǔ)和實(shí)施有效挖掘算法的前提,在Web日志挖掘中起著非常重要的作用。他是從大量的數(shù)據(jù)屬性中提取出對(duì)目標(biāo)有重要影響的屬性來降低原始數(shù)據(jù)的維數(shù),或者是處理一些不好的數(shù)據(jù),從而改善實(shí)例數(shù)據(jù)的質(zhì)量和提高數(shù)據(jù)挖掘的速度。
二、Web日志文件
Web日志文件是Web服務(wù)器上用以記錄用戶訪問頁面情況的文件。日志記錄最主要的記錄了什么人在什么時(shí)候?yàn)g覽了哪些內(nèi)容、網(wǎng)站的流量和訪問者信息等。不同Web服務(wù)器產(chǎn)品的日志記錄格式不同,但通常日志文件都包括訪問者IP或者域名、瀏覽器類型、操作系統(tǒng)訪問時(shí)間、訪問方式(GET/POST)、訪問頁面協(xié)議、錯(cuò)誤代碼以及傳輸?shù)淖止?jié)數(shù)等信息。
表2.1訪問日志、引用日志、代理日志的例子
訪問日志一般包括:IP地址、請(qǐng)求時(shí)間、方法(如GET,POST)、被請(qǐng)求文件的URL、HTTP版本號(hào)、返回碼、傳輸字節(jié)數(shù)。表2.1的訪問日志表示從IP地址為202.117.1.2來的用戶請(qǐng)求傳輸文件resource.html,使用的傳輸協(xié)議是HTTP1.1。用戶也許并沒有登錄在IP地址為202.117.1.2的機(jī)器上,可能只是把這臺(tái)機(jī)器當(dāng)作代理服務(wù)器或網(wǎng)關(guān)。本次請(qǐng)求成功傳輸782字節(jié),200為返回碼。
引用日志記錄了用戶發(fā)出當(dāng)前請(qǐng)求時(shí)所在頁面的URL,表2.1的引用日志表示用戶當(dāng)前請(qǐng)求頁面“resource.html”,用戶發(fā)出這個(gè)請(qǐng)求是通過點(diǎn)擊http://cjc.lytu.edu.cn/flink/left.htm頁面上的某個(gè)超鏈接或者瀏覽器自動(dòng)下載這個(gè)頁面所包含的附屬文件。
代理日志記錄用戶使用的操作系統(tǒng)以及瀏覽器類型引用日志。表2.1的代理日志表示客戶端的操作系統(tǒng)為WindowsNT,瀏覽器為微軟的IE5.01。
三、Web日志數(shù)據(jù)預(yù)處理過程
由于日志記錄和HTTP協(xié)議的自身原因,日志數(shù)據(jù)是雜亂的,Web日志預(yù)處理是在Web日志挖掘前,對(duì)Web日志所記錄的數(shù)據(jù)進(jìn)行清理、過濾以及重新組合的過程。Web日志預(yù)處理的目的是剔除日志中對(duì)挖掘過程無用的屬性及數(shù)據(jù),并將Web日志數(shù)據(jù)轉(zhuǎn)換為挖掘算法可識(shí)別的保存形式。
1.數(shù)據(jù)清理。數(shù)據(jù)預(yù)處理的首要任務(wù)就是數(shù)據(jù)清理。數(shù)據(jù)清理就是去掉Web日志中一些不能反映用戶行為的記錄,Web日志挖掘的目的是獲得用戶的行為模式,并不關(guān)心那些用戶沒有直接請(qǐng)求的文件。只有當(dāng)服務(wù)器日志表示的數(shù)據(jù)能夠準(zhǔn)確的反映用戶訪問Web站點(diǎn)的情況時(shí),經(jīng)過挖掘得到的模式規(guī)則才是真正有用的。
2.用戶識(shí)別。接下來,唯一的用戶必須被標(biāo)識(shí)出來,也就是說要識(shí)別出來具體的用戶。這一任務(wù)因?yàn)楸镜鼐彺?、公司防火墻和代理服?wù)器的存在變得復(fù)雜。依賴用戶的合作是最好的解決方法,但是由于涉及到隱私,這種解決辦法往往難以進(jìn)行。一般最常被Web日志挖掘工具使用的技術(shù)就是基于日志/站點(diǎn)的方法,并輔助一些啟發(fā)式規(guī)則幫助識(shí)別用戶。
3.會(huì)話識(shí)別。對(duì)于上一步標(biāo)識(shí)出的用戶所有的訪問序列,它們可能超越了很長(zhǎng)的時(shí)間段,因此可能用戶在這個(gè)時(shí)間段內(nèi)不止一次訪問了該網(wǎng)站。會(huì)話識(shí)別的目的就是將用戶的所有訪問序列分成多個(gè)單獨(dú)的用戶一次訪問序列。為了獲得這個(gè)劃分,一個(gè)最簡(jiǎn)單的方法就是定義一個(gè)時(shí)間段,如果用戶請(qǐng)求的相鄰的任意兩個(gè)頁面之間的訪問時(shí)間間隔超過了這個(gè)時(shí)間段,則認(rèn)為用戶又開始了一個(gè)新的會(huì)話,許多商業(yè)數(shù)據(jù)挖掘軟件將缺省超時(shí)值確定為30分鐘,超時(shí)的界限可以根據(jù)站點(diǎn)的使用統(tǒng)計(jì)反饋的結(jié)果進(jìn)行調(diào)節(jié),直到可以更準(zhǔn)確地識(shí)別會(huì)話。
4.路徑補(bǔ)充。檢查引用日志確定當(dāng)前請(qǐng)求來自哪一頁,如果在用戶的歷史記錄上有多個(gè)頁面都包含與當(dāng)前請(qǐng)求頁的鏈接,則將請(qǐng)求時(shí)間最接近當(dāng)前請(qǐng)求頁的頁面作為當(dāng)前請(qǐng)求的來源。若引用日志不完整,可以使用站點(diǎn)的拓?fù)浣Y(jié)構(gòu)代替。通過這種方法將遺漏的頁面請(qǐng)求添加到用戶的會(huì)話文件中。
5.事務(wù)識(shí)別。事務(wù)識(shí)別是對(duì)用戶會(huì)話進(jìn)行語義分組分割后事務(wù)的具體意義是:用戶為獲得一項(xiàng)有意義的信息所點(diǎn)擊的頁面序列。
6.格式化數(shù)據(jù)。一旦得到一組事務(wù)集后,我們需要處理結(jié)果表示城市和挖掘需要的形式。例如,時(shí)間屬性對(duì)于關(guān)聯(lián)規(guī)則挖掘是沒有什么作用的,我們可以忽略元組中的時(shí)間屬性,而把它格式化成適合于關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的形式。上面已經(jīng)詳細(xì)介紹了Web日志數(shù)據(jù)預(yù)處理的過程及采用的技術(shù),在實(shí)際的應(yīng)用中,可以根據(jù)挖掘任務(wù)的需要,對(duì)數(shù)據(jù)預(yù)處理過程進(jìn)行簡(jiǎn)化或者細(xì)化。
四、結(jié)束語
數(shù)據(jù)的預(yù)處理工作是至關(guān)重要的一步。他既要保證信息無失真的轉(zhuǎn)換,又要保證過濾刪除掉某些對(duì)以后挖掘無影響的數(shù)據(jù)。針對(duì)一般的Web日志挖掘,提出了一種通用的Web日志挖掘的數(shù)據(jù)預(yù)處理模型,他可以針對(duì)不同類型的Web日志挖掘,實(shí)現(xiàn)數(shù)據(jù)的預(yù)處理工作。
參考文獻(xiàn):
[1]Mark Sweiger,Mark R Madsen.Clickst ream Data Warehousing[M].北京:電子工業(yè)出版社,2004:36-39.
[2]段曉峰、熊忠陽,網(wǎng)站日志的數(shù)據(jù)挖掘[D].重慶:重慶大學(xué),2003.