裴大容
摘要:應(yīng)用Web日志挖掘技術(shù)獲取用戶訪問模式,對于電子商務(wù)網(wǎng)站的生存發(fā)展是十分有利的。Web日志 挖掘可以幫助指導(dǎo)站點(diǎn)改進(jìn)服務(wù)、調(diào)整結(jié)構(gòu)和實(shí)施有針對性的、個(gè)性化的商業(yè)行為,以便更好的滿足訪問者的需要,從而提高網(wǎng)站交易的成功率。本文通過對Web日志挖掘的分析,提出了Web日志挖掘應(yīng)用系統(tǒng)模型和相關(guān)的關(guān)鍵算法。實(shí)踐證明,該模型和方法能夠有效服務(wù)于網(wǎng)站優(yōu)化
關(guān)鍵詞:Web日志挖掘;網(wǎng)站優(yōu)化
中圖法分類號(hào):F724.6文獻(xiàn)標(biāo)識(shí)碼:A
1Web日志挖掘技術(shù)及應(yīng)用分析
Internet是信息社會(huì)的重要標(biāo)志,它的爆炸式的發(fā)展已經(jīng)超出人們預(yù)期的想象,為了更好的分析Web的使用和Web的結(jié)構(gòu),Web日志挖掘作為數(shù)據(jù)挖掘[1]的一個(gè)重要分支,隨著Web的發(fā)展而出現(xiàn)。1997年R.Cooley首先提出Web使用(日志)挖掘這個(gè)概念,它通過挖掘Web站點(diǎn)的訪問日志,分析Web日志中存在的規(guī)律,掌握用戶訪問站點(diǎn)的模式;從而幫助網(wǎng)站管理者識(shí)別潛在的客戶、更好地開展電子商務(wù)、改善Internet的信息服務(wù)質(zhì)量和提高Web服務(wù)器的系統(tǒng)性能。
Web 日志挖掘[2]作為數(shù)據(jù)挖掘的一個(gè)重要分支,已經(jīng)成為國際上一個(gè)新興的重要研究領(lǐng)域。其中最有代表性的是 WEBKDD 會(huì)議,從 1999 年到現(xiàn)在,WEBKDD已經(jīng)涌現(xiàn)了豐碩的成果。比較有代表性的研究成果有:Simon Fraser 大學(xué)的Weblog Miner系統(tǒng),它將 Web 日志數(shù)據(jù)組織為數(shù)據(jù)立方體,然后在其上進(jìn)行聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘[3],用于發(fā)現(xiàn)用戶的訪問模式。Minnesota 大學(xué)的 WEBMINER 系統(tǒng)提出一種通用的 Web 日志挖掘的體系結(jié)構(gòu),該系統(tǒng)能自動(dòng)從 Web 日志中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則和序列模式等。
Web 日志挖掘的研究主要應(yīng)用于網(wǎng)站優(yōu)化的以下幾個(gè)領(lǐng)域。
1.1頻繁訪問模式挖掘,指的是從 Web 日志中找到頻繁被訪問的網(wǎng)頁序列,對被頻繁訪問的網(wǎng)頁路徑進(jìn)行挖掘可以改進(jìn) Web 站點(diǎn)的結(jié)構(gòu)設(shè)計(jì),也可以為網(wǎng)站經(jīng)營者提供決策參考。
1.2用戶聚類,指的是從 Web 日志中找到訪問模式相似的網(wǎng)站用戶群,發(fā)現(xiàn)這些網(wǎng)站用戶的共同特點(diǎn)。
1.3用戶訪問預(yù)測的研究,指的是根據(jù)用戶當(dāng)前的訪問路徑預(yù)測用戶將來的訪問頁面。
1.4優(yōu)化客戶訪問體驗(yàn)和提高網(wǎng)站收益:通過對客戶的訪問模式進(jìn)行挖掘,可以發(fā)現(xiàn)潛在客戶,對于一個(gè)電子商務(wù)網(wǎng)站來說,盡可能從眾多的訪問者中發(fā)現(xiàn)潛在客戶群體,就意味著交易可能性的大大增加;同時(shí)通過Web日志數(shù)據(jù)挖掘,增加網(wǎng)站對客戶的粘性,延長客戶在自己網(wǎng)站上的駐留時(shí)間,就更容易掌握客戶的瀏覽行為,改進(jìn)站點(diǎn)的設(shè)計(jì),提高電子商務(wù)的效益。
要在網(wǎng)站優(yōu)化中具體應(yīng)用Web日志挖掘技術(shù),有兩個(gè)重點(diǎn)問題要解決,一個(gè)是建立Web日志挖掘應(yīng)用系統(tǒng)模型,一個(gè)是采用適當(dāng)?shù)乃惴▽A繑?shù)據(jù)進(jìn)行精確分析。本文將對這兩方面的問題做一個(gè)闡述。
2面向電子商務(wù)的Web日志挖掘應(yīng)用系統(tǒng)模型
面向電子商務(wù)的 Web日志挖掘系統(tǒng)模型主要有三個(gè)部分:數(shù)據(jù)庫、數(shù)據(jù)挖掘集成工具和圖形用戶界面(GUI)模塊。整個(gè)系統(tǒng)的結(jié)構(gòu)如圖1所示。
在該模型下,用相關(guān)的關(guān)系型數(shù)據(jù)源創(chuàng)建數(shù)據(jù)庫,并通過圖形用戶界面進(jìn)行管理和維護(hù),在此基礎(chǔ)之上支持各種數(shù)據(jù)挖掘任務(wù)、為數(shù)據(jù)挖掘提供數(shù)據(jù)平臺(tái)。數(shù)據(jù)挖掘集成工具是一個(gè)挖掘驅(qū)動(dòng)引擎,它是一個(gè)規(guī)則集合,能夠集成多種數(shù)據(jù)挖掘算法,到Web數(shù)據(jù)挖掘算法庫中選擇最有效的挖掘算法處理數(shù)據(jù)挖掘和決策推理工作,完整的挖掘數(shù)據(jù)預(yù)處理過程包含:數(shù)據(jù)凈化、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充、事務(wù)識(shí)別等幾個(gè)步驟。圖形用戶界面(GUI)用于用戶與系統(tǒng)的交互,用戶通過 GUI 建立和執(zhí)行任務(wù),完成各項(xiàng)數(shù)據(jù)挖掘任務(wù),一般執(zhí)行數(shù)據(jù)挖掘任務(wù)得到的結(jié)果往往是一些抽象的模型或者數(shù)據(jù),一般用戶較難理解,GUI可以幫助用戶直觀明了地理解挖掘結(jié)果,管理人員可以通過瀏覽器方式實(shí)現(xiàn)系統(tǒng)管理,對數(shù)據(jù)挖掘發(fā)現(xiàn)的模式進(jìn)行解釋和評(píng)價(jià),過濾出有用的知識(shí),利用可視化技術(shù)將有意義的模式以圖形或邏輯可視化的形式表示。
在該模型下進(jìn)一步拓展,可以建立相關(guān)的專家方法驅(qū)動(dòng)系統(tǒng)。其主要功能是利用挖掘出來的高價(jià)值信息去進(jìn)行相應(yīng)的應(yīng)用。其中,頁面訪問情況可以用來指導(dǎo)網(wǎng)頁的重構(gòu),分析出的客戶消費(fèi)行為模式可以作為反饋信息,以客戶關(guān)系管理的方式對客戶進(jìn)行直接的點(diǎn)到點(diǎn)促銷;根據(jù)客戶的訪問模式,還可以給出客戶的定制化頁面,針對不同的消費(fèi)需求制定不同的促銷模式等。
3應(yīng)用于電子商務(wù)網(wǎng)站優(yōu)化的頻繁路徑挖掘算法
對Web站點(diǎn)的優(yōu)化可從兩個(gè)方面來考慮:一是通過對Web日志的挖掘,發(fā)現(xiàn)用戶訪問頁面的相關(guān)性,從而在密切聯(lián)系的頁面之間增加鏈接,方便用戶使用;二是通過對Web日志的挖掘,發(fā)現(xiàn)用戶的期望位置,如果在期望位置的訪問頻率高于實(shí)際位置的訪問頻率,可考慮在期望位置和實(shí)際位置之間建立導(dǎo)航鏈接,從而實(shí)現(xiàn)對Web站點(diǎn)的優(yōu)化。無論是出于哪方面的,都要通過Web日志挖掘,分析用戶訪問路徑來獲取用戶的瀏覽模式,這部分工作主要依靠頻繁路徑的挖掘來完成。可以說,對網(wǎng)站頻繁路徑的挖掘是網(wǎng)站優(yōu)化工作的基礎(chǔ)。本文重點(diǎn)對網(wǎng)站頻繁路徑的挖掘算法做一分析。
挖掘頻繁訪問路徑的主要步驟可以概括如下:
3.1從原始日志文件中獲得 MFP
3.2從 MFP 中獲得頻繁引用序列
3.3從所有頻繁引用序列中獲得最大引用序列
其中MFP指的是最大前向路徑。由于用戶會(huì)話在遍歷路徑時(shí)存在兩個(gè)移動(dòng)方向,一個(gè)是前進(jìn),即請求頁面是此前用戶會(huì)話中從未訪問過的頁面,另一個(gè)是后退,即請求頁面是用戶會(huì)話中已經(jīng)訪問過的頁面。最大前向路徑是用戶在會(huì)話的第一頁到回退的前一頁組成的路徑。
我們首先要獲得MFP,獲得MFP 算法的主要思想是:
假設(shè){x1,x2,…,xm}表示一個(gè)用戶會(huì)話,{y1,y2,…,yj-1}表示一個(gè)潛在的 MFP,初始為空。Flag標(biāo)識(shí)當(dāng)前的訪問方向是前進(jìn)還是后退。每次檢查用戶會(huì)話中的xi,試圖將其擴(kuò)充到潛在MFP中。
(1)若xi∈{y1,y2,…,yj-1},則xi將作為yj加入潛在MFP中,并且將flag標(biāo)記為前進(jìn);
(2)否則有xi=yk,其中1≤k 若在此之前,F(xiàn)lag 表明的移動(dòng)方向是前進(jìn)。則將{y1,y2,…,yj-1}作為一個(gè)MFP 加入到結(jié)果集合。然后從潛在 MFP 中刪除頁面{yk+1,…,yj-1}。并設(shè)Flag 為向后移動(dòng)標(biāo)志,進(jìn)入下一輪循環(huán)。 若Flag 表明的移動(dòng)方向是后退時(shí),則此時(shí)的{y1,y2,…,yj-1}不是MFP,直接刪除頁面{yk+1,…,yj-1},進(jìn)入下一輪循環(huán)。 3)如果循環(huán)到用戶會(huì)話中的最后一頁,F(xiàn)lag 標(biāo)志仍表明向前,則此時(shí){y1,y2,…,yj-1}是一個(gè) MFP。 MFP算法的偽代碼如下: for 每個(gè)用戶會(huì)話 { y1=x1; j=2; i=2; Flag = true; while(i≤m) { Found = false; for 1≤k { if(xi=yk) { if(Flag = true) 將{y1,y2,…,yj-1}作為MFP 輸出;
j=k+1;
++i;
Flag=false;
Found=true;
}
}
if( !Found )
{
yj=xi;
++j;
++i;
Flag=true;
}
}
if(Flag=true) 將{y1,y2,…,yj-1}作為MFP輸出;
}
接下來我們需要從MFP中找出所有頻繁遍歷路徑,本文提供一種基于Apriori 算法的改進(jìn)方案,具體描述如下:
#1C1={所有的包含一個(gè)頁面的引用}
#2L1={c∈C1 |c.count≥min_sup}
#3for(i=2;Li-1≠Φ;++i){
#4Ci=Generate_C(Li-1,)
#5for each MFPt∈D{
#6 Ct=Generate_Subset(Ci, t)
#7 for each c∈Ct
#8 c.count++;
#10}
#11 Li={c∈Ci | c.count≥min_sup}
#12result=result∪Li
#13 }
其中: D表示事務(wù)數(shù)據(jù)庫;min_sup表示給定的最小支持度;result 表示所有的頻繁引用集;c.count表示引用c在事務(wù)數(shù)據(jù)庫D中被包含的次數(shù)。第一行#1是產(chǎn)生所有只含一個(gè)頁面的引用出現(xiàn)的次數(shù),第二行#2通過C1和最小支持度min_sup產(chǎn)生頻繁1引用集L1。#3-#13行通過一個(gè)大的循環(huán)完成頻繁引用的生成,直到某個(gè)頻繁引用集合為空。
該算法非常有效而且快速,整個(gè)過程只要遍歷兩次數(shù)據(jù)庫。通過實(shí)際網(wǎng)站優(yōu)化的案例來看,其分析的聚類結(jié)果是比較符合客觀事實(shí)的。
4結(jié)束語
通過Web數(shù)據(jù)挖掘,我們可以從數(shù)以億計(jì)的存儲(chǔ)大量多種多樣信息的Web頁面中提取出我們需要的有用的知識(shí),在對總的用戶訪問行為、頻度、內(nèi)容等的分析基礎(chǔ)上,可以得到關(guān)于群體用戶訪問行為和方式的普遍知識(shí),通過對這些用戶特征的理解和分析, 可以有助于開展有針對性的電子商務(wù)活動(dòng), 給每個(gè)用戶個(gè)性化的界面,提供個(gè)性化的電子商務(wù)服務(wù)。
本文提出了一種有效算法,該算法通過改進(jìn)經(jīng)典的關(guān)聯(lián)規(guī)則中的 Apriori 算法,實(shí)現(xiàn)了最大頻繁引用序列的挖掘過程。在挖掘最大頻繁引用序列的基礎(chǔ)上進(jìn)行電子商務(wù)網(wǎng)站優(yōu)化,不僅可以提高訪問者的查詢速度, 節(jié)省了不必要的網(wǎng)絡(luò)開銷,而且對于提高網(wǎng)站自身的質(zhì)量和聲譽(yù)也是大有裨益的。
參考文獻(xiàn):
[1]J.Han and M. Kamber,Data Mining:concepts and techniques,2006.
[2]韓家煒,孟小峰,李盛思.WEB挖掘研究.計(jì)算機(jī)研究與發(fā)展,2001,38(4):405-414.
[3]林杰斌.數(shù)據(jù)挖掘與OLAP.清華大學(xué)出版社,2003(1).