Ｗｅｂ日志挖掘技術(shù)在電子商務(wù)網(wǎng)站優(yōu)化中的應(yīng)用

2009-09-19 05:36裴大容

科技經(jīng)濟(jì)市場 2009年7期

裴大容

摘要:應(yīng)用Web日志挖掘技術(shù)獲取用戶訪問模式，對于電子商務(wù)網(wǎng)站的生存發(fā)展是十分有利的。Web日志挖掘可以幫助指導(dǎo)站點(diǎn)改進(jìn)服務(wù)、調(diào)整結(jié)構(gòu)和實(shí)施有針對性的、個(gè)性化的商業(yè)行為，以便更好的滿足訪問者的需要，從而提高網(wǎng)站交易的成功率。本文通過對Web日志挖掘的分析，提出了Web日志挖掘應(yīng)用系統(tǒng)模型和相關(guān)的關(guān)鍵算法。實(shí)踐證明，該模型和方法能夠有效服務(wù)于網(wǎng)站優(yōu)化

關(guān)鍵詞:Web日志挖掘;網(wǎng)站優(yōu)化

中圖法分類號(hào):F724.6文獻(xiàn)標(biāo)識(shí)碼:A

1Web日志挖掘技術(shù)及應(yīng)用分析

Internet是信息社會(huì)的重要標(biāo)志，它的爆炸式的發(fā)展已經(jīng)超出人們預(yù)期的想象，為了更好的分析Web的使用和Web的結(jié)構(gòu)，Web日志挖掘作為數(shù)據(jù)挖掘[1]的一個(gè)重要分支，隨著Web的發(fā)展而出現(xiàn)。1997年R.Cooley首先提出Web使用（日志）挖掘這個(gè)概念，它通過挖掘Web站點(diǎn)的訪問日志，分析Web日志中存在的規(guī)律，掌握用戶訪問站點(diǎn)的模式；從而幫助網(wǎng)站管理者識(shí)別潛在的客戶、更好地開展電子商務(wù)、改善Internet的信息服務(wù)質(zhì)量和提高Web服務(wù)器的系統(tǒng)性能。

Web 日志挖掘[2]作為數(shù)據(jù)挖掘的一個(gè)重要分支，已經(jīng)成為國際上一個(gè)新興的重要研究領(lǐng)域。其中最有代表性的是 WEBKDD 會(huì)議，從 1999 年到現(xiàn)在，WEBKDD已經(jīng)涌現(xiàn)了豐碩的成果。比較有代表性的研究成果有：Simon Fraser 大學(xué)的Weblog Miner系統(tǒng)，它將 Web 日志數(shù)據(jù)組織為數(shù)據(jù)立方體，然后在其上進(jìn)行聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘[3]，用于發(fā)現(xiàn)用戶的訪問模式。Minnesota 大學(xué)的 WEBMINER 系統(tǒng)提出一種通用的 Web 日志挖掘的體系結(jié)構(gòu)，該系統(tǒng)能自動(dòng)從 Web 日志中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則和序列模式等。

Web 日志挖掘的研究主要應(yīng)用于網(wǎng)站優(yōu)化的以下幾個(gè)領(lǐng)域。

1.1頻繁訪問模式挖掘，指的是從 Web 日志中找到頻繁被訪問的網(wǎng)頁序列，對被頻繁訪問的網(wǎng)頁路徑進(jìn)行挖掘可以改進(jìn) Web 站點(diǎn)的結(jié)構(gòu)設(shè)計(jì)，也可以為網(wǎng)站經(jīng)營者提供決策參考。

1.2用戶聚類，指的是從 Web 日志中找到訪問模式相似的網(wǎng)站用戶群，發(fā)現(xiàn)這些網(wǎng)站用戶的共同特點(diǎn)。

1.3用戶訪問預(yù)測的研究，指的是根據(jù)用戶當(dāng)前的訪問路徑預(yù)測用戶將來的訪問頁面。

1.4優(yōu)化客戶訪問體驗(yàn)和提高網(wǎng)站收益：通過對客戶的訪問模式進(jìn)行挖掘，可以發(fā)現(xiàn)潛在客戶，對于一個(gè)電子商務(wù)網(wǎng)站來說，盡可能從眾多的訪問者中發(fā)現(xiàn)潛在客戶群體，就意味著交易可能性的大大增加；同時(shí)通過Web日志數(shù)據(jù)挖掘，增加網(wǎng)站對客戶的粘性，延長客戶在自己網(wǎng)站上的駐留時(shí)間，就更容易掌握客戶的瀏覽行為，改進(jìn)站點(diǎn)的設(shè)計(jì)，提高電子商務(wù)的效益。

要在網(wǎng)站優(yōu)化中具體應(yīng)用Web日志挖掘技術(shù)，有兩個(gè)重點(diǎn)問題要解決，一個(gè)是建立Web日志挖掘應(yīng)用系統(tǒng)模型，一個(gè)是采用適當(dāng)?shù)乃惴▽Ａ繑?shù)據(jù)進(jìn)行精確分析。本文將對這兩方面的問題做一個(gè)闡述。

2面向電子商務(wù)的Web日志挖掘應(yīng)用系統(tǒng)模型

面向電子商務(wù)的 Web日志挖掘系統(tǒng)模型主要有三個(gè)部分:數(shù)據(jù)庫、數(shù)據(jù)挖掘集成工具和圖形用戶界面(GUI)模塊。整個(gè)系統(tǒng)的結(jié)構(gòu)如圖1所示。

在該模型下，用相關(guān)的關(guān)系型數(shù)據(jù)源創(chuàng)建數(shù)據(jù)庫，并通過圖形用戶界面進(jìn)行管理和維護(hù)，在此基礎(chǔ)之上支持各種數(shù)據(jù)挖掘任務(wù)、為數(shù)據(jù)挖掘提供數(shù)據(jù)平臺(tái)。數(shù)據(jù)挖掘集成工具是一個(gè)挖掘驅(qū)動(dòng)引擎，它是一個(gè)規(guī)則集合，能夠集成多種數(shù)據(jù)挖掘算法，到Web數(shù)據(jù)挖掘算法庫中選擇最有效的挖掘算法處理數(shù)據(jù)挖掘和決策推理工作，完整的挖掘數(shù)據(jù)預(yù)處理過程包含：數(shù)據(jù)凈化、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充、事務(wù)識(shí)別等幾個(gè)步驟。圖形用戶界面(GUI)用于用戶與系統(tǒng)的交互，用戶通過 GUI 建立和執(zhí)行任務(wù)，完成各項(xiàng)數(shù)據(jù)挖掘任務(wù)，一般執(zhí)行數(shù)據(jù)挖掘任務(wù)得到的結(jié)果往往是一些抽象的模型或者數(shù)據(jù)，一般用戶較難理解，GUI可以幫助用戶直觀明了地理解挖掘結(jié)果，管理人員可以通過瀏覽器方式實(shí)現(xiàn)系統(tǒng)管理，對數(shù)據(jù)挖掘發(fā)現(xiàn)的模式進(jìn)行解釋和評(píng)價(jià)，過濾出有用的知識(shí)，利用可視化技術(shù)將有意義的模式以圖形或邏輯可視化的形式表示。

在該模型下進(jìn)一步拓展，可以建立相關(guān)的專家方法驅(qū)動(dòng)系統(tǒng)。其主要功能是利用挖掘出來的高價(jià)值信息去進(jìn)行相應(yīng)的應(yīng)用。其中，頁面訪問情況可以用來指導(dǎo)網(wǎng)頁的重構(gòu)，分析出的客戶消費(fèi)行為模式可以作為反饋信息，以客戶關(guān)系管理的方式對客戶進(jìn)行直接的點(diǎn)到點(diǎn)促銷；根據(jù)客戶的訪問模式，還可以給出客戶的定制化頁面，針對不同的消費(fèi)需求制定不同的促銷模式等。

3應(yīng)用于電子商務(wù)網(wǎng)站優(yōu)化的頻繁路徑挖掘算法

對Web站點(diǎn)的優(yōu)化可從兩個(gè)方面來考慮：一是通過對Web日志的挖掘，發(fā)現(xiàn)用戶訪問頁面的相關(guān)性，從而在密切聯(lián)系的頁面之間增加鏈接，方便用戶使用；二是通過對Web日志的挖掘，發(fā)現(xiàn)用戶的期望位置，如果在期望位置的訪問頻率高于實(shí)際位置的訪問頻率，可考慮在期望位置和實(shí)際位置之間建立導(dǎo)航鏈接，從而實(shí)現(xiàn)對Web站點(diǎn)的優(yōu)化。無論是出于哪方面的，都要通過Web日志挖掘，分析用戶訪問路徑來獲取用戶的瀏覽模式，這部分工作主要依靠頻繁路徑的挖掘來完成。可以說，對網(wǎng)站頻繁路徑的挖掘是網(wǎng)站優(yōu)化工作的基礎(chǔ)。本文重點(diǎn)對網(wǎng)站頻繁路徑的挖掘算法做一分析。

挖掘頻繁訪問路徑的主要步驟可以概括如下：

3.1從原始日志文件中獲得 MFP

3.2從 MFP 中獲得頻繁引用序列

3.3從所有頻繁引用序列中獲得最大引用序列

其中MFP指的是最大前向路徑。由于用戶會(huì)話在遍歷路徑時(shí)存在兩個(gè)移動(dòng)方向，一個(gè)是前進(jìn)，即請求頁面是此前用戶會(huì)話中從未訪問過的頁面，另一個(gè)是后退，即請求頁面是用戶會(huì)話中已經(jīng)訪問過的頁面。最大前向路徑是用戶在會(huì)話的第一頁到回退的前一頁組成的路徑。

我們首先要獲得MFP，獲得MFP 算法的主要思想是：

假設(shè){x1,x2,…,xm}表示一個(gè)用戶會(huì)話，{y1,y2,…,yj-1}表示一個(gè)潛在的 MFP,初始為空。Flag標(biāo)識(shí)當(dāng)前的訪問方向是前進(jìn)還是后退。每次檢查用戶會(huì)話中的xi，試圖將其擴(kuò)充到潛在MFP中。

（1）若xi∈{y1，y2，…，yj-1}，則xi將作為yj加入潛在MFP中，并且將flag標(biāo)記為前進(jìn);

（2）否則有xi=yk，其中1≤k

若在此之前，F(xiàn)lag 表明的移動(dòng)方向是前進(jìn)。則將{y1，y2，…，yj-1}作為一個(gè)MFP 加入到結(jié)果集合。然后從潛在 MFP 中刪除頁面{yk+1，…，yj－1}。并設(shè)Flag 為向后移動(dòng)標(biāo)志，進(jìn)入下一輪循環(huán)。

若Flag 表明的移動(dòng)方向是后退時(shí)，則此時(shí)的{y1，y2，…，yj-1}不是MFP，直接刪除頁面{yk+1，…，yj-1}，進(jìn)入下一輪循環(huán)。

3)如果循環(huán)到用戶會(huì)話中的最后一頁，F(xiàn)lag 標(biāo)志仍表明向前，則此時(shí){y1，y2，…，yj-1}是一個(gè) MFP。

MFP算法的偽代碼如下：

for 每個(gè)用戶會(huì)話

{

y1=x1; j=2; i=2;

Flag = true;

while(i≤m)

{

Found = false;

for 1≤k

{

if(xi=yk)

{

if(Flag = true) 將{y1，y2，…，yj-1}作為MFP 輸出;

j=k+1;

++i;

Flag=false;

Found=true;

}

if( !Found )

{

yj=xi;

++j;

++i;

Flag=true;

}

if(Flag=true) 將{y1，y2，…，yj-1}作為MFP輸出;

}

接下來我們需要從MFP中找出所有頻繁遍歷路徑，本文提供一種基于Apriori 算法的改進(jìn)方案，具體描述如下：

#1C1={所有的包含一個(gè)頁面的引用}

#2L1={c∈C1 |c.count≥min_sup}

#3for(i=2;Li-1≠Φ;++i){

#4Ci=Generate_C(Li-1,)

#5for each MFPt∈D{

#6 Ct=Generate_Subset(Ci, t)

#7 for each c∈Ct

#8 c.count++;

#10}

#11 Li={c∈Ci | c.count≥min_sup}

#12result=result∪Li

#13 }

其中: D表示事務(wù)數(shù)據(jù)庫;min_sup表示給定的最小支持度;result 表示所有的頻繁引用集;c.count表示引用c在事務(wù)數(shù)據(jù)庫D中被包含的次數(shù)。第一行#1是產(chǎn)生所有只含一個(gè)頁面的引用出現(xiàn)的次數(shù),第二行#2通過C1和最小支持度min_sup產(chǎn)生頻繁1引用集L1。#3-#13行通過一個(gè)大的循環(huán)完成頻繁引用的生成，直到某個(gè)頻繁引用集合為空。

該算法非常有效而且快速，整個(gè)過程只要遍歷兩次數(shù)據(jù)庫。通過實(shí)際網(wǎng)站優(yōu)化的案例來看，其分析的聚類結(jié)果是比較符合客觀事實(shí)的。

4結(jié)束語

通過Web數(shù)據(jù)挖掘，我們可以從數(shù)以億計(jì)的存儲(chǔ)大量多種多樣信息的Web頁面中提取出我們需要的有用的知識(shí)，在對總的用戶訪問行為、頻度、內(nèi)容等的分析基礎(chǔ)上,可以得到關(guān)于群體用戶訪問行為和方式的普遍知識(shí),通過對這些用戶特征的理解和分析, 可以有助于開展有針對性的電子商務(wù)活動(dòng), 給每個(gè)用戶個(gè)性化的界面,提供個(gè)性化的電子商務(wù)服務(wù)。

本文提出了一種有效算法,該算法通過改進(jìn)經(jīng)典的關(guān)聯(lián)規(guī)則中的 Apriori 算法，實(shí)現(xiàn)了最大頻繁引用序列的挖掘過程。在挖掘最大頻繁引用序列的基礎(chǔ)上進(jìn)行電子商務(wù)網(wǎng)站優(yōu)化,不僅可以提高訪問者的查詢速度, 節(jié)省了不必要的網(wǎng)絡(luò)開銷,而且對于提高網(wǎng)站自身的質(zhì)量和聲譽(yù)也是大有裨益的。

參考文獻(xiàn)：

[1]J.Han and M. Kamber,Data Mining:concepts and techniques,2006.

[2]韓家煒，孟小峰，李盛思.WEB挖掘研究.計(jì)算機(jī)研究與發(fā)展，2001,38(4):405-414.

[3]林杰斌.數(shù)據(jù)挖掘與OLAP.清華大學(xué)出版社，2003(1).

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

Ｗｅｂ日志挖掘技術(shù)在電子商務(wù)網(wǎng)站優(yōu)化中的應(yīng)用