摘 要:數(shù)據(jù)挖掘是從大量數(shù)據(jù)中發(fā)現(xiàn)人們未知的、感興趣的、隱藏的知識。數(shù)據(jù)挖掘Web服務器日志記錄具有良好的結構,非常有利于數(shù)據(jù)挖掘。由于Web服務器日志記錄具有良好的結構,因此,作為Web使用挖掘的一個分支,Web日志數(shù)據(jù)數(shù)據(jù)挖掘,具有獨特的理論和實踐意義。本文利用決策樹分類法,對Web服務器上保存的Web日志進行數(shù)據(jù)挖掘,通過對日志中所保存的信息進行分析,總結出正常用戶和Web機器人訪問網頁的模式特點。
關鍵詞:數(shù)據(jù)挖掘;Web日志挖掘;決策樹
0.引言
Web服務器通常保存了對Web頁面的一次訪問的日志項(Web日志)。它包括了所請求的URL,發(fā)出請求的IP地址和時間戳。對于Web服務器,其上保存了大量的Web訪問日志記錄。對熱點的Web站點每天可以記錄下數(shù)以百兆的記錄,這些為數(shù)據(jù)挖掘提供了有關Web動態(tài)的豐富的信息,因此研究復雜的Web日志挖掘技術是十分重要的。Web數(shù)據(jù)挖掘技術,從Web日志中提取有用的模式,這些模式能夠揭示站點訪問者的某些特性[1]。
1.決策樹的建立
Web機器人(Web爬行者)是一個軟件程序,它可以跟蹤嵌入網頁中的超鏈接,定位和獲取Internet上的信息。這些程序安裝在搜索引擎的入口,收集索引網頁必須的文檔。在應用Web挖掘技術分析人類的瀏覽習慣之前,必須過濾掉Web機器人的訪問。
決策樹是一種構建分類模型的非參數(shù)方法,它不要求任何先驗建設,不假定類和其它屬性服從一定的概率分布[2]。它具有分類精度高,生成模式簡單,對噪聲數(shù)據(jù)有很好的健壯性。是目前應用最廣泛的歸納推理算法之一,非常適合對Web日志的數(shù)據(jù)挖掘。
圖1.Web會話
輸入數(shù)據(jù)取自Web 服務器日志。它的一個樣本如圖1所示,每行對應于Web客戶(正常訪客或Web機器人)的一個頁面訪問請求。
Web日志記錄的字段包括客戶端IP地址、請求時間、訪問的資源、傳輸字節(jié)數(shù)等[3]。Web會話是客戶在一次網址訪問期間發(fā)出的請求序列,每個Web會話都可以用一個有向圖來建模,其中結點對應于網頁,有向邊對用與鏈接網頁的超鏈接[4],如圖1。
圖2.Web機器人檢測決策樹模型
表2. Web機器人檢測的會話屬性
屬性名 描述
TotalPages 一次 Web會話提取的頁面總數(shù)
ImagePages 一次Web會話提取的圖像頁總數(shù)
TotalTime 網站訪問者所用時間
RepeatedAccess 一次Web會話多次請求同一頁面
ErrorRequest 請求網頁錯誤
GET 使用GET方式提出請求的百分比
POST 使用POST方式提出的請求百分比
HEAD 使用HEAD方式提出的請求百分比
Breadth Web遍歷的寬度
Depth Web遍歷的深度
MultiIP 使用多個IP地址的會話
MultiAgent 使用多個代理的會話
為了對Web會話進行分類,需要構造描述每次會話特性的特征。表2列出了Web機器人檢測任務使用的一些特征。顯著的特征有遍歷的深度和寬度。深度確定請求頁面的最大距離,其中距離用自網站入口點的超銜數(shù)量度量,寬度屬性度量Web圖的寬度。如圖2,假設主頁http://www.syxmt.com.cn的深度為0,則http://www.syxmt.com.cn/server/product.php的深度為2,第一次會話的深度等于2;Web會話的寬度等于2。
用于分類的數(shù)據(jù)集包含3916個記錄,Web機器人(class 0)和人類用戶(class 1)會話的個數(shù)相等,10%的數(shù)據(jù)用于訓練,而90%的數(shù)據(jù)用于檢驗。生成的決策樹模型顯示,如圖2所示。該決策樹在訓練集上的差錯率為3.8%,在檢驗集上的差錯率為5.3%。
3 結果分析
該模型表明可以從以下4個方面區(qū)分出Web機器人和人類用戶:
Web機器人的訪問傾向于寬而淺,而人類用戶訪問比較集中(窄而深)。
與人類用戶不同,Web機器人很少訪問與Web文檔相關的圖片頁。
Web機器人的會話的長度趨于較長,包含了大量請求頁面。
Web機器人更可能對相同的文檔發(fā)出重復的請求,因為人類用戶訪問的網頁常常會被瀏覽器保存。
參考文獻
[1] 張娥,鄭斐峰,馮耕中. Web日志數(shù)據(jù)挖掘的數(shù)據(jù)預處理方法研究[J]. 計算機應用研究. 2004(02)
[2] Pang-Ning Tan Michael Steinbach Vipin Kumar. introducetion to Data Mining[M].人民郵電出版社.2006
[3] 宋擒豹,沈鈞毅. Web日志的高效多能挖掘算法[J]. 計算機研究與發(fā)展. 2001(03)
[4] 陸麗娜,魏恒義,楊怡玲,管旭東. Web日志挖掘中的序列模式識別[J]. 小型微型計算機系統(tǒng). 2000(05)
作者簡介
王利源,男,遼寧省營口市,現(xiàn)就讀于:沈陽理工大學。
指導教師:沈陽理工大學,杜炎(教授)