基于Web日志的數(shù)據(jù)挖掘技術在Web機器人識別中的研究

2015-07-10 22:04王利源

卷宗 2015年1期

摘要：數(shù)據(jù)挖掘是從大量數(shù)據(jù)中發(fā)現(xiàn)人們未知的、感興趣的、隱藏的知識。數(shù)據(jù)挖掘Web服務器日志記錄具有良好的結構，非常有利于數(shù)據(jù)挖掘。由于Web服務器日志記錄具有良好的結構，因此，作為Web使用挖掘的一個分支，Web日志數(shù)據(jù)數(shù)據(jù)挖掘，具有獨特的理論和實踐意義。本文利用決策樹分類法，對Web服務器上保存的Web日志進行數(shù)據(jù)挖掘，通過對日志中所保存的信息進行分析，總結出正常用戶和Web機器人訪問網頁的模式特點。

關鍵詞：數(shù)據(jù)挖掘；Web日志挖掘；決策樹

0.引言

Web服務器通常保存了對Web頁面的一次訪問的日志項（Web日志）。它包括了所請求的URL，發(fā)出請求的IP地址和時間戳。對于Web服務器，其上保存了大量的Web訪問日志記錄。對熱點的Web站點每天可以記錄下數(shù)以百兆的記錄，這些為數(shù)據(jù)挖掘提供了有關Web動態(tài)的豐富的信息，因此研究復雜的Web日志挖掘技術是十分重要的。Web數(shù)據(jù)挖掘技術，從Web日志中提取有用的模式，這些模式能夠揭示站點訪問者的某些特性[1]。

1.決策樹的建立

Web機器人（Web爬行者）是一個軟件程序，它可以跟蹤嵌入網頁中的超鏈接，定位和獲取Internet上的信息。這些程序安裝在搜索引擎的入口，收集索引網頁必須的文檔。在應用Web挖掘技術分析人類的瀏覽習慣之前，必須過濾掉Web機器人的訪問。

決策樹是一種構建分類模型的非參數(shù)方法，它不要求任何先驗建設，不假定類和其它屬性服從一定的概率分布[2]。它具有分類精度高，生成模式簡單，對噪聲數(shù)據(jù)有很好的健壯性。是目前應用最廣泛的歸納推理算法之一，非常適合對Web日志的數(shù)據(jù)挖掘。

圖1.Web會話

輸入數(shù)據(jù)取自Web 服務器日志。它的一個樣本如圖1所示，每行對應于Web客戶（正常訪客或Web機器人）的一個頁面訪問請求。

Web日志記錄的字段包括客戶端IP地址、請求時間、訪問的資源、傳輸字節(jié)數(shù)等[3]。Web會話是客戶在一次網址訪問期間發(fā)出的請求序列，每個Web會話都可以用一個有向圖來建模，其中結點對應于網頁，有向邊對用與鏈接網頁的超鏈接[4]，如圖1。

圖2.Web機器人檢測決策樹模型

表2. Web機器人檢測的會話屬性

屬性名描述

TotalPages 一次 Web會話提取的頁面總數(shù)

ImagePages 一次Web會話提取的圖像頁總數(shù)

TotalTime 網站訪問者所用時間

RepeatedAccess 一次Web會話多次請求同一頁面

ErrorRequest 請求網頁錯誤

GET 使用GET方式提出請求的百分比

POST 使用POST方式提出的請求百分比

HEAD 使用HEAD方式提出的請求百分比

Breadth Web遍歷的寬度

Depth Web遍歷的深度

MultiIP 使用多個IP地址的會話

MultiAgent 使用多個代理的會話

為了對Web會話進行分類，需要構造描述每次會話特性的特征。表2列出了Web機器人檢測任務使用的一些特征。顯著的特征有遍歷的深度和寬度。深度確定請求頁面的最大距離，其中距離用自網站入口點的超銜數(shù)量度量，寬度屬性度量Web圖的寬度。如圖2，假設主頁http：//www.syxmt.com.cn的深度為0，則http：//www.syxmt.com.cn/server/product.php的深度為2，第一次會話的深度等于2；Web會話的寬度等于2。

用于分類的數(shù)據(jù)集包含3916個記錄，Web機器人（class 0）和人類用戶（class 1）會話的個數(shù)相等，10%的數(shù)據(jù)用于訓練，而90%的數(shù)據(jù)用于檢驗。生成的決策樹模型顯示，如圖2所示。該決策樹在訓練集上的差錯率為3.8%，在檢驗集上的差錯率為5.3%。

3 結果分析

該模型表明可以從以下4個方面區(qū)分出Web機器人和人類用戶：

Web機器人的訪問傾向于寬而淺，而人類用戶訪問比較集中（窄而深）。

與人類用戶不同，Web機器人很少訪問與Web文檔相關的圖片頁。

Web機器人的會話的長度趨于較長，包含了大量請求頁面。

Web機器人更可能對相同的文檔發(fā)出重復的請求，因為人類用戶訪問的網頁常常會被瀏覽器保存。

參考文獻

[1] 張娥，鄭斐峰，馮耕中. Web日志數(shù)據(jù)挖掘的數(shù)據(jù)預處理方法研究[J]. 計算機應用研究. 2004（02）

[2] Pang-Ning Tan Michael Steinbach Vipin Kumar. introducetion to Data Mining[M].人民郵電出版社.2006

[3] 宋擒豹，沈鈞毅. Web日志的高效多能挖掘算法[J]. 計算機研究與發(fā)展. 2001（03）

[4] 陸麗娜，魏恒義，楊怡玲，管旭東. Web日志挖掘中的序列模式識別[J]. 小型微型計算機系統(tǒng). 2000（05）

作者簡介

王利源，男，遼寧省營口市，現(xiàn)就讀于：沈陽理工大學。

指導教師：沈陽理工大學，杜炎（教授）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Web日志的數(shù)據(jù)挖掘技術在Web機器人識別中的研究