国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Web日志的數(shù)據(jù)挖掘技術在Web機器人識別中的研究

2015-07-10 22:04王利源
卷宗 2015年1期
關鍵詞:決策樹數(shù)據(jù)挖掘

摘 要:數(shù)據(jù)挖掘是從大量數(shù)據(jù)中發(fā)現(xiàn)人們未知的、感興趣的、隱藏的知識。數(shù)據(jù)挖掘Web服務器日志記錄具有良好的結構,非常有利于數(shù)據(jù)挖掘。由于Web服務器日志記錄具有良好的結構,因此,作為Web使用挖掘的一個分支,Web日志數(shù)據(jù)數(shù)據(jù)挖掘,具有獨特的理論和實踐意義。本文利用決策樹分類法,對Web服務器上保存的Web日志進行數(shù)據(jù)挖掘,通過對日志中所保存的信息進行分析,總結出正常用戶和Web機器人訪問網頁的模式特點。

關鍵詞:數(shù)據(jù)挖掘;Web日志挖掘;決策樹

0.引言

Web服務器通常保存了對Web頁面的一次訪問的日志項(Web日志)。它包括了所請求的URL,發(fā)出請求的IP地址和時間戳。對于Web服務器,其上保存了大量的Web訪問日志記錄。對熱點的Web站點每天可以記錄下數(shù)以百兆的記錄,這些為數(shù)據(jù)挖掘提供了有關Web動態(tài)的豐富的信息,因此研究復雜的Web日志挖掘技術是十分重要的。Web數(shù)據(jù)挖掘技術,從Web日志中提取有用的模式,這些模式能夠揭示站點訪問者的某些特性[1]。

1.決策樹的建立

Web機器人(Web爬行者)是一個軟件程序,它可以跟蹤嵌入網頁中的超鏈接,定位和獲取Internet上的信息。這些程序安裝在搜索引擎的入口,收集索引網頁必須的文檔。在應用Web挖掘技術分析人類的瀏覽習慣之前,必須過濾掉Web機器人的訪問。

決策樹是一種構建分類模型的非參數(shù)方法,它不要求任何先驗建設,不假定類和其它屬性服從一定的概率分布[2]。它具有分類精度高,生成模式簡單,對噪聲數(shù)據(jù)有很好的健壯性。是目前應用最廣泛的歸納推理算法之一,非常適合對Web日志的數(shù)據(jù)挖掘。

圖1.Web會話

輸入數(shù)據(jù)取自Web 服務器日志。它的一個樣本如圖1所示,每行對應于Web客戶(正常訪客或Web機器人)的一個頁面訪問請求。

Web日志記錄的字段包括客戶端IP地址、請求時間、訪問的資源、傳輸字節(jié)數(shù)等[3]。Web會話是客戶在一次網址訪問期間發(fā)出的請求序列,每個Web會話都可以用一個有向圖來建模,其中結點對應于網頁,有向邊對用與鏈接網頁的超鏈接[4],如圖1。

圖2.Web機器人檢測決策樹模型

表2. Web機器人檢測的會話屬性

屬性名 描述

TotalPages 一次 Web會話提取的頁面總數(shù)

ImagePages 一次Web會話提取的圖像頁總數(shù)

TotalTime 網站訪問者所用時間

RepeatedAccess 一次Web會話多次請求同一頁面

ErrorRequest 請求網頁錯誤

GET 使用GET方式提出請求的百分比

POST 使用POST方式提出的請求百分比

HEAD 使用HEAD方式提出的請求百分比

Breadth Web遍歷的寬度

Depth Web遍歷的深度

MultiIP 使用多個IP地址的會話

MultiAgent 使用多個代理的會話

為了對Web會話進行分類,需要構造描述每次會話特性的特征。表2列出了Web機器人檢測任務使用的一些特征。顯著的特征有遍歷的深度和寬度。深度確定請求頁面的最大距離,其中距離用自網站入口點的超銜數(shù)量度量,寬度屬性度量Web圖的寬度。如圖2,假設主頁http://www.syxmt.com.cn的深度為0,則http://www.syxmt.com.cn/server/product.php的深度為2,第一次會話的深度等于2;Web會話的寬度等于2。

用于分類的數(shù)據(jù)集包含3916個記錄,Web機器人(class 0)和人類用戶(class 1)會話的個數(shù)相等,10%的數(shù)據(jù)用于訓練,而90%的數(shù)據(jù)用于檢驗。生成的決策樹模型顯示,如圖2所示。該決策樹在訓練集上的差錯率為3.8%,在檢驗集上的差錯率為5.3%。

3 結果分析

該模型表明可以從以下4個方面區(qū)分出Web機器人和人類用戶:

Web機器人的訪問傾向于寬而淺,而人類用戶訪問比較集中(窄而深)。

與人類用戶不同,Web機器人很少訪問與Web文檔相關的圖片頁。

Web機器人的會話的長度趨于較長,包含了大量請求頁面。

Web機器人更可能對相同的文檔發(fā)出重復的請求,因為人類用戶訪問的網頁常常會被瀏覽器保存。

參考文獻

[1] 張娥,鄭斐峰,馮耕中. Web日志數(shù)據(jù)挖掘的數(shù)據(jù)預處理方法研究[J]. 計算機應用研究. 2004(02)

[2] Pang-Ning Tan Michael Steinbach Vipin Kumar. introducetion to Data Mining[M].人民郵電出版社.2006

[3] 宋擒豹,沈鈞毅. Web日志的高效多能挖掘算法[J]. 計算機研究與發(fā)展. 2001(03)

[4] 陸麗娜,魏恒義,楊怡玲,管旭東. Web日志挖掘中的序列模式識別[J]. 小型微型計算機系統(tǒng). 2000(05)

作者簡介

王利源,男,遼寧省營口市,現(xiàn)就讀于:沈陽理工大學。

指導教師:沈陽理工大學,杜炎(教授)

猜你喜歡
決策樹數(shù)據(jù)挖掘
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應用
基于改進決策樹的故障診斷方法研究
基于并行計算的大數(shù)據(jù)挖掘在電網中的應用
基于決策樹的出租車乘客出行目的識別
基于決策樹的復雜電網多諧波源監(jiān)管
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
基于肺癌CT的決策樹模型在肺癌診斷中的應用
數(shù)據(jù)挖掘的分析與探索
基于GPGPU的離散數(shù)據(jù)挖掘研究
蓝田县| 兰考县| 平顶山市| 临西县| 洪洞县| 灵台县| 扬中市| 巴彦淖尔市| 龙江县| 北川| 宣武区| 乐昌市| 徐汇区| 伊通| 湖州市| 长沙市| 池州市| 平凉市| 通渭县| 遵化市| 西青区| 乐清市| 临湘市| 宁河县| 南开区| 娱乐| 辉南县| 栖霞市| 招远市| 昆山市| 滦南县| 攀枝花市| 南充市| 嵩明县| 黔江区| 信阳市| 乌鲁木齐县| 吉林省| 安庆市| 定陶县| 皋兰县|