張雁,劉才銘
(樂山師范學院計算機科學學院,樂山 614000)
網(wǎng)頁訪問;訪問目的;訪問活動;類型編碼;類型特征
網(wǎng)頁是一種包含了豐富內容的互聯(lián)網(wǎng)信息表達形式,其包含的內容既可以是文本、圖片、語音等靜態(tài)性的信息,也可以是能夠被瀏覽器解析執(zhí)行的腳本源代碼程序、嵌入的其他網(wǎng)頁或組件等動態(tài)性內容。當瀏覽器端根據(jù)訪問地址向Web服務器請求網(wǎng)頁內容時,Web服務器直接將靜態(tài)的HTML文件或者通過解析后生成的HTML文件響應給上網(wǎng)用戶的瀏覽器端。無論Web服務器以何種方式生成網(wǎng)頁內容,其都在應用層采用HTTP協(xié)議向瀏覽器端返回以HTML格式編寫的網(wǎng)頁文件。
互聯(lián)網(wǎng)用戶瀏覽網(wǎng)頁也稱為訪問網(wǎng)頁,由于基于瀏覽器的簡單操作就可以實現(xiàn)網(wǎng)頁訪問,所以網(wǎng)頁不再是簡單地提供靜態(tài)信息,而是可以提供豐富的基于Web的應用程序功能。近年來,各種基于Web的應用技術陸續(xù)推出,使得人們訪問網(wǎng)頁的目的不再局限于被動地接收靜態(tài)信息,而是可以通過與Web服務器及其附加組件進行交互,實現(xiàn)基于C/S架構能夠處理的數(shù)據(jù)處理功能,例如:OA(辦公自動化)、游戲、購物、網(wǎng)銀、視頻、電子郵件等。
隨著網(wǎng)頁功能的日益豐富,人們訪問網(wǎng)頁的目的也逐漸多樣化,如何識別網(wǎng)頁訪問目的的類型,并對其進行分析,以便達到分類的目的,已經(jīng)成為網(wǎng)絡管理的一項重要工作。通過對網(wǎng)頁訪問目的進行分類,可以識別用戶的上網(wǎng)習慣,還能夠綜合分析網(wǎng)絡流量的分布情況,因此具有較好的應用價值。已有的研究主要集中在針對網(wǎng)頁的分類[1],這些研究既有采用網(wǎng)頁內容特征進行分類的技術,也有針對URL模式進行分類的技術,例如,文獻[2]介紹了一種結合網(wǎng)頁結構特征進行分類的方法,文獻[3]基于網(wǎng)頁的URL信息進行分類,文獻[4]綜合分析URL、主機信息和網(wǎng)頁內容的特征信息對網(wǎng)頁進行分類。但是,針對網(wǎng)頁訪問目的進行分類的研究還不多,部分文獻結合用戶行為特征和網(wǎng)頁內容特征,對用戶訪問的網(wǎng)頁進行分類[5],但這還不是嚴格意義的針對網(wǎng)頁訪問目的的分類。為了對網(wǎng)頁訪問目的進行可行的分類,本文設計了一種對網(wǎng)頁訪問目的進行分類的方法,以期為復雜多變的網(wǎng)頁訪問目的提供一種有效的分類途徑。
本文構建訪問目的類型編碼庫、訪問目的類型特征庫,將監(jiān)視到的網(wǎng)絡訪問活動信息,通過特征掃描方法與訪問目的類型的特征記錄進行匹配,一旦掃描到符合匹配條件的特征記錄,則將訪問活動判斷為該特征記錄映射的訪問目的類型。同時,為了識別出網(wǎng)頁訪問目的的新類型,本文還考慮了網(wǎng)頁訪問目的類型及其特征的動態(tài)擴充。具體地,本文設計的網(wǎng)頁訪問目的的分類方法的關鍵技術如下所述。
(1)訪問目的類型編碼庫
構建訪問目的類型編碼庫數(shù)據(jù)表,用于存儲用戶訪問網(wǎng)頁的主觀目的的類型,其表結構如表1所示。該表含有三個字段,分表存儲訪問目的類型編號(整型數(shù)據(jù)類型)、類型名稱(可變長度字符類型)、備注信息(可變長度字符類型)。
表1 訪問目的類型編碼庫數(shù)據(jù)表結構
《第33次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》[6]將網(wǎng)絡用戶的上網(wǎng)目的在宏觀上主要分為搜索引擎、社交網(wǎng)站、電商應用、網(wǎng)絡視頻、網(wǎng)絡游戲、移動互聯(lián)網(wǎng)共六個方面[7],網(wǎng)頁訪問活動與傳統(tǒng)意義的上網(wǎng)活動還有具有較大的區(qū)別,雖然網(wǎng)站系統(tǒng)的應用已發(fā)展到相當高的技術水平,但是,由于其實現(xiàn)技術的特殊性,目前其達到的目的還受到了一定的限制。根據(jù)當前基于瀏覽器的網(wǎng)頁訪問可以實現(xiàn)的功能,可以將網(wǎng)頁訪問目的的類型歸納為以下幾種:信息查詢、新聞瀏覽、網(wǎng)絡視頻、網(wǎng)絡購物、網(wǎng)絡游戲、網(wǎng)絡銀行、網(wǎng)上辦公、文件下載等。
(2)訪問目的類型特征庫
構建訪問目的類型特征庫數(shù)據(jù)表,用于存儲訪問目的類型表達出的訪問活動特征信息,其表結構如表2所示。該表的字段包括特征編號、訪問目的類型編號(映射到上一小節(jié)中的訪問目的類型編碼庫數(shù)據(jù)表)、訪問時間、訪問地址、訪問網(wǎng)頁名稱、訪問網(wǎng)頁的標題、備注信息,其中,訪問目的類型編號通過外鍵關聯(lián)到訪問目的類型編碼庫數(shù)據(jù)表的類型編號字段,通過訪問目的類型編號,可以查到一條特征記錄對應的訪問目的類型的名稱,多條特征記錄可以對應到同一個訪問目的類型。
表2 訪問目的類型特征庫數(shù)據(jù)表結構
(3)網(wǎng)頁訪問活動的監(jiān)視
為了識別用戶訪問網(wǎng)頁的目的,需要監(jiān)視網(wǎng)頁訪問活動,并從訪問活動中提取出能夠反映用戶瀏覽網(wǎng)頁目的的關鍵特征信息,這些信息包括:訪問時間、域名或URL地址、網(wǎng)頁文件名稱、網(wǎng)頁標題。
監(jiān)視網(wǎng)頁訪問活動的方法可以根據(jù)實際需求來確定,總體來說可以分為實時監(jiān)視方法和離線監(jiān)視方法。實時監(jiān)視方法主要有以下兩種:(1)在操作系統(tǒng)層面監(jiān)視用戶訪問網(wǎng)頁的操作行為,當用戶訪問網(wǎng)頁時,從瀏覽器地址欄或網(wǎng)頁文件中提取網(wǎng)頁訪問活動的特征信息;(2)捕獲實時的網(wǎng)絡數(shù)據(jù)流,篩選出傳輸網(wǎng)頁的網(wǎng)絡數(shù)據(jù)包,以分析網(wǎng)頁數(shù)據(jù)包的特征信息作為網(wǎng)頁訪問活動的特征信息。離線監(jiān)視方法主要是從網(wǎng)站服務器或用戶計算機的日志信息里分析用戶的網(wǎng)頁訪問記錄,并從這些記錄中提取網(wǎng)頁訪問活動的特征信息。
(4)網(wǎng)頁訪問目的類型的特征掃描
當監(jiān)視到網(wǎng)頁訪問活動后,構建出該活動的基本信息,設為a=<activityID,訪問時間,地址,網(wǎng)頁文件名稱,網(wǎng)頁標題>,并將其在訪問目的類型特征庫中進行掃描。為了判斷活動a屬于何種訪問目的類型,需要采用一定的掃描方法,取出訪問目的類型特征庫的特征記錄f,計算a與f的匹配程度,如果其達到了設定的閾值,則表示活動a符合特征f映射的訪問目的類型編碼庫中的訪問目的類型。
按照表 2中的定義,得到f=<featureID,classID,URL,pageName,pageTitle,remark>。設 a與 f的匹配方法為Match()、匹配閾值為δ,如果訪問目的類型特征庫中存在一條f滿足Match(a,f)≥δ,則網(wǎng)頁訪問活動a訪問類型即為f.classID外鍵關聯(lián)的訪問目的類型編碼庫的purposeClass字段表示的訪問目的類型。
(5)網(wǎng)頁訪問目的類型及其特征的動態(tài)擴充
訪問目的類型編碼庫表中存儲經(jīng)典的和已經(jīng)明確的網(wǎng)頁訪問目的的類型信息,隨著基于B/S(瀏覽器/服務器)架構技術的不斷發(fā)展,用戶通過網(wǎng)頁將實現(xiàn)越來越多的功能,因此網(wǎng)頁訪問目的的類型也將與日俱增。為了表達出訪問目的類型的變化,需要定義出新的訪問目的類型的信息,并將其添加至訪問目的類型編碼表中,對訪問目的類型進行擴充。同時,也需要動態(tài)擴充訪問目的類型的特征,先將新構建的特征映射到訪問目的類型編碼庫表,再將其添加至訪問目的類型特征數(shù)據(jù)表。
網(wǎng)絡用戶帶著一定的主觀傾向去訪問網(wǎng)頁,其訪問網(wǎng)頁的目的種類繁多,通過對網(wǎng)頁訪問目的進行分類,可以促進網(wǎng)絡管理和網(wǎng)站應用設計的優(yōu)化。本文通過監(jiān)視網(wǎng)頁訪問活動,并將獲得的網(wǎng)頁訪問活動信息與訪問目的類型特征進行匹配,同時考慮到了網(wǎng)頁訪問目的類型及其特征的動態(tài)擴充問題,這種分類方法具有一定的準確性,為復雜多變的網(wǎng)頁訪問目的提供了一種有效的分類方法。