国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于web挖掘的網(wǎng)站信息推送個性化服務(wù)研究
——以“網(wǎng)頁動畫設(shè)計”課程網(wǎng)站的信息推送為案例

2018-07-19 09:03:38肖宏飛
通化師范學院學報 2018年8期
關(guān)鍵詞:會話日志網(wǎng)頁

肖宏飛

隨著互聯(lián)網(wǎng)的迅速發(fā)展,Internet技術(shù)不斷完善,網(wǎng)絡(luò)已成為人們獲取信息不可或缺的渠道.20世紀90年代中期以來,web挖掘理論得到廣泛而深入的研究.如何將web挖掘的理論知識應(yīng)用到個性化信息推送服務(wù)中去,在學界是一個備受關(guān)注的課題.截止至今,國內(nèi)外在理論和實踐方面的相關(guān)研究都有很大的發(fā)展,同時出現(xiàn)了很多基于web挖掘的個性化信息服務(wù)系統(tǒng)原型和實際的應(yīng)用系統(tǒng).

網(wǎng)絡(luò)信息的迅猛快速發(fā)展使用戶有可能享受豐富的網(wǎng)絡(luò)資源,然而沒有相應(yīng)的服務(wù)模式來服務(wù)用戶,讓用戶無法有效利用這些資源.個性化服務(wù)應(yīng)運而生,是Internet發(fā)展和用戶需求相結(jié)合的必然結(jié)果.所謂個性化服務(wù),是指針對不同興趣愛好的用戶提供不同的服務(wù)模式和服務(wù)策略,它會根據(jù)用戶的不同特點,為用戶提供不同的服務(wù),以滿足用戶多樣化的需要.

本文結(jié)合“網(wǎng)頁動畫設(shè)計”課程網(wǎng)站,提出一種集合了web日志和web內(nèi)容挖掘的混合挖掘策略,此策略的實施包括了幾個部分:訪問用戶會話的識別,基于N-gram技術(shù)的web日志和web內(nèi)容混合挖掘策略,構(gòu)建用戶訪問模式描述文件,用戶訪問模式的分類和用戶訪問興趣預(yù)測及推送.通過對web數(shù)據(jù)的收集與預(yù)處理,分析得出用戶訪問模式,同時對訪問模式進行分類,然后對來訪用戶進行歸類,找到相關(guān)模式描述文件,然后根據(jù)此類進行信息推送.

1 信息推送方法概述

隨著網(wǎng)絡(luò)和電子商務(wù)的快速發(fā)展,信息推送也越來越受到重視,逐漸成為數(shù)據(jù)挖掘領(lǐng)域研究的熱點[1].目前,國內(nèi)外信息推送的研究工作主要集中在對基于web內(nèi)容的信息推送方法和基于web日志的信息推送方法的研究.

基于web頁面信息的個性化推送方法是根據(jù)用戶瀏覽web站點的信息資源,推送和此用戶瀏覽信息相似或者相關(guān)的一種個性化推送方法.基于頁面信息推送的基本原理是通過用戶瀏覽資源描述文件,根據(jù)用戶瀏覽習慣,推送與用戶以往訪問習慣比較相似的信息資源,見圖1.比較典型的基于web內(nèi)容的推送系統(tǒng)有igoogle、Adaptive Web Site等,可以實時地對web服務(wù)器提供的相關(guān)頁面進行自動或者半自動的調(diào)整[2].

基于web日志的推送方法是根據(jù)對web日志文件進行分析,通過聚類算法得出用戶訪問模式,對在線的用戶進行歸類,給相似用戶推送相似信息的一種方法.基于web日志推送方法的原理是通過對用戶訪問習慣進行數(shù)據(jù)分析和挖掘,找出其相似性資源信息進行推送,見圖1.比較典型的基于web日志的推送系統(tǒng)有webwatcher、firefly、let’s browse等.

圖1 基于web頁面信息推送和基于web日志的推送的基本原理圖

基于web內(nèi)容的推送具有簡單、快速的特點,缺點是由于無法對用戶瀏覽的網(wǎng)頁按用戶進行分割和分組,因此進行信息推送所依據(jù)的模式和知識一般是以單張網(wǎng)頁為單位進行組織的,具有局限性和孤立性,所推送的信息不會太準確.基于web日志的推送方法在推送信息時更加準確和具有針對性,但是由于在初期沒有足夠多的web日志信息可供挖掘,因此完善的用戶訪問模式庫需要在系統(tǒng)運行過程中逐漸建立和完善,系統(tǒng)進入穩(wěn)定狀態(tài)所需要的時間較長.

可見,單一的推送方法有各自的優(yōu)點,但是不足之處也很明顯,所以結(jié)合多種推送方法的優(yōu)點,取長補短構(gòu)造混合推送方法近年來越來越受到重視,這也是該領(lǐng)域?qū)W者和研究人員目前最感興趣的研究熱點之一.

2 基于web日志和web內(nèi)容的混合信息推送方法

基于單一的挖掘策略的信息推送方法具有一定的局限性,本文提出了基于web日志挖掘和web內(nèi)容挖掘的混合挖掘策略構(gòu)建個性化信息推送系統(tǒng).基于內(nèi)容挖掘和web日志挖掘的混合策略原理圖如圖2所示.

圖2 基于web日志挖掘和web內(nèi)容挖掘的混合方法的基本原理

基于內(nèi)容挖掘和web日志挖掘的混合挖掘信息推送方法的基本原理是:在離線階段,首先對用戶的訪問會話進行識別,從web日志文件中提取用戶的訪問會話信息;使用K-Medoids聚類算法,依據(jù)訪問會話記錄集來對用戶進行分組,識別不同的用戶訪問類別[3];將用戶訪問類別和所訪問網(wǎng)頁的主題內(nèi)容通過N-gram技術(shù)結(jié)合起來,建立融合了web日志和web內(nèi)容的挖掘結(jié)果的用戶訪問模式,形成用戶訪問模式描述文件.在線信息推送階段,依據(jù)用戶的當前網(wǎng)頁瀏覽序列,判斷其用戶訪問模式,辨別其所屬的用戶類別,以預(yù)測用戶的瀏覽興趣和可能的訪問內(nèi)容,并據(jù)此進行信息推送服務(wù).圖3為信息推送系統(tǒng)流程圖.

信息推送系統(tǒng)的設(shè)計包括兩種關(guān)鍵技術(shù):離線web數(shù)據(jù)挖掘技術(shù)和在線信息推送技術(shù).下文分別介紹這兩種關(guān)鍵技術(shù)的具體步驟.

離線數(shù)據(jù)挖掘技術(shù)步驟如下:

(1)利用向量P來表示用戶瀏覽的頁面集合,通過對web站點信息頁面集合P進行數(shù)據(jù)清洗,清除多余無用的html標簽、空格空行等,提取出網(wǎng)頁文本信息.

圖3 信息推送系統(tǒng)流程圖

(2)通過使用主動策略對網(wǎng)站注冊用戶進行識別,使用被動策略對網(wǎng)站匿名用戶進行識別,實現(xiàn)對訪問用戶身份識別.

(3)設(shè)定用戶訪問會話持續(xù)訪問時間為30分鐘,如果超過,則認為是新的會話開始.

(4)利用K-Medoids聚類算法對用戶會話進行聚類分析,將具有相同興趣愛好的用戶分到同一組.

(5)通過建立N-gram信息項對用戶訪問模式進行分類描述,建立用戶訪問模式描述文件.

在離線數(shù)據(jù)挖掘技術(shù)中,最后得出的用戶訪問模式分類描述是非常重要的,也是信息推送的基礎(chǔ)和依據(jù)[4].訪問模式中包括用戶會話的訪問網(wǎng)址序列信息,網(wǎng)頁文本關(guān)鍵字信息、用戶信息、會話分類信息和與此類會話相關(guān)聯(lián)的信息.

在線信息推送技術(shù)步驟如下:

(1)設(shè)置測試會話集s,將當前用戶的會話和已有的會話集合進行對比,找出當前用戶訪問會話的類別.

(2)結(jié)合離線數(shù)據(jù)挖掘出來的用戶訪問模式描述文件,對當前用戶進行信息推送.

混合挖掘方法的基本模塊關(guān)系如圖4所示.

通過對web日志文件和web站點文件信息的數(shù)據(jù)預(yù)處理,實現(xiàn)對用戶的訪問會話進行識別和分類,利用N-gram技術(shù)的關(guān)鍵詞頻率和文檔頻率建立一個N-gram三元組向量來表示用戶訪問模式[5].在用戶訪問會話中既包括了來訪用戶信息,也包括了網(wǎng)站頁面信息,因此重點通過對訪問會話的聚類來分析得出用戶訪問模式.

圖4 web日志和web內(nèi)容挖掘主要模塊

3 基于向量模型的網(wǎng)站信息內(nèi)容預(yù)處理

Web網(wǎng)站上面的信息基本上是非結(jié)構(gòu)或者半結(jié)構(gòu)化的動態(tài)信息,很難直接利用,因此需要對web網(wǎng)頁文件進行數(shù)據(jù)預(yù)處理,然后對清洗后的web網(wǎng)頁文件上面的數(shù)據(jù)信息再進行web挖掘.

Web網(wǎng)頁內(nèi)容的挖掘是從網(wǎng)頁自身資源抽取信息項來表示網(wǎng)頁主題信息,本文是通過提取網(wǎng)頁關(guān)鍵字來對網(wǎng)頁主題內(nèi)容進行表述.用向量P={p1,p2,p3,…,pn}來表示用戶瀏覽所有網(wǎng)頁的集合[6].每個網(wǎng)頁文件包括了一定的網(wǎng)頁代碼和圖片或者相關(guān)視頻等信息,不同于單純的文本文件,因此在對網(wǎng)頁內(nèi)容進行數(shù)據(jù)挖掘前,首先需要對網(wǎng)頁信息集合P進行數(shù)據(jù)清洗,過濾與網(wǎng)頁主題不相關(guān)的文字內(nèi)容等.

本文提?。紅itle></title>、頭文件keywords標簽中的信息和網(wǎng)頁中的文本信息.對于提取的網(wǎng)頁文本信息,清除多余無用的html標簽、空行等信息,用集合PC={pc1,pc2,pc3,…,pcn}來表示數(shù)據(jù)預(yù)處理后的網(wǎng)頁集合.

4 基于主動策略和被動策略的用戶識別

在進行web挖掘前,首先要進行的就是確定一個機制來對不同用戶的身份進行識別,進而分析此用戶的訪問行為.本文采用主動策略和被動策略的方法對用戶進行識別.

所謂的主動策略就是指在用戶進行瀏覽訪問的時候,讓用戶進行登記注冊,然后通過登錄ID,來唯一識別一個用戶.在本文研究的課程網(wǎng)站中,采用了會員制,即在課程網(wǎng)站中,每個學員都有自己注冊的賬號和密碼,據(jù)此可以快速準確地區(qū)分不同的用戶.在后臺數(shù)據(jù)庫中為用戶建立了一個user表,每個ID和用戶名唯一定義一個用戶,這樣就可以通過數(shù)據(jù)庫表中的ID和用戶名對應(yīng)每一個用戶.快速準確地識別出注冊用戶.

被動策略是指通過對訪問者的web日志信息來進行用戶識別.本文采用以瀏覽者的IP地址、客戶端的相關(guān)信息來區(qū)分不同的用戶.如果IP地址、操作系統(tǒng)、瀏覽軟件等客戶端信息全部相同時,則認為是同一用戶.

5 利用用戶訪問模式對用戶訪問會話進行分類

通過給定的用戶訪問模式描述文件和每個用戶會話,如何來確定用戶會話屬于哪一個訪問模式類型,這是具體信息推送的關(guān)鍵點.N-gram信息項比較普遍的是二元和三元的,本文以二元為研究對象,為N-gram建立一個二元組向量{(x1,tfx1),(x2,tfx2),(x3,tfx3)......(xn,tfxn)},其中 xi是指通過用戶訪問會話所訪問的web頁面上的N-gram信息項,tfxi是信息項的頻率.當前已經(jīng)獲得的用戶訪問模式,對照N-gram的訪問模式描述文件集中的每個 pfi,計算它與訪問會話描述文件 p的DV(p,pfi).如果會話和系統(tǒng)中某個已有訪問模式比較地相似或者接近,那么它們應(yīng)當具有類似的N-gram數(shù)據(jù)分布,則DV(p,pfi)也就是在所有的相異值中差距最小的一個值,可以確認會話訪問模式描述文件為p的會話是屬于pfm類型的訪問模式.

對于相異值DV(p,pfi)的計算,算法描述如下:

輸入用戶會話描述文件p和用戶會話模式描述文件pfi.

在用戶會話描述文件p和用戶會話模式描述文件 pfi中,都有N-gram信息項 xi,tfp是 xi在用戶會話描述文件 p上的信息項頻率,tfpfi是xi在用戶會話模式描述文件 pfi上的信息項頻率,獲取這兩個頻率的值.

按照公式1進行計算相異值dv(tfp,tfpfi) .

將所有的dv(tfp,tfpfi)進行求和運算,得到的就是相異值DV(p,pfi).

用戶訪問會話分類的步驟:假設(shè)訪問會話s是一個含有n個被訪問頁面的測試會話集.基于N-gram為s建立一個用戶訪問描述文件 p,比較會話訪問描述文件p和用戶訪問模式文件pfi的相異值DV(p,pfi),其中如果DV(p,pfm)值為最小,那么則認為s是屬于用戶會話描述文件pfm的用戶訪問模式類型.

6 基于測試會話集的信息推送

課程網(wǎng)站的個性化信息推送要求對在線用戶實時推送其感興趣或者可能需要訪問的頁面信息.對用戶感興趣的預(yù)測是建立在用戶訪問模式分類的基礎(chǔ)之上的,信息推送要求對當前訪問用戶的會話進行分類,預(yù)測出來當前用戶未來可能的訪問會話模式,根據(jù)建立的會話模式,進行信息推送.

用戶訪問興趣預(yù)測分為兩個步驟:第一步是根據(jù)已有用戶訪問模式預(yù)測當前用戶的訪問會話模式,第二步是根據(jù)預(yù)測的結(jié)果對當前的用戶進行信息推送.

假設(shè)s是一個包含n個被訪問頁面的測試會話集.會話s分為兩個部分:第一部分用來做測試集,建立用戶訪問模式描述文件.第二部分用來模擬當前用戶可能將要進行的訪問請求結(jié)果的預(yù)測.首先為此會話建立一個基于N-gram信息項和信息項頻率的用戶訪問描述文件p,通過用戶訪問模式描述文件p和用戶訪問模式描述文件 pfi的相異值DV(p,pfi)的比較,來決定此段會話將屬于哪一種會話訪問模式.根據(jù)會話訪問模式對當前用戶進行信息推送.

7 實驗數(shù)據(jù)

本文對挖掘策略的性能評價主要看分類精確度A(C)和預(yù)測精確度A(F)值的分布.預(yù)測精確度是指模擬活躍會話的數(shù)量占總的測試會話數(shù)量的比例.分類精確度是指能正確反映用戶會話分類中的測試會話占總的測試會話總量的比例.分類精確度和預(yù)測精確度越大則說明挖掘策略的效果越好.

基于web日志挖掘和web內(nèi)容挖掘的分類精確度A(C)如圖5所示.

圖5 分類精確度A(C)分布

從圖5中,可以明顯地看出N-gram的N值過大或者過小會話分類的效果都不理想.本文的實驗中,N-gram的N的值是4,用戶訪問描述文件的大小在文檔頻率df=20%的時候達到最佳的分類精確度.

8 結(jié)論

本文在研究了web挖掘技術(shù)和個性化服務(wù)之后,分析了web日志挖掘和內(nèi)容挖掘的方法,提出了基于web日志挖掘和web內(nèi)容挖掘的混合挖掘方法,通過混合挖掘方法可以方便準確地獲得用戶訪問的模式,利用用戶訪問模式進行模式分類和用戶將來的訪問請求的預(yù)測.通過實驗數(shù)據(jù),驗證了本文所研究方法的效果,對個性化學習的信息推送效果要明顯地高于單一的挖掘算法.本方法可以更好地應(yīng)用于個性化信息推送服務(wù),更高效率地提高用戶的訪問效率和自主學習的動力.

猜你喜歡
會話日志網(wǎng)頁
一名老黨員的工作日志
華人時刊(2021年13期)2021-11-27 09:19:02
扶貧日志
心聲歌刊(2020年4期)2020-09-07 06:37:14
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
電子制作(2018年10期)2018-08-04 03:24:38
游學日志
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
電子制作(2017年2期)2017-05-17 03:54:56
有意冒犯性言語的會話含義分析
漢語教材中的會話結(jié)構(gòu)特征及其語用功能呈現(xiàn)——基于85個會話片段的個案研究
網(wǎng)頁制作在英語教學中的應(yīng)用
電子測試(2015年18期)2016-01-14 01:22:58
10個必知的網(wǎng)頁設(shè)計術(shù)語
一種基于粗集和SVM的Web日志挖掘模型
大姚县| 高阳县| 思茅市| 霍城县| 武威市| 昌宁县| 山东省| 迁西县| 澄江县| 舟山市| 拉萨市| 东辽县| 宁远县| 永年县| 长泰县| 峨眉山市| 诏安县| 什邡市| 玛纳斯县| 兰考县| 武城县| 进贤县| 当阳市| 铁力市| 左云县| 镇巴县| 太和县| 铜陵市| 三原县| 什邡市| 抚松县| 那曲县| 浦县| 宣化县| 桦甸市| 仁寿县| 积石山| 洛阳市| 内江市| 宁阳县| 韶山市|