基于Web日志挖掘技術(shù)的商務(wù)信息系統(tǒng)構(gòu)建

2017-09-10 06:33:01尹曉婷高洪旗

科學(xué)與財富 2017年22期

尹曉婷+高洪旗

摘要：Web日志挖掘，是Web使用挖掘的一種，就是通過對Web日志記錄的挖掘，發(fā)現(xiàn)用戶訪問Web頁面的模式，從而進一步分析和研究Web日志記錄中的規(guī)律，以期改進Web站點的性能和組織結(jié)構(gòu)，提高用戶查找信息的質(zhì)量和效率，并通過統(tǒng)計和關(guān)聯(lián)的分析找出特定用戶與特定地域、特定時間、特定頁面等要素之間的內(nèi)在聯(lián)系，這在電子商務(wù)等領(lǐng)域是大有作為的。

關(guān)鍵詞：Web日志挖掘，商務(wù)信息網(wǎng)站，數(shù)據(jù)

1.Web日志挖掘的概念

Web日志挖掘，是Web使用挖掘的一種，就是通過對Web日志記錄的挖掘，發(fā)現(xiàn)用戶訪問Web頁面的模式，從而進一步分析和研究Web日志記錄中的規(guī)律，以期改進Web站點的性能和組織結(jié)構(gòu)，提高用戶查找信息的質(zhì)量和效率，并通過統(tǒng)計和關(guān)聯(lián)的分析找出特定用戶與特定地域、特定時間、特定頁面等要素之間的內(nèi)在聯(lián)系，這在電子商務(wù)等領(lǐng)域是大有作為的。

用戶使用Web獲取信息的過程中需要不停地從一個Web站點通過超文本鏈接跳轉(zhuǎn)到另一個站點，這種過程存在一定的普遍性，發(fā)現(xiàn)此規(guī)律即是Web用戶訪問信息發(fā)現(xiàn)。web日志挖掘是關(guān)于用戶行為及潛在顧客信息的發(fā)現(xiàn)，一般包括三個階段，即數(shù)據(jù)預(yù)處理、模式識別及模式分析。

2.Web日志挖掘的過程

Web日志挖掘通過分析和研究Web日志記錄中的規(guī)律，識別電子商務(wù)的潛在用戶，提高對最終用戶信息服務(wù)的質(zhì)量并改進Web服務(wù)系統(tǒng)的性能和結(jié)構(gòu)。

2.1數(shù)據(jù)預(yù)處理

Web日志文件記錄中存儲的是用戶訪問站點信息的原始記錄，直接在這些數(shù)據(jù)上面進行挖掘是比較困難的，在使用算法或工具對其進行分析之前，必須進行預(yù)處理。預(yù)處理過程是Web日志挖掘質(zhì)量保證的關(guān)鍵，因為處理后的數(shù)據(jù)好壞、全面與否，直接影響到數(shù)據(jù)挖掘的結(jié)果，進而對網(wǎng)站決策者的決策造成直接影響。特別是中小型電子商務(wù)網(wǎng)站，其數(shù)據(jù)相對較少，因此數(shù)據(jù)處理的準(zhǔn)確性極為重要。Web日志預(yù)處理主要有4個步驟：數(shù)據(jù)凈化、用戶識別、會話識別和數(shù)據(jù)合并。

Web日志文件中包含一些不能反映用戶行為的記錄，數(shù)據(jù)凈化就是去掉這些記錄。而用戶識別的目的是對用戶的唯一性的識別。在通常情況下，只有通過分析日志文件中的IP地址、agent等信息來識別不同的用戶。會話識別是建立在對用戶識別的基礎(chǔ)上的，其目的是將用戶的訪問記錄分為單個會話。同時，對于網(wǎng)站上繁雜的頁面，由于數(shù)量較多，而且有許多網(wǎng)頁的內(nèi)容有一定的聯(lián)系或相似之處，所以可以對其進行一定程度的合并，從而將其分成能反映網(wǎng)站邏輯信息的同質(zhì)類別。特別是中小型電子商務(wù)網(wǎng)站的網(wǎng)頁，由于網(wǎng)站設(shè)計人員的知識架構(gòu)、技術(shù)層次以及對所要設(shè)計的網(wǎng)站內(nèi)容的了解程度的限制，很難建立一個完全無重復(fù)內(nèi)容網(wǎng)頁和完全反映網(wǎng)站邏輯信息的網(wǎng)站。

2.2模式發(fā)現(xiàn)

模式發(fā)現(xiàn)階段就是利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的以及最終可以理解的信息和知識?？捎糜赪eb的挖掘技術(shù)有路徑選擇、關(guān)聯(lián)分析、分類規(guī)則、聚類分析、序列分析、依賴性建模等。

2.3模式分析

模式分析是Web日志挖掘中的最后一項重要的步驟，主要是為了在模式發(fā)現(xiàn)算法找到的模式集合中發(fā)現(xiàn)有趣（有用）的模式。對于一個商務(wù)信息系統(tǒng)，通過模式發(fā)現(xiàn)與模式分析，可以得到詳細(xì)的用戶反饋，幫助他們根據(jù)實際用戶的瀏覽情況，調(diào)整網(wǎng)站的網(wǎng)頁鏈接結(jié)構(gòu)和網(wǎng)頁內(nèi)容，對網(wǎng)站進行優(yōu)化，從而延長用戶的駐留時間，挽留老用戶、吸引新州戶，并增加用戶的購買率，以此獲得電子商務(wù)網(wǎng)站的成功運行；而通過對內(nèi)部管理系統(tǒng)用戶的聚類，可以明確網(wǎng)站運營的缺陷在哪里，還有何可以改進的地方。

3.Web日志挖掘技術(shù)在商務(wù)信息系統(tǒng)中的構(gòu)建

3.1建立個性化的網(wǎng)站模型

（1）用戶可以通過注冊后訪問網(wǎng)站，也可以不通過注冊直接訪問；（2）針對不同的用戶，網(wǎng)站提供不同的服務(wù)；（3）根據(jù)用戶的訪問記錄信息，動態(tài)調(diào)整網(wǎng)站的頁面，產(chǎn)生的個性化的網(wǎng)站使得用戶可以更容易地到達他所需服務(wù)的數(shù)據(jù)網(wǎng)頁；（4）挖掘用戶的Web訪問日志，在用戶定制區(qū)內(nèi)預(yù)測并推薦用戶的潛在訪問網(wǎng)頁鏈接。

3.2個性化網(wǎng)站系統(tǒng)的框架

系統(tǒng)主要由4個功能模塊組成，分別為用戶識別模塊，行為記錄模塊，興趣識別模塊和個性推薦模塊。各個模塊的說明如下。

（1）用戶識別模塊。用戶識別模塊處理用戶的基本信息并識別用戶。包括用戶的登錄名（注冊用戶有自己唯一對應(yīng)的name；非注冊用戶有一個共同的name，但有不同的Cookie值）；用戶登錄密碼；用戶注冊個人信息時填入的喜好；以及為了更加準(zhǔn)確地識別用戶而獲取的關(guān)于用戶身份的其他一些基本信息，如MAC地址、IP地址、瀏覽器版本號和操作系統(tǒng)版本號等。用戶登錄后通過用戶名或Cookie值為每個用戶分配UserID，以方便其他模塊進一步地調(diào)整網(wǎng)站的頁面以及在用戶定制區(qū)內(nèi)推薦該用戶可能訪問的鏈接。

（2）行為記錄模塊。用戶的訪問（行為記錄）日志是系統(tǒng)進行用戶個性化特征分析的數(shù)據(jù)依據(jù)和數(shù)據(jù)基礎(chǔ)。訪問日志模塊處理用戶行為記錄的各項信息，包括用戶訪問某一頁面的時間以及在該頁面停留的時間，訪問某一頁面的次數(shù)，用戶訪問網(wǎng)站的某頁面的URL地址，為其他相關(guān)模塊提供用戶信息，以及對大量數(shù)據(jù)保存方面的管理配置。

（3）興趣識別模塊。一個網(wǎng)站由眾多網(wǎng)頁構(gòu)成的結(jié)點組成，結(jié)點之間的聯(lián)系是通過頁面的鏈接來實現(xiàn)的。一些大型門戶網(wǎng)站首頁，大量的鏈接讓人跟花繚亂。在這類網(wǎng)站上讓用戶填寫興趣表單只會考驗用戶的耐心。因此根據(jù)用戶在網(wǎng)站中各頁面的停留時間和訪問次數(shù)等特征，結(jié)合用戶參與、識別、建立、調(diào)整該用戶的喜好，可以避免用戶填寫一系列繁瑣的表單操作。

興趣的識別模塊將根據(jù)訪問日志模塊所給出的各個用戶不同信息計算得到該用戶的興趣強度，并且把識別的結(jié)果存儲在用戶興趣分類中，以便為頁面顯示提供數(shù)據(jù)源。

（4）個性推薦模塊。個性推薦模塊的功能包括興趣回顧和興趣推薦，根據(jù)用戶過去的行為預(yù)測用戶的將來行為。網(wǎng)站的用戶在登錄以后，個性推薦模塊根據(jù)用戶的UserlD查找用戶興趣庫中該用戶的歷史興趣，利用個性化推薦進行興趣推薦。系統(tǒng)針對用戶的不同興趣提供相應(yīng)的服務(wù)。在頁面主顯示區(qū)和用戶定制區(qū)分別顯示相應(yīng)的內(nèi)容。免去用戶多次點擊鏈接的麻煩，使用戶的訪問更加有效率。

4.結(jié)束語

Web日志挖掘技術(shù)為商務(wù)信息網(wǎng)站構(gòu)建的合理性分析以及相關(guān)電子商務(wù)信息系統(tǒng)建設(shè)提供了重要的科學(xué)指導(dǎo)。實踐證明，通過對Web日志進行預(yù)處理，清理、過濾以及重新組合不規(guī)范的記錄，并將Web日志中的數(shù)據(jù)轉(zhuǎn)換為挖掘算法可識別的形式來挖掘關(guān)聯(lián)規(guī)則，并對用戶進行聚類和分類，能夠找出特定用戶與特定地域、特定時間、特定頁面等要素之間的內(nèi)在聯(lián)系，發(fā)現(xiàn)用戶訪問Web頁面的模式，從而改進Web站點的性能和組織結(jié)構(gòu)，提高用戶查找信息的質(zhì)量和效率。

參考文獻

[1] 陳京民.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)（第2版）[M].電子工業(yè)出版社，2007.

[2] Dunham Margaret H.數(shù)據(jù)挖掘教程.清華大學(xué)出版社，2005.

[3] 梁循.數(shù)據(jù)挖掘算法與應(yīng)用.北京大學(xué)出版社，2006.

[4] 戴永群.web挖掘研究與應(yīng)用.計算機與信息技術(shù)，2007.

[5] 丁瑾.基于Web數(shù)據(jù)挖掘的綜述.科技開發(fā)情報與經(jīng)濟，2004endprint

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Web日志挖掘技術(shù)的商務(wù)信息系統(tǒng)構(gòu)建