劉金勇
(四川大學(xué)計(jì)算機(jī)學(xué)院 四川 610064)
在日益激烈的電子商務(wù)企業(yè)競(jìng)爭(zhēng)中,對(duì)用戶的競(jìng)爭(zhēng)是關(guān)鍵因素,因此如何更好地掌握用戶需要,根據(jù)用戶喜好為用戶提供個(gè)性化的服務(wù)就顯得至關(guān)重要。下面,我們就從電子商務(wù)平臺(tái)的數(shù)據(jù)資源、WEB數(shù)據(jù)挖掘的分類、WEB數(shù)據(jù)挖掘的方法及WEB數(shù)據(jù)挖掘能夠?yàn)殡娮由虅?wù)帶來(lái)何種影響幾個(gè)方面來(lái)探討WEB數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用。
WEB數(shù)據(jù)挖掘是針對(duì)數(shù)據(jù)進(jìn)行分析統(tǒng)計(jì)的,首先要有數(shù)據(jù),電子商務(wù)平臺(tái)中存在大量的數(shù)據(jù)信息,這些數(shù)據(jù)都是WEB數(shù)據(jù)挖掘的數(shù)據(jù)源。
首先是電子商務(wù)系統(tǒng)中商品的信息,電子商務(wù)系統(tǒng)中的商品成千上萬(wàn),每件商品都有它各自的參數(shù)和價(jià)格等信息,每一個(gè)商品都是以WEB頁(yè)面的方式向用戶展示的,因此商品的信息實(shí)際上也就是WEB頁(yè)面信息,這類信息可以幫助分析頁(yè)面之間存在的隱藏關(guān)系,從而為頁(yè)面定秩,優(yōu)化頁(yè)面結(jié)構(gòu);其次就是用戶的信息,用戶的信息既包括用戶在電子商務(wù)網(wǎng)站注冊(cè)時(shí)留下的信息,同時(shí)也包括用戶的購(gòu)買記錄(也就是用戶的訂單信息)、用戶搜索商品的記錄和用戶訪問(wèn)過(guò)的頁(yè)面等等行為信息,這類信息可以幫助分析用戶的喜好,從而預(yù)測(cè)用戶未來(lái)的購(gòu)買行為;第三是頁(yè)面之間存在的超鏈接關(guān)系,相似的頁(yè)面之間通常存在著超鏈接,這種結(jié)構(gòu)信息能夠?yàn)樗阉饕嫣峁┲匾呐判蛞罁?jù);最后就是服務(wù)器數(shù)據(jù),包括服務(wù)器日志、錯(cuò)誤日志和Cookie日志,通過(guò)這些日志文件可以分析服務(wù)器的運(yùn)行狀態(tài),從而優(yōu)化系統(tǒng),提高服務(wù)器的運(yùn)行效率和響應(yīng)速度,使用戶獲得良好的用戶體驗(yàn)。
數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中提取或挖掘知識(shí),WEB數(shù)據(jù)挖掘是數(shù)據(jù)挖掘在萬(wàn)維網(wǎng)上的應(yīng)用。通常WEB數(shù)據(jù)挖掘分為WEB內(nèi)容挖掘、WEB結(jié)構(gòu)挖掘和WEB使用挖掘三類。
WEB內(nèi)容挖掘是指從WEB頁(yè)面數(shù)據(jù)中發(fā)現(xiàn)有用的信息,從資源查找的角度來(lái)看WEB內(nèi)容挖掘的任務(wù)是從用戶角度出發(fā)提高信息質(zhì)量和幫助用戶過(guò)濾信息,從數(shù)據(jù)庫(kù)角度來(lái)看WEB內(nèi)容挖掘的任務(wù)是對(duì)WEB上的數(shù)據(jù)進(jìn)行集成和建模,以支持對(duì)WEB數(shù)據(jù)的復(fù)雜查詢;WEB結(jié)構(gòu)挖掘是對(duì)WEB的鏈接結(jié)構(gòu)進(jìn)行分析,WEB頁(yè)面中的鏈接中也包含了非常有用的信息,通過(guò)分析WEB頁(yè)面之間的鏈接關(guān)系,確定WEB頁(yè)面在搜索結(jié)果中出現(xiàn)的次序,提高搜索結(jié)果的準(zhǔn)確度,WEB結(jié)構(gòu)挖掘的常用算法有PageRank算法和HITS算法;WEB使用挖掘是為了分析用戶和行為,以改進(jìn)系統(tǒng)構(gòu)成,為用戶提供個(gè)性化的服務(wù),通常靠分析用戶的訪問(wèn)記錄、訪問(wèn)日期和配置信息等數(shù)據(jù)分析用戶行為。
在電子商務(wù)系統(tǒng)中進(jìn)行WEB數(shù)據(jù)挖掘分為數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘和結(jié)果表達(dá)與解釋三個(gè)步驟。
數(shù)據(jù)準(zhǔn)備就是準(zhǔn)備數(shù)據(jù)挖掘所需要的數(shù)據(jù)源。首先要從數(shù)據(jù)庫(kù)中抽取數(shù)據(jù),這些數(shù)據(jù)包括商品頁(yè)面、用戶評(píng)價(jià)、用戶的購(gòu)買記錄和瀏覽搜索記錄等等,然后對(duì)這些數(shù)據(jù)進(jìn)行一定的清理,清除無(wú)用的數(shù)據(jù),保留有用的數(shù)據(jù),并按合理的格式進(jìn)行存儲(chǔ)。
數(shù)據(jù)挖掘階段則對(duì)數(shù)據(jù)準(zhǔn)備階段產(chǎn)生的有用數(shù)據(jù)進(jìn)行實(shí)質(zhì)性的分析建模工作,首先根據(jù)數(shù)據(jù)的特征確定一個(gè)合理的假設(shè),然后建立相應(yīng)的數(shù)學(xué)模型,再選取合適的工具或算法來(lái)驗(yàn)證假設(shè),進(jìn)而發(fā)現(xiàn)隱藏在數(shù)據(jù)間的有價(jià)值的信息。
結(jié)果的表達(dá)與解釋就是對(duì)數(shù)據(jù)挖掘所發(fā)現(xiàn)的模式和知識(shí)進(jìn)行解釋,對(duì)于數(shù)據(jù)挖掘階段發(fā)現(xiàn)的有用信息,解釋產(chǎn)生這些信息的原因,了解各因素相互作用的內(nèi)部原理,從而挖掘出最有意義的信息,提交給決策者,決策者據(jù)此對(duì)即將發(fā)生或可能發(fā)生的事件進(jìn)行預(yù)測(cè),為決策者制定正確的市場(chǎng)戰(zhàn)略提供參考借鑒。
電子商務(wù)系統(tǒng)中的WEB數(shù)據(jù)挖掘技術(shù)主要有路徑分析、統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則、序列模式、分類規(guī)則和聚類分析六種。
路徑分析是通過(guò)分析用戶訪問(wèn)網(wǎng)站的次數(shù)和頻率等記錄在服務(wù)器日志中的信息,確定出用戶頻繁訪問(wèn)的路徑。
統(tǒng)計(jì)分析主要用于改進(jìn)站點(diǎn)的設(shè)計(jì),提高性能和安全性。對(duì)系統(tǒng)正常運(yùn)行時(shí)用戶的訪問(wèn)頻率、駐留時(shí)間、會(huì)話時(shí)長(zhǎng)、非法訪問(wèn)或是不正出錯(cuò)的路徑等等進(jìn)行統(tǒng)計(jì)分析,可以發(fā)現(xiàn)系統(tǒng)設(shè)計(jì)中存在的問(wèn)題,從而改進(jìn)設(shè)計(jì),提高系統(tǒng)性能,增強(qiáng)系統(tǒng)安全系數(shù),保障系統(tǒng)安全平穩(wěn)高效運(yùn)行。
關(guān)聯(lián)規(guī)則就是為挖掘不同事件之間存在的聯(lián)系和規(guī)則,如用戶購(gòu)買商品A的同時(shí)也購(gòu)買了商品B,也就是說(shuō)購(gòu)買商品A的同時(shí)也會(huì)購(gòu)買商品B,即A與B存在關(guān)聯(lián)關(guān)系,通過(guò)這種關(guān)系,電子商務(wù)站點(diǎn)可以在用戶購(gòu)買商品A時(shí)向用戶推薦商品B,即減少用戶過(guò)濾信息的負(fù)擔(dān),又能增加了銷量。
序列模式是就事件在時(shí)序上存在的先后關(guān)系,如用戶先購(gòu)買商品A后,過(guò)一段時(shí)間后又購(gòu)買了商品B。通過(guò)序列模式分析可以預(yù)測(cè)用戶的行為,如當(dāng)用戶購(gòu)買某商品后在適當(dāng)?shù)臅r(shí)間內(nèi)再向用戶推薦有針對(duì)性的產(chǎn)品,根據(jù)對(duì)用戶行為的預(yù)測(cè)進(jìn)行針對(duì)性的優(yōu)化,為用戶提供個(gè)性化、人性化的服務(wù),既使客戶滿意又獲得最大收益。
分類規(guī)則主要是為了根據(jù)事物的屬性和行為等對(duì)事物進(jìn)行分類,如在電子商務(wù)系統(tǒng)中可以根據(jù)不同的年齡段和不同的地區(qū)進(jìn)行分類。
聚類分析是根據(jù)特定的規(guī)則對(duì)未分類的記錄進(jìn)行歸類。通過(guò)聚類分析可以使運(yùn)營(yíng)者更加了解用戶的需要,更加準(zhǔn)確地預(yù)測(cè)用戶的行為。
將WEB數(shù)據(jù)挖掘與電子商務(wù)相結(jié)合,能夠極大提高電子商務(wù)企業(yè)獲取信息和管理信息的能力,幫助電子商務(wù)企業(yè)降低運(yùn)營(yíng)成本,作出正確的商業(yè)決策,爭(zhēng)取更多的客氣,開拓更加廣闊的市場(chǎng)。
通過(guò)WEB數(shù)據(jù)挖掘,電子商務(wù)企業(yè)可以了解用戶的喜好,調(diào)整WEB頁(yè)面的內(nèi)容,針對(duì)用戶的喜好為用戶提供個(gè)性化的服務(wù),使用戶獲得更好的體驗(yàn),從而獲得更高的客戶滿意度,延長(zhǎng)用戶在網(wǎng)站的停留時(shí)間,最終達(dá)到留住老客戶的目的;通過(guò)對(duì)訪問(wèn)網(wǎng)站的新用戶進(jìn)行分析,挖掘出潛在客戶,針對(duì)潛在客戶進(jìn)行宣傳推廣,從而吸引新的客戶,開辟新的市場(chǎng)。
電子商務(wù)企業(yè)運(yùn)用WEB數(shù)據(jù)挖掘技術(shù)對(duì)各項(xiàng)商品的銷售數(shù)據(jù)進(jìn)行深入挖掘, 可以了解商品的銷售情況變化,對(duì)下一階段商品的銷量做出預(yù)測(cè),從而合理地管理庫(kù)存,合理采購(gòu)商品,防止出現(xiàn)庫(kù)存過(guò)剩和庫(kù)存不足等影響企業(yè)正常運(yùn)行的因素。
通過(guò)WEB數(shù)據(jù)挖掘技術(shù),電子商務(wù)企業(yè)可以充分了解用戶的真正需求,了解某類客戶真正需要哪一種商品,同時(shí)也能夠充分了解用戶的消費(fèi)用力,精確地為每種商品定位潛在的用戶群,從而向這些用戶投放廣告,在不引起用戶反感的情況下取得最好的宣傳效果,提高廣告投放的回報(bào)率。
電子商務(wù)企業(yè)能夠通過(guò)WEB數(shù)據(jù)挖掘技術(shù)挖掘用戶的行為記錄等信息,為系統(tǒng)設(shè)計(jì)者提供改進(jìn)依據(jù),完善系統(tǒng)的設(shè)計(jì)。例如當(dāng)用戶瀏覽某個(gè)頁(yè)面時(shí),預(yù)測(cè)用戶可能會(huì)對(duì)哪些內(nèi)容感興趣,可以會(huì)希望瀏覽哪些頁(yè)面,動(dòng)態(tài)地將這些頁(yè)面的超鏈接放在當(dāng)前用戶瀏覽的頁(yè)面中,使用戶可以方便地找到自己想要的內(nèi)容,減少用戶過(guò)慮信息的負(fù)擔(dān),使用戶獲得較滿意的使用體驗(yàn),同時(shí)網(wǎng)站也能獲得較高的點(diǎn)擊率,延長(zhǎng)客戶在網(wǎng)站停留的時(shí)間。
電子商務(wù)是一種基于網(wǎng)絡(luò)平臺(tái)的現(xiàn)代化商業(yè)模式,其前景廣闊,發(fā)展勢(shì)頭強(qiáng)勁,而WEB數(shù)據(jù)挖掘技術(shù)能夠幫助電子商務(wù)企業(yè)統(tǒng)計(jì)分析企業(yè)積累的大量數(shù)據(jù),從中挖掘出有價(jià)值的信息,為企業(yè)決策提供支持。本文介紹了如何將WEB數(shù)據(jù)挖掘與電子商務(wù)相結(jié)合,WEB數(shù)據(jù)挖掘能夠使得電子商務(wù)管理更加智能化,服務(wù)更加個(gè)性化,但是WEB數(shù)據(jù)挖掘與電子商務(wù)的結(jié)合還存在許多問(wèn)題,這些問(wèn)題的解決還有待于我們進(jìn)一步的探索與發(fā)現(xiàn)。
[1]邱明虹,何躍.從Web日志中挖掘用戶興趣路徑算法改進(jìn).[J].計(jì)算機(jī)工程與應(yīng)用.2008(26):17-19
[2]魯俊,孫永鴻.基于電子商務(wù)應(yīng)用的Web數(shù)據(jù)技術(shù)研究.[J].電腦知識(shí)與技術(shù).2009(21):29-31
[3]戴菲.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用.[J].電腦知識(shí)與技術(shù).2011(21):15-17
[4]劉鋒華. 淺析Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用[J]. 經(jīng)營(yíng)管理者. 2009(14):33-35