郭鵬
摘要:Web頁面結(jié)構(gòu)復(fù)雜但所含信息極為豐富,將Web數(shù)據(jù)挖掘技術(shù)應(yīng)用到電子商務(wù)平臺(tái)中,能夠挖掘大量的知識(shí),提供決策參考。本文論述了Web數(shù)據(jù)挖掘的概念、特點(diǎn)和分類,并闡述了Web數(shù)據(jù)挖掘在電子商務(wù)的應(yīng)用。
關(guān)鍵詞:電子商務(wù);數(shù)據(jù)挖掘;Web數(shù)據(jù)挖掘
Internet在世界范圍內(nèi)普及的同時(shí),人們?cè)诨ヂ?lián)網(wǎng)上各個(gè)方面的需求也越來越大,基于Web的商業(yè)交易成為電子商務(wù)迅猛發(fā)展的重要因素,海量的Web頁面也蘊(yùn)含了大量反映用戶需求的知識(shí),而Web數(shù)據(jù)挖掘也將大有用武之地。
1 Web數(shù)據(jù)挖掘
1.1 Web數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、以前未知并具有潛在可用知識(shí)的過程。Web頁面復(fù)雜,數(shù)據(jù)量巨大、無結(jié)構(gòu)、動(dòng)態(tài)的、樣式繁多,大多數(shù)傳統(tǒng)數(shù)據(jù)挖掘方法已不太適用,因此一種新的技術(shù)應(yīng)運(yùn)而生——Web數(shù)據(jù)挖掘。
1.2 Web數(shù)據(jù)挖掘特點(diǎn)
Web挖掘技術(shù)使用方便、信息量大、內(nèi)容豐富、應(yīng)用分布范圍廣,其最大的特點(diǎn)就是適用半結(jié)構(gòu)化的Web文檔。而傳統(tǒng)的數(shù)據(jù)庫中數(shù)據(jù)是完全結(jié)構(gòu)化的數(shù)據(jù)。但相比單個(gè)數(shù)據(jù)庫的數(shù)據(jù)挖掘,Web數(shù)據(jù)挖掘會(huì)面臨很多具體問題。主要有:
(1)與傳統(tǒng)的數(shù)據(jù)挖掘和數(shù)據(jù)倉庫來比,Web數(shù)據(jù)量巨大,增長速度快,諸多企業(yè)和團(tuán)體一并把自己大量的可訪問的信息放在互聯(lián)網(wǎng)上,這樣很難構(gòu)造一個(gè)數(shù)據(jù)庫來復(fù)制、存儲(chǔ)或集成Web上的所有數(shù)據(jù)。
(2)與傳統(tǒng)文本文檔相比,Web頁面相對(duì)復(fù)雜。其主要原因在于Web頁面呈現(xiàn)半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)不規(guī)則或不完整,數(shù)據(jù)結(jié)構(gòu)隱含,模式變化快,模式信息量大。
(3)Web頁面無時(shí)無刻不在變化、增長與更新,是動(dòng)態(tài)性極強(qiáng)的信息源。它沒有固定模式,僅用傳統(tǒng)關(guān)鍵字檢索方式來實(shí)現(xiàn)Web頁面上那些幾乎都是隱藏的、潛在的未知知識(shí)的發(fā)現(xiàn)是很難實(shí)現(xiàn)的。
(4)由于Web數(shù)據(jù)所包含的客戶信息具有多樣性特點(diǎn),所以用戶訪問的內(nèi)容和使用目的千奇百怪。
(5)盡管Web頁面信息儲(chǔ)量大,內(nèi)容廣,但利用率一直很低,“數(shù)據(jù)豐富而知識(shí)貧乏”的問題非常嚴(yán)重。
2 Web數(shù)據(jù)挖掘的分類
2.1 Web內(nèi)容挖掘
Web內(nèi)容挖掘指的是對(duì)Web文檔內(nèi)容或其描述的數(shù)據(jù)進(jìn)行挖掘,一般以文本內(nèi)容的挖掘居多。Web文檔主要包括HTML、XML等結(jié)構(gòu)性標(biāo)記語言,是Internet環(huán)境中跨平臺(tái)的、依賴內(nèi)容的技術(shù)。Web內(nèi)容挖掘常用的方法有Web OQL和Ahoy以及基于軟件Agent的分類器方法。
2.2 Web使用挖掘
Web使用挖掘主要通過分析服務(wù)器端用戶訪問記錄抽取用戶的興趣和習(xí)慣。Web服務(wù)器都保留了用戶訪問日志,記錄了每位登錄用戶的訪問和交互信息,分析這些信息可用于對(duì)用戶行為進(jìn)行預(yù)測,從而改進(jìn)Web站點(diǎn)結(jié)構(gòu),以便提供個(gè)性化的產(chǎn)品信息和服務(wù)。
3 Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用
Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用將極大地提高電商企業(yè)的競爭能力,數(shù)以億計(jì)的Web頁面及其鏈接和服務(wù)器日志中蘊(yùn)藏著有意義的用戶訪問模式和相關(guān)的潛在用戶群知識(shí),充分運(yùn)作挖掘到的這些知識(shí),從中提取商業(yè)決策支持的關(guān)鍵性數(shù)據(jù),改進(jìn)Web站點(diǎn)設(shè)計(jì),能夠更好地開展電子商務(wù)活動(dòng)。
3.1 優(yōu)化電子商務(wù)平臺(tái)網(wǎng)站
通過挖掘用戶的Web日志文件,一是找出用戶訪問最頻繁的路徑,設(shè)計(jì)網(wǎng)站的結(jié)構(gòu)和網(wǎng)頁的鏈接,有助于節(jié)約客戶的訪問時(shí)間;二是發(fā)現(xiàn)用戶的期望位置,如果在期望位置的訪問頻率高于對(duì)實(shí)際位置的訪問頻率,可考慮為該用戶提供個(gè)性化的導(dǎo)航鏈接。網(wǎng)站網(wǎng)頁的導(dǎo)航設(shè)置直接影響網(wǎng)站的訪問效率。按照大多數(shù)訪問者的瀏覽模式對(duì)網(wǎng)站進(jìn)行組織,不僅減輕了服務(wù)器的負(fù)擔(dān),而且還給用戶留下好的訪問體驗(yàn)。
3.2 挖掘潛在客戶,提供個(gè)性化服務(wù)
通過分析和探究Web日志,可以發(fā)現(xiàn)購買某種商品的消費(fèi)者的性別、年齡、學(xué)歷、收入狀況、愛好和職業(yè)等信息,充分地了解客戶的需求,提供個(gè)性化的產(chǎn)品或服務(wù)。電子商務(wù)平臺(tái)運(yùn)營商將最大限度地利用客戶資源,開展客戶行為的分析與預(yù)測,尋找潛在的有價(jià)值的客戶,開展個(gè)性化服務(wù),提高客戶的滿意度和忠誠度。
3.3 交叉銷售
交叉銷售廣泛應(yīng)用于電子商務(wù)零售領(lǐng)域。電子商務(wù)運(yùn)營商可以獲取較詳細(xì)的老客戶信息,對(duì)于Web數(shù)據(jù)挖掘的準(zhǔn)確性來說是有很大幫助的。通過客戶的歷史購買記錄推測該客戶將來下一個(gè)購買行為,實(shí)現(xiàn)交叉銷售。
4 結(jié)論
本文通過對(duì)Web數(shù)據(jù)挖掘的概念、分類和特點(diǎn)進(jìn)行了論述,并對(duì)Web數(shù)據(jù)挖掘在電子商務(wù)方面的應(yīng)用進(jìn)行了探討,在電子商務(wù)中運(yùn)用Web數(shù)據(jù)挖掘有發(fā)現(xiàn)潛在客戶、提供理性化服務(wù)、改進(jìn)站點(diǎn)設(shè)計(jì)、提高系統(tǒng)效率等優(yōu)點(diǎn)。