劉星星
【摘要】電子商務(wù)與數(shù)據(jù)挖掘技術(shù)都是新興事物,在電商領(lǐng)域應(yīng)用數(shù)字挖掘技術(shù)可以幫助電子商務(wù)網(wǎng)站對(duì)海量數(shù)據(jù)進(jìn)行分析和處理,挖掘出潛在有價(jià)值的信息,從而發(fā)現(xiàn)業(yè)務(wù)發(fā)展的趨勢(shì),幫助企業(yè)做出正確的引導(dǎo),使企業(yè)在發(fā)展中更具優(yōu)勢(shì)。
【關(guān)鍵詞】電子商務(wù);數(shù)據(jù)挖掘
隨著網(wǎng)絡(luò)科技的飛速發(fā)展,電子商務(wù)也隨之迅猛發(fā)展,充分發(fā)揮它的優(yōu)勢(shì),獲得更多的效益。Web已經(jīng)成為企業(yè)開(kāi)展電子商務(wù)的基礎(chǔ),數(shù)據(jù)挖掘是近年來(lái)隨著數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的發(fā)展而出現(xiàn)的一種全新的信息技術(shù),它融合了數(shù)據(jù)庫(kù)、人工智能以及統(tǒng)計(jì)學(xué)等多種學(xué)科的知識(shí),從數(shù)據(jù)庫(kù)中提取有用的資料。在電商領(lǐng)域,運(yùn)用數(shù)據(jù)挖掘技術(shù),在海量的數(shù)據(jù)中提取真正有價(jià)值的資料,輔助企業(yè)更好的發(fā)展,Web數(shù)據(jù)挖掘就是在這樣的背景下與電子商務(wù)結(jié)合在一起的。
一、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(Data Mining)是從大量的實(shí)際應(yīng)用數(shù)據(jù)中,提取人們有用的數(shù)據(jù)的過(guò)程。對(duì)所得到的經(jīng)過(guò)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘,除了完善選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成。整個(gè)挖掘過(guò)程應(yīng)該是交互的,數(shù)據(jù)挖掘算法是整個(gè)數(shù)據(jù)挖掘系統(tǒng)的核心部分。
二、Web數(shù)據(jù)挖掘
1、Web數(shù)據(jù)挖掘概述
Web的搜索引擎能解決部分資源問(wèn)題,Web挖掘可在多方面發(fā)揮作用,如搜索引擎結(jié)構(gòu)的挖掘,搜索引擎的開(kāi)發(fā),改進(jìn)和提高搜索引擎的質(zhì)量和效率。通過(guò)Web挖掘,不僅可以從大量多種信息的Web頁(yè)面中提取出我們需要的有用的知識(shí),還可以得到關(guān)于群體用戶訪問(wèn)行為和方式的普遍知識(shí),用以改進(jìn)Web服務(wù)設(shè)計(jì)。更重要的是,通過(guò)對(duì)用戶特征的理解和分析。
2、Web數(shù)據(jù)挖掘分類
Web數(shù)據(jù)有四種類型:
(1)內(nèi)容數(shù)據(jù),即Web頁(yè)面,如HTML文檔、動(dòng)畫(huà)、圖片;
(2)用戶訪問(wèn)數(shù)據(jù),即描述用戶使用網(wǎng)絡(luò)資源的數(shù)據(jù),通常以日志文件的形式存在,如Server logs和Cookie logs;
(3)結(jié)構(gòu)數(shù)據(jù),如網(wǎng)頁(yè)的內(nèi)部鏈接和網(wǎng)頁(yè)間的超鏈接;
(4)在線市場(chǎng)數(shù)據(jù),即傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)結(jié)構(gòu)數(shù)據(jù)。
三、電子商務(wù)推薦系統(tǒng)以及Web日志挖掘
1、電子商務(wù)及其面臨的問(wèn)題
電子商務(wù)是商業(yè)領(lǐng)域的一種新興商務(wù)模式,它是以網(wǎng)絡(luò)為平臺(tái),以現(xiàn)代信息技術(shù)為手段,以經(jīng)濟(jì)效益為中心的現(xiàn)代化商業(yè)運(yùn)轉(zhuǎn)模式,其最終目標(biāo)是實(shí)現(xiàn)商務(wù)活動(dòng)的網(wǎng)絡(luò)化,自動(dòng)化與智能化。隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展和社會(huì)信息水平的提高,電子商務(wù)顯示出巨大的市場(chǎng)價(jià)值和發(fā)展?jié)摿?。電子商?wù)可以拉近企業(yè)和客戶的距離,縮短生產(chǎn)時(shí)間,降低流通成本,提高商品產(chǎn)量,為生產(chǎn)者和消費(fèi)者提供更多的信息,擴(kuò)大客戶的選擇,提高企業(yè)的競(jìng)爭(zhēng)力,是推動(dòng)未來(lái)經(jīng)濟(jì)增長(zhǎng)的關(guān)鍵動(dòng)力。但是,當(dāng)用戶和電子商務(wù)的商家充分享受電子商務(wù)的快捷和方便時(shí),他們同事面臨著某些新的問(wèn)題,開(kāi)展在線零售業(yè)務(wù)的電子商務(wù)系統(tǒng)的一個(gè)重要問(wèn)題是:一方面,用戶面對(duì)網(wǎng)站上提供的琳瑯滿目的眾多商品,他們只對(duì)其中的一部分商品感興趣。用戶要實(shí)現(xiàn)一次的購(gòu)買,就必須瀏覽許多不相干的網(wǎng)頁(yè),在眾多的商品分類中找到自己所需要的商品;另一方面,商家面對(duì)眾多的用戶,不知道他們對(duì)商品的興趣和要求是什么。因此,電子商務(wù)的商家無(wú)法及時(shí)調(diào)整網(wǎng)站的頁(yè)面結(jié)構(gòu),提供給所有用戶是千篇一律的界面,缺乏個(gè)性化服務(wù)已經(jīng)成為制約電子商務(wù)發(fā)展的關(guān)鍵問(wèn)題。
2、電子商務(wù)推薦系統(tǒng)
個(gè)性化服務(wù)是電子商務(wù)的發(fā)展方向,利用Web挖掘技術(shù)建立的電子商務(wù)推薦系統(tǒng)就可以有效的解決這些問(wèn)題。隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的發(fā)展,推薦系統(tǒng)逐漸成為電子商務(wù)IT技術(shù)的一個(gè)重要研究?jī)?nèi)容,得到越來(lái)越多研究者的關(guān)注。目前,幾乎所有的大型電子商務(wù)系統(tǒng)都不同程度的使用了各種形式的電子商務(wù)推薦系統(tǒng)。成功的電子商務(wù)推薦系統(tǒng)都不同程度的使用了各種形式的電子商務(wù)推薦系統(tǒng)。成功的電子商務(wù)推薦系統(tǒng)將會(huì)產(chǎn)生巨大的經(jīng)濟(jì)社會(huì)效益,在電子商務(wù)系統(tǒng)中具有良好的發(fā)展和應(yīng)用前景。
(1)推薦系統(tǒng)
推薦系統(tǒng)(Recommendation System)就是根據(jù)用戶個(gè)人的喜好、習(xí)慣來(lái)向其推薦信息、商品的程序。電子商務(wù)推薦系統(tǒng)能夠直接與用戶交互,模擬商店銷售人員向用戶提供商品推薦,幫助用戶找到所需商品,從而順利完成交易。從用戶角度來(lái)看,電子商務(wù)推薦系統(tǒng)通過(guò)對(duì)收集到的用戶的訪問(wèn)行為、訪問(wèn)頻度、訪問(wèn)內(nèi)容等瀏覽信息進(jìn)行挖掘,提供用戶的特征,獲取用戶訪問(wèn)的模式,動(dòng)態(tài)的調(diào)整頁(yè)面結(jié)構(gòu),為用戶實(shí)現(xiàn)主動(dòng)推薦,提供個(gè)性化服務(wù)。
一般來(lái)說(shuō),推薦系統(tǒng)在電子商務(wù)活動(dòng)中的作用可以歸納為以下幾點(diǎn):1、把瀏覽者轉(zhuǎn)變成購(gòu)買者;2、增加交叉銷售量;3、提供個(gè)性化的服務(wù);4、提高客戶忠誠(chéng)度。
(2)電子商務(wù)推薦技術(shù)使用的主要技術(shù)
目前,電子商務(wù)推薦系統(tǒng)使用的技術(shù)主要有:聚類(Clustering)、關(guān)聯(lián)規(guī)則(Association Rules)和協(xié)同過(guò)濾技術(shù)(Collaborative Filtering)。
①協(xié)同過(guò)濾推薦技術(shù)
推薦系統(tǒng)中被廣泛研究和來(lái)用的是協(xié)同過(guò)濾技術(shù)。
協(xié)同過(guò)濾技術(shù)可能的出發(fā)點(diǎn)是:興趣相近的用戶可能會(huì)對(duì)同樣的東西感興趣,所以只要維護(hù)關(guān)于用戶喜好的數(shù)據(jù),從中分析得出具有相似品味的用戶,然后就可以根據(jù)相似客戶的意見(jiàn)來(lái)向其推薦。另一種可能的出發(fā)點(diǎn)是:用戶可能較偏愛(ài)與其已購(gòu)買的東西相類似的商品??梢愿鶕?jù)用戶對(duì)各種東西的評(píng)價(jià)來(lái)判斷商品之間的相似程度,然后推薦與用戶興趣最接近的那些商品。
②聚類技術(shù)
聚類技術(shù)基于一組用戶進(jìn)行預(yù)測(cè)。聚類技術(shù)通過(guò)觀察與分析,可以將數(shù)據(jù)集劃分為多個(gè)類,使得同一類對(duì)象具有較高的相似度,而不同種類的對(duì)象差別較大。
③關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則挖掘是指從一個(gè)大型的數(shù)據(jù)集中發(fā)現(xiàn)有趣的關(guān)聯(lián)或相關(guān)關(guān)系,即從數(shù)據(jù)中識(shí)別出頻繁出現(xiàn)的屬性值集合,也稱為頻繁項(xiàng)集,然后再利用這些頻繁項(xiàng)集創(chuàng)建描述關(guān)聯(lián)關(guān)系的規(guī)則的過(guò)程。
人們通常只對(duì)滿足一定的支持度和置信度的關(guān)聯(lián)規(guī)則感興趣。為了發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則,需要給定兩個(gè)閾值:一個(gè)是最小支持度(minimum support),表示發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則必須滿足的最小支持度,簡(jiǎn)稱為minsupport;另一個(gè)是最小置信度(minimum confidence),表示發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則必須滿足的最小置信度約束條件的所有規(guī)則。
關(guān)聯(lián)規(guī)則的挖掘問(wèn)題可以分解成以下兩個(gè)子問(wèn)題:
A、找出事務(wù)數(shù)據(jù)庫(kù)D中所有大于或等于用戶指定最小支持度的項(xiàng)目集。具有最小支持度的項(xiàng)目集稱為最大項(xiàng)目集。這里項(xiàng)目集的支持度是指在事務(wù)數(shù)據(jù)庫(kù)D中包含該項(xiàng)目集的事務(wù)的項(xiàng)目。
B、利用最大項(xiàng)目集生成所需要的關(guān)聯(lián)規(guī)則。對(duì)每一最大項(xiàng)目集A,找到A的所有非空子集a。
第一步頻繁項(xiàng)集的發(fā)現(xiàn)最耗時(shí),是算法的瓶頸,但可以離線進(jìn)行。
3、電子商務(wù)中Web數(shù)據(jù)源的挖掘
隨著研究的深入,電子商務(wù)推薦算法應(yīng)該利用盡可能多的信息,收集多種類型的數(shù)據(jù)并有效集成,從而提供更加精確有效的推薦。Web訪問(wèn)信息挖掘可以獲取用戶對(duì)網(wǎng)站使用情況的第一手資料,Web上可以用來(lái)作為數(shù)據(jù)挖掘分析的數(shù)據(jù)量比較大,其中Web服務(wù)器日志記錄著用戶訪問(wèn)該站點(diǎn)時(shí)每個(gè)頁(yè)面的請(qǐng)求信息。Web日志記錄了用戶信息及瀏覽網(wǎng)頁(yè)情況等信息,可以說(shuō)是Web挖掘的重點(diǎn)。
Web日志挖掘主要分為三個(gè)步驟:
①數(shù)據(jù)預(yù)處理。根據(jù)挖掘的目的,對(duì)原始日志文件中的數(shù)據(jù)進(jìn)行選擇、過(guò)濾、分解和合并,最后轉(zhuǎn)化為適合進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)格式,并保存到關(guān)系型數(shù)據(jù)庫(kù)表中,等待進(jìn)一步處理;
②模式識(shí)別。運(yùn)用各種算法對(duì)處理后的數(shù)據(jù)進(jìn)行挖掘,生成模式;
③模式分析。對(duì)已產(chǎn)生的模式進(jìn)行分析、綜合,過(guò)濾掉無(wú)意義的模式,將有價(jià)值的模式取出來(lái)的過(guò)程。
由于Web數(shù)據(jù)具有數(shù)據(jù)量龐大,頁(yè)面復(fù)雜,缺乏統(tǒng)一的結(jié)構(gòu)等特點(diǎn),數(shù)據(jù)預(yù)處理技術(shù)也就成為Web訪問(wèn)信息挖掘中的一個(gè)關(guān)鍵問(wèn)題。只有保證了數(shù)據(jù)的準(zhǔn)確性,才能正確的反映用戶的意圖,從而使以后的分析沿著正確的方向進(jìn)行。
四、總結(jié)
深入學(xué)習(xí)數(shù)據(jù)挖掘的基礎(chǔ)理論和Web數(shù)據(jù)挖掘技術(shù),分析Web挖掘在電子商務(wù)中的應(yīng)用現(xiàn)狀,詳細(xì)研究當(dāng)前電子商務(wù)中廣泛應(yīng)用的推薦系統(tǒng)。