劉永紅 李惠君
摘要:數(shù)據(jù)挖掘是一種新興的信息處理技術(shù),它通過(guò)對(duì)商業(yè)數(shù)據(jù)的分析處理,可以發(fā)現(xiàn)蘊(yùn)藏在數(shù)據(jù)中的商業(yè)知識(shí),挖掘數(shù)據(jù)內(nèi)在的聯(lián)系、規(guī)則和模式,輔助商業(yè)決策。在電子商務(wù)環(huán)境下的數(shù)據(jù)挖掘的研究,主要是進(jìn)行客戶訪問(wèn)信息的挖掘,文章在考慮了數(shù)據(jù)來(lái)源之后,簡(jiǎn)要介紹數(shù)據(jù)預(yù)處理過(guò)程,最后給出了模糊集與傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘結(jié)合的算法。
關(guān)鍵詞:電子商務(wù);數(shù)據(jù)源;數(shù)據(jù)挖掘;算法;模糊關(guān)聯(lián)規(guī)則
中圖分類(lèi)號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1002-3100(2009)01-0040-03
Abstract: Data mining is a new method to process information, it can discover the business knowledges, dig internal relationships、rules and modes,and assist business decision by analysing and processing business data. The disscusion about data sources and data preprocessing method for EC's data mining was presented, then the algorithm of mining fuzzy associate rules was introduced.
Key words:EC; data resource; datamining; algorithm; fuzzy correlation rules
電子商務(wù)是采用數(shù)字化電子方式,在Internet上進(jìn)行的商務(wù)數(shù)據(jù)交換和開(kāi)展的商務(wù)業(yè)務(wù)活動(dòng)。隨著數(shù)據(jù)庫(kù)技術(shù)的迅猛發(fā)展以及Internet的廣泛應(yīng)用,電子商務(wù)正顯示越來(lái)越強(qiáng)大的生命力,電子商務(wù)網(wǎng)站每天都可能有上百萬(wàn)次的在線交易,服務(wù)器上積累了越來(lái)越多的業(yè)務(wù)數(shù)據(jù),目前的數(shù)據(jù)庫(kù)系統(tǒng)可以高效實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無(wú)法發(fā)現(xiàn)數(shù)據(jù)庫(kù)中存在的關(guān)系的規(guī)則,無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì),利用數(shù)據(jù)挖掘技術(shù)可以有效地發(fā)現(xiàn)大量數(shù)據(jù)背后的規(guī)律性,提供數(shù)據(jù)里面隱藏的知識(shí)和手段,消除數(shù)據(jù)“爆炸但知識(shí)貧乏”的現(xiàn)象。
1電子商務(wù)中數(shù)據(jù)挖掘的數(shù)據(jù)源
數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或“挖掘”知識(shí),那么進(jìn)行數(shù)據(jù)挖掘首先要考慮從什么樣的數(shù)據(jù)中挖掘知識(shí),也就是說(shuō)進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)源??傮w上說(shuō),電子商務(wù)中數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)來(lái)源包括以下幾種。
1.1用戶的背景信息
此類(lèi)信息主要來(lái)自于用戶的注冊(cè)信息。注冊(cè)信息是指用戶在瀏覽器頁(yè)面上填寫(xiě)的、需要提交給遠(yuǎn)端服務(wù)器的有關(guān)資料,比如用戶的個(gè)人資料,用戶要訂購(gòu)的商品資料,用戶提出的一些問(wèn)題和要求等。但許多用戶不愿意透露自己真實(shí)的個(gè)人信息,因此將不會(huì)如實(shí)地填寫(xiě)注冊(cè)表,這將造成數(shù)據(jù)挖掘的原始數(shù)據(jù)質(zhì)量低下。在這種情況下,就不得不從瀏覽者的瀏覽信息中來(lái)推測(cè)用戶的背景信息,進(jìn)而再加以利用。
1.2瀏覽信息
瀏覽信息主要來(lái)自于瀏覽者的單擊流(Click-stream),這部分?jǐn)?shù)據(jù)主要用于考察用戶的行為表現(xiàn)。Web上有海量的數(shù)據(jù)信息,人們?cè)跒g覽網(wǎng)站時(shí),包含了大量的潛在的信息,如個(gè)人姓名和住址,單擊了哪一個(gè)連接,在哪里瀏覽時(shí)間最多等。通常來(lái)說(shuō),這些信息可以分為兩類(lèi):瀏覽者自身信息和瀏覽內(nèi)容信息。
在Internet電子商務(wù)中,客戶訪問(wèn)服務(wù)器時(shí)就會(huì)在服務(wù)器上產(chǎn)生相應(yīng)的服務(wù)器數(shù)據(jù),這樣可以通過(guò)網(wǎng)絡(luò)包分析器和服務(wù)器的log文件來(lái)收集用戶對(duì)網(wǎng)站的訪問(wèn)。
服務(wù)器的log文件:用戶每訪問(wèn)一個(gè)頁(yè)面,Web服務(wù)器的日志中就會(huì)增加一條記錄,可通過(guò)記錄Cookies和CGI的查詢參數(shù)來(lái)描述各個(gè)不同用戶的行為。例如,通過(guò)對(duì)購(gòu)買(mǎi)某產(chǎn)品客戶的域名分析,知道來(lái)自哪個(gè)國(guó)家或地區(qū)購(gòu)買(mǎi)者的人數(shù)較多,相應(yīng)的根據(jù)此信息調(diào)整電子商務(wù)中的在線市場(chǎng)策略,增加在哪些地區(qū)或國(guó)家的商務(wù)活動(dòng)。不過(guò)考慮到Web環(huán)境中的各種Cach的影響和用POST方法傳送的參數(shù)沒(méi)有記錄下來(lái),此記錄可能不準(zhǔn)確。但Log文件是最簡(jiǎn)單和最方便的數(shù)據(jù)來(lái)源,很多時(shí)候只用log文件就能得到分析所用的足夠數(shù)據(jù)。
最準(zhǔn)確和靈活的Web流量收集方法是網(wǎng)絡(luò)包分析器。包分析器在網(wǎng)絡(luò)層監(jiān)聽(tīng)網(wǎng)絡(luò)上傳輸?shù)乃袛?shù)據(jù)包,分析其中所包含的內(nèi)容,把用戶對(duì)網(wǎng)站的所有請(qǐng)求(HTTP命令)和Web服務(wù)器對(duì)用戶的應(yīng)答都記錄下來(lái)。包分析器能夠記錄比Web服務(wù)器的log更詳細(xì)的內(nèi)容,比如記錄用戶在下載網(wǎng)頁(yè)的過(guò)程中是否單擊了“停止”按鈕和一張網(wǎng)頁(yè)的下載時(shí)間。通過(guò)分析這些數(shù)據(jù),企業(yè)能更好地了解用戶的感受。
1.3Internet自身信息
這類(lèi)信息來(lái)自于Web自身,包括web內(nèi)容、Web結(jié)構(gòu)等。
Web結(jié)構(gòu)包括www上的組織結(jié)構(gòu)和鏈接關(guān)系中知識(shí)的推導(dǎo)。由于超文本文檔間的關(guān)聯(lián)關(guān)系使得www不僅僅可以揭示文檔中所包含的信息,同時(shí)也可以揭示文檔間的關(guān)聯(lián)關(guān)系所代表的信息。利用這些信息可以對(duì)頁(yè)面進(jìn)行排序、發(fā)現(xiàn)重要的頁(yè)面。
Web內(nèi)容主要包括文檔內(nèi)容和多媒體兩類(lèi),其中文檔內(nèi)容為主,包括直接文檔內(nèi)容、從文檔中抽取的關(guān)鍵信息及用簡(jiǎn)潔的形式對(duì)文檔內(nèi)容進(jìn)行的摘要或解釋。
電子商務(wù)中的數(shù)據(jù)挖掘,是將用戶注冊(cè)信息、服務(wù)器日志和其自身信息三種來(lái)源有效地結(jié)合起來(lái)進(jìn)行分析,可以提高挖掘的精度和深度,得出更理想的結(jié)果。
2電子商務(wù)中數(shù)據(jù)挖掘預(yù)處理
從電子商務(wù)數(shù)據(jù)源中得到的原始記錄,不僅數(shù)據(jù)量巨大,而且可能存在大量的噪聲數(shù)據(jù)、冗余數(shù)據(jù)、稀疏數(shù)據(jù)或不完全數(shù)據(jù)等,直接在其上進(jìn)行挖掘非常困難。而事實(shí)上數(shù)據(jù)挖掘最后成功與否,是否有經(jīng)濟(jì)效益,數(shù)據(jù)準(zhǔn)備起到了至關(guān)重要作用,數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)清理、集成、選擇和變換。
2.1數(shù)據(jù)清理
主要是針對(duì)電子商務(wù)多個(gè)數(shù)據(jù)源中數(shù)據(jù)的不規(guī)范性、二義性、重復(fù)和不完整等問(wèn)題進(jìn)行相應(yīng)的清洗操作,過(guò)濾、剔除一些無(wú)關(guān)數(shù)據(jù),平滑噪聲數(shù)據(jù),識(shí)別、刪除孤立點(diǎn),并添加數(shù)據(jù)中缺失的數(shù)據(jù)域。
2.2數(shù)據(jù)集成
數(shù)據(jù)挖掘需要對(duì)數(shù)據(jù)進(jìn)行集成,也就是將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行合并處理,解決語(yǔ)義模糊性并存放在統(tǒng)一的數(shù)據(jù)存儲(chǔ)(如數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)庫(kù)等)中,電子商務(wù)的數(shù)據(jù)源包括頁(yè)面、圖像、圖形、多媒體、URL路徑及有關(guān)的日志文件等,涉及三個(gè)方面問(wèn)題:實(shí)體識(shí)別的模式集成、刪除數(shù)據(jù)冗余和檢測(cè)與處理數(shù)據(jù)值的沖突。
2.3數(shù)據(jù)選擇
數(shù)據(jù)選擇是在對(duì)發(fā)現(xiàn)任務(wù)和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上,尋找依賴于發(fā)現(xiàn)目標(biāo)的表達(dá)數(shù)據(jù)的有用特征,以縮減數(shù)據(jù)規(guī)模,從而在盡可能保持?jǐn)?shù)據(jù)原貌的前提下最大限度地精簡(jiǎn)數(shù)據(jù)量,通過(guò)數(shù)據(jù)選擇可以使數(shù)據(jù)的規(guī)律性和潛在特性更加明顯。在縮減數(shù)據(jù)規(guī)模的同時(shí),數(shù)據(jù)選擇應(yīng)完整,需要覆蓋業(yè)務(wù)目標(biāo)所涉及的相關(guān)數(shù)據(jù)。搜索所有與業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。
2.4數(shù)據(jù)變換
將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型,這個(gè)分析模型是針對(duì)挖掘算法建立的,建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。主要包括:數(shù)據(jù)離散化、新建變量、轉(zhuǎn)換變量、拆分?jǐn)?shù)據(jù)及格式變換。
在數(shù)據(jù)實(shí)際挖掘過(guò)程中,數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇和數(shù)據(jù)變換不一定都用到。此外,它們的使用沒(méi)有先后順序,某一種預(yù)處理可能先后要多次進(jìn)行。
3模糊關(guān)聯(lián)規(guī)則挖掘在電子商務(wù)中的算法
關(guān)聯(lián)規(guī)則的目的就是為了挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系,從而找到客戶對(duì)網(wǎng)站上各種文件之間關(guān)聯(lián)規(guī)則。實(shí)現(xiàn)關(guān)聯(lián)分析的技術(shù)主要是統(tǒng)計(jì)學(xué)中的置信度和支持度分析。一般來(lái)說(shuō),只有置信度和支持度均較高的關(guān)聯(lián)規(guī)則才可能是用戶感興趣的、有用的連接規(guī)則。
模糊集是表示和處理不確定性數(shù)據(jù)的重要方法,以隸屬函數(shù)概念代表模糊集合,它不僅可以處理不完全數(shù)據(jù)、噪聲或不精確數(shù)據(jù),還可以用于開(kāi)發(fā)數(shù)據(jù)的不確定性模型,能夠提供比傳統(tǒng)方法更靈巧、更平滑的性能。
把傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘與模糊集結(jié)合起來(lái)的一個(gè)關(guān)鍵方法是,首先將各屬性模糊集中的元素作為數(shù)據(jù)庫(kù)的屬性對(duì)待,然后在關(guān)聯(lián)規(guī)則挖掘的剪枝步驟中將具有相同屬性的項(xiàng)集刪除。
假設(shè)D是一個(gè)典型事務(wù)的集合,即數(shù)據(jù)庫(kù),記為D=t,t,t,…,t,其中t1≤i≤n為D中的第i個(gè)事務(wù),數(shù)據(jù)庫(kù)所包含的屬性為集合R=r,r,r,…,r,其中r1≤j≤m即數(shù)據(jù)庫(kù)中所有字段,d為數(shù)據(jù)項(xiàng)。
引入模糊集概念,將R=r,r,r,…,r中的屬性r根據(jù)領(lǐng)域?qū)<抑R(shí)劃分為若干模糊集,r=r,r,r,…,rh>0,相應(yīng)的隸屬度函數(shù)為fr={fr, fr,…, fr},事務(wù)數(shù)據(jù)庫(kù)D轉(zhuǎn)化為具有更細(xì)屬性劃分的數(shù)據(jù)庫(kù)D。
在傳統(tǒng)的布爾關(guān)聯(lián)規(guī)則及量化關(guān)聯(lián)規(guī)則的挖掘中,事務(wù)對(duì)屬性的支持計(jì)數(shù)(vote)是以該事務(wù)在所有事務(wù)中出現(xiàn)的次數(shù)來(lái)計(jì)算的。
規(guī)則XY在事務(wù)數(shù)據(jù)庫(kù)D中的支持度(support)S是事務(wù)集中包含X和Y的事務(wù)數(shù)與事務(wù)總數(shù)之比,記為S(XY),即
S(XY)=|{T:X∪YT,T∈D}|/|D|
規(guī)則XY在交易集中的可信度(confidence)C是指包含X和Y的事務(wù)數(shù)與包含X的事務(wù)數(shù)之比,記為C (XY),即C(XY)=|{T:X∪YT,T∈D}|/|{T:XT,T∈D}|。
在進(jìn)行挖掘之前,和傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘一樣,必須定義最小支持度S和最小置信度C。
而在模糊關(guān)聯(lián)規(guī)則的挖掘中,支持計(jì)數(shù)是通過(guò)具有模糊屬性數(shù)據(jù)庫(kù)D的數(shù)據(jù)項(xiàng)對(duì)各屬性的隸屬度來(lái)計(jì)算的,是一個(gè)介于0和1之間的實(shí)數(shù)。數(shù)據(jù)庫(kù)D中數(shù)據(jù)項(xiàng)d對(duì)于其模糊屬性r的隸屬度為:
d= fd
屬性r,其中j表示第j個(gè)模糊屬性集,即第j列,p表示該屬性集中的第p個(gè)屬性。
對(duì)于任一屬性,將全部事務(wù)對(duì)該屬性的支持計(jì)數(shù)相加后除以總的事務(wù)數(shù)n,即得到全部事務(wù)對(duì)該列所對(duì)應(yīng)屬性的支持度:
vote. R=dn
如vote.r=(d+d+d+…+d)/n即為所有事務(wù)對(duì)屬性r的支持度。在得到所有屬性的支持度后,將支持度小于S的屬性刪除,就得到了頻繁1-項(xiàng)集L。
下面的步驟和傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘相似。對(duì)頻繁j-項(xiàng)集Lj(j≥1)進(jìn)行連接運(yùn)算,得到候選(j+1)-項(xiàng)集C,計(jì)算C中的每個(gè)項(xiàng)集的支持度S:
假設(shè)<X,A>代表一個(gè)“項(xiàng)集-模糊集”對(duì),X是屬性x的集合x(chóng)∈X,A是模糊集a的集合a∈A。每個(gè)事務(wù)的支持計(jì)數(shù)是由x的隸屬度函數(shù)來(lái)計(jì)算的,用tx來(lái)表示第i個(gè)事務(wù)中x的值,Atx是t的隸屬度,一個(gè)事務(wù)的支持計(jì)數(shù)大于0,即其滿足<X,A>。在得到一個(gè)事務(wù)中所有x的隸屬度之后,就可以得到該記錄t對(duì)<X,A>的總支持計(jì)數(shù):
Z=∏atx
將所有記錄的支持計(jì)數(shù)相加,除以總的事務(wù)TotalD,就得到了支持度S。
S=
在得到所有項(xiàng)集的支持度后,對(duì)C剪枝。剪枝包括三個(gè)部分的內(nèi)容:①刪除C中支持度小于S的項(xiàng)集;②刪除C中的含有非頻繁集的項(xiàng)集;③刪除C中含有屬于同一模糊集屬性的項(xiàng)集,這樣的項(xiàng)集對(duì)于最后產(chǎn)生的關(guān)聯(lián)規(guī)則沒(méi)有實(shí)際意義,既可簡(jiǎn)化算法,同時(shí)也降低了計(jì)算量。重復(fù)以上步驟,直到L=Φ,得到包含最多屬性的頻繁j-項(xiàng)集L(滿足j為最大值,且各項(xiàng)集的支持度大于S),由L產(chǎn)生頻繁項(xiàng)集L,最后由L產(chǎn)生關(guān)聯(lián)規(guī)則。
4結(jié)束語(yǔ)
數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用是一個(gè)將信息轉(zhuǎn)化為商業(yè)知識(shí)的過(guò)程。首先,明確數(shù)據(jù)挖掘的對(duì)象,確定商業(yè)應(yīng)用主題;其次,圍繞商業(yè)主體收集數(shù)據(jù)源,并對(duì)數(shù)據(jù)進(jìn)行清理、轉(zhuǎn)換、集成等技術(shù)處理,并選取合適的數(shù)據(jù)挖掘算法,構(gòu)建數(shù)據(jù)挖掘模型,從目標(biāo)數(shù)據(jù)中提取有價(jià)值的商業(yè)知識(shí),對(duì)結(jié)果進(jìn)行分析和驗(yàn)證,調(diào)整數(shù)據(jù)挖掘模型,從而保證結(jié)果的可靠性和實(shí)用性。最后,將商業(yè)知識(shí)集成到電子商務(wù)中心,融合專(zhuān)家知識(shí)與領(lǐng)域規(guī)則,為商業(yè)活動(dòng)提供決策支持。
隨著電子商務(wù)發(fā)展的勢(shì)頭越來(lái)越強(qiáng)勁,面向電子商務(wù)的數(shù)據(jù)挖掘?qū)⑹且粋€(gè)非常有前景的領(lǐng)域。
參考文獻(xiàn):
[1] 張?jiān)茲徚? 數(shù)據(jù)挖掘原理與技術(shù)[M]. 北京:電子工業(yè)出版社,2004.
[2] 朱水林. 電子商務(wù)概念[M]. 北京:清華大學(xué)出版社,2004.
[3] David Hand, Heikki Mannila, Padhraic Smyth. 數(shù)據(jù)挖掘原理[M]. 張銀奎,廖麗,宋俊,譯. 北京:機(jī)械工業(yè)出版社,2003.
[4] 熊平,朱天清,黃天戍. 模糊關(guān)聯(lián)規(guī)則挖掘算法及其在異常檢測(cè)中的應(yīng)用[J]. 武漢大學(xué)學(xué)報(bào),2005,30(9):841-844.
[5] 黃解軍,萬(wàn)幼川. 基于數(shù)據(jù)挖掘的電子商務(wù)策略[J]. 計(jì)算機(jī)應(yīng)用與軟件,2004,21(7):12-13.
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。