任秀春,賀亞吉
(渤海大學(xué) 管理學(xué)院,遼寧 錦州 121013)
電子商務(wù)的快速發(fā)展,為社會(huì)提供了豐富的商品信息和商業(yè)模式,但是電子商務(wù)并不能像傳統(tǒng)的銷(xiāo)售模式那樣為客戶(hù)提供個(gè)性化的導(dǎo)購(gòu)信息[1]。隨著網(wǎng)絡(luò)上的商品數(shù)量越來(lái)越多,客戶(hù)很難在短時(shí)間內(nèi)尋找到自己感興趣的商品信息,從而使客戶(hù)瀏覽大量的不相關(guān)信息,進(jìn)而客戶(hù)將失去網(wǎng)購(gòu)的耐心而離開(kāi)。因此,對(duì)客戶(hù)的購(gòu)買(mǎi)行為進(jìn)行數(shù)據(jù)挖掘,為客戶(hù)進(jìn)行個(gè)性化服務(wù)已經(jīng)成為電子商務(wù)發(fā)展的必然趨勢(shì)。
圖1 數(shù)據(jù)挖掘結(jié)構(gòu)圖Fig. 1 Structure diagram of the data mining
數(shù)據(jù)挖掘技術(shù)在商業(yè)領(lǐng)域已經(jīng)有了非常廣泛的應(yīng)用[2],電子商務(wù)作為一種新的商業(yè)模式,每天都會(huì)產(chǎn)生海量的交易數(shù)據(jù),因此,需要借助數(shù)據(jù)挖掘技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行整理和分析,以期尋找有價(jià)值的信息。面向電子商務(wù)的數(shù)據(jù)挖掘主要是通過(guò)網(wǎng)站來(lái)收集客戶(hù)信息,利用數(shù)據(jù)挖掘技術(shù)對(duì)網(wǎng)站內(nèi)容進(jìn)行改進(jìn)。例如為客戶(hù)提供感興趣的產(chǎn)品推薦等個(gè)性化頁(yè)面,或者分析產(chǎn)品的銷(xiāo)售情況,為企業(yè)的生產(chǎn)及銷(xiāo)售提供依據(jù),實(shí)現(xiàn)以數(shù)據(jù)為中心的個(gè)性化營(yíng)銷(xiāo)方式,滿(mǎn)足客戶(hù)的個(gè)性化需求[3]。一個(gè)典型的數(shù)據(jù)挖掘流程如圖1所示。
利用數(shù)據(jù)挖掘技術(shù)為電子商務(wù)提供定制化和個(gè)性化的產(chǎn)品與服務(wù),既可以提高客戶(hù)的滿(mǎn)意度,有可以擴(kuò)展用戶(hù)的購(gòu)買(mǎi)需求,從而實(shí)現(xiàn)利潤(rùn)最大化。
一個(gè)完整的數(shù)據(jù)挖掘過(guò)程可以分為數(shù)據(jù)的清洗與集成,數(shù)據(jù)的選擇與轉(zhuǎn)換,數(shù)據(jù)挖掘、結(jié)果的評(píng)估與表示等[4]。數(shù)據(jù)挖掘過(guò)程是一個(gè)反復(fù)、迭代的過(guò)程,具體的過(guò)程如圖2所示。
依據(jù)圖2,分別討論數(shù)據(jù)挖掘的過(guò)程。
1)數(shù)據(jù)的清洗與集成
由于數(shù)據(jù)庫(kù)中存放的數(shù)據(jù)存在大量的無(wú)效和錯(cuò)誤信息,因此需要對(duì)數(shù)據(jù)進(jìn)行整理與合并,提取適合分析的數(shù)據(jù)信息,清理無(wú)關(guān)的記錄,并進(jìn)行異構(gòu)格式間的轉(zhuǎn)換。
圖2 數(shù)據(jù)挖掘的基本過(guò)程圖Fig. 2 Basic flow chart of data mining
2)數(shù)據(jù)的選擇與轉(zhuǎn)換
在這個(gè)步驟中,主要采用統(tǒng)計(jì)模型來(lái)分析數(shù)據(jù)規(guī)律,解釋數(shù)據(jù)間的關(guān)系,發(fā)現(xiàn)事物的規(guī)律。通常使用的統(tǒng)計(jì)方法包括線性分析、線性回歸、因子分析、單變量區(qū)限和雙變量統(tǒng)計(jì)等。
3)數(shù)據(jù)挖掘過(guò)程
使用人工智能、決策樹(shù)分析、遺傳算法等技術(shù)手段,對(duì)得到的模式進(jìn)行數(shù)據(jù)分析,并使用分類(lèi)、聚類(lèi)、關(guān)聯(lián)規(guī)則等方法進(jìn)行數(shù)據(jù)挖掘。
4)表示與評(píng)價(jià)
在得到數(shù)據(jù)挖掘結(jié)果以后,要將這些結(jié)果輸出并進(jìn)行表示,將符合需要的知識(shí)選擇出來(lái)。例如在銷(xiāo)售預(yù)測(cè)模型中,對(duì)會(huì)員信息進(jìn)行搜集和整理,并對(duì)這些信息使用分類(lèi)模型進(jìn)行預(yù)測(cè),識(shí)別出可能產(chǎn)生購(gòu)買(mǎi)行為的會(huì)員,并對(duì)這些會(huì)員進(jìn)行有針對(duì)性的營(yíng)銷(xiāo)活動(dòng)。
決策樹(shù)是一種基于樹(shù)型結(jié)構(gòu)的分類(lèi)模型,決策樹(shù)的每個(gè)節(jié)點(diǎn)表示分類(lèi)的屬性。使用決策樹(shù)進(jìn)行分類(lèi)預(yù)測(cè)時(shí),從決策樹(shù)的根到葉子節(jié)點(diǎn)形成一條選擇路徑,這條路徑可以作為分類(lèi)規(guī)則用來(lái)進(jìn)行相應(yīng)對(duì)象的類(lèi)別預(yù)測(cè)[5]。
數(shù)據(jù)挖掘技術(shù)可以應(yīng)用到企業(yè)管理客戶(hù)生命周期的每一個(gè)階段,能夠幫助企業(yè)對(duì)客戶(hù)進(jìn)行分類(lèi),分析客戶(hù)的屬性特征,可以使企業(yè)針對(duì)客戶(hù)類(lèi)別提供個(gè)性化服務(wù),也可以使用數(shù)據(jù)挖掘技術(shù)對(duì)客戶(hù)的購(gòu)買(mǎi)行為進(jìn)行分析,防止客戶(hù)的流失,提升客戶(hù)忠誠(chéng)度[6]。圖3所示的為一個(gè)面向客戶(hù)關(guān)系的數(shù)據(jù)挖掘過(guò)程。
圖3 面向客戶(hù)關(guān)系的數(shù)據(jù)挖掘過(guò)程圖Fig. 3 Flow chart of data mining orient customer relationship
某網(wǎng)站希望通過(guò)廣告宣傳來(lái)吸引顧客購(gòu)買(mǎi)商品,通過(guò)網(wǎng)站獲取會(huì)員的購(gòu)買(mǎi)信息,并將廣告宣傳投遞給相關(guān)會(huì)員。由于網(wǎng)站會(huì)員數(shù)量眾多,完全投遞的效果并不理想,因此,將廣告宣傳投放給有購(gòu)買(mǎi)意愿的客戶(hù)就顯得尤為重要。
實(shí)驗(yàn)從所有會(huì)員中隨機(jī)抽取1 000個(gè)會(huì)員,向這些會(huì)員投遞廣告宣傳冊(cè),然后記錄這些收到廣告宣傳冊(cè)的用戶(hù)是否購(gòu)買(mǎi)了該網(wǎng)站的商品,部分調(diào)查數(shù)據(jù)結(jié)果如表1所示。
表1 網(wǎng)站會(huì)員的部分調(diào)查結(jié)果Tab.1 Particular result of website members
在分類(lèi)模型中,每個(gè)會(huì)員作為一個(gè)事例,會(huì)員的婚姻狀況、性別、收入等作為輸入列,所需預(yù)測(cè)的分類(lèi)是客戶(hù)是否購(gòu)買(mǎi)了該網(wǎng)站的商品。構(gòu)造如圖4所示的決策樹(shù)分類(lèi)模型,圖中矩形表示一個(gè)拆分節(jié)點(diǎn),矩形中的文字表示拆分條件。
圖4 決策樹(shù)分類(lèi)圖Fig. 4 Classification diagram of the decision tree
經(jīng)過(guò)如圖4的決策樹(shù)分類(lèi)后,在第一次基于年齡的拆分結(jié)果,年齡小于20歲的包含148個(gè)事例,年齡在20歲到40歲之間的有722個(gè)事例,年齡在40到60歲之間的有96個(gè)事例,年齡大于60歲的有34個(gè)事例。
經(jīng)過(guò)對(duì)決策樹(shù)模型的運(yùn)算,可以得到以下有用的節(jié)點(diǎn):
1)年齡小于20歲,在城市生活的人有64.9%人通過(guò)網(wǎng)絡(luò)購(gòu)買(mǎi)了網(wǎng)站產(chǎn)品。
2)年齡在20到40歲之間,且收入大于5 000,并且學(xué)歷是大學(xué)的人有89.1%的人參與了網(wǎng)購(gòu)。
3)年齡在40到60歲之間的,且教育背景為大學(xué)的有43.8%的人參與了購(gòu)買(mǎi)網(wǎng)站產(chǎn)品。
在使用該決策樹(shù)分類(lèi)模型后,對(duì)于網(wǎng)站的會(huì)員就可以進(jìn)行分類(lèi)預(yù)測(cè),計(jì)算會(huì)員購(gòu)買(mǎi)產(chǎn)品可能性的概率,網(wǎng)站可以依據(jù)計(jì)算結(jié)果有針對(duì)性的對(duì)會(huì)員進(jìn)行個(gè)性化營(yíng)銷(xiāo)。
本文構(gòu)建了一個(gè)基于決策樹(shù)分類(lèi)方法的電子商務(wù)數(shù)據(jù)挖掘過(guò)程,通過(guò)實(shí)驗(yàn)的方式在網(wǎng)絡(luò)客戶(hù)分類(lèi)系統(tǒng)中應(yīng)用決策樹(shù)方法,實(shí)驗(yàn)結(jié)果表明,通過(guò)使用決策樹(shù)方法可以有效地在大量的客戶(hù)信息中尋找有價(jià)值的信息,可以有效地對(duì)網(wǎng)絡(luò)客戶(hù)進(jìn)行分類(lèi)預(yù)測(cè)。
[1] 張野, 明茹雪, 楊帆. 電子商務(wù)發(fā)展指數(shù)的測(cè)算模型構(gòu)建方法[J].電子設(shè)計(jì)工程,2012(22):149-150.ZHANG Ye, MING Ru-xue, YANG Fan. Model and empirical analysis of E-commerce development index[J]. Electronic Design Engineering,2012(22):149-150.
[2] Papamiehail G P.The k-means range a1gorithm forpersona1-ized data clustering in E-commerce[J].European Journal of Operational Research,2008,176(1):1233-1250.
[3] 蔡宏艷,姚佳麗,王珊. DETECTOR: 基于關(guān)系數(shù)據(jù)庫(kù)通用的在線關(guān)鍵詞查詢(xún)系統(tǒng)[J]. 計(jì)算機(jī)研究與發(fā)展,2007,12(1):120-124.CAI Hong-yan,YAO Jia-li,WANG Shan.DETECTOR:base on a relational common database online keyword query sys-tem [J].Computer Research & Development,2007,12(1):120-124.
[4] 屈正庚,唐曉琴. 基于電子商務(wù)中的數(shù)據(jù)挖掘技術(shù)研究[J].電子設(shè)計(jì)工程,2009(22):37-39.QU Zheng-geng,TANG Xiao-qin.Research of data mining technology based on electronic commerce[J].Electronic Design Engineering,2009(22):37-39.
[5] 姜欣,徐六通,張雷. C4.5決策樹(shù)展示算法的設(shè)計(jì)[J].計(jì)算機(jī)工程與應(yīng)用,2003,8(4):93-95.JIANG Xin,XU Liu-tong,ZHANG Lei.The design of C4.5 decision tree presentation algorithm[J].Computer Engineering and Application, 2003,8(4):93-95.
[6] 朱鎮(zhèn),趙晶,谷文輝,等.傳統(tǒng)企業(yè)電子商務(wù)戰(zhàn)略感知評(píng)估研究[J].中國(guó)地質(zhì)大學(xué)學(xué)報(bào),2007(1):47-51.ZHU Zhen,ZHAO Jing,GU Wen-hui,et al.The evaluation of E-business strategic perception for traditional firms [J].Journal of China University of Geosciences,2007(1):47-51.