李 敏,張玉瑩,于欣雨
(1. 哈爾濱商業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,哈爾濱 150028;2. 中國石油大學(xué),北京 102249)
基于聚類分析的電子商務(wù)客戶忠誠度研究
李 敏1,張玉瑩1,于欣雨2
(1. 哈爾濱商業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,哈爾濱 150028;2. 中國石油大學(xué),北京 102249)
對(duì)電子商務(wù)顧客忠誠度影響因素進(jìn)行了全面的分析,以經(jīng)典RFM客戶忠誠度模型為基礎(chǔ),建立RFMSA電子商務(wù)客戶忠誠度劃分模型.通過聚類分析算法對(duì)顧客忠誠度進(jìn)行劃分.以經(jīng)典聚類分析算法K-means為基礎(chǔ),提出分段確定初始聚類中心的改進(jìn)算法對(duì)顧客忠誠度進(jìn)行劃.通過對(duì)經(jīng)典樣本數(shù)據(jù)進(jìn)行分析,實(shí)驗(yàn)結(jié)果表明,改進(jìn)的粗糙集K-means聚類算法能夠有效的提高聚類的準(zhǔn)確率.
顧客忠誠度;RFMSA;K-means;粗糙集
在電子商務(wù)環(huán)境下企業(yè)可以利用互聯(lián)網(wǎng)來給客戶提供產(chǎn)品和服務(wù).企業(yè)和顧客之間互不相識(shí),沒有面對(duì)面的說過一句話.整個(gè)客戶關(guān)系完全存在于網(wǎng)絡(luò)空間.然而互聯(lián)網(wǎng)的優(yōu)點(diǎn)的是能夠?yàn)橄M(fèi)者提供更加方便比較企業(yè)或商品的機(jī)會(huì),消費(fèi)者只要在互聯(lián)網(wǎng)上進(jìn)行搜索,就可以通過企業(yè)的網(wǎng)上商城獲取相關(guān)的商品的最新信息和價(jià)格,同時(shí)能夠和其他服務(wù)商進(jìn)行對(duì)比,除了比較價(jià)格,還能比較服務(wù).經(jīng)過上述對(duì)比,客戶自然會(huì)選擇更合適的商家,因此,電子商務(wù)行業(yè)的客戶忠誠度降低,最終導(dǎo)致客戶流失.如何提高客戶忠誠度是目前電子商務(wù)面臨的最重要問題之一[1].
1.1 客戶忠誠度的定義
企業(yè)客戶主要分為老客戶和新客戶兩個(gè)群體,忠誠的客戶是企業(yè)生存的關(guān)鍵,也是主要的利潤(rùn)來源.因?yàn)檫@個(gè)原因,許多企業(yè)都使用防御性營(yíng)銷策略以最大化客戶保留來增加他們的市場(chǎng)份額和盈利能力.雖然傳統(tǒng)上,企業(yè)更多的精力都用來實(shí)行進(jìn)攻營(yíng)銷策略來發(fā)展新客戶,但這并不影響對(duì)老客戶的保留.有研究表明,只有保留企業(yè)的老客戶資源,才能為企業(yè)帶來更多的利益.
定義1:客戶忠誠度是指客戶對(duì)某一特定的品牌或者企業(yè)產(chǎn)品和服務(wù)產(chǎn)生了偏好,即對(duì)相似功能質(zhì)量的同等價(jià)位的產(chǎn)品,客戶也不愿意更換自己的消費(fèi)習(xí)慣,進(jìn)而持續(xù)購買的一種行為習(xí)慣.客戶自愿和企業(yè)之間建立一種相互信任和依賴的關(guān)系.
過去幾十年中,電子商務(wù)的快速發(fā)展加速了客戶忠誠度的降低.在電子商務(wù)環(huán)境下,企業(yè)利用互聯(lián)網(wǎng)向客戶提供產(chǎn)品和服務(wù),以新的方式提供更高層次的價(jià)值給客戶,也使企業(yè)和客戶有更多的交流.顧客通過在互聯(lián)網(wǎng)上搜索,就可以對(duì)不同電子商務(wù)企業(yè)的產(chǎn)品的質(zhì)量和價(jià)格進(jìn)行比較,選擇自己喜歡的品牌或者產(chǎn)品.這就加劇了企業(yè)間的競(jìng)爭(zhēng).從目前看來,企業(yè)間的競(jìng)爭(zhēng)已經(jīng)從商品的銷售數(shù)量和利潤(rùn)慢慢轉(zhuǎn)變成對(duì)客戶的服務(wù)質(zhì)量以及達(dá)到客戶的滿意.有調(diào)查顯示,如果能留住3%的老客戶,就能保證公司每年20%的利潤(rùn)增長(zhǎng).但是上述的調(diào)查基本都是問卷形式,缺乏定量的分析,無法為企業(yè)提供戰(zhàn)略決策和方法指導(dǎo)[2].
1.2 數(shù)據(jù)挖掘技術(shù)
為了解決在海量數(shù)據(jù)中劃分客戶忠誠度高低的這個(gè)難題,經(jīng)過大量的研究和實(shí)驗(yàn),發(fā)現(xiàn)引入數(shù)據(jù)挖掘技術(shù)能夠較好的解決這個(gè)問題.數(shù)據(jù)挖掘是通過分析每個(gè)數(shù)據(jù),理解數(shù)據(jù)和數(shù)據(jù)的來源,并獲取相關(guān)的知識(shí)和技術(shù),最終進(jìn)行整合和檢查數(shù)據(jù).數(shù)據(jù)挖掘利用關(guān)聯(lián)分析、聚類分析,分類分析等方法能夠從模糊數(shù)據(jù)中提取出潛在有用的信息.數(shù)據(jù)挖掘技術(shù)能夠針對(duì)電商企業(yè)的交易數(shù)據(jù)進(jìn)行數(shù)據(jù)處理和挖掘,從而區(qū)分出客戶的忠誠度高低、發(fā)現(xiàn)潛在客戶 ,并根據(jù)高忠誠度的客戶和潛在客戶進(jìn)行有有效的營(yíng)銷[3].
2.1RFM模型
在電子商務(wù)行業(yè)中,用于分析客戶忠誠度最常用的是RFM模型,RFM數(shù)據(jù)是客戶真實(shí)的交易數(shù)據(jù),所以數(shù)據(jù)也比較準(zhǔn)確,一般不涉及客戶的個(gè)人隱私,容易獲得.RFM模型是廣泛應(yīng)用于客戶忠誠度研究的模型,RFM基于三個(gè)重要的客戶行為指標(biāo),這三個(gè)變量即客戶購買的時(shí)間間隔、頻率和消費(fèi)金額.RFM模型的詳細(xì)定義如下所述:
1)距離最近一次購買的時(shí)間(R,Recency).即在觀測(cè)窗口內(nèi),用戶進(jìn)行購買行為的最后時(shí)間到觀測(cè)點(diǎn)的時(shí)間差,在大多數(shù)情況下,觀測(cè)點(diǎn)為時(shí)間窗口的末尾.因此該時(shí)間差越小,則該用戶可能繼續(xù)進(jìn)行購買行為的概率越大;
2)購買頻率(F,F(xiàn)requency),即客戶在觀測(cè)窗口內(nèi)進(jìn)行購買行為的次數(shù),因此購買頻率越大,則用戶對(duì)該商城依賴性較強(qiáng),用戶忠誠度越高.因此購買頻率與客戶忠誠度成正比;
3)累計(jì)消費(fèi)金額(M,Monetary),即在觀測(cè)窗口內(nèi),用戶進(jìn)行消費(fèi)的總金額,累計(jì)消費(fèi)金額是除最近購買時(shí)間,購買頻率外的另一個(gè)影響用戶忠誠度指標(biāo)的屬性.用戶可能不是最近購買,購買頻率也不高,但是發(fā)生的消費(fèi)金額較大,則同樣需要企業(yè)決策者對(duì)這一類客戶進(jìn)行分析,并認(rèn)為用戶忠誠度較高.利用RFM屬性對(duì)用戶的忠誠度進(jìn)行分析經(jīng)過時(shí)間的檢驗(yàn),被證明是一種切實(shí)有效的分析模型.
RFM模型的缺點(diǎn)在于分類后得到的客戶群過多,購買頻率和購買金額之間存在共線性缺陷.電商行業(yè)客戶購買商品的隨意性較大,客戶能夠較方便的獲取其他客戶對(duì)某商品的滿意度評(píng)價(jià),因此僅用RFM三要素分析客戶忠誠度的方法具有較大的局限性.在客戶購買商品的過程中,客戶的滿意度即商品評(píng)價(jià)同樣是衡量客戶忠誠度的重要指標(biāo).另外,一部分客戶從未購買過某商品,但是一直通過收藏,加入購物車等電子商務(wù)技術(shù)環(huán)節(jié)關(guān)注該商品.對(duì)于這一類客戶我們無法獲取其RFM數(shù)據(jù),但因其具有購買該商品的意向,因此本設(shè)計(jì)提出一種基于RFMSA的忠誠度分析模型,在最近購買時(shí)間R、購買頻率F、購買金額M的基礎(chǔ)上加入滿意度S(Satisfaction)以及關(guān)注度A(Attention)作為衡量客戶忠誠度的標(biāo)準(zhǔn).
2.2RFMSA模型
RFMSA模型作為電子商務(wù)中對(duì)客戶行為重要指標(biāo),其詳細(xì)定義如下所述:
1)R(Recency),最近一次交易時(shí)間,用戶在觀測(cè)時(shí)間點(diǎn)距上次在商城消費(fèi)的天數(shù),R越小,表示時(shí)間間隔越小,客戶再次購買的可能性越大.
2)F(Frequency),交易頻率,用戶在觀測(cè)時(shí)間區(qū)間內(nèi)交易的次數(shù),即在商城中成功交易的次數(shù).
3)M(Monetary),交易金額,用戶在觀測(cè)時(shí)間區(qū)間內(nèi)交易的總金額,M值越大表示用戶在該商城消費(fèi)越高,因此用戶再次購買的可能性越大.
4)S(Satisfaction),商品評(píng)價(jià),用戶在觀測(cè)時(shí)間區(qū)間內(nèi)交易成功的訂單中,均有各個(gè)商品的評(píng)價(jià)數(shù)據(jù),商品評(píng)價(jià)指標(biāo)表示在該區(qū)間內(nèi)對(duì)所有購買商品的評(píng)價(jià)的平均值.評(píng)價(jià)指標(biāo)越高,表示用戶對(duì)商城中的商品認(rèn)可度較高,因此再次購買的可能性較高.
5)A(Attention),關(guān)注度,用戶在觀測(cè)時(shí)間區(qū)間內(nèi)對(duì)商城中商品的關(guān)注程度,包括瀏覽次數(shù)等信息.用戶的關(guān)注度越高,則用戶購買商品的可能性越高.
在RFMSA模型中,各個(gè)屬性維度的重要程度會(huì)略有差異,即五個(gè)屬性維度的權(quán)重是不同的.五種指標(biāo)對(duì)用戶忠誠度的影響大小不同,根據(jù)綜合反映客戶忠誠度的指標(biāo)CLV(Customer Lift-time Value)客戶終身價(jià)值指標(biāo)來定義RFMSA模型.如式所示:
CLVi=-ωRRi+ωFRi+ωMMi+ωSSi+ωAAi
其中:i表示個(gè)客戶中的第i個(gè)客戶,CLVi表示該客戶的忠誠度指標(biāo),Ri、Fi、Mi、Si、Ai分別表示該客戶的RFMSA指標(biāo),ωR、ωF、ωM、ωS、ωA分別表示五個(gè)指標(biāo)的權(quán)重系數(shù).在各項(xiàng)指標(biāo)中,最近購買時(shí)間與CLV成反比,其他四項(xiàng)指標(biāo)均與CLV成正比.對(duì)于權(quán)重系數(shù)的確立,采用現(xiàn)有的層次分析法進(jìn)行分析,建立五個(gè)指標(biāo)的判斷矩陣,對(duì)這些指標(biāo)進(jìn)行兩兩對(duì)比并得出相對(duì)的重要程度生成5×5的判斷矩陣,求出判斷矩陣的最大特征值和特征向量,最后通過檢驗(yàn)判斷矩陣的一致性確定最終的權(quán)重值.
在確立RFMSA模型后,需要將數(shù)據(jù)進(jìn)行預(yù)處理,轉(zhuǎn)換成系統(tǒng)需要的RFMSA數(shù)據(jù)并進(jìn)行規(guī)范化.然后進(jìn)行數(shù)據(jù)分析,數(shù)據(jù)分析過程中系統(tǒng)采用聚類分析完成數(shù)據(jù)集的分類,首先確定初始分類數(shù)后利用分段法確定初始聚類中心,然后利用提出的基于粗糙集的模糊聚類算法改進(jìn)聚類中心的計(jì)算方式,最終完成聚類輸出結(jié)果.系統(tǒng)的整體結(jié)構(gòu)如圖1所示.
圖1 系統(tǒng)整體結(jié)構(gòu)
在利用K-means算法對(duì)RFMSA模型中的數(shù)據(jù)進(jìn)行分類的過程中,某個(gè)客戶節(jié)點(diǎn)的屬性可能屬于兩個(gè)類的交界處,針對(duì)該種情況利用粗糙集解決各類之間邊界不清晰的問題.
3.1 數(shù)據(jù)的組織與存儲(chǔ)
數(shù)據(jù)的組織與存儲(chǔ)結(jié)構(gòu)如圖2所示,在用戶忠誠度分析中,數(shù)據(jù)源為網(wǎng)上商城的交易記錄,為了能夠高效地對(duì)大量的交易記錄進(jìn)行查詢與分析,系統(tǒng)將所需要的數(shù)據(jù)進(jìn)行整理并存儲(chǔ)于數(shù)據(jù)倉庫中,以期更加高效的對(duì)數(shù)據(jù)進(jìn)行后續(xù)的聚類分析.
首先將客戶數(shù)據(jù)、商品數(shù)據(jù)、交易數(shù)據(jù)、評(píng)價(jià)數(shù)據(jù)以及商品關(guān)注數(shù)據(jù)等不同類型的數(shù)據(jù)源進(jìn)行處理,通過集成、抽取、裝載等步驟將數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉庫.利用數(shù)據(jù)倉庫管理系統(tǒng)組織與存儲(chǔ)海量數(shù)據(jù).
圖2 數(shù)據(jù)源的組織與存儲(chǔ)
3.2 算法流程
粗糙集理論的特點(diǎn)在于利用上近似集與下近似集的思想使對(duì)象點(diǎn)的性質(zhì)有了更多的可能性,而不是非黑即白的結(jié)果,這樣能夠更加合理的標(biāo)記對(duì)象點(diǎn)的性質(zhì).若某對(duì)象點(diǎn)屬于該類的下近似集,則該對(duì)象完全屬于該類;如果對(duì)象屬于該類的上近似集,則該對(duì)象可能屬于該類.如果某對(duì)象點(diǎn)為某類的下近似集,則該對(duì)象點(diǎn)一定屬于這個(gè)類的上近似集并且一定不屬于其他類的上近似集或下近似集.如果某對(duì)象點(diǎn)屬于某類的上近似集并且不屬于這個(gè)類的下近似集,則這個(gè)對(duì)象點(diǎn)一定還屬于其他類的上近似集.在聚類分析的客戶忠誠度分析中,可以利用粗糙集上近似集與下近似集的概念解決分類邊界不清晰的問題.
在利用K-means算法對(duì)RFMSA模型中的數(shù)據(jù)進(jìn)行分類的過程中,某個(gè)客戶節(jié)點(diǎn)的屬性可能屬于兩個(gè)類的交界處,針對(duì)該種情況利用粗糙集解決各類之間邊界不清晰的問題.在聚類個(gè)數(shù)k以及初始聚類中心確定之后,利用如下算法完成聚類分析.
Step 1:初始化總數(shù)為N的數(shù)據(jù)集、目標(biāo)聚類個(gè)數(shù)k、初始聚類中心Ci(i=1,2,…,k)、下近似權(quán)值Wlow、上近似權(quán)值Wup和距離判斷閾值Δ.
Step2:對(duì)于聚類對(duì)象Xj(j=1,2,…,N), 分別計(jì)算對(duì)象Xj到所有聚類質(zhì)心的歐幾里得距離,選擇距離最近的質(zhì)心,并將Xj點(diǎn)分配到該質(zhì)心所代表的類的上近似集中.
Step4:迭代中心或均值,迭代公式如下:Ci=
Step5:重復(fù)Step2~Step4,直到?jīng)]有新的數(shù)據(jù)對(duì)象.
在利用粗糙集確定上近似集與下近似集的過程中,其閾值Δ決定劃分準(zhǔn)確度,課題采用逐差法對(duì)閾值進(jìn)行科學(xué)化選取,并提高關(guān)注度屬性所占權(quán)重來科學(xué)的進(jìn)行分析.獲得針對(duì)電子商務(wù)特點(diǎn)的基于粗糙集的聚類算法.
3.3 改進(jìn)的基于粗糙集的K-means聚類算法
在基于粗糙集的聚類算法中,基于隸屬度的粗糙聚類算法利用隸屬度的聚類思想,不但能夠?qū)⒋植诩c聚類方法相結(jié)合,而且能夠使聚類邊界附近的點(diǎn)分類更加合理.在當(dāng)前基于粗糙集的聚類分析算法中,數(shù)據(jù)集中的點(diǎn)屬于某個(gè)類的上近似集或下近似集是確定的,利用隸屬度的概念進(jìn)行聚類時(shí),數(shù)據(jù)集D中的每個(gè)點(diǎn)均可以根據(jù)隸屬度函數(shù)計(jì)算出其對(duì)某個(gè)類的隸屬度.隸屬度的范圍屬于一個(gè)值域.根據(jù)該隸屬度判斷某點(diǎn)屬于某個(gè)類的程度.
隸屬度函數(shù)g(ui,j)計(jì)算方法如式:
其中:ui,j為隸屬度的值.
隸屬度函數(shù)目標(biāo)函數(shù):
數(shù)據(jù)集進(jìn)行聚類過程中共有c個(gè)類,因此具有c個(gè)聚類中心.數(shù)據(jù)集D中對(duì)象點(diǎn)的數(shù)量為n.
其中:
di,j(vi,xj)2=‖vi-xj‖2
Di,j表示點(diǎn)j到中心i的歐氏距離.
隸屬度為:
Ui,k表示數(shù)據(jù)集中第k個(gè)點(diǎn)相對(duì)于中心j的隸屬度. Ui,k越高,表示點(diǎn)k隸屬于中心j的程度越高.其中m為數(shù)據(jù)集中數(shù)據(jù)點(diǎn)的總數(shù).共有c個(gè)聚類中心.
改進(jìn)后的算法聚類中心公式為
Ci=
3.3.1 改進(jìn)的基于粗糙集的聚類算法
改進(jìn)的基于粗糙集的聚類算法過程描述如下:
1)在數(shù)據(jù)集D中利用分段方法求取k個(gè)初始化聚類中心.
2)計(jì)算數(shù)據(jù)集D中每個(gè)點(diǎn)到各個(gè)中心的隸屬度ui,k.
3)完成粗糙集歸類.
4)重新計(jì)算聚類中心
5)比較原聚類中心與重新計(jì)算的聚類中心,如果不同,以新聚類中心重新執(zhí)行第2、3、4、5步;如果聚類中心不再變化,進(jìn)行下一步.
6)根據(jù)最終的聚類中心完成聚類,將數(shù)據(jù)集分為k個(gè)聚類.
3.3.2 改進(jìn)后算法流程
改進(jìn)后算法流程如圖3所示.
1)數(shù)據(jù)預(yù)處理.對(duì)于網(wǎng)上商城數(shù)據(jù)源中的各種數(shù)據(jù),通過數(shù)據(jù)清洗,規(guī)范化等步驟完成數(shù)據(jù)的預(yù)處理,以便進(jìn)行下一步工作.
2)確定分類數(shù)k;
3)利用分段方法確定初始聚類中心;
4)改進(jìn)的基于粗糙集的聚類算法迭代計(jì)算聚類中心;
5)迭代結(jié)束,輸出最終聚類中心以及聚類結(jié)果.
圖3 改進(jìn)的算法整體流程圖
3.4 算法測(cè)試
通過iris、yeast等經(jīng)典測(cè)試數(shù)據(jù)對(duì)K-means算法以及本文提出的粗糙集聚類算法進(jìn)行了比較,比較實(shí)驗(yàn)結(jié)果如表1以及圖4所示.
表1 標(biāo)準(zhǔn)序列情況算法聚類準(zhǔn)確率比較
圖4 改進(jìn)的粗糙集聚類算法與原始K-means算法準(zhǔn)確率比較
根據(jù)實(shí)驗(yàn)結(jié)果,提出的改進(jìn)的粗糙集聚類算法能夠有效地提高聚類的準(zhǔn)確率.在對(duì)客戶忠誠度進(jìn)行分析的過程中,一般對(duì)算法的實(shí)時(shí)性要求不高,因此改進(jìn)的粗糙集聚類算法適用于電子商務(wù)客戶忠誠度分析過程.
[1] DELAROSA M, DHARMESTI D, NUGROHO S S,etal. The antecedents of online customer satisfaction and customer loyalty [R]. London: The Academy of Business and Retail Management (ABRM), 2012
[2] 潘 越. 基于CLV與客戶忠誠的客戶細(xì)分方法研究[D]. 大連: 大連理工大學(xué), 2004.
[3] 劉慶為. 精準(zhǔn)營(yíng)銷系統(tǒng)在移動(dòng)增值業(yè)務(wù)中的應(yīng)用與實(shí)現(xiàn)策略研究[D]. 北京: 北京郵電大學(xué), 2013.
Research on E-commerce customer loyalty based on clustering analysis
LI Min1, ZHANG Yu-ying1, YU Xin-yu2
(1. School of Computer Science,Harbin University of Commerce, Harbin 150028, China; 2. China University of Petroleum, Beijing 102249, China)
According to the characteristics of E-commerce industry, the influence factors of E-commerce customer loyalty were comprehensively analyzed. Based on classical RFM model based on customer loyalty, the customer loyalty of RFMSA E-commerce model was established. Based on the classical clustering analysis algorithmK-means, the improved algorithm of the initial cluster centers was proposed to partition the customer loyalty. Through the analysis of the classic sample data, the experimental results showed that the improved rough setK-means clustering algorithm could effectively improve the accuracy of clustering.
customer loyalty; RFMSA;K-means; rough set
2006-09-26.
黑龍江省自然科學(xué)基金項(xiàng)目(F201348)
李 敏(1964-),女,教授,碩士生導(dǎo)師,研究方向:大數(shù)據(jù)處理和商業(yè)智能與應(yīng)用.
F274
A
1672-0946(2017)02-0175-05