摘要:客戶價(jià)值的不同,給企業(yè)帶來的利益不同,因此客戶價(jià)值的科學(xué)分類成為企業(yè)成功的關(guān)鍵。針對客戶數(shù)據(jù)收集的過程中難免會有特殊實(shí)例或噪聲數(shù)據(jù)造成數(shù)據(jù)的不一致性,把變精度粗糙集的分類質(zhì)量的量度作為信息函數(shù)對客戶價(jià)值進(jìn)行分析,對兩個(gè)甚至兩個(gè)以上屬性的分類質(zhì)量量度相等的特殊情形,選擇歸屬度大于[β]的分支數(shù)目少的屬性對客戶價(jià)值進(jìn)行分類,最終生成具有置信度的決策樹。實(shí)驗(yàn)表明,該算法能夠有效地處理不一致性數(shù)據(jù)集,并能合理地將客戶價(jià)值進(jìn)行合理分類,供決策者參考。
關(guān)鍵詞:決策樹;變精度粗糙集;置信度;客戶價(jià)值;客戶分類;
中圖分類號: TP182? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)25-0193-04
Abstract: Classification of customer value is the key to enterprises success. A decision tree based on Variable Precision Rough Set is applied to the analysis of customer value about the inconsistency in the dataset of customer relationship management. The Measure of Quality of Classification is acted as information function to select the condition attribute in this method, and the maximum number of ownership attributes are acted as the node when two or more attributes have the same value of quality of classification. The method can classify the data set of customer correctly and find some valuable decisions for analysis.
Key words: Decision Tree; Variable Precision Rough Set; Confidence; Customer Value; Customer Classification
隨著“一帶一路”的構(gòu)建,企業(yè)面臨全球競爭,客戶是企業(yè)競爭的重點(diǎn)對象,要想讓企業(yè)在競爭中獲勝,就要留住老客戶,發(fā)展?jié)撛诳蛻?,因此要滿足不同客戶所需要的不同服務(wù)。另外不同的客戶給企業(yè)帶來的利潤不同,比如占20%的VIP客戶卻可以給企業(yè)帶來80%收益,而占80 %的一般用戶給企業(yè)只能帶來20%利潤,因此科學(xué)的客戶價(jià)值分類就非常重要了?,F(xiàn)在客戶除了比較產(chǎn)品的價(jià)格和質(zhì)量外,還比較產(chǎn)品的售后、服務(wù)態(tài)度等方面,為此,客戶關(guān)系管理系統(tǒng)[1,2](Customer Relationship Management簡稱CRM)就產(chǎn)生了。CRM可以動態(tài)及時(shí)地分析客戶的行動大數(shù)據(jù),獲取客戶的需求,對客戶的未來行為進(jìn)行預(yù)測,分析客戶的價(jià)值,對客戶進(jìn)行科學(xué)的分類,針對不同的客戶提供不同的服務(wù),留住高價(jià)值客戶,發(fā)展?jié)撛诳蛻簟?/p>
但是CRM系統(tǒng)中龐大的數(shù)據(jù)量阻礙了人們從中發(fā)現(xiàn)有價(jià)值的客戶關(guān)系模式,隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,國內(nèi)外很多學(xué)者也把粗糙集[3,4]、決策樹[5,6]、神經(jīng)網(wǎng)絡(luò)[7,8]等應(yīng)用到CRM的客戶價(jià)值數(shù)據(jù)信息挖掘中,但是在客戶數(shù)據(jù)收集的過程中難免會有特殊實(shí)例或噪聲數(shù)據(jù)造成數(shù)據(jù)的不一致性,從而影響分析的結(jié)果。因此本文使用引入置信度和變精度粗糙集的分類質(zhì)量的量度對經(jīng)典決策樹進(jìn)行改造,然后使用改造后的決策樹對客戶的歷史數(shù)據(jù)進(jìn)行挖掘,從而避免了不一致信息對預(yù)測結(jié)果的影響,挖掘出若干合理的客戶數(shù)據(jù)規(guī)律,供企業(yè)決策者參考。
1 具有置信度的決策樹模型
1.1決策樹
在數(shù)據(jù)挖掘中,決策樹[9]算法是一種非常有效的分類方法之一,它是一種樹結(jié)構(gòu),由結(jié)點(diǎn)、分支和葉子組成,其結(jié)點(diǎn)用樣本的屬性組成,分枝由屬性的取值組成,葉結(jié)點(diǎn)由樣本的類別值構(gòu)成。它采用自上而下的遞歸方法,根結(jié)點(diǎn)是由信息量最大的屬性構(gòu)成,中間結(jié)點(diǎn)是以該結(jié)點(diǎn)為根的子樹所包含的樣本中信息量最大的屬性。比較典型的決策樹算法ID3算法[10],由J.R.Quilan在1986年提出,該算法的樹結(jié)構(gòu)的結(jié)點(diǎn)選擇了屬性的信息增益最大者。自20世紀(jì)60年代以來,決策樹廣泛應(yīng)用于預(yù)測、分類和規(guī)則獲取等領(lǐng)域。還有后來的C4.5算法,是對ID3算法的改進(jìn),它的樹結(jié)構(gòu)的結(jié)點(diǎn)采用信息增益率最大者。這些算法在分類預(yù)測中都取得了很好的效果,但是在某些方面都存在著不足,比如針對訓(xùn)練集數(shù)據(jù)中難以避免的噪聲數(shù)據(jù)就沒法處理了,因此難以提高決策樹的泛化能力,所以就有人針對不可避免的噪聲數(shù)據(jù),使用變精度粗糙集理論對現(xiàn)有決策樹進(jìn)行構(gòu)造[11],取得一定效果。本文根據(jù)實(shí)際問題,在前人研究的基礎(chǔ)上利用變精度粗糙集理論的最大分類質(zhì)量量度結(jié)合歸屬度對決策樹進(jìn)行進(jìn)一步構(gòu)造,很好地避免了不一致信息對預(yù)測結(jié)果的影響。
1.2變精度粗糙集模型
Pawlak[12]提出了粗糙集(Rough Set簡稱RS)模型,但是RS理論對近似邊界定義太嚴(yán)格,不利于處理噪聲數(shù)據(jù),Ziarko[13]等人針對這個(gè)問題提出設(shè)置[β]閾值參數(shù),來放松近似邊界的定義,其中[0.5<β≤1],就是變精度粗糙集(Variable Precision Rough Set)。隨著[β]增大,變精度粗糙集模型的近似邊界區(qū)域變窄,即VPRS意義下的不確定區(qū)域變小。當(dāng)[β=1]時(shí),變精度粗糙集模型就變成了粗糙集模型,因此粗糙集模型是變精度粗糙集模型的一個(gè)特例,所以變精度粗糙集模型能夠在一定程度上容忍數(shù)據(jù)的不一致性,并有利于解決屬性間不確定關(guān)系或無函數(shù)數(shù)據(jù)的分類問題。
2 該模型在客戶價(jià)值數(shù)據(jù)分析中的應(yīng)用
2.1實(shí)例分析
對一個(gè)企業(yè)來說,區(qū)分客戶的價(jià)值以及發(fā)展?jié)撛诳蛻羰欠浅V匾???蛻魞r(jià)值是指客戶能夠給企業(yè)帶來的利潤的高低。不失一般性,以本地區(qū)某超市一個(gè)月交易記錄為例,隨機(jī)從中選取30位顧客的391條記錄。通過數(shù)據(jù)預(yù)處理,并從中隨機(jī)抽取19個(gè)顧客的數(shù)據(jù)為訓(xùn)練集,如表1所示。其中[C={a,b,c,d}]是條件屬性集,[D={e}]是決策屬性。對于條件屬性[a]表示所獲利潤,取值1表示所獲利潤在0~40元之間,2表示40~100元之間,3表示大于100元;條件屬性[b]表示促銷次數(shù),取值1表示促銷次數(shù)4次以上,2表示0~4次;條件屬性[c]表示購買頻率,取值1表示8次以上,2表示4~8次,3表示1~4次,4表示0~1次;條件屬性[d]表示最后一次購買至今的天數(shù),取值1表示30天以上,2表示10~30天,3表示0~10天。決策屬性[e]表示客戶價(jià)值類別,取值1表示低價(jià)值客戶,2表示一般價(jià)值客戶,3表示高價(jià)值客戶,4表示最高價(jià)值客戶。經(jīng)分析發(fā)現(xiàn)該決策表存在不相容信息(例如對象11和16等,條件屬性相同而決策屬性不同)。
用具有置信度的決策樹算法(Confidence_decision_tree)對該數(shù)據(jù)集進(jìn)行決策樹的構(gòu)造,其過程如下:
取[β=0.667],其步驟如下:
(1)數(shù)據(jù)集[U]取值不純;
(2)分別由Measure_Quality_Classification_algorithm計(jì)算出每個(gè)條件屬性相對于決策屬性的 [β]分類質(zhì)量的量度為:[γβ(a,e)=0.5263];[γβ(b,e)=0];[γβ(c,e)=0.053];[γβ(d,e)=0.053];
(3)經(jīng)過比較可知屬性a的分類質(zhì)量的量度值最大,所以選擇屬性[a](即所獲利潤)作為決策樹的根結(jié)點(diǎn);
(4)由于屬性[a]取三個(gè)不同的值,因此形成決策樹的三個(gè)不同分支,其中[a]=1(即表示利潤低于40元)的數(shù)據(jù)集以75%(即大于[β])屬于同一類別低價(jià)值客戶,因此標(biāo)記為樹葉。當(dāng)[a]=2(即表示利潤在40~100元之間)時(shí),再遞歸調(diào)用本算法,計(jì)算得[γβ(b,e)=1],[γβ(c,e)=1],[γβ(d,e)=0.22],計(jì)算[xn(b)=2],[xn(c)=4]。所以屬性[b](即促銷次數(shù))符合條件選為子樹的根結(jié)點(diǎn)進(jìn)行進(jìn)一步構(gòu)造,當(dāng)[b]=(0~4)次時(shí),其對應(yīng)的數(shù)據(jù)集66.7%(即等于[β])的屬于同一類別一般價(jià)值客戶,當(dāng)[b]=(>4)次時(shí),其對應(yīng)的數(shù)據(jù)集66.7%(即等于[β])的屬于同一類別低價(jià)值客戶。當(dāng)[a]=“>100”時(shí),再遞歸調(diào)用上述算法,其對應(yīng)的數(shù)據(jù)集66.7%(即等于[β])的屬于同一類別高價(jià)值客戶。
(5)結(jié)束。最終所構(gòu)造的決策樹如圖1所示。
對于同一數(shù)據(jù)集采用C4.5算法構(gòu)造的決策樹如圖2,采用粗糙集理論的決策樹算法構(gòu)造的決策樹如圖3所示。由于這兩種算法很成熟,在此文中就不再敘述。
分析圖1基于置信度的決策樹模型對客戶價(jià)值訓(xùn)練集進(jìn)行分析的結(jié)果,從根結(jié)點(diǎn)到葉子結(jié)點(diǎn)得到一條決策規(guī)則,葉子結(jié)點(diǎn)下方的百分?jǐn)?shù)為該規(guī)則的置信度(未作標(biāo)記的置信度為100%)??梢钥闯霎?dāng)[β=0.667]時(shí)可以得出如下具有置信度的決策規(guī)則:
1.IF所獲利潤=“<40”THEN屬于低價(jià)值客戶(置信度為75%);
2.IF所獲利潤=“40~100”AND促銷次數(shù)=“<4”THEN屬于一般價(jià)值客戶(置信度為66.7%);
3. IF所獲利潤=“40~100”AND促銷次數(shù)=“>4”THEN屬于低價(jià)值客戶(置信度為66.7%);
4.IF所獲利潤=“>100” THEN屬于高價(jià)值客戶(置信度為66.7%)。
以第1條規(guī)則為例進(jìn)行解釋置信度的作用,75%的記錄符合所獲利潤為“<40”,那么這類客戶就是低價(jià)值的客戶。根據(jù)實(shí)際情況有可能25%的客戶數(shù)據(jù)是其他數(shù)據(jù)類別,即形成了所謂的噪聲數(shù)據(jù),因此不失一般性,可以認(rèn)為不管什么原因,只要所獲利潤小于40元,認(rèn)為就是低價(jià)值的客戶,這樣的規(guī)則是合理的。
由以上規(guī)則可以看出,所獲利潤基本上決定了客戶類別,如第1條和第3條規(guī)則,對于低價(jià)值客戶沒必要花費(fèi)心思去做工作,對于高價(jià)值客戶要想辦法保留。對于第2條和第3條規(guī)則而言,可以看出,對于低價(jià)值客戶如果促銷次數(shù)多一些,那么就使從低價(jià)值客戶所獲利潤等同于一般價(jià)值客戶,因此每個(gè)月可以適當(dāng)?shù)囟喔銕状未黉N活動來提高所獲利潤。從以上分析可以看出所得規(guī)則的合理性及有效性。
2.2結(jié)果分析與比較
為了驗(yàn)證本置信度的決策樹在客戶價(jià)值分類中的有效性能,采用硬件實(shí)驗(yàn)環(huán)境為:Pentium(R)4, CPU2.40GHZ,,2G內(nèi)存, 軟件環(huán)境:Windows XP 和Matlab6.5,使用表1的數(shù)據(jù)集,分別使用置信度的決策樹、C4.5算法和基于粗糙集的決策樹進(jìn)行訓(xùn)練預(yù)測,其結(jié)果如表2所示,采用置信度的決策樹模型對該數(shù)據(jù)集進(jìn)行預(yù)測分析,樹形結(jié)構(gòu)最簡單,產(chǎn)生的規(guī)則數(shù)目最少,其規(guī)則泛化能力最強(qiáng),不會出現(xiàn)不可分的對象組,也就是所有對象都可分類預(yù)測,有效地避免了由噪聲數(shù)據(jù)帶來的過擬合問題。而采用C4.5算法和基于粗糙集的決策樹對該數(shù)據(jù)進(jìn)行分析預(yù)測,獲得的決策樹相當(dāng)復(fù)雜,產(chǎn)生的規(guī)則數(shù)目相對多,并且都或多或少存在不可預(yù)測的對象組。例如,在圖2中,符合所獲利潤=“40”,并且購買頻率=“4~8”的記錄這些客戶到底是低價(jià)值客戶還是高價(jià)值客戶呢?確定不了。
3 結(jié)束語
在目前商業(yè)競爭日益嚴(yán)峻的環(huán)境下,把具有置信度的決策樹應(yīng)用于企業(yè)客戶價(jià)值分類預(yù)測,實(shí)驗(yàn)表明,該方法更加科學(xué)實(shí)用,而且對產(chǎn)生的規(guī)則具有較高的可理解性。和其他決策樹算法相比較,本置信度決策樹算法所得的客戶分類決策規(guī)則數(shù)量少,并能夠很好避免由噪聲數(shù)據(jù)所導(dǎo)致的不一致決策表對結(jié)果的影響,提高了該算法泛化能力,能夠?qū)μ厥鈱?shí)例進(jìn)行更好的處理,具有實(shí)際應(yīng)用價(jià)值,能夠?yàn)槠髽I(yè)決策者提供更有價(jià)值的參考。
參考文獻(xiàn):
[1] 丁秋林.客戶關(guān)系管理[M].北京:清華大學(xué)出版社,2003.
[2]? David J. Finnegan, Wendy L. Currie. A multi-layered approach to CRM implementation: An integration perspective[J]. European Management Journal, 2010(28):153–167.
[3] 侯淑源.基于粗糙集和關(guān)聯(lián)規(guī)則的電子商務(wù)客戶分類與交叉銷售研究[D].青島:青島科技大學(xué),2018.
[4] 魏娟. 基于粗糙集的知識發(fā)現(xiàn)及在CRM中的應(yīng)用研究[D].哈爾濱:哈爾濱工程大學(xué),2006.
[5] 尹婷,馬軍,覃錫忠等.貝葉斯決策樹在客戶流失預(yù)測中的應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用, 2014,50(7):125-128.
[6] 肖進(jìn).決策樹分類器融合在CRM客戶分類中的應(yīng)用研究[J].軟科學(xué),2008,22(9):18-21.
[7] 張獻(xiàn)忠.基于決策樹的旅游CRM 系統(tǒng)的分析和設(shè)計(jì)[J].現(xiàn)代計(jì)算機(jī),2018, (8):97-100.
[8] 覃華,蘇一丹,何慧.基于免疫遺傳神經(jīng)網(wǎng)絡(luò)的CRM數(shù)據(jù)挖掘模型的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2005,14:182-184.
[9]? Han jiawei, KamberMicheline.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社, 2001.
[10] Quinlan J R. Induction of decision trees[J]. Machine Learning,1986,(1):81-106.
[11] 常志玲,張曉玲.增量式的多變量決策樹構(gòu)造算法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011,21(2):90-93.
[12]? Pawlak Z.W. Rough Sets [J]. International Journal of information and Computer Science,1982,11(5):314 -356.
[13]? Z iarko W. Variable precision rough set model [J]. Journal of Computer and System Sciences,1993,46(1):39-59.
[14] 孫潔,周慶敏,常志玲.變精度粗糙集模型在決策樹構(gòu)造中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(7):195-197.
【通聯(lián)編輯:唐一東】