杜巍 趙春榮等
摘要:聚類分析是數(shù)據(jù)挖掘的一種重要方法,將它應(yīng)用在客戶細(xì)分中,可以識(shí)別出不同的客戶群,從而針對(duì)不同的客戶群制定相應(yīng)的營銷政策,使企業(yè)效益最大化。針對(duì)聚類分析中k-means算法的不足,運(yùn)用改進(jìn)的聚類算法對(duì)旅游業(yè)客戶進(jìn)行細(xì)分,從而使企業(yè)能夠更合理地細(xì)分、規(guī)劃客戶群組,針對(duì)不同需求的客戶群體進(jìn)行區(qū)別對(duì)待,得到了較好的效果,驗(yàn)證了改進(jìn)算法的可行性和高效性。
關(guān)鍵詞:聚類分析;客戶細(xì)分;數(shù)據(jù)挖掘;改進(jìn)的k-means算法;客戶群
中圖分類號(hào):F713.50 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-2101(2014)01-0118-04
客戶關(guān)系管理中的一個(gè)重要環(huán)節(jié)就是客戶細(xì)分,它也是客戶關(guān)系管理中的核心概念之一??蛻艏?xì)分是將一個(gè)大的客戶群或者消費(fèi)者群體劃分成多個(gè)細(xì)分群體,這些群體中同屬于一個(gè)細(xì)分群體的客戶或者消費(fèi)者的彼此特性相似,而隸屬于不同細(xì)分群體的客戶或者消費(fèi)者之間是不同的。簡而言之,客戶細(xì)分是根據(jù)客戶的屬性、行為、需求、偏好以及價(jià)值等因素劃分的客戶集合。
在激烈的市場(chǎng)競(jìng)爭(zhēng)中,客戶細(xì)分是眾多企業(yè)識(shí)別客戶類別、把握客戶特征的重要方法。通過客戶細(xì)分,企業(yè)可以更好地識(shí)別客戶群體,從而達(dá)到區(qū)別對(duì)待有不同需求的客戶,采取差異化的營銷策略,達(dá)到最優(yōu)化配置客戶資源的目的。因此,當(dāng)今企業(yè)如果想在激烈的市場(chǎng)競(jìng)爭(zhēng)中脫穎而出就應(yīng)該了解如何對(duì)客戶群體進(jìn)行客戶細(xì)分,從而挖掘出具有消費(fèi)潛力的客戶,并針對(duì)這些客戶進(jìn)行合理的資源分配,對(duì)不同價(jià)值的客戶制定出不同的營銷策略。
一、聚類分析算法
目前,有很多種聚類算法可以選擇,而究竟選擇哪種算法主要取決于數(shù)據(jù)的類型、聚類的目的及其應(yīng)用?,F(xiàn)今,主要的聚類算法可以劃分為以下幾類:基于劃分的方法、基于網(wǎng)格的方法、基于層次的方法和基于密度的方法等?;趧澐值木垲惙椒榻o定數(shù)據(jù)集合指定合理的劃分,每個(gè)對(duì)象被指定給唯一的簇。簇的個(gè)數(shù)k是需要用戶指定的輸入?yún)?shù)。一個(gè)好的聚類算法的劃分準(zhǔn)則是:不同類中的對(duì)象之間盡可能的遠(yuǎn)離或者不同,而同一類中的對(duì)象之間盡可能的相近或者相關(guān)。
k-means算法是其中最常用的劃分方法,它以k為參數(shù),再把n個(gè)對(duì)象分解成為k個(gè)簇,以使簇內(nèi)具有較高的相似度,簇間具有較低的相似度。而相似度的計(jì)算是根據(jù)一個(gè)簇中對(duì)象的平均值來進(jìn)行的。它的算法步驟為:首先在所有的對(duì)象中隨機(jī)的選取k個(gè)對(duì)象用作初始的聚類中心;然后根據(jù)剩余對(duì)象與各個(gè)中心點(diǎn)之間的距離,將它們分配到距離最近的簇中;再重新計(jì)算一遍新得到的每個(gè)簇的均值并將它作為新的聚類中心。重復(fù)上述步驟直到準(zhǔn)則函數(shù)收斂為止。
k-means算法的主要優(yōu)點(diǎn)是算法簡潔、快速。它是解決聚類問題的經(jīng)典算法之一。它在結(jié)果簇是密集的,且簇與簇之間區(qū)別明顯時(shí)效果最好。同時(shí)對(duì)處理較大的數(shù)據(jù)集時(shí),該算法也是相對(duì)高效和可伸縮的。它的時(shí)間復(fù)雜度是O(nkt),其中n是所有對(duì)象的數(shù)目,k是簇的數(shù)目,t是迭代的次數(shù)。但k-means算法同時(shí)也具有一定的局限性,主要體現(xiàn)在以下幾個(gè)方面:
1. 從樣本點(diǎn)的集合中隨機(jī)選取k個(gè)中心,這種選擇具有盲目性和隨意性,它在很大程度上決定了算法的有效性。這個(gè)算法的聚類結(jié)果對(duì)初值的依賴性很強(qiáng),初始值一旦選擇的不好,可能無法得到有效的聚類結(jié)果。所以,這也成為k-means算法的一個(gè)核心問題,因此對(duì)初始中心的選擇進(jìn)行改進(jìn)既有意義也有必要。
2. 聚類中心的調(diào)整,這是涉及聚類準(zhǔn)確性的關(guān)鍵問題。k-means算法的處理方法是對(duì)每一個(gè)已有的分類,聚類中心為該類中所含數(shù)據(jù)點(diǎn)的幾何平均值。而平方誤差準(zhǔn)則函數(shù)在各個(gè)簇之間區(qū)別明顯且數(shù)據(jù)分布稠密時(shí)運(yùn)用起來比較有效;但是如果各簇的形狀和大小差別很大,為使函數(shù)收斂則可能會(huì)將大的聚類簇分割,從而導(dǎo)致聚類結(jié)果的不準(zhǔn)確。
二、改進(jìn)的k-means算法
三、實(shí)例分析
本次試驗(yàn)是針對(duì)旅游業(yè)客戶對(duì)服務(wù)重要性的評(píng)價(jià)打分進(jìn)行客戶細(xì)分,從而將客戶細(xì)分成幾類,針對(duì)不同類客戶采取不同的決策,最終使企業(yè)的效益最大化。
1. 確定數(shù)據(jù)挖掘的目標(biāo)。數(shù)據(jù)挖掘不能盲目地進(jìn)行,必須非常明確的定義出業(yè)務(wù)的問題。因此認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘很重要的一步。本次試驗(yàn)是對(duì)旅游業(yè)的客戶進(jìn)行分類。
2. 收集和預(yù)處理數(shù)據(jù)。在數(shù)據(jù)挖掘中首要步驟就是收集數(shù)據(jù)。數(shù)據(jù)可以從多種渠道中獲得,可以從數(shù)據(jù)倉庫中,也可以從現(xiàn)有事務(wù)處理系統(tǒng)中得到。獲得數(shù)據(jù)后,從中選擇出與業(yè)務(wù)對(duì)象相關(guān)的,并且適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。而在收集階段得到的數(shù)據(jù)可能存在一系列的問題,表現(xiàn)在數(shù)據(jù)有缺失或存在自身的不一致性等。因此我們要先做數(shù)據(jù)的預(yù)處理,一般包括消除重復(fù)記錄、推導(dǎo)計(jì)算缺值數(shù)據(jù)、完成數(shù)據(jù)類型的轉(zhuǎn)換、消除噪聲等。
本次試驗(yàn)的數(shù)據(jù)來源于數(shù)據(jù)倉庫中抽取的旅游業(yè)的客戶服務(wù)數(shù)據(jù),既有客戶旅行完的問卷調(diào)查,也有網(wǎng)上評(píng)分。同時(shí)表明了客戶對(duì)于服務(wù)重要性的打分。表1中的數(shù)據(jù)是客戶認(rèn)為服務(wù)重要性的5個(gè)打分,分別為1~5從不重要到重要。
3. 數(shù)據(jù)分析。數(shù)據(jù)分析的主要目的是:“消減數(shù)據(jù)維數(shù)或降維,即從初始特征中找出真正有用的特征,以減少數(shù)據(jù)挖掘時(shí)要考慮的特征或變量個(gè)數(shù)?!贬槍?duì)旅游業(yè)客戶的評(píng)價(jià),對(duì)于性別等不起決定作用的屬性予以刪除,主要考慮客戶對(duì)于時(shí)間安排、交通安排、食宿安排、瀏覽地點(diǎn)及導(dǎo)游服務(wù)的評(píng)價(jià)。
6. 分析模型結(jié)果??蛻鬒D為1、2、7和客戶ID為3、4的客戶都有相類似的服務(wù)要求,而客戶ID為5、6的客戶我們把他歸類為第三類客戶。其中,當(dāng)客戶的數(shù)量達(dá)到一定程度時(shí),我們可以根據(jù)服務(wù)細(xì)分原則,把要求類似的客戶聚類分組,這樣就可以做到針對(duì)不同需求的客戶做到不同的服務(wù),這樣既有利于節(jié)約成本,又能給客戶提供最為適合的服務(wù)。并能使該公司做到自己的服務(wù)內(nèi)容與眾不同,從而逐步實(shí)現(xiàn)“一對(duì)一營銷”,提高客戶的滿意度,也在一定程度上保證了客戶的忠誠度,最終使公司效益和利益最大化。
與k-means算法得到的結(jié)果比較:如圖2所示,k-means算法需要迭代四次后算法收斂,生成最終聚類;改進(jìn)后的k-means算法只需迭代2次即可得到結(jié)果,從而在效率上大大提高,簡化了復(fù)雜度。
由此得出改進(jìn)的k-means算法具有可行性和高效性,能夠?qū)⒖蛻艏?xì)分,為企業(yè)做出正確決策提供依據(jù)。
四、總結(jié)
聚類分析在數(shù)據(jù)挖掘中的有著較為廣泛的實(shí)際應(yīng)用,本文研究和實(shí)現(xiàn)了用改進(jìn)的k-means算法對(duì)旅游行業(yè)的客戶進(jìn)行細(xì)分建模,并把具有相似特征的客戶歸為一類,不同特征的客戶分為不同的類。并根據(jù)建立的模型,可以使企業(yè)能夠更合理地細(xì)分、規(guī)劃客戶群組,針對(duì)不同需求的客戶群體進(jìn)行區(qū)別對(duì)待,從而提供有針對(duì)性的服務(wù)。最終幫助企業(yè)把有效的精力、資源和時(shí)間安排在最有價(jià)值和潛力的客戶身上,以使企業(yè)能在日益激烈的市場(chǎng)競(jìng)爭(zhēng)中立于不敗之地,從而提高公司的效益和競(jìng)爭(zhēng)力。同時(shí)本模型在支持企業(yè)領(lǐng)導(dǎo)的決策等方面有著極為重要的理論參考價(jià)值和實(shí)際應(yīng)用價(jià)值。
參考文獻(xiàn):
[1]紀(jì)希禹.數(shù)據(jù)挖掘技術(shù)應(yīng)用實(shí)例[M].北京:機(jī)械工業(yè)出版社,2009.
[2]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2006.
[3]梁小強(qiáng).數(shù)據(jù)挖掘聚類算法在CRM中的研究與應(yīng)用[D].烏魯木齊:新疆農(nóng)業(yè)大學(xué),2009.
[4]朱銀歡.數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理中的應(yīng)用[D].西安電子科技大學(xué),2006.
[5]張效娟.k-means算法的改進(jìn)和在保險(xiǎn)業(yè)CRM中的應(yīng)用[J].大連交通大學(xué)學(xué)報(bào),2008,(1):76-79.
[6]李志剛.客戶關(guān)系管理理論與應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2007.
[7] Anonymous.Both sides of the CRM divide[J]. Marketing. Toronto:Apr18,2005.Vol.110,Lss.14;p.S14(1 page).
[8]Netter.Database firm unveils Web CRM service[J].Marketing Week.London:Apr 14,2005.p.17.
責(zé)任編輯、校對(duì):秦學(xué)詩
與k-means算法得到的結(jié)果比較:如圖2所示,k-means算法需要迭代四次后算法收斂,生成最終聚類;改進(jìn)后的k-means算法只需迭代2次即可得到結(jié)果,從而在效率上大大提高,簡化了復(fù)雜度。
由此得出改進(jìn)的k-means算法具有可行性和高效性,能夠?qū)⒖蛻艏?xì)分,為企業(yè)做出正確決策提供依據(jù)。
四、總結(jié)
聚類分析在數(shù)據(jù)挖掘中的有著較為廣泛的實(shí)際應(yīng)用,本文研究和實(shí)現(xiàn)了用改進(jìn)的k-means算法對(duì)旅游行業(yè)的客戶進(jìn)行細(xì)分建模,并把具有相似特征的客戶歸為一類,不同特征的客戶分為不同的類。并根據(jù)建立的模型,可以使企業(yè)能夠更合理地細(xì)分、規(guī)劃客戶群組,針對(duì)不同需求的客戶群體進(jìn)行區(qū)別對(duì)待,從而提供有針對(duì)性的服務(wù)。最終幫助企業(yè)把有效的精力、資源和時(shí)間安排在最有價(jià)值和潛力的客戶身上,以使企業(yè)能在日益激烈的市場(chǎng)競(jìng)爭(zhēng)中立于不敗之地,從而提高公司的效益和競(jìng)爭(zhēng)力。同時(shí)本模型在支持企業(yè)領(lǐng)導(dǎo)的決策等方面有著極為重要的理論參考價(jià)值和實(shí)際應(yīng)用價(jià)值。
參考文獻(xiàn):
[1]紀(jì)希禹.數(shù)據(jù)挖掘技術(shù)應(yīng)用實(shí)例[M].北京:機(jī)械工業(yè)出版社,2009.
[2]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2006.
[3]梁小強(qiáng).數(shù)據(jù)挖掘聚類算法在CRM中的研究與應(yīng)用[D].烏魯木齊:新疆農(nóng)業(yè)大學(xué),2009.
[4]朱銀歡.數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理中的應(yīng)用[D].西安電子科技大學(xué),2006.
[5]張效娟.k-means算法的改進(jìn)和在保險(xiǎn)業(yè)CRM中的應(yīng)用[J].大連交通大學(xué)學(xué)報(bào),2008,(1):76-79.
[6]李志剛.客戶關(guān)系管理理論與應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2007.
[7] Anonymous.Both sides of the CRM divide[J]. Marketing. Toronto:Apr18,2005.Vol.110,Lss.14;p.S14(1 page).
[8]Netter.Database firm unveils Web CRM service[J].Marketing Week.London:Apr 14,2005.p.17.
責(zé)任編輯、校對(duì):秦學(xué)詩
與k-means算法得到的結(jié)果比較:如圖2所示,k-means算法需要迭代四次后算法收斂,生成最終聚類;改進(jìn)后的k-means算法只需迭代2次即可得到結(jié)果,從而在效率上大大提高,簡化了復(fù)雜度。
由此得出改進(jìn)的k-means算法具有可行性和高效性,能夠?qū)⒖蛻艏?xì)分,為企業(yè)做出正確決策提供依據(jù)。
四、總結(jié)
聚類分析在數(shù)據(jù)挖掘中的有著較為廣泛的實(shí)際應(yīng)用,本文研究和實(shí)現(xiàn)了用改進(jìn)的k-means算法對(duì)旅游行業(yè)的客戶進(jìn)行細(xì)分建模,并把具有相似特征的客戶歸為一類,不同特征的客戶分為不同的類。并根據(jù)建立的模型,可以使企業(yè)能夠更合理地細(xì)分、規(guī)劃客戶群組,針對(duì)不同需求的客戶群體進(jìn)行區(qū)別對(duì)待,從而提供有針對(duì)性的服務(wù)。最終幫助企業(yè)把有效的精力、資源和時(shí)間安排在最有價(jià)值和潛力的客戶身上,以使企業(yè)能在日益激烈的市場(chǎng)競(jìng)爭(zhēng)中立于不敗之地,從而提高公司的效益和競(jìng)爭(zhēng)力。同時(shí)本模型在支持企業(yè)領(lǐng)導(dǎo)的決策等方面有著極為重要的理論參考價(jià)值和實(shí)際應(yīng)用價(jià)值。
參考文獻(xiàn):
[1]紀(jì)希禹.數(shù)據(jù)挖掘技術(shù)應(yīng)用實(shí)例[M].北京:機(jī)械工業(yè)出版社,2009.
[2]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2006.
[3]梁小強(qiáng).數(shù)據(jù)挖掘聚類算法在CRM中的研究與應(yīng)用[D].烏魯木齊:新疆農(nóng)業(yè)大學(xué),2009.
[4]朱銀歡.數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理中的應(yīng)用[D].西安電子科技大學(xué),2006.
[5]張效娟.k-means算法的改進(jìn)和在保險(xiǎn)業(yè)CRM中的應(yīng)用[J].大連交通大學(xué)學(xué)報(bào),2008,(1):76-79.
[6]李志剛.客戶關(guān)系管理理論與應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2007.
[7] Anonymous.Both sides of the CRM divide[J]. Marketing. Toronto:Apr18,2005.Vol.110,Lss.14;p.S14(1 page).
[8]Netter.Database firm unveils Web CRM service[J].Marketing Week.London:Apr 14,2005.p.17.
責(zé)任編輯、校對(duì):秦學(xué)詩