謝衛(wèi)星,王曉琳,王旭陽,張靜娜,李玉鵬
中國礦業(yè)大學(xué) 礦業(yè)工程學(xué)院工業(yè)工程系,江蘇 徐州221116
顧客需求是產(chǎn)品/服務(wù)研發(fā)的根本動(dòng)力,完善的產(chǎn)品/服務(wù)方案應(yīng)滿足和超出顧客期望,甚至創(chuàng)造新的顧客需求[1]。在新產(chǎn)品/服務(wù)投放市場至演化成熟的過程中,企業(yè)需要對顧客滿意度進(jìn)行測度。有關(guān)顧客滿意度的研究在產(chǎn)品/服務(wù)工程領(lǐng)域由來已久,測度方法主要分為兩類:結(jié)構(gòu)化模型(如結(jié)構(gòu)方程模型)[2]和評價(jià)決策模型[3]。結(jié)構(gòu)化模型的研究重點(diǎn)在于探索顧客滿意度的影響因素及其關(guān)聯(lián)關(guān)系,建模過程復(fù)雜,結(jié)果可靠性難以保證,因此,越來越多的研究者開始轉(zhuǎn)而關(guān)注基于評價(jià)決策模型的顧客滿意度測度[4]。
顧客是評價(jià)決策過程的主體,顧客評價(jià)是一種顧客主動(dòng)表達(dá)信息的途徑,其中蘊(yùn)含了產(chǎn)品的優(yōu)勢與不足,以及潛在的期望,充分分析顧客評價(jià)有助于準(zhǔn)確地預(yù)測顧客需求。目前,顧客評價(jià)的研究主要為評價(jià)信息挖掘,如李實(shí)等[5]通過數(shù)據(jù)挖掘技術(shù)對顧客評價(jià)和態(tài)度進(jìn)行了分析,實(shí)現(xiàn)了針對中文評論的產(chǎn)品特征信息挖掘;Greco 和Polli[6]介紹了情感文本挖掘在品牌管理領(lǐng)域的應(yīng)用,展示了此過程的潛力,給出了顧客在產(chǎn)品偏好、表示和情感方面的特點(diǎn);Liu[7]提出了一種新的文本分類模型對文本數(shù)據(jù)進(jìn)行最大影響、中等影響和最小影響三個(gè)特征的分類,進(jìn)而對顧客進(jìn)行了準(zhǔn)確的分類;Balbi 等[8]提出了一種新的社交媒體用戶滿意度的評價(jià)策略,通過評論排序?qū)崿F(xiàn)了考慮用戶體驗(yàn)的產(chǎn)品/服務(wù)方案評價(jià)。關(guān)于顧客評價(jià)信息挖掘的研究相對豐富,但對于異質(zhì)評價(jià)群體本身的研究仍不完善。顧客作為一類特殊的決策者,其評價(jià)信息的搜集與處理要借助滿意度量表(在線評論/調(diào)查問卷),用以對其模糊的感知評價(jià)進(jìn)行量化。但受其年齡、職業(yè)、心理狀態(tài)及成長經(jīng)歷等主、客觀原因的影響,決策者往往具備不同的風(fēng)險(xiǎn)態(tài)度[9]和邊際效用,進(jìn)而使得其評價(jià)觀點(diǎn)表現(xiàn)出不同特征,最終對顧客滿意度產(chǎn)生影響。部分學(xué)者對顧客評價(jià)的特征進(jìn)行了研究,例如,Wang等[10]提出了一種啟發(fā)式深度學(xué)習(xí)方法從客戶產(chǎn)品評論中提取情感意見,實(shí)現(xiàn)了顧客評價(jià)的多重情感分類,獲得了七對情感屬性;李玉鵬等[3]在顧客滿意度測定中引入了一種不均衡語義量表,目的在于更加準(zhǔn)確的捕捉顧客在評價(jià)過程中偏好分布的非均勻特性??梢?,從決策者的角度對顧客進(jìn)行分類,進(jìn)而捕捉其相應(yīng)的評價(jià)特征具有重要意義。
顧客評價(jià)特征表現(xiàn)為評價(jià)信息的多元性、沖突性等,其根本原因是顧客作為決策者的異質(zhì)性[11]。顧客的異質(zhì)性來源于顧客本身的特質(zhì),例如,年齡、受教育程度、職業(yè)等。當(dāng)顧客具備相似特質(zhì)時(shí),則會形成一類具有顯著特質(zhì)的決策群體。當(dāng)顧客決策群體的特質(zhì)具有顯著性差異時(shí),其評價(jià)也會形成不同的評價(jià)類別[12],所以,企業(yè)亦可通過識別異質(zhì)顧客群體來更加準(zhǔn)確地預(yù)測顧客需求,在此基礎(chǔ)上進(jìn)行產(chǎn)品再設(shè)計(jì)[13]。對異質(zhì)顧客群體進(jìn)行識別對于準(zhǔn)確捕捉其評價(jià)特征,設(shè)計(jì)相應(yīng)的評價(jià)模型及量表,從而獲得更為準(zhǔn)確的顧客滿意度信息具有重要工程意義。
本文將顧客定義為決策群體,考慮影響其異質(zhì)性形成的關(guān)鍵因素,基于混合屬性聚類方法實(shí)現(xiàn)異質(zhì)顧客群體的分類識別。首先將顧客定義為數(shù)值-分類屬性共存條件下混合屬性描述的空間向量,進(jìn)而設(shè)計(jì)初始聚類中心的確定方法,構(gòu)建統(tǒng)一相似度度量指標(biāo),最后引入懲罰競爭機(jī)制,結(jié)合混合屬性聚類算法實(shí)現(xiàn)異質(zhì)顧客群體的識別。
如前所述,影響顧客異質(zhì)性的因素有很多,在對顧客進(jìn)行分類時(shí),要綜合考慮這些因素,并將其定義為聚類分析過程中的聚類屬性。顯然,上述屬性既包含數(shù)值型屬性(年齡、月收入等),又包含分類型屬性(學(xué)歷、職業(yè)階層等),此時(shí),基于經(jīng)典歐氏距離的相似度測度不再適用。現(xiàn)有研究通常將分類屬性轉(zhuǎn)換為數(shù)值屬性,但存在信息丟失。在進(jìn)行異質(zhì)顧客群體識別時(shí),本文引入基于聚類對象與聚類中心間相似性度量的聚類算法,并為相應(yīng)的混合型屬性數(shù)據(jù)建立一種統(tǒng)一的相似性度量標(biāo)準(zhǔn),從而保證數(shù)值型屬性數(shù)據(jù)和分類型屬性數(shù)據(jù)在聚類過程中都能夠得到有效利用,降低信息丟失。方法框架如圖1所示。
圖1 異質(zhì)顧客群體識別方法框架
首先確定顧客群體特征屬性,再通過問卷調(diào)查得到顧客群體屬性值矩陣;然后利用本文所提的混合數(shù)據(jù)聚類算法對顧客群體進(jìn)行識別,得到顧客群體的分類結(jié)果;最后對分類結(jié)果統(tǒng)計(jì)分析,總結(jié)各類顧客群體的屬性特征。
傳統(tǒng)的聚類算法無法有效處理混合屬性數(shù)據(jù)集,且需要給出初始聚類數(shù),聚類結(jié)果穩(wěn)定性不足。為了更好地處理異質(zhì)顧客群體聚類問題,本文引入一種基于懲罰競爭機(jī)制的混合數(shù)據(jù)聚類算法,能夠通過聚類項(xiàng)之間的相互競爭自動(dòng)確定聚類數(shù)目,使聚類結(jié)果更為可靠。算法流程如圖2 所示,包括混合數(shù)據(jù)聚類算法、初始聚類中心確定、懲罰競爭學(xué)習(xí)機(jī)制三個(gè)部分。
圖2 混合屬性數(shù)據(jù)集聚類算法流程圖
設(shè)顧客群體可表示為X={x1,x2,…,xn} ,其中xi為第i位顧客。將n個(gè)顧客聚成k類,表示為聚類項(xiàng)集C={C1,C2,…,Ck},xi與Cj之間的相似度為s(xi,Cj);且xi與Cj之間的數(shù)值型屬性相似度和分類型屬性相似度分別表示為
假設(shè)第i位顧客xi具有t個(gè)不同的聚類屬性,其中數(shù)值型屬性數(shù)量為tu,分類型屬性數(shù)量為tc,則xi可表示為數(shù)值型屬性分類型屬性其中中包含tc個(gè)屬性{Ar}(r=1,2,…,tc),屬性Ar又包含m個(gè)取值{arg}(g=1,2,…,m),則聚類目標(biāo)函數(shù)如公式(1)所示:
其中,Q為0-1矩陣,qij∈{0,1}滿足條件:
此外,數(shù)值型屬性和分類型屬性在聚類分析中對相似度的影響不同。每個(gè)分類屬性通??梢员硎窘o定對象的一個(gè)重要特征,因此需要獨(dú)立建模;而對于數(shù)值型屬性,研究通常更加關(guān)注其整體效應(yīng),因此在聚類分析時(shí),將其描述為一個(gè)向量,作為整體對待[14]。則混合屬性數(shù)據(jù)的聚類相似度可表示為:
其中,tf=tc+1 為權(quán)重分項(xiàng)的數(shù)量,則數(shù)值型屬性相似度和分類型屬性相似度所占權(quán)重分別為1/tf和tc/tf。
本文采用可以反映屬性間相關(guān)性的馬氏距離計(jì)算數(shù)值型屬性相似度:
其中:
其中,cj表示Cj中數(shù)值屬性的中心,Dis(·)表示馬氏距離求解函數(shù),為Cj中數(shù)值屬性的協(xié)方差矩陣。
分類型屬性的相似度可表示為:
因此分類型數(shù)據(jù)的相似度為:
在得到分類屬性和數(shù)值屬性的相似度后,由公式(2)可計(jì)算s(xi,Cj),在此基礎(chǔ)上可得到
其中,i=1,2,…,n;j=1,2,…,k。
然后,每個(gè)xi都會分配給與其相似度最高的聚類項(xiàng),不斷更新各聚類項(xiàng)中分類屬性各元素的頻率和數(shù)值屬性的中心,直至不再變化,得到聚類結(jié)果。
初始聚類中心的選擇影響聚類的迭代次數(shù)和最終結(jié)果。目前大多數(shù)聚類方法在選取聚類中心時(shí)都采取隨機(jī)初始化的方法,幾乎沒有一種方法能夠普遍適用于混合屬性數(shù)據(jù)初始聚類中心的選取。根據(jù)實(shí)際情況來看,現(xiàn)有的聚類對象不能完全代表聚類項(xiàng),因此選取的大多數(shù)聚類中心并不應(yīng)該是聚類對象中真實(shí)存在的數(shù)據(jù),而是由屬性數(shù)據(jù)重組而來的虛擬對象[16]。
對于數(shù)值型屬性數(shù)據(jù),為了避免聚類中心選取的隨機(jī)性,將聚類對象的向量中心作為第一個(gè)初始聚類中心,進(jìn)而利用公式(8)計(jì)算每個(gè)對象與向量中心的距離選取其中距離最大的聚類對象作為第二個(gè)初始聚類中心。
其中,i=1,2,…,n,e=1,2,3,…,tu,此時(shí)可確定前兩個(gè)初始聚類中心。為了保證每個(gè)初始聚類中心都是距離彼此最遠(yuǎn)的點(diǎn),從第三個(gè)初始聚類中心選取時(shí),要考慮累加影響。通過公式(9)計(jì)算每個(gè)聚類對象數(shù)據(jù)點(diǎn)與已經(jīng)選取的初始聚類中心距離之和選取累加距離最大的聚類對象點(diǎn)作為下一個(gè)初始聚類中心,依次選取,直至結(jié)束。
對于分類型屬性數(shù)據(jù),如果僅采用密度度量方法確定初始聚類中心,會出現(xiàn)聚類中心集中度過高的問題;如果僅采用距離度量方法確定初始聚類中心,則會出現(xiàn)聚類中心離群度過高的問題。為了改善上述問題,同時(shí)避免聚類中心選取的隨機(jī)性,引入一種結(jié)合密度度量和距離度量確定初始聚類中心的方法。
首先,確定分類型屬性所有元素的數(shù)目,進(jìn)而找到在分類型屬性數(shù)據(jù)部分中含有的所有聚類對象數(shù)據(jù)點(diǎn),放入集合中,該過程可用下式表示:
分類型屬性數(shù)據(jù)的初始聚類中心候選集合確定后,便可以通過密度度量的方式來選取第一個(gè)初始聚類中心。從初始聚類中心候選集合O中依次選取與每一個(gè)相比較,找到與相同次數(shù)最多的,記為將其作為分類型屬性數(shù)據(jù)的第一個(gè)初始聚類中心。接著通過公式(12)計(jì)算每一個(gè)初始聚類中心候選點(diǎn)的可能度選擇可能度最大的點(diǎn)作為下一個(gè)初始聚類中心,直至選取結(jié)束。
其中,i=1,2,…,n;r=1,2,…,tc。
將數(shù)值型屬性和分類型屬性的初始聚類中心按選取次序組合,即可得到混合數(shù)據(jù)的初始聚類中心。
Cho[17]提出的競爭學(xué)習(xí)機(jī)制源于神經(jīng)網(wǎng)絡(luò)的方法研究,如今已經(jīng)成為自組織網(wǎng)絡(luò)中一種常用的學(xué)習(xí)策略。競爭學(xué)習(xí)是通過個(gè)體的相互競爭,使競爭失敗者受到一定的懲罰,最終得到最優(yōu)解的過程。將這一思想引入到聚類算法中,可以實(shí)現(xiàn)聚類項(xiàng)的相互競爭,去除冗余的聚類項(xiàng),得到最優(yōu)的聚類數(shù)目。
將k個(gè)不同的聚類類別Cj(j=1,2,…,k)分別看成是一個(gè)神經(jīng)元,設(shè)其在競爭中獲勝的次數(shù)為nj,所占權(quán)重為λj,則獲勝頻率γj可表示為:
基于混合數(shù)據(jù)聚類算法對相似度進(jìn)行求解,對于同一對象,相似度高的聚類項(xiàng)獲勝。由于相似度的值域?yàn)閇0,1],可以對公式(1)做以下變換:
為了防止神經(jīng)元在競爭中“死亡”,通過獲勝頻率來削弱獲勝項(xiàng)在后續(xù)競爭中的能力,因此獲勝者Cv可由下式確定:
對于獲勝者Cv,其獲勝次數(shù)nv和權(quán)重λv可通過公式(17)和(18)計(jì)算:
其中η為學(xué)習(xí)率。
在競爭學(xué)習(xí)的基礎(chǔ)上,Cheung等[14]提出對次勝者進(jìn)行懲罰,以此來實(shí)現(xiàn)聚類數(shù)量的自動(dòng)選擇。次勝者Cr可以通過公式(19)得到:
其權(quán)重λr可以通過公式(20)確定:
其中max(?)的作用是防止λr<0。
通過加入懲罰競爭機(jī)制,可以實(shí)現(xiàn)混合數(shù)據(jù)的自動(dòng)聚類。首先,給k個(gè)聚類項(xiàng)分別選擇1個(gè)初始對象,將nj和λj的初始值設(shè)置為1,選擇合適的學(xué)習(xí)率η;繼而求出Cv和Cr以及滿足
的最小Q*;不斷更新各聚類項(xiàng)中分類屬性各元素的頻率和數(shù)值屬性的中心以及獲勝頻率γj和權(quán)重λv,直至Q*不再變化,得到最優(yōu)的聚類結(jié)果。
當(dāng)前手機(jī)產(chǎn)品更新迅速,企業(yè)需要及時(shí)預(yù)測顧客需求,進(jìn)行改型設(shè)計(jì)。本章以某型號手機(jī)產(chǎn)品為研究對象,通過調(diào)研確定顧客群體屬性數(shù)據(jù),利用所提方法對實(shí)現(xiàn)異質(zhì)顧客群體的分類。
異質(zhì)顧客群體識別是通過對混合屬性數(shù)據(jù)進(jìn)行聚類分析,得到分類結(jié)果。因此,需要首先確定用來識別顧客群體的屬性和各屬性取值范圍。經(jīng)過調(diào)研與分析,排除非主要屬性,共確定3 個(gè)數(shù)值型屬性:年齡、月收入、風(fēng)險(xiǎn)偏好水平,3個(gè)分類型屬性:受教育程度、居住地區(qū)劃、職業(yè)。
不同的顧客對風(fēng)險(xiǎn)的態(tài)度存在差異,風(fēng)險(xiǎn)偏好水平表示顧客主動(dòng)追求風(fēng)險(xiǎn)、喜歡收益的波動(dòng)性勝于穩(wěn)定性的態(tài)度。在調(diào)研時(shí),采用了李克特量表來收集不同顧客者的風(fēng)險(xiǎn)偏好水平數(shù)據(jù),定義風(fēng)險(xiǎn)偏好水平的取值范圍是(10,50)。
職業(yè)屬性共包含11 種元素,分別是國家與社會管理者、經(jīng)理人員、私營企業(yè)主專業(yè)技術(shù)人員、辦事人員、個(gè)體工商戶、商業(yè)服務(wù)人員、產(chǎn)業(yè)工人、農(nóng)業(yè)勞動(dòng)者、城鄉(xiāng)無業(yè)/失業(yè)/半失業(yè)和全日制學(xué)生。各分類型屬性的值域如表1所示。
表1 分類型屬性值域
采用調(diào)查問卷收集顧客群體數(shù)據(jù)。共發(fā)出調(diào)查問卷600份,收回562份。初步篩選,去除掉填寫時(shí)間過短以及有明顯邏輯錯(cuò)誤的問卷。根據(jù)各答案比例縮小樣本容量,選取出100 組具有代表性的數(shù)據(jù)采用SPSS 進(jìn)行信效度分析,可得α信度系數(shù)大于0.9,KMO 系數(shù)大于0.8,數(shù)據(jù)的信效度良好。
利用本文所提方法對上述顧客群體進(jìn)行聚類分析。算法采用Visual Studio 2013 編程實(shí)現(xiàn),計(jì)算機(jī)配置為參數(shù)設(shè)置如下:學(xué)習(xí)率η設(shè)置為0.01,可能度β權(quán)重設(shè)置為0.5。改變初始聚類數(shù)k的取值,得到相應(yīng)的聚類結(jié)果,如表2所示。各類別對象數(shù)量及聚類效果如圖3~8表示。
表2 案例聚類結(jié)果
圖3 聚類效果(k=3)
圖4 聚類效果(k=4)
圖5 聚類效果(k=5)
圖6 聚類效果(k=6)
圖7 聚類效果(k=7)
圖8 聚類效果(k=8)
從聚類效果圖及表2 可知,k=3,4 的聚類結(jié)果相同,k=6,7,8 的聚類結(jié)果相同,且k=6,7,8 的聚類結(jié)果各聚類項(xiàng)的分布較為均勻,類簇的直徑較小。綜合考慮后可得,k=6,7,8的聚類結(jié)果出現(xiàn)頻次最高,各類數(shù)量分布最為均勻,因此將其作為最終聚類結(jié)果,如圖9所示。
圖9 最終聚類結(jié)果
本章將通過方法對比說明本文所提方法的特點(diǎn),驗(yàn)證其優(yōu)越性;并對3.2節(jié)得到的分類結(jié)果進(jìn)行分析,總結(jié)各類顧客群體的異質(zhì)特征,為產(chǎn)品再設(shè)計(jì)提供參考。
為了驗(yàn)證所提出的混合數(shù)據(jù)聚類算法的有效性,從算法特點(diǎn)、聚類數(shù)與每類個(gè)案數(shù)、聚類精度三方面,將混合數(shù)據(jù)聚類算法與K-means、K-prototypes 算法進(jìn)行對比。3種算法的特點(diǎn)如表3所示。
表3 3種算法特點(diǎn)
K-means 算法無法區(qū)分?jǐn)?shù)值型變量和分類型變量[18],對于所有數(shù)據(jù)均采用距離來度量相似度,針對混合屬性數(shù)據(jù)聚類有較大缺陷。
K-prototypes 算法需要預(yù)先分配聚類數(shù)目,人為選擇帶來的負(fù)面影響較大。同時(shí),由于初始聚類中心隨機(jī)確定,導(dǎo)致聚類結(jié)果的差異率很高。3種算法的聚類數(shù)與每類個(gè)體數(shù)如表4所示。
由表4可知,K-means算法和K-prototypes算法的聚類數(shù)完全取決于k的預(yù)定值,同時(shí),每個(gè)類別的個(gè)體數(shù)分布很不均勻;而本文所提方法得到的聚類數(shù)相對穩(wěn)定,且無需預(yù)先確定聚類數(shù)。
表4 3種算法的聚類數(shù)與每類個(gè)體數(shù)對比
此外,從UCI 機(jī)器學(xué)習(xí)數(shù)據(jù)庫(URL:http://archive.ics.uci.edu/ml/)中獲得“Heart Disease”數(shù)據(jù)集,以聚類誤差為指標(biāo)對比3種算法的性能。聚類誤差為:
其中,AC為聚類精度,n為數(shù)據(jù)集中實(shí)例總數(shù),ai為數(shù)據(jù)庫提供的標(biāo)簽,map(bi)為映射函數(shù),將所獲得的聚類標(biāo)簽bi映射到數(shù)據(jù)庫中的等效標(biāo)簽,當(dāng)且僅當(dāng)ai=map(bi)時(shí)δ(ai,map(bi))=1,否則δ(ai,map(bi))=0。
3 種算法的聚類誤差對比數(shù)據(jù)如表5 所示?!癏eart Disease”數(shù)據(jù)集包括270個(gè)實(shí)例,具有7個(gè)分類型屬性、6個(gè)數(shù)值型屬性,理論上分為2 個(gè)類別。由于3 種算法的最終聚類數(shù)均小于或等于初始聚類數(shù),故將k值設(shè)置為2、3和4。
表5 3種算法“Heart Disease數(shù)據(jù)集”的聚類誤差%
由表5 中可知,在聚類精度方面,本文所提方法優(yōu)于K-means算法和K-prototypes算法。
同時(shí),由于懲罰競爭機(jī)制的引入,混合數(shù)據(jù)聚類算法可以更直接地獲得相對可靠的聚類結(jié)果而不會產(chǎn)生波動(dòng)。
綜上所述,利用本文所提混合數(shù)據(jù)聚類算法對顧客群體分類的理論與實(shí)際優(yōu)勢如下:理論方面,顧客群體具有混合型屬性,其分類問題難以預(yù)先確定聚類數(shù)但要求穩(wěn)定可靠的結(jié)果。為了解決這一問題,本文針對顧客提出了一種混合型屬性聚類方法,采用懲罰競爭機(jī)制消除冗余聚類項(xiàng),通過非隨機(jī)化方法確定初始聚類中心。所提出的算法在聚類結(jié)果的每類個(gè)體數(shù)和聚類精度方面均優(yōu)于K-means 算法和K-prototypes 算法?,F(xiàn)實(shí)方面,顧客數(shù)量龐大、特征多樣,難以逐一識別,分類后再處理是解決該實(shí)際問題的一種可取的方法,但其需要一個(gè)明確的分類結(jié)果,這一結(jié)果可以通過混合數(shù)據(jù)聚類算法獲得。此外,針對混合數(shù)據(jù)聚類算法的分類結(jié)果,進(jìn)一步分析同質(zhì)顧客群體中決策者之間以及異質(zhì)顧客群體之間的交互關(guān)系,提出針對相應(yīng)顧客群體的產(chǎn)品再設(shè)計(jì)方案,進(jìn)而形成標(biāo)準(zhǔn)化的產(chǎn)品再設(shè)計(jì)流程。
假設(shè)每個(gè)樣本個(gè)體代表一位顧客,則由上述聚類結(jié)果可知,100名顧客被分為三類:第一類共有34人,第二類共有28 人,第三類共有38 人。接下來將對每一類顧客群體做出分析。
第一類顧客群體與其他兩類比較,整體特征表現(xiàn)為群體年齡偏大、平均月收入高、不太愿意接受風(fēng)險(xiǎn)、學(xué)歷較高、人員涉及各職業(yè)階層,具體數(shù)據(jù)見表6和表7。
表6 第一類顧客群體數(shù)值型屬性統(tǒng)計(jì)表
表7 第一類顧客群體分類型屬性統(tǒng)計(jì)表
第二類顧客群體與其他兩類比較,整體特征表現(xiàn)為群體年齡偏大、平均月收入最低、勉強(qiáng)愿意承受風(fēng)險(xiǎn)、大多數(shù)來自鄉(xiāng)村少部分來自市區(qū)、文化水平低、職業(yè)主要是農(nóng)業(yè)勞動(dòng)和產(chǎn)業(yè)工人,具體數(shù)據(jù)見表8和表9。
表8 第二類顧客群體數(shù)值型屬性統(tǒng)計(jì)表
表9 第二類顧客群體分類型屬性統(tǒng)計(jì)表
第三類顧客群體與其他兩類比較,整體特征表現(xiàn)為年輕人較為集中、收入水平一般、比較愿意接受風(fēng)險(xiǎn)、主要來自縣區(qū)和市區(qū)、受教育程度中等水平、職業(yè)都較為穩(wěn)定,具體數(shù)據(jù)見表10和表11。
表10 第三類顧客群體數(shù)值型屬性統(tǒng)計(jì)表
表11 第三類顧客群體分類型屬性統(tǒng)計(jì)表
通過上述分析,可以看出本文所提的混合屬性聚類方法能較為準(zhǔn)確地識別異質(zhì)顧客群體,符合現(xiàn)實(shí)情況。
本文針對異質(zhì)顧客群體識別問題,提出了一種混合數(shù)據(jù)聚類算法對其進(jìn)行分類。首先通過分析顧客群體主要特征確定識別指標(biāo),并收集聚類對象各屬性數(shù)據(jù);然后確定初始聚類中心并對相似度矩陣進(jìn)行迭代運(yùn)算,此外,在該過程中引入懲罰競爭機(jī)制,從而實(shí)現(xiàn)自動(dòng)確定聚類項(xiàng);最終得到異質(zhì)顧客群體的分類結(jié)果。在案例分析部分,以某型號手機(jī)產(chǎn)品作為研究對象,對其顧客群體進(jìn)行分類,最終得到較為可靠準(zhǔn)確的分類結(jié)果,從而對顧客需求預(yù)測及產(chǎn)品滿意度測量提供基礎(chǔ)。然而,本文僅提出了一種新型異質(zhì)顧客群體識別的思路,其仍存在一些不足。雖說可為企業(yè)提供短期參考,但所得數(shù)據(jù)容易受到樣本影響,其擴(kuò)展性還需進(jìn)一步研究完善。