李 眩,童百利,吳曉兵
(安徽省銅陵職業(yè)技術(shù)學(xué)院 經(jīng)管系,安徽 銅陵 244061)
互聯(lián)網(wǎng)經(jīng)濟(jì)環(huán)境下,電子商務(wù)快速發(fā)展,交易過程產(chǎn)生的客戶數(shù)據(jù)規(guī)模不斷擴(kuò)大,維度不斷增加,且數(shù)據(jù)類型變得十分復(fù)雜,呈現(xiàn)出大數(shù)據(jù)特征,但其蘊(yùn)含的巨大商業(yè)價(jià)值能否最大限度利用,取決于數(shù)據(jù)挖掘和分析的方式.因此設(shè)計(jì)一種高效合理的數(shù)據(jù)挖掘方法對(duì)電商客戶數(shù)據(jù)進(jìn)行分析,這已經(jīng)成為電子商務(wù)應(yīng)用中研究的熱點(diǎn)問題.對(duì)電商客戶進(jìn)行聚類,挖掘客戶購買行為等方面的特征,針對(duì)不同客戶群體提供量身定做的服務(wù),進(jìn)而實(shí)現(xiàn)高效精準(zhǔn)的個(gè)性化服務(wù)和差異化營(yíng)銷.同時(shí),也可為站點(diǎn)結(jié)構(gòu)改進(jìn)、網(wǎng)頁推薦、發(fā)掘潛在價(jià)值客戶等提供決策依據(jù).
聚類過程是指將一組物理的或者抽象的對(duì)象,根據(jù)它們之間的相似程度,分為若干類.其中,特征相似的對(duì)象構(gòu)成一類.[1]傳統(tǒng)的聚類方法是基于經(jīng)驗(yàn)或者簡(jiǎn)單的統(tǒng)計(jì)方法,聚類主觀性強(qiáng),效果不理想.其聚類方法一般都是硬劃分,將對(duì)象進(jìn)行嚴(yán)格區(qū)分,分類界限分明.而電子商務(wù)客戶群具有多樣性的特點(diǎn),往往不能用某一嚴(yán)格界限對(duì)其進(jìn)行具體類的劃分,采用傳統(tǒng)方法聚類不理想.模糊理論的出現(xiàn)為聚類提供新的思路,聚類思想由硬劃分中的“要么屬于,要么不屬于”變化為“用屬于程度來描述”.[2]客觀事物之間沒有一個(gè)截然區(qū)別的界限,不是嚴(yán)格分明的,是帶有模糊性的,因此用模糊方法解決聚類問題必然更符合實(shí)際.模糊聚類結(jié)果不是說事物絕對(duì)地屬于或不屬于某類,而是指屬于某類的程度有多大,其在聚類分析的基礎(chǔ)上,引入“隸屬度”來度量每個(gè)樣本與各類的隸屬程度,聚類結(jié)果比較科學(xué)合理.
模糊聚類算法是基于目標(biāo)函數(shù)優(yōu)化基礎(chǔ)上的一種數(shù)據(jù)聚類方法,[3]每項(xiàng)數(shù)據(jù)是哪類是比較模糊的,不能精確斷定,只是在某些方面有相似性,這相似性聚類結(jié)果是每個(gè)數(shù)據(jù)對(duì)聚類中心的隸屬度來度量得出的,該隸屬程度用一個(gè)數(shù)值來表示 .[4]
模糊聚類算法執(zhí)行步驟如下:
模糊聚類分析的目標(biāo)函數(shù):
其中,uji表示樣本 xj對(duì)應(yīng)第i類中心 vi的隸屬度,m是模糊權(quán)重因子(m>1),是樣本 xj到第i類中心 vi的歐氏距離,c為分類數(shù)目(1<c<n),是n× c矩 陣 ,V = [ v1, v2…vc]是s×c矩陣,s代表維數(shù).
(1)設(shè)定聚類數(shù)目c和模糊權(quán)重參數(shù)m,隨機(jī)初始化聚類中心;
(2)計(jì)算所有樣本數(shù)據(jù)的隸屬度矩陣,并且是每列元素之和滿足恒等于1的約束條件;
(4)計(jì)算 Vk+1,則有:
模糊聚類的MATLAB程序[5]代碼共包括三個(gè)函數(shù),通過相互調(diào)用能實(shí)現(xiàn)聚類的過程和結(jié)果輸出,代碼如下:
function[U,V,objFcn]=myfcm(data,c,T,m,epsm)
c=4
if nargin<3
T=100;
end
if nargin<5
epsm=1.0e-6;
end
if nargin<4
m=2;
end
[n,s]=size(data);
U0=rand(c,n);
temp=sum(U0,1);
for i=1:n
U0(:,i)=U0(:,i)./temp(i);
end
iter=0;
V(c,s)=0;U(c,n)=0;distance(c,n)=0;
while(iter<T)
iter=iter+1;
Um=U0.^m;
V=Um*data./(sum(Um,2)*ones(1,s));
for i=1:c
for j=1:n
distance(i,j)=mydist(data(j,:),V(i,:));
end
end
U=1./(distance.^m.*(ones(c,1)*sum(distance.^(-m))));
objFcn(iter) =sum(sum(Um.*distance.^2));
if norm(U-U0,Inf)<epsm
break
end
U0=U;
end
myplot(U,objFcn);
function d=mydist(X,Y)
d=sqrt(sum((X-Y).^2));
end
function myplot(U,objFcn)
figure(1)
subplot(4,1,1);
plot(U(1,:),'-k');
title('隸屬度矩陣值')
ylabel('第一類')
subplot(4,1,2);
plot(U(2,:),'-k');
ylabel('第二類')
subplot(4,1,3);
plot(U(3,:),'-k');
ylabel('第三類')
subplot(4,1,4);
plot(U(4,:),'-k');
xlabel('樣本數(shù)')
ylabel('第四類')
figure(2)
grid on
plot(objFcn);
title('目標(biāo)函數(shù)變化值');
xlabel('迭代次數(shù)')
ylabel('目標(biāo)函數(shù)值')
本文運(yùn)用網(wǎng)絡(luò)爬蟲軟件獲取某電商網(wǎng)站的歷史交易數(shù)據(jù)后,采用其中16位客戶數(shù)據(jù)進(jìn)行聚類來驗(yàn)證算法的可行性和有效性.每位用戶數(shù)據(jù)包含6項(xiàng)指標(biāo)值:商品購買量、交易總金額、單次交易均額、消費(fèi)頻率、網(wǎng)站登錄次數(shù)、消費(fèi)商品類目數(shù),上述指標(biāo)數(shù)據(jù)均為同段時(shí)間內(nèi)的交易數(shù)據(jù),能較全面描述消費(fèi)者自身及消費(fèi)行為的特征,[6]16位客戶數(shù)據(jù)如表一所示.MATLAB程序中,聚類數(shù)目設(shè)定c=4,n參數(shù)為16,data為16位待聚類客戶的6維數(shù)據(jù)矩陣,模糊度m=2.在MATLAB環(huán)境中運(yùn)行上述程序,得到每位用戶劃類的隸屬度值如表2所示,圖1為隸屬度矩陣值的示意圖,根據(jù)隸屬度值的大小和圖1能得知每位客戶的最佳聚類,圖2為目標(biāo)函數(shù)變化值示意圖,經(jīng)過8次迭代運(yùn)算,模糊聚類算法收斂,目標(biāo)函數(shù)值已經(jīng)非常穩(wěn)定,說明聚類迭代計(jì)算已達(dá)到要求.
16 100 10000 5000 2 6 2
表2 模糊聚類隸屬度
圖1 隸屬度矩陣值
圖2 目標(biāo)函數(shù)值變化
從MATLAB聚類實(shí)驗(yàn)結(jié)果看出:序號(hào)為1、2、3、4、7、9、11、13、14的客戶,該類客戶群雖單次消費(fèi)額不高,企業(yè)從這客戶群獲利不大,但他們消費(fèi)頻率高,交易會(huì)持續(xù)穩(wěn)定,是企業(yè)穩(wěn)定生存的基礎(chǔ)客戶;序號(hào)為5、6、10、12、15的客戶聚為一類,該類客戶群消費(fèi)頻率高,交易總額和單次交易均額都較大,且購買數(shù)量多,可以從他們的交易中獲得較高利潤(rùn),是電商的優(yōu)質(zhì)客戶,應(yīng)重點(diǎn)維護(hù);序號(hào)為8的客戶,消費(fèi)頻率高,交易總額大,但購買商品數(shù)量大,平均到每次交易的交易額不高,他們需求量大,極可能為網(wǎng)絡(luò)渠道的進(jìn)貨商,也很在乎價(jià)格,他們對(duì)電商具有一定價(jià)值,應(yīng)該通過適當(dāng)?shù)臓I(yíng)銷策略轉(zhuǎn)變優(yōu)質(zhì)客戶;序號(hào)為16的客戶消費(fèi)頻率低,但交易額高,單次交易給企業(yè)帶來的利潤(rùn)也高,是電商的潛在客戶,應(yīng)通過營(yíng)銷和維護(hù)使其轉(zhuǎn)變?yōu)榉€(wěn)定的優(yōu)質(zhì)客戶.
在商業(yè)市場(chǎng)中,市場(chǎng)客戶種類和需求日益繁多,如何有效細(xì)分、規(guī)劃客戶群,并制定針對(duì)性的營(yíng)銷策略,是激烈市場(chǎng)競(jìng)爭(zhēng)的成功所在.本文提出了基于模糊理論的數(shù)據(jù)聚類方法,來實(shí)現(xiàn)電商客戶聚類特征提取提供了很好的解決思路,實(shí)驗(yàn)結(jié)果表明,該算法是可行的合理的.同時(shí),該方法對(duì)于其他專業(yè)領(lǐng)域如模式識(shí)別、模糊控制亦有一定的實(shí)際指導(dǎo)意義,為問題的突破提供好的思路.
四川文理學(xué)院學(xué)報(bào)2019年5期