耿曉斐
摘要:融合聚類挖掘和關(guān)聯(lián)規(guī)則分析算法,首先采用主成分分析方法進行特征選擇,獲取對算法有用的屬性集合;然后以營銷目標為約束條件,對商戶進行聚類,獲取營銷目標下的不同商戶分類群;再針對每一類商戶,先從底層獲取最基礎(chǔ)的單層關(guān)聯(lián)規(guī)則,然后再采用匯總的數(shù)據(jù)挖掘技術(shù),獲取高支持度和高置信度的強關(guān)聯(lián)規(guī)則,作為營銷決策依據(jù)。通過分析所挖掘出來的規(guī)則,對特定分類的商戶進行針對性的商品推薦,同時為上層決策提供數(shù)據(jù)支撐。
關(guān)鍵詞:聚類;多層關(guān)聯(lián)規(guī)則;煙草商業(yè);營銷推薦系統(tǒng)
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2015)01-0005-02
1 研究背景
如何進行營銷決策一直是煙草行業(yè)的重要研究課題。商煙公司根據(jù)國家的計劃向煙草工業(yè)公司訂購卷煙,然后再把卷煙銷售給零售商戶。由于商煙公司訂購的香煙的產(chǎn)地、品牌、質(zhì)量和價格等各不相同,不同的商戶的需求不同,現(xiàn)有的模式是分配制度,造成有些香煙很難銷售,目前大多采用搭售的策略,但如何搭售是一種營銷策略,盲目搭售會造成用戶滿意度降低,而且會造成銷售效率降低,
目前現(xiàn)有的針對煙草營銷策略的研究,多采用數(shù)據(jù)挖掘的思想,基于數(shù)據(jù)挖掘的營銷策略是對終端客戶進行分類,根據(jù)用戶的銷量和誠信記錄把用戶分為多個等級,但這種分級策略只能反應用戶的銷量信息,把這個分類作為營銷策略依據(jù)太單薄,只能起一定的輔助作用。更深入地研究是根據(jù)客戶的資料和歷史訂單數(shù)據(jù)對現(xiàn)有商戶進行聚類,獲取到自主的商戶分類,但盲目的聚類會導致商戶的分類沒有實際意義,或獲取的結(jié)果是無助于營銷目的的。
2 技術(shù)關(guān)鍵
本系統(tǒng)采用基于營銷目的的商戶聚類,技術(shù)關(guān)鍵包括三部分內(nèi)容:數(shù)據(jù)預處理中的特征選擇、基于限制目標的商戶精確聚類和基于聚類結(jié)果的多層關(guān)聯(lián)規(guī)則算法的研究。
2.1 特征選擇
假定獲取的數(shù)據(jù)的維數(shù)為n,通常情況下n是很大的一個數(shù),為簡化模型,也為了防止模型陷入過擬合(維數(shù)災難),需要進行降維處理,即僅把對項目改造判定起關(guān)鍵作用的因素挑選出來。本系統(tǒng)采用PCA算法來進行降維處理,過程如下:1) 計算標準化后的矩陣Z的樣本的協(xié)方差矩陣Cov; 2) 計算協(xié)方差矩陣Cov的本征向量 e1,e2,…,en的本征值。本征值按大到小排序;3) 投影數(shù)據(jù)到本征矢張成的空間之中,利用貢獻分析取前m個向量Y1,Y2,…,Ym。
2.2 基于營銷目標限制的商戶精確聚類算法
現(xiàn)有聚類算法一般沒有約束條件,只根據(jù)相似度來進行聚類,為了能夠體現(xiàn)約束條件,需要在聚類相似度或者樣本距離之間把限制條件增加進去,這樣在樣本聚類的時候即可使得具有相同營銷特性的樣本或者客戶被劃分到同一個類中。
煙草終端商戶的大部分屬性是分類屬性,例如:地區(qū)、類別等,此外還有數(shù)字型屬性、日期型屬性,由于存在不同類型的屬性,常規(guī)的聚類算法無法使用,為此,采用把數(shù)字屬性和日期屬性劃分區(qū)間的思路,這樣可以轉(zhuǎn)化成分類屬性的方式來進行聚類。進而可建立如下商戶模型:分類對象X∈Ω,X = [A1=x1]∧[A2=x2]∧…∧[Am=xm],其中xj∈DOM(Aj),1≤j≤m,為簡便起見,將對象X∈Ω用向量(x1, x2, …, xm)表達,如果屬性Aj的值不存在,則Aj = ε。令Χ = {X1, X2, …, Xn}為n個分類對象的集合,用集合方式表達分類對象,則Xi = {xi,1, xi,2, …, xi,m},如果屬性Aj的值不存在,則集合中不出現(xiàn)xi,j,容易得到|Xi| ≤ m。如果存在Xi,j =Xk,j,1≤j≤m,則Xi = Xk。
為方便聚類,利用聚類匯總來壓縮原始數(shù)據(jù),從而達到提高算法效率的目的。一個類C可以由如下三元組(n, I, S)來表示。其中n為類C中的對象數(shù)量,I = {i1, i2, …, iu}是C內(nèi)所有屬性值的集合,S = {s1, s2, …, su},其中sj為ij在類C中的數(shù)量,ij∈I,1≤j≤u。集合S按升序排列,即s1≤s2≤…≤su,這同時也暗示集合I的元素按其在C中的數(shù)量按升序排列。三元組(n, I, S)被稱作類C的聚類匯總CS,CS的三個成員分別記作CS.n、CS.I和CS.S;對于CS.I的任一元素ij∈CS.I,則記作CS.I.ij,對于sj∈CS.S,則記作CS.S.sj,其中1≤j≤u。
給定一個類C包含n個對象{X1, X2, …, Xn},Xi = {xi,1, xi,2, …, xi,m},i = 1, 2, …, n,則類C的聚類匯總CS(n, I, S)各成員可通過下列公式得到。
CS.n = n
CS.I = X1∪X2∪…∪Xn
CS.S.sj = [k=1n|{ij}?Xk|],ij∈CS.I,j = 1, 2, …, u
基于聚類匯總,則類的相似度公式可以描述如下:
sim(X1, X2)=2|X1∩X2| / (|X1|+|X2|)
在進行聚類時,同時把營銷目標的劃分進行考慮,不同營銷目標的兩個商戶在聚類時應當不能被劃分到同一個類中。
2.3 基于煙草營銷的多層關(guān)聯(lián)規(guī)則的研究
針對本項目,對關(guān)聯(lián)規(guī)則定義進行擴展,對形如:X [?] Y的關(guān)聯(lián)規(guī)則,不再限定X和Y為一個項目集,而把X和Y定義為條件的合取范式,每個條件Ai = True / False為布爾表達式。此時的Ai為一個項目集,它的含義與原來的X和Y的含義相同,如果把結(jié)果中的條件布爾表達式寫成Cj = True / False,則關(guān)聯(lián)規(guī)則有如下形式:
(A1 = True / False)∧(A2 = True / False)∧ … ∧(An = True / False)[?](C1 = True / False)∧(C2 = True / False)∧ … ∧(Cm = True / False) 關(guān)聯(lián)規(guī)則的開采問題可以分解成以下兩個子問題:
① 從數(shù)據(jù)集合或交易集合D中發(fā)現(xiàn)所有的頻繁項目集。
② 從頻繁項目集中生成所有置信度不小于用戶定義的最小置信度minconf的關(guān)聯(lián)規(guī)則。即對任一個頻繁項目集F和F的所有非空真子集S,S [?] F,如果sup(F)/ sup(F-S)≥ minconf,則(F-S)[?] S就是一條有效的關(guān)聯(lián)規(guī)則。按上述方法發(fā)現(xiàn)所有類似的規(guī)則。
這兩個步驟中第2步要相對容易,因此項目的研究將更關(guān)注第1步, 由于最大頻繁項目集已經(jīng)隱含了所有頻繁項目集,所以可以把發(fā)現(xiàn)頻繁項目集的問題轉(zhuǎn)化為發(fā)現(xiàn)最大頻繁項目集的問題。
針對煙草營銷的客戶,進行關(guān)聯(lián)規(guī)則挖掘時,是在上一步的基礎(chǔ)上,即針對每一個商戶群進行規(guī)則挖掘。在獲取到最大頻繁項目集后,順序生成頻繁項目集,然后獲取到可用的關(guān)聯(lián)規(guī)則。此時獲取的關(guān)聯(lián)規(guī)則是底層關(guān)聯(lián)規(guī)則,然后再采用概念樹的方法對獲取的底層關(guān)聯(lián)規(guī)則進行匯總。概念樹由煙草領(lǐng)域?qū)<腋鶕?jù)屬性的領(lǐng)域知識提供,按特定屬性的概念層次從一般到具體排序。樹的根結(jié)點是用any表示最一般的概念,葉結(jié)點是最具體的概念即屬性的具體值。
在獲取多層關(guān)聯(lián)規(guī)則后,能靈活確定關(guān)聯(lián)規(guī)則的前后件,分析出不同層次各事務的關(guān)聯(lián)。能分析出任意兩個事務間的關(guān)聯(lián)關(guān)系;分析出任意一項事務與其他多項事務間的關(guān)聯(lián)關(guān)系;任意幾項事務與其他一項事務間的關(guān)聯(lián)關(guān)系,或者任意幾項事務與另外幾項事務間的關(guān)聯(lián)關(guān)系。如:某一時間,某品牌煙,商戶總進貨量;某類別商戶,某品牌煙進貨量;某商戶,某段時間,某卷煙進貨量;某地址段,某品牌卷煙,商戶總進貨量;某地址段,某段時間,某品牌卷煙,總進貨量等等。
參考文獻:
[1] Han J W,Kamber M.Data Mining: Concept and Techniques[M].San Francisco,CA:Morgan Kaufmann,2001.
[2] Hong Li,Song-qiao Chen,Jian-feng Du,Li-jun Yi, Wei Xiao.An Algorithm Research for Distributed Association Rules Mining with Constraints Based on Sampling[A].Proc. 5th IEEE Int. Conf. on Cognitive Informatics[C](ICCI'06),Bejing,2006.
[3] 汪秀林,周國祥,王莉.基于數(shù)據(jù)倉庫技術(shù)煙草商業(yè)營銷決策支持系統(tǒng)的研究與設計[D].合肥:合肥工業(yè)大學,2007.
[4] 劉向鋒,于洪鵬.基于數(shù)據(jù)挖掘的延遲消費者數(shù)據(jù)庫營銷研究[J].物流科技,2010(6).