苗森玉
(河北農(nóng)業(yè)大學(xué))
聚類分析是將事物根據(jù)一定的特征,并按某種特定要求或規(guī)律分類的方法.傳統(tǒng)的聚類分析是一種硬劃分,它把每個待辨識的對象嚴(yán)格地劃分到某類中.因此,這種類別劃分的界限是分明的.而實(shí)際上大多數(shù)對象并沒有嚴(yán)格的屬性,它們在性態(tài)和類屬方面存在著中介性,因此適合進(jìn)行軟劃分.1965年Zadeh教授在《Fuzzy Set》一文中提出了模糊集理論,為傳統(tǒng)聚類分析的軟劃分提供了有力的分析工具.人們開始用模糊的方法來處理聚類問題,并稱之為模糊聚類分析.由于模糊聚類得到的樣本屬于各個類別的不確定性程度,表達(dá)了樣本類屬的中介性,即建立起了樣本對于類別的不確定性描述,更能客觀地反映現(xiàn)實(shí)世界.[1]
模糊聚類分析包含多種分析方法,該文選取某家辦公用品公司的8個銷售員的數(shù)據(jù)作為統(tǒng)計(jì)指標(biāo),利用最大最小法建立相似矩陣,用閉包法做出聚類分析.
聚類分析的基本思想是用相似性尺度來衡量事物之間的親疏程度,并以此來實(shí)現(xiàn)分類.模糊聚類分析的實(shí)質(zhì)就是根據(jù)研究對象本身具有的屬性來構(gòu)造模糊矩陣,在這個基礎(chǔ)之上根據(jù)一定的隸屬度來確定其分類關(guān)系.其主要步驟包括確定樣本統(tǒng)計(jì)指標(biāo)、數(shù)據(jù)標(biāo)準(zhǔn)化、標(biāo)定距離以建立模糊相似矩陣和聚類.[2]
設(shè)論域 X={x1,x2,…,xn}為被分類對象,每個對象又有m個指標(biāo)表示其性狀,即xi={xi1,xi2,…,xim},(i=1,2,…,n).于是,得到原
式中,xnm表示第n個分類對象的第m個指標(biāo)的原始數(shù)據(jù).
描述事物特征的量綱是各種各樣的,為了使不同量綱能夠進(jìn)行分析和比較,通常需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化變換,將數(shù)據(jù)壓縮到[0,1]區(qū)間.常見的變換方式是先做平移-標(biāo)準(zhǔn)差變換,
依據(jù)標(biāo)準(zhǔn)化的數(shù)據(jù)矩陣建立模糊相似矩陣,引入相似系數(shù)rij.
這里rij表示兩個樣本xi與xj之間的相似程度,當(dāng)rij越接近于1,表明這兩個樣本越接近.rij的確定方法很多,比如相似系數(shù)法、距離法等,每一類方法又分為很多具體方法.該文選用相似系數(shù)法中的最大最小法,其計(jì)算公式為:
其中:rij∈[0,1],1 ≤ i,j≤ n.
聚類的方法有多種,該文使用的是基于模糊等價(jià)矩陣的傳遞閉包法.一般情況下,按照上述方法建立的模糊矩陣只是一個相似矩陣R,不一定是一個模糊等價(jià)矩陣.即矩陣R具有自反性和對稱性,但是不具備傳遞性.為了進(jìn)行分類,須將R改造為模糊等價(jià)矩陣,求其傳遞閉包t(R)即可.其依據(jù)是下面定理:
定理 設(shè)R是n階模糊相似關(guān)系,則存在一個最小的自然數(shù)k(k≤n),使得R的傳遞閉包t(R)=Rk,且對一切大于k的自然數(shù)l,恒有Rl=Rk.[3]
該定理說明,在不超過n次運(yùn)算內(nèi),即可求得R的傳遞閉包t(R),從而得到一個模糊等價(jià)矩陣.為了提高運(yùn)算速度,可以用平方法依次計(jì)算 R2,R4,R8,…,一定可以找到 k,使 Rk?Rk=Rk于是,t(R)=Rk.
有了t(R)之后,下一步就是動態(tài)聚類.動態(tài)聚類的過程就是求模糊等價(jià)矩陣t(R)的λ∈[0,1]截矩陣的過程,[4]λ 截矩陣 t(R)λ是一個布爾矩陣,也是一個等價(jià)矩陣.其元素為:
當(dāng)λ從1逐漸變化到0時,t(R)不斷變化,這個過程形成了一個動態(tài)聚類.
一家國內(nèi)某品牌化妝品公司銷售部主管對銷售員的銷售業(yè)績進(jìn)行評估.該公司的銷售人員通過各地奔走,派送公司產(chǎn)品,創(chuàng)辦展銷會,介紹新產(chǎn)品,打入各大商場柜臺,努力增加公司產(chǎn)品在市場上的占有率,并且及時查處在這些銷售過程與產(chǎn)品有關(guān)的各種問題.銷售評估這類問題具有自身的特點(diǎn):第一是影響因素很多,并且這些因素之間的關(guān)系錯綜復(fù)雜,其中一些因素因?yàn)闄z測手段的局限而無法測度,另一些因素信息則可以通過試驗(yàn)和檢測等方法來獲取,所以,模糊性是銷售問題的顯著特點(diǎn);第二是由于模糊性的積累使銷售評估結(jié)果的精度降低,影響評估的精確性,而模糊聚類是解決這一矛盾的有效方法之一.利用以上提到的方法,對該公司銷售員的銷售業(yè)績進(jìn)行細(xì)致的分析和科學(xué)的分類.
該公司8個區(qū)域銷售員的數(shù)據(jù),包括銷售員所在區(qū)域,區(qū)域面積(單位:平方公里),區(qū)域內(nèi)人口數(shù)量(單位:百萬),區(qū)域內(nèi)銷路的數(shù)量,銷售員促成定單純利潤,具體數(shù)據(jù)見表1.根據(jù)公式(1)、(2)對表1數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化后的數(shù)據(jù)如表2所示.
表1 各銷售員具體數(shù)據(jù)表
表2 各銷售員具體數(shù)據(jù)的標(biāo)準(zhǔn)化數(shù)值
根據(jù)表2的數(shù)值,用最大最小法計(jì)算各銷售員具體數(shù)據(jù)的相似關(guān)系矩陣R.將表2的數(shù)值代入公式(3)得
根據(jù)上述提到的平方法求解傳遞閉包可得:
此矩陣即為所求模糊等價(jià)關(guān)系矩陣.
根據(jù)模糊等價(jià)關(guān)系矩陣既可對8名銷售員進(jìn)行聚類分析.令λ由1降至0,按λ截矩陣進(jìn)行動態(tài)聚類.
當(dāng) 0.8112 < λ ≤ 1 時,t(R1) =,X被分為8類:{x1},{x2},{x3},{x4},{x5},{x6},{x7},{x8}.
同理,當(dāng)0.7608<λ≤0.8112時,X被分為7 類:{x1},{x2},{x3,x7},{x4},{x5},{x6},{x8}.
同理,當(dāng)0.7122<λ≤0.7608時,X被分為6 類:{x1},{x2},{x3,x7},{x4,x6},{x5},{x8}
當(dāng)0.6859<λ≤0.7122時,X被分為5類:{x1},{x2,x3,x7},{x4,x6},{x5},{x8}.
當(dāng)0.6736<λ≤0.6859時,X被分為4類:{x1,x4,x6},{x2,x3,x7},{x5},{x8}.
當(dāng)0.6697<λ≤0.6736時,X被分為3類:{x1,x4,x6,x8},{x2,x3,x7},{x5}.
當(dāng)0.2165<λ≤0.6697時,X被分為2類:{x1,x2,x3,x4,x6,x7,x8},{x5}.
當(dāng)0 < λ≤0.2165時,X被分為1類:{x1,x2,x3,x4,x5,x6,x7,x8}.
上述分類結(jié)果中,按0.8112<λ≤1和0<λ≤0.2165分類,8名員工各自成一類和全部并為一類沒有實(shí)用價(jià)值,不予考慮.其他6個分類方案中,以0.6736<λ≤0.6859時為例,對聚類結(jié)果進(jìn)行分析.此時銷售員2,3,7分為一類,業(yè)績最好,銷售員8自己分為一類,業(yè)績相對較好,銷售員1,4,6分為一類,業(yè)績較差,銷售員5的業(yè)績最差.
通過分析,利用上述計(jì)算方法所得出的結(jié)論與實(shí)際情況基本相同.其中銷售員2、3、7雖然負(fù)責(zé)的區(qū)域比較小,但從訂單利潤方面看,明顯較好,而負(fù)責(zé)大區(qū)域的銷售員5,反而訂單利潤低,銷售業(yè)績差,印證了本文方法的合理性.當(dāng)然,為了更切合實(shí)際,在對銷售員進(jìn)行評估考核時應(yīng)適當(dāng)考慮到銷售員5所在的區(qū)域人口數(shù)量較少對其業(yè)績的影響.總之,本文方法充分考慮了該公司銷售員績效評估的模糊性,消除了傳統(tǒng)的評估方法采用劃界指標(biāo)進(jìn)行硬性劃分的不合理性,同時,體現(xiàn)了模糊聚類分析的實(shí)施步驟具有極強(qiáng)的規(guī)律性且容易編程實(shí)現(xiàn).
[1] 高新波.模糊聚類分析及其應(yīng)用[M].西安:西安電子科技大學(xué)出版社,2004.
[2] 高德軍,陸新春.基于聚類分析的簡單高校分類方法[J].泰山學(xué)院學(xué)報(bào),2004.5(3):42-45.
[3] 羅蘭星.模糊聚類分析中傳遞閉包法及其應(yīng)用[J].四川省衛(wèi)生管理干部學(xué)院學(xué)報(bào),2005,24(2):38-42.
[4] 李吉鴻.模糊數(shù)學(xué)基礎(chǔ)及使用算法[M].北京:科學(xué)出版社,2005.