杜子芳,劉亞文,徐一丁
聚類分析是三大多元統(tǒng)計(jì)分析方法之一,在許多領(lǐng)域都有廣泛的應(yīng)用,聚類分析不僅表現(xiàn)活躍,而且分支眾多。首先有樣品聚類與變量聚類之分,其中樣品聚類又有面向大樣本量情形的快速聚類與面向樣本量不大情形的常規(guī)聚類兩個(gè)分支。對(duì)于這其中的常規(guī)聚類,還可細(xì)分為有序樣品聚類與非有序樣品聚類,而對(duì)于非有序樣品聚類,有聚類類數(shù)由少而多的分解法與由多而少的歸并法的區(qū)別。歸并法最為常用,也稱譜系聚類。
聚類家族人丁興旺,其共同的基因可以歸納為兩個(gè):一是“模型”限于處理數(shù)值型變量尤其是非離散變量;二是“模型”的基礎(chǔ)除變量聚類少數(shù)場(chǎng)合外其余概為距離計(jì)算。不妨回顧一下聚類分析的過程與細(xì)節(jié),容易知道無論是譜系聚類還是快速聚類,任何場(chǎng)合的距離計(jì)算不外乎三種:樣品之間的距離、樣品到類的距離以及類與類之間的距離。而這些計(jì)算的唯一依據(jù)是樣品之間的距離,簡稱樣品間距,只有譜系聚類的ward方法例外。
距離首先是一個(gè)幾何概念,其中最為人熟悉的是二維和三維幾何空間的歐幾里德距離。在其后的發(fā)展中,距離在維數(shù)、冪次數(shù)等方面被推廣了,距離被抽象為滿足下列性質(zhì)的一個(gè)函數(shù)族:(1)非負(fù)性;(2)對(duì)稱性;(3)三角可加性。
值得提醒人們特別關(guān)注的是,三角可加性雖然是一種特殊的可加性,但畢竟還是可加性,而可加性意味著幾何距離中向量的各分量量綱必須一致;至于可加性前面要加上“三角”做修飾,則意味著幾何距離中向量的各分量在笛卡爾坐標(biāo)系里必須正交。這是幾何距離定義中所隱含的兩個(gè)重要特性。
樣品間距完全脫胎于幾何中的距離概念,這是毋庸置疑的,但樣品間距在幾何距離隱含的上述兩個(gè)關(guān)鍵特性上或許是被人們有意或許是不經(jīng)意地被模糊了。假如詢問學(xué)過回歸分析的學(xué)生,需要進(jìn)行多重共線性的診斷嗎?回答肯定的。而假如詢問學(xué)過聚類分析的學(xué)生,聚類分析需要進(jìn)行量綱不一致和變量不正交的診斷嗎?回答“是”的恐屬鳳毛麟角。還有一個(gè)明證是統(tǒng)計(jì)軟件的聚類分析程序中既無量綱一致和變量正交化的獨(dú)立模塊,在內(nèi)容相關(guān)的模塊里,缺省設(shè)置也不是能使量綱一致和變量正交化的手段選項(xiàng)。在迄今所見的文獻(xiàn)中未見任何有關(guān)主題研究的文獻(xiàn)。
被人們有意或許是不經(jīng)意地被模糊的兩個(gè)關(guān)鍵特性,一是幾何距離中向量的各分量量綱是一致的,故各分量的量值是可加的,可樣品距離中各個(gè)變量許多場(chǎng)合量綱并非一致。多元統(tǒng)計(jì)分析中關(guān)于消除量綱的方法是比較豐富的,主要有標(biāo)準(zhǔn)化變換、極差標(biāo)準(zhǔn)化變換和極差規(guī)格化變換三種。但人們往往將這些方法與中心化變換和對(duì)數(shù)變換之類變換方法并列,且對(duì)三種消除量綱影響的方法孰優(yōu)孰劣只字不提,其結(jié)果是量綱一致化的必要性被嚴(yán)重地淡化了,以致聚類分析里完全缺少判別分析那種將馬氏距離作為距離判別唯一選項(xiàng)的明快。
何況,若記兩個(gè)p維樣品x=[x1,…,xp]′和 y=[y1,…,yp]′之間的歐氏距離為:
而相同的兩個(gè)p維樣品之間的統(tǒng)計(jì)距離或馬氏距離為:
q其中S為樣本協(xié)方差矩陣,則正如Richard A.Johnson和Dean W.Wichern所說:“但是,沒有關(guān)于不同類的先驗(yàn)知識(shí)。這些樣本量就無法計(jì)算。由于這個(gè)原因,在聚類問題中更傾向于采用歐氏距離”。也就是說,由于“類”在聚類開始的階段尚不存在,類內(nèi)的方差S無從談起,所以歐氏距離就替代了似乎更合理的統(tǒng)計(jì)距離或馬氏距離。
被人們有意或許是不經(jīng)意地被模糊兩個(gè)關(guān)鍵特性之二,是幾何距離中向量的各分量在笛卡爾坐標(biāo)系里都是正交的,而樣品距離中各變量間往往存在一定程度的相關(guān),很多場(chǎng)合不能滿足正交條件,費(fèi)歇爾感覺到了這一點(diǎn),在與聚類分析關(guān)聯(lián)緊密的姊妹方法判別分析中提出了著名的費(fèi)歇爾變換。費(fèi)歇爾變換是一種正交變換,可以很好解決不同變量不正交的問題。可惜的是,迄今并未有人嘗試將此移植到聚類分析。當(dāng)然有必要指出的是,即使移植了,量綱一致及可加性的要求并不能因此獲得滿足。
樣品間距迄今存在的量綱不一致和變量不正交這兩個(gè)固有缺陷,第一個(gè)缺陷量綱不一致無法真正消除,例如試圖將血壓與身高的量綱差異消除的努力在科學(xué)的范疇里恐怕永遠(yuǎn)不會(huì)成功。通過標(biāo)準(zhǔn)化進(jìn)行矯正也許是人們能夠想到的理想方法,只有規(guī)格化可能與其相比。第二個(gè)缺陷變量不正交或變量間存在相關(guān)性,假如不考慮量綱不一致的影響,其實(shí)完全可以真正消除,而且矯正的手段非常簡單:正交化。有些多元統(tǒng)計(jì)分析教科書非常重視變量不正交或變量相關(guān)性問題,并提供了馬氏距離、斜交空間距離兩種解決方法,但也未明確宣示正交化不可或缺的必要性。
本文的主旨在于研究兩個(gè)問題,一是從聚類分析結(jié)果(取決于樣品間距)看,是否有必要進(jìn)行正交化矯正;二是假如需要,那么應(yīng)該如何進(jìn)行正交化。
對(duì)于第一個(gè)問題,可以通過證偽的方法輕易得到解決。本文選取兩個(gè)熟悉度很高的且各變量量綱可以看作相同的案例,按未正交化的一般方法計(jì)算樣品距離陣,再按正交化的方法重新計(jì)算距離陣,正交化的方法是對(duì) p個(gè)變量求主成分,模型為:
這樣得到的各主成分是相互正交的,即
以各主成分的值Y1,…,Yp作為新的變量,重新計(jì)算距離。
計(jì)算比對(duì)兩種結(jié)果。由于聚類分析的原理是先將樣品距離小的樣品聚在一起,因此距離的絕對(duì)數(shù)沒有實(shí)際意義,本文主要通過比較距離的大小和排序(秩)來比對(duì)兩種距離。比對(duì)的具體做法是:
(1)如果有n個(gè)樣品,則可得到原始距離和正交后距離各C2n個(gè)。將兩個(gè)距離矩陣分別按列排成C2n維的向量,分別求兩個(gè)向量的秩xi,yi(i=1,…,C2n),計(jì)算兩種方法的距離之間的斯皮爾曼相關(guān)系數(shù)rd:
其中,di=xi-yi,m為距離向量維數(shù)。
假如不正交不影響樣品間距的順序和聚類分析結(jié)果,兩者應(yīng)該正相關(guān),且斯皮爾曼相關(guān)系數(shù)rd為1,因此1-rd可以視為兩者差異大小的一個(gè)量度。
(2)比較兩種距離的秩xi,yi的差異。如果正交不影響樣品間距的順序和聚類分析結(jié)果,那么兩種應(yīng)該是完全一致的。
(3)按照矩陣先行后列的順序計(jì)算樣品間距,將兩種方法計(jì)算的樣品間距的大小順序進(jìn)行比較。若正交不影響樣品間距的順序和聚類分析結(jié)果,那么樣品間距的大小順序應(yīng)該是一致的。例如,不正交計(jì)算的樣品間距d1,2大于d3,5,若正交不影響樣品間距的順序和聚類分析結(jié)果,那么正交化變換后的樣品間距d1,2也應(yīng)該大于d3,5。
這里引入逆序?qū)Γ╠ifferent ordered pair)的概念來進(jìn)行比較。設(shè)原始距離秩為向量x,正交后的距離秩為向量y,第i個(gè)距離秩為(xi,yi),第 j個(gè)距離秩為(xi,yi),i,j=1,…C2n,如果 xi>xj,而 yi<yj;或者 xi<xj,而yi>yj,則稱i和 j是逆序?qū)?,逆序?qū)χ灰髕變化方向和y變化方向相反,并不要求i和j中x的變化量|xi-xj|與y的變化量|xi-xj|相等。
類似的,同序?qū)Γ╯ame ordered pair)的概念為如果xi>xj,且 yi>yj;或者 xi<xj,而 yi<yj,則稱 i和 j是同序?qū)?。另外,若i和 j,有 xi=xj或 yi=yj的情況,則i和 j是同分對(duì)(tied pair)。
若原始距離和正交后的距離各C2n個(gè),則可計(jì)算出逆序?qū)?、同序?qū)?、同分?duì)的個(gè)數(shù)共個(gè),計(jì)算逆序?qū)Φ谋壤梢院饬績煞N距離差異大小。
例1:鳶尾花數(shù)據(jù)
鑒于全部150個(gè)樣品的樣品間距陣的元素總數(shù)為149*75,過于冗長,既不容易突出問題也不便于表達(dá),為此只隨機(jī)選出10個(gè)樣品(表1)的計(jì)算結(jié)果列在表2中,這樣足以清晰地反映問題的實(shí)質(zhì)所在。
表1 隨機(jī)抽取的10個(gè)樣品
(1)依斯皮爾曼相關(guān)系數(shù)得到兩者的套算差異率為9.53%;(2)按間距順序變化情況衡量,45個(gè)間距中正交與
表2 隨機(jī)抽取的10個(gè)樣品間距
否未產(chǎn)生影響的有8個(gè),未正交排序后移的有23個(gè),前移的有14個(gè)。(3)兩者存在明顯差異以致順序顛倒的也不鮮見,如表中帶陰影的3對(duì)6個(gè)樣品即是如此,此即為逆序?qū)Α?5個(gè)間距計(jì)算出的逆序?qū)?、同序?qū)?、同分?duì)見表3。
表3 逆序?qū)Α⑼驅(qū)?、同分?duì)個(gè)數(shù)
例2:頭蓋骨數(shù)據(jù)
針對(duì)32個(gè)頭蓋骨樣品數(shù)據(jù)計(jì)算的(1)斯皮爾曼系數(shù)為97.9%,兩者的套算差異率為2.1%;(2)按間距順序變化情況衡量,496個(gè)間距中正交與否未產(chǎn)生影響的有12個(gè),正交排序后移的有266個(gè),前移的有218個(gè)。(3)496個(gè)間距計(jì)算出的逆序?qū)?、同序?qū)?、同分?duì)見表4。
表4 逆序?qū)Α⑼驅(qū)?、同分?duì)個(gè)數(shù)
兩個(gè)例子的比對(duì)結(jié)果表明,不僅未正交化與正交化的兩種樣品間距自身的數(shù)值不同,而且樣品間距的大小順序也存在明顯的差異。
盡管表中所展示的只是不正交與采用主成分法正交化的兩者的樣品間距順序發(fā)生變化的結(jié)果,但由于這種順序變化必然導(dǎo)致聚類分析結(jié)果產(chǎn)生差異,所以進(jìn)行正交化矯正完全是有必要的。
那么應(yīng)該如何進(jìn)行正交化呢?關(guān)于正交化的實(shí)施途徑有許多現(xiàn)成方案可供選擇,最直接兩個(gè)正交化方法——主成分分析與格蘭姆—施密特方法。前者與聚類分析同屬多元統(tǒng)計(jì)分析;后者較少統(tǒng)計(jì)色彩但更具一般性。
主成分的正交方法前文已述,格蘭姆—施密特方法具體計(jì)算方法為:
先取Y1=X1,然后令Y2=X2-h21Y1使(Y2,Y1)=0,即選h21使(X2-h21Y1,Y1)=0,即h21=(X2,Y1)/(Y1,Y1),再令Y3=X3-h32X2-h31X1使 (Y3,Y2)=(Y3,Y1)=0,定出系數(shù)h32,h31;一般地,令
Yi=Xi-hi(i-1)Yi-1-…-hi1Y1使(Yi,Yi-1)=(Yi,Yi-1)=…=(Yi,Y1)=0,這樣就可以求出一組兩兩正交的向量。
有必要指出的是:雖然施密特正交化方法似乎因更具一般性而容易令人產(chǎn)生其統(tǒng)計(jì)色彩比較淡些的印象,從而會(huì)使人們忽視格蘭姆——施密特正交化方法在統(tǒng)計(jì)分析中的作用。格蘭姆——施密特正交化方法不同于主成分的最重要的地方在于,主成分變換是粉碎性的,變換后原有變量幾乎面目全非(除非再進(jìn)行因子旋轉(zhuǎn)),而格蘭姆——施密特正交化方法是將原有變量中一個(gè)原封不動(dòng)予以保留,以此作為變換的主軸。正如格蘭姆——施密特正交化方法在統(tǒng)計(jì)學(xué)中受到忽視一樣,這一點(diǎn)也是容易被視為當(dāng)然如此而最終滑過人們的視野。其實(shí),正是這微不足道的一點(diǎn),在統(tǒng)計(jì)中可能甚為有用。例如可將某個(gè)最重要的變量作為主軸予以保留,這樣至少可以部分達(dá)到因子旋轉(zhuǎn)的目標(biāo),一定程度上減少主成分難以解釋之弊。
以上幾種方式都是普通的或成熟的正交化方法,不必懷疑是否能夠達(dá)成我們的初衷。疑問也許在于,依據(jù)這幾種方法計(jì)算的樣品距離與馬氏距離和斜交空間距離是否具有一致性,會(huì)不會(huì)因不具一致性導(dǎo)致?lián)诉M(jìn)行的聚類結(jié)果也不一致。使用上面提到的兩個(gè)案例,計(jì)算結(jié)果發(fā)現(xiàn),格蘭姆——施密特方法與主成分分析的結(jié)果完全一致,并無例外。這在理論上也是有根據(jù)的。對(duì)一個(gè)向量空間而言,標(biāo)準(zhǔn)正交基的變換相當(dāng)于坐標(biāo)軸的平移與旋轉(zhuǎn),平移對(duì)距離沒有任何影響,而壓縮與膨脹都是線性的和成比例的,會(huì)改變距離的大小而不會(huì)改變距離的順序。
另外,格蘭姆——施密特方法和主成分分析與馬氏距離和斜交空間距離的結(jié)果(指距離的順序)也是完全一致的。因而我們需要決定的是,究竟應(yīng)優(yōu)先考慮哪種方法為好;或者說各有千秋,只是場(chǎng)合不同。
單從公式或表達(dá)方式看,馬氏距離最為簡單,且與統(tǒng)計(jì)淵源最深,既然效果一樣,似乎應(yīng)優(yōu)先選擇。有些文獻(xiàn)對(duì)馬氏距離的指責(zé)系因馬氏距離不具穿透性,即樣品間距的結(jié)果無法用于樣品與類之間的距離。斜交空間距離比馬氏距離比較復(fù)雜,但具有所謂穿透性,即可兼顧樣品間距與樣品與類之間的距離。相比之下,格蘭姆——施密特方法和主成分分析明顯要復(fù)雜很多,看似必定出局。然而,公式或表達(dá)方式的復(fù)雜不等于計(jì)算復(fù)雜。事實(shí)上,格蘭姆——施密特方法和主成分分析只是進(jìn)行變量的正交化,并不直接涉及樣品間距的計(jì)算。在其基礎(chǔ)上的樣品間距完全是獨(dú)立進(jìn)行的,允許多種選擇。反觀馬氏距離和斜交空間距離,正交化與距離計(jì)算是融合進(jìn)行的,總的計(jì)算量實(shí)際要大于施密特方法和主成分分析兩種方法。因此,綜合考慮聚類結(jié)果、總的計(jì)算量大小、統(tǒng)計(jì)學(xué)者的熟悉程度以及對(duì)樣品與類之間距離的潛在影響,主成分分析是應(yīng)該優(yōu)先選擇的。也就是說,正交化在程序中宜作為必選項(xiàng)而非普通備選項(xiàng),而主成分分析應(yīng)作為正交化的缺省設(shè)置。
不選擇馬氏距離或統(tǒng)計(jì)距離作為樣品間距標(biāo)準(zhǔn)方法的理由還在于其為樣品到類之間距離的廣義距離構(gòu)成中的一項(xiàng),而這一項(xiàng)的協(xié)差陣是各類的而非總體的,換言之,如此要涉及兩種意義不同的馬氏距離計(jì)算,容易混淆,且實(shí)際計(jì)算量會(huì)增大。斜交空間距離與此相類似,無法避免廣義距離計(jì)算中要重新計(jì)算馬氏距離的浪費(fèi)現(xiàn)象。與此相對(duì)照的是主成分分析,由于變量已經(jīng)正交,各類馬氏距離的計(jì)算過程變得非常簡單,且不存在混淆的可能,當(dāng)然應(yīng)被視為最佳選擇。格蘭姆——施密特方法與主成分分析十分相似,唯一不足是與統(tǒng)計(jì)學(xué)的淵源不夠。
盡管上述對(duì)于標(biāo)準(zhǔn)化或規(guī)格化以及正交化的討論對(duì)于正確理解與應(yīng)用聚類分析是有益的,然而我們必須指出,在相關(guān)領(lǐng)域,至少還有以下問題尚未解決:
(1)標(biāo)準(zhǔn)化或規(guī)格化使量綱一致化,只是在數(shù)學(xué)層面或形式上解決了問題,但無法使問題的實(shí)質(zhì)有任何改變:一個(gè)隨機(jī)變量標(biāo)準(zhǔn)化后的量綱實(shí)際上是該隨機(jī)變量的標(biāo)準(zhǔn)差,不同隨機(jī)變量標(biāo)準(zhǔn)化后的量綱只是形式上的相同,并非實(shí)質(zhì)上的一樣。
(2)主成分分析是在樣本基礎(chǔ)上進(jìn)行的,如何解決其統(tǒng)計(jì)顯著性問題。
筆者認(rèn)為,這些問題的解決有助于改進(jìn)聚類分析效果,并使聚類分析具有濃郁的統(tǒng)計(jì)學(xué)特色。
[1]Anderson,E.The Irises of the GaspéPeninsula[J].Bulletin of the American Iris Socity,1939,(59).
[2]Efron,B.The Efficiency of Logistic Regression Compared to Normal Discriminant Analysis[J].Journal of the American Statistical Associa?tion,1975,(81).
[3]Lachenbruch,P.A.Discriminant Analysis[M].New York:Hafner Press,1975.
[4]Ganesalingam,S.Classification and Mixture Approaches to Clustering Via Maximum Likelihood[J].Applied Statistics,1989,(38).