一種消除變量間相關(guān)性的模型聚類(lèi)方法

2016-12-20 03:31朱紅燦陳星星

統(tǒng)計(jì)與決策 2016年21期

關(guān)鍵詞：共線性教育經(jīng)費(fèi)財(cái)政支出

朱紅燦，陳星星

（湘潭大學(xué) 公共管理學(xué)院，湖南湘潭 411105）

一種消除變量間相關(guān)性的模型聚類(lèi)方法

朱紅燦，陳星星

（湘潭大學(xué) 公共管理學(xué)院，湖南湘潭 411105）

歐氏距離條件下的聚類(lèi)分析沒(méi)有考慮指標(biāo)間的相關(guān)性，基于模型的聚類(lèi)方法存在多重共線性影響參數(shù)穩(wěn)定性等問(wèn)題，針對(duì)上述問(wèn)題，文章在歐式距離條件下對(duì)變量間具有相關(guān)性的數(shù)據(jù)樣本進(jìn)行聚類(lèi)分析時(shí)，先構(gòu)建變量間相關(guān)性結(jié)構(gòu)的回歸相關(guān)模型，再通過(guò)差分分析對(duì)變量間的多重共線進(jìn)行消除，然后做聚類(lèi)分析。并以1996—2011年9個(gè)省份城市教育投入情況進(jìn)行聚類(lèi)分析，結(jié)果表明，給出的聚類(lèi)方法是有效的。

相關(guān)性；聚類(lèi)；差分分析；多重共線

0 引言

聚類(lèi)分析就是將個(gè)體或?qū)ο蠓诸?lèi)，使得同一類(lèi)中的對(duì)象之間的相似性比與其他類(lèi)的對(duì)象的相似性更強(qiáng)。對(duì)象之間的“相似性”往往用歐式距離來(lái)刻畫(huà)，但歐氏距離條件下的聚類(lèi)分析沒(méi)有考慮指標(biāo)之間的相關(guān)性。指標(biāo)間的相關(guān)性即2個(gè)或2個(gè)以上的指標(biāo)具有相同因素，發(fā)生了重迭現(xiàn)象[1]。因而Q型聚類(lèi)分析中應(yīng)盡量消除變量間的相關(guān)性，否則將會(huì)由于指標(biāo)的重復(fù)計(jì)算而直接影響到聚類(lèi)結(jié)果的準(zhǔn)確性。

學(xué)者們從不同角度對(duì)Q型聚類(lèi)分析進(jìn)行了深入的研究，王紅睿[2]等學(xué)者針對(duì)截面數(shù)據(jù)對(duì)K均值聚類(lèi)法進(jìn)行了均衡化的改進(jìn)，通過(guò)引入懲罰因子，限制過(guò)多的訓(xùn)練矢量集中于一個(gè)或幾個(gè)類(lèi)，使樣本空間劃分近似均勻。殷瑞飛[3]等學(xué)者基于Q型因子分析的基本思想，建立了一種適用于大型數(shù)據(jù)庫(kù)聚類(lèi)的方法，主要對(duì)Q型因子分析算法效率進(jìn)行了提高。上述文獻(xiàn)均對(duì)聚類(lèi)方法的算法效率和穩(wěn)定性進(jìn)行改進(jìn)，并沒(méi)有考慮變量之間的相關(guān)性。王德青[4]等學(xué)者針對(duì)經(jīng)典聚類(lèi)分析和普通主成分聚類(lèi)分析極端情形下的失效問(wèn)題，引入主成分聚類(lèi)分析法對(duì)指標(biāo)間的相關(guān)性進(jìn)行改進(jìn)，但要求指標(biāo)的相關(guān)性強(qiáng)且可解釋性差。黃閩英[5]等學(xué)者則引入馬氏距離法進(jìn)行相似矩陣的構(gòu)建，解決了變量之間的相關(guān)性干擾問(wèn)題。如：已知一二維正態(tài)總體G的分布，求點(diǎn)和至均值的距離。如果用歐式距離則有，；用馬氏距離=3.8/0.19，按歐氏距離，兩者相等，而按馬氏距離兩者差倍之多。而由兩者的密度函數(shù)可知，點(diǎn)A應(yīng)離均值近，點(diǎn)B離均值遠(yuǎn)。馬氏距離正確地反映了這一情況，而歐式距離則不然。但是，馬氏距離的計(jì)算需要知道數(shù)據(jù)總體分布的數(shù)字特征，而大部分?jǐn)?shù)據(jù)的分布特征（如均值、協(xié)方差矩陣）也是未知的。另一方面，采用全部數(shù)據(jù)計(jì)算得到的均值和協(xié)方差矩陣來(lái)計(jì)算馬氏距離效果也往往并不理想，因此在實(shí)際分析中仍然傾向于采用歐式距離。魏瑾瑞[6]在歐式距離條件下，先對(duì)變量間的相關(guān)性結(jié)構(gòu)建模（作為輔助信息），用模型的回歸系數(shù)來(lái)體現(xiàn)變量的重要性，再做聚類(lèi)分析，用以解決復(fù)雜結(jié)構(gòu)生成的數(shù)據(jù)聚類(lèi)問(wèn)題。而多元線性回歸模型經(jīng)典假設(shè)之一是回歸模型的解釋變量之間不存在線性關(guān)系，也就是說(shuō)，解釋變量X1，X2，…，Xk中的任何一個(gè)都不能是其他解釋變量的線性組合，變量間的多重共線性將使得模型參數(shù)估計(jì)值很不穩(wěn)定，模型擬合效果不好，導(dǎo)致模型的錯(cuò)誤構(gòu)建，文獻(xiàn)[6]的回歸模型中并沒(méi)有考慮變量間的多重共線性導(dǎo)致的參數(shù)不穩(wěn)和模型擬合效果不好的問(wèn)題，針對(duì)上述問(wèn)題，本文先采用線性回歸方法對(duì)變量間的相關(guān)性結(jié)構(gòu)進(jìn)行建模，然后采用滯后差分變換對(duì)變量間的多重共線進(jìn)行消除，最后做聚類(lèi)分析，以期提高變量間具有相關(guān)性數(shù)據(jù)的聚類(lèi)效果。

1 消除變量間相關(guān)性的模型聚類(lèi)方法

1.1 變量間相關(guān)性結(jié)構(gòu)模型構(gòu)建

設(shè)觀測(cè)變量為（X1，X2，Y)，且三個(gè)指標(biāo)間存在相關(guān)關(guān)系。

建立模型：

一方面，自變量間的多重共線性使得參數(shù)估計(jì)值很不穩(wěn)定，并且對(duì)樣本非常敏感。另一方面，自變量間的多重共線性使參數(shù)擬合效果不好，導(dǎo)致模型的定型錯(cuò)誤。由已知可知x1，x2共線，因而x1，x2不適合作為聚類(lèi)分析的基礎(chǔ)。而Y作為x1，x2的線性函數(shù)包含了x1，x2所有的信息，可以作為聚類(lèi)分析的基礎(chǔ)。

1.2 基于差分思想的變量間相關(guān)性消除

為了解決多元線性回歸模型中變量間多重共線性導(dǎo)致的模型參數(shù)估計(jì)值不穩(wěn)定和模型擬合效果不好的問(wèn)題，必須對(duì)變量間的多重共線進(jìn)行消除。消除變量間的多重共線性方法很多，本文采用滯后差分變換方法來(lái)消除變量間的多重共線性。

設(shè)有模型：

其一階滯后差分形式為：

把式（2）簡(jiǎn)記為：

其中：

但是，對(duì)于大樣本有關(guān)系：

1.3 消除變量間相關(guān)性的模型聚類(lèi)方法

消除變量間相關(guān)性的模型聚類(lèi)方法具體步驟如下所示：

（1）對(duì)變量間的相關(guān)性結(jié)構(gòu)建模。設(shè)觀測(cè)變量為（X1，X2，Y)，且三個(gè)指標(biāo)間存在相關(guān)關(guān)系，建立模型yt=β0+β1x1t+β2x2t+ut。

（2）采用滯后差分變換方法消除自變量間的多重共線性。一階滯后差分形式簡(jiǎn)記為，使得之間的相關(guān)系數(shù)r*12?0，一階差分后模型幾乎沒(méi)有多重共線性。

（3）對(duì)模型進(jìn)行求解，計(jì)算出yt的值，如果擬合的輔助回歸模型是恰當(dāng)?shù)?，那么因變量作為自變量的線性組合實(shí)際上包含了這些自變量所提供的信息（線性表出）。

（4）最后用yt作為聚類(lèi)輸入變量進(jìn)行聚類(lèi)，得出聚類(lèi)結(jié)果。

2 實(shí)例分析

為了驗(yàn)證方法的有效性，本文選取我國(guó)各個(gè)省份的教育投入情況進(jìn)行實(shí)例分析。影響一個(gè)國(guó)家或一個(gè)地區(qū)教育投入的主要因素應(yīng)該考慮該區(qū)域的經(jīng)濟(jì)發(fā)展水平，其次，由于目前教育投入特別是基礎(chǔ)教育的投入主要還是依靠政府的財(cái)政支出，因而區(qū)域財(cái)政支出的規(guī)模及結(jié)構(gòu)也會(huì)對(duì)教育投入產(chǎn)生較大的影響。本文選取經(jīng)濟(jì)發(fā)展水平、財(cái)政支出規(guī)模和教育經(jīng)費(fèi)三個(gè)指標(biāo)來(lái)研究各個(gè)省份的教育投入情況。衡量經(jīng)濟(jì)發(fā)展水平的常用指標(biāo)為GDP，財(cái)政支出規(guī)?？捎玫胤截?cái)政一般預(yù)算支出來(lái)衡量，教育經(jīng)費(fèi)就可以直接用各省的教育經(jīng)費(fèi)表示。選取了9個(gè)省份1996—2011年的數(shù)據(jù)進(jìn)行研究，數(shù)據(jù)來(lái)源于統(tǒng)計(jì)年鑒。將采用傳統(tǒng)的經(jīng)典聚類(lèi)方法、文獻(xiàn)[6]的基于模型的聚類(lèi)方法和本文方法進(jìn)行對(duì)比分析。

首先，采用傳統(tǒng)的經(jīng)典聚類(lèi)方法對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)，把數(shù)據(jù)導(dǎo)入spss20.0，得到數(shù)據(jù)集的聚類(lèi)結(jié)果并沒(méi)有明顯的聚集特征，垂直地聚為9類(lèi)（如圖1），每個(gè)樣本都只是自己聚為一類(lèi)，顯然這樣的結(jié)果是不能令人滿意的。

圖1 經(jīng)典聚類(lèi)方法的聚類(lèi)結(jié)果

其次，采用文獻(xiàn)[6]的基于模型的聚類(lèi)方法，由于教育經(jīng)費(fèi)受經(jīng)濟(jì)發(fā)展水平和財(cái)政支出規(guī)模的影響，所以首先建立這三個(gè)指標(biāo)間的回歸方程模型再進(jìn)行聚類(lèi)，得到的聚類(lèi)結(jié)果如表1所示。

表1 文獻(xiàn)[6]方法的聚類(lèi)結(jié)果

從表1的結(jié)果看，除了廣東聚為一類(lèi)，其余省份都聚到一起了，聚類(lèi)效果不明顯。

最后，采用本文方法進(jìn)行聚類(lèi)分析。采用stata12.0進(jìn)行數(shù)據(jù)處理。

先用回歸模型建立教育經(jīng)費(fèi)與經(jīng)濟(jì)發(fā)展水平和財(cái)政支出規(guī)模之間的關(guān)系，其中求解的各省經(jīng)濟(jì)發(fā)展水平和財(cái)政支出兩個(gè)變量間的相關(guān)系數(shù)如表2所示，表中各相關(guān)系數(shù)均接近1，說(shuō)明經(jīng)濟(jì)發(fā)展水平和財(cái)政支出規(guī)模兩個(gè)變量之間存在著一定的相關(guān)關(guān)系，應(yīng)消除這兩個(gè)變量的相關(guān)性，消除變量間多重共線性對(duì)聚類(lèi)結(jié)果的影響。

表2 各省經(jīng)濟(jì)發(fā)展水平和財(cái)政支出兩個(gè)變量間的相關(guān)系數(shù)

然后，把9個(gè)省份的數(shù)據(jù)分別導(dǎo)入stata12.0進(jìn)行差分處理。再將差分處理后的數(shù)據(jù)導(dǎo)入進(jìn)行回歸方程模型求解，得出各省份在1996—2011年教育經(jīng)費(fèi)的擬合值，最終將擬合數(shù)據(jù)導(dǎo)入spss20.0進(jìn)行聚類(lèi)（采用K-均值）。得出的聚類(lèi)結(jié)果如表3所示。

表3 本文聚類(lèi)方法的聚類(lèi)結(jié)果

由表3可知，聚類(lèi)結(jié)果將江蘇、上海、廣東聚類(lèi)一類(lèi)，這與我國(guó)將教育投入分為北京、廣東、江蘇、上海一類(lèi)，剩下省份為一類(lèi)基本一致。最終的聚類(lèi)的準(zhǔn)確率如表4所示。

表4 三種聚類(lèi)方法結(jié)果

由表4可知，本文方法明顯優(yōu)于經(jīng)典聚類(lèi)方法和文獻(xiàn)[6]的方法，主要原因是教育經(jīng)費(fèi)受經(jīng)濟(jì)發(fā)展水平和財(cái)政支出規(guī)模的影響，經(jīng)濟(jì)發(fā)展水平與財(cái)政支出規(guī)模存在著一定的相關(guān)性，而經(jīng)典聚類(lèi)方法沒(méi)有消除變量間的相關(guān)性，從而直接影響到聚類(lèi)結(jié)果的準(zhǔn)確性；文獻(xiàn)[6]的方法意識(shí)到了變量間的相關(guān)性問(wèn)題，盡管采用回歸模型建立了教育經(jīng)費(fèi)與經(jīng)濟(jì)發(fā)展水平和財(cái)政支出規(guī)模的關(guān)系模型，但沒(méi)有消除經(jīng)濟(jì)發(fā)展水平和財(cái)政支出規(guī)模之間的共線性，導(dǎo)致大部分信息重疊，影響了聚類(lèi)結(jié)果；本文方法在教育經(jīng)費(fèi)與經(jīng)濟(jì)發(fā)展水平和財(cái)政支出規(guī)模的關(guān)系模型構(gòu)建的基礎(chǔ)上，運(yùn)用差分思想消除變量間共線性之后再進(jìn)行聚類(lèi)，提高了聚類(lèi)的準(zhǔn)確性，也說(shuō)明本文方法是有效的。

3 總結(jié)

聚類(lèi)分析并不適用于所有類(lèi)型或結(jié)構(gòu)的數(shù)據(jù)，當(dāng)數(shù)據(jù)的變量間存在相關(guān)性時(shí)，基于歐式距離的聚類(lèi)分析便不再有效，可以通過(guò)建立相應(yīng)的變量間相關(guān)性模型，用模型的回歸系數(shù)來(lái)體現(xiàn)變量的重要性，再做聚類(lèi)分析，但在結(jié)構(gòu)建模時(shí)，自變量間的多重共線性使得參數(shù)估計(jì)值很不穩(wěn)定，對(duì)樣本敏感，容易導(dǎo)致模型擬合效果不好，因而本文先對(duì)變量間的相關(guān)性結(jié)構(gòu)建模，再對(duì)模型自變量間的多重共線性進(jìn)行消除，然后進(jìn)行聚類(lèi)，可以解決基于模型聚類(lèi)中的變量間的共線性問(wèn)題，實(shí)例也表明本文方法是有效的。

[1]李亮，吳瑞明.消除評(píng)價(jià)指標(biāo)相關(guān)性的權(quán)值計(jì)算方法[J].系統(tǒng)管理學(xué)報(bào)，2009，18(2).

[2]王紅睿，趙黎明，裴劍.均衡化的改進(jìn)K均值聚類(lèi)法[J].吉林大學(xué)報(bào)， 2006，24(2).

[3]殷瑞飛，朱建平.數(shù)據(jù)挖掘中一種新的聚類(lèi)方法—基于對(duì)應(yīng)分析與因子旋轉(zhuǎn)[J].統(tǒng)計(jì)研究，2008，25（1）.

[4]王德青，朱建平，謝邦昌.主成分聚類(lèi)分析有效性的思考[J].統(tǒng)計(jì)研究，2012，（11）.

[5]黃閩英，牟銳.對(duì)模糊聚類(lèi)分析法的改進(jìn)及其在SRM中的應(yīng)用[J].計(jì)算機(jī)工程與科學(xué)，2011，(6).

[6]魏瑾瑞.一類(lèi)基于模型的聚類(lèi)方法[J].統(tǒng)計(jì)與信息論壇，2014，29（2）.

（責(zé)任編輯/易永生）

O21

1002-6487（2016）21-0026-03

湖南省教育科學(xué)“十二五”規(guī)劃課題資助項(xiàng)目（XJK012BGD008）

朱紅燦（1976—），女，湖南湘潭人，博士，副教授，研究方向：信息資源管理。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種消除變量間相關(guān)性的模型聚類(lèi)方法

0 引言

1 消除變量間相關(guān)性的模型聚類(lèi)方法

2 實(shí)例分析

3 總結(jié)