王德青
(江蘇省有色金屬華東地質(zhì)勘查局, 江蘇 南京 210007)
在礦山開(kāi)采過(guò)程中,如何對(duì)礦井的安全狀況進(jìn)行全面的分析和評(píng)價(jià),采取合理的防范措施降低安全風(fēng)險(xiǎn)以確保安全生產(chǎn),是礦山企業(yè)一直關(guān)注的熱點(diǎn)問(wèn)題。由于礦山開(kāi)采是一個(gè)復(fù)雜的系統(tǒng),存在的各種風(fēng)險(xiǎn),有害因素也不盡相同,因此對(duì)礦井安全的科學(xué)評(píng)價(jià)關(guān)鍵,在于找到適合不同礦井、不同危險(xiǎn)因素的安全評(píng)價(jià)方法。根據(jù)多年的實(shí)踐和總結(jié),筆者認(rèn)為,對(duì)礦井安全的科學(xué)評(píng)價(jià)需要滿(mǎn)足:①?gòu)恼w出發(fā),在全方位考慮影響礦井開(kāi)采安全因素的基礎(chǔ)上,構(gòu)建科學(xué)的安全評(píng)價(jià)指標(biāo)體系;②不斷地創(chuàng)新安全評(píng)價(jià)方法,以適應(yīng)新的礦井安全評(píng)價(jià)需要。作為《中國(guó)礦業(yè)》的忠實(shí)讀者,筆者一直關(guān)注發(fā)表在期刊上的關(guān)于礦井安全評(píng)價(jià)文章,如《中國(guó)礦業(yè)》2009年第2期刊登的論文《主成分聚類(lèi)分析法在煤礦安全評(píng)價(jià)中的應(yīng)用》(以下稱(chēng)《王文》),提出一種基于主成分因子得分的聚類(lèi)方法,不妨稱(chēng)作主成分聚類(lèi)分析。通過(guò)相關(guān)文獻(xiàn)的分析比較,筆者發(fā)現(xiàn),主成分聚類(lèi)的思想可取,但該方法的理論論證及方法改進(jìn)有待進(jìn)一步深化。鑒于以上認(rèn)識(shí),筆者略作拙文,提出主成分聚類(lèi)的改進(jìn)方法,以期與王旭、霍德利兩位作者商榷,共同促進(jìn)礦山安全評(píng)價(jià)的進(jìn)步。
主成分聚類(lèi)分析,顧名思義即主成分分析和聚類(lèi)分析的結(jié)合使用。主成分分析和聚類(lèi)分析作為兩種基本的處理復(fù)雜數(shù)據(jù)集的數(shù)值分類(lèi)技術(shù),在自然科學(xué)和社會(huì)科學(xué)研究領(lǐng)域均有廣泛的應(yīng)用,并有許多成功應(yīng)用的例子。盡管這兩種方法很有用,但它們都有自己的適用場(chǎng)合和需要滿(mǎn)足的條件。如果忽略方法使用的前提條件,盲目地將二者結(jié)合使用,不僅不能取得理想的分類(lèi)效果,反而可能因?yàn)殄e(cuò)誤的分類(lèi)結(jié)果影響決策的正確制定。主成分分析本質(zhì)上是一種線(xiàn)性變換,其目的是通過(guò)線(xiàn)性變換,將原始指標(biāo)組合成相互獨(dú)立并能充分反映總體信息的指標(biāo),從而在不丟失重要信息的前提下,避開(kāi)指標(biāo)間共線(xiàn)性問(wèn)題,相當(dāng)于從空間上轉(zhuǎn)換看數(shù)據(jù)的角度,突出數(shù)據(jù)變異的主要方向,歸納重要信息。聚類(lèi)分析是研究“物以類(lèi)聚”問(wèn)題的一種統(tǒng)計(jì)方法,目的在于使同類(lèi)對(duì)象之間的同質(zhì)性和不同類(lèi)對(duì)象之間的異質(zhì)性最大化。但是,當(dāng)變量存在共線(xiàn)性時(shí),如果直接聚類(lèi)分析,會(huì)放大變量的作用,使得分類(lèi)結(jié)果不科學(xué)[1]。由主成分的性質(zhì)[2]知,主成分變量之間是線(xiàn)性不相關(guān)的,因此可以將主成分與聚類(lèi)分析結(jié)合起來(lái),即先做主成分分析,再提取若干主成分對(duì)樣本進(jìn)行聚類(lèi)分析[3],即《王文》提出的主成分聚類(lèi)分析。筆者認(rèn)為,主成分的方差貢獻(xiàn)率是遞減的,也即主成分的重要性存在差異,而傳統(tǒng)的距離公式將參與聚類(lèi)分析的變量等權(quán)對(duì)待,不能體現(xiàn)主成分重要性的差異,因此主成分聚類(lèi)分析的分類(lèi)結(jié)果有待進(jìn)一步商榷。顯然地,如果兩個(gè)樣本第一主成分變量之間相似性,相對(duì)這兩個(gè)樣本的其他主成分變量之間的相似性更高,則這兩個(gè)樣本聚為一類(lèi)的可能性較大。鑒于主成分變量重要性的不同,筆者認(rèn)為可,賦予不同的主成分變量不同的權(quán)重來(lái)體現(xiàn)這種差異。因此,《王文》提出的主成分聚類(lèi)分析可作如下的改進(jìn):
(1)加權(quán)歐氏距離主成分聚類(lèi)。如果變量之間是正交的,則歐氏距離有明確的空間距離概念,而主成分公因子之間是正交的,因此改進(jìn)的主成分聚類(lèi)分析采用歐氏距離定義樣本之間的相似性。但是,主成分公因子的重要性是不同的,第一主成分的方差貢獻(xiàn)率最大,因此主成分重要性的差異必須得到體現(xiàn)。本文定義如下的加權(quán)歐氏距離公式:
(1)
式中,F(xiàn)k為主成分公因子;αk為公因子Fk的方差貢獻(xiàn)率。下同。
(2)加權(quán)主成分因子綜合得分聚類(lèi)分析。由于主成分方法提取的公因子之間信息不重疊,并且每個(gè)主成分公因子的重要性由其方差貢獻(xiàn)率體現(xiàn)。因此,可以根據(jù)各公因子的方差貢獻(xiàn)率比重作為權(quán)重加權(quán)匯總,得出各個(gè)樣本的綜合得分,即:
(2)
將各樣本的公因子得分值Fk代入式(1) 、式(2),以式(1) 、式(2)的計(jì)算結(jié)果為基礎(chǔ),按傳統(tǒng)的聚類(lèi)分析便可將樣本分類(lèi)。需要說(shuō)明的是,為了達(dá)到數(shù)據(jù)簡(jiǎn)化的實(shí)際意義,并不需要提取全部的主成分公因子,但當(dāng)樣本之間相似性較高,少數(shù)幾個(gè)公因子不能有效地將樣本分類(lèi)時(shí),需要提取全部的公因子。
改進(jìn)的主成分聚類(lèi)分析與傳統(tǒng)聚類(lèi)分析的核心區(qū)別,在于考慮了聚類(lèi)分析過(guò)程中常見(jiàn)的變量共線(xiàn)性對(duì)分類(lèi)的強(qiáng)影響;在于最大程度地綜合使用剔除共線(xiàn)性、線(xiàn)性化變換、剔除弱影響項(xiàng)等手段,有效降低最終分類(lèi)模型誤差;在于指標(biāo)的賦權(quán)科學(xué)、合理。改進(jìn)的聚類(lèi)分析,每一步都有充分的理論保證其合理性、必要性,有著同類(lèi)復(fù)雜分類(lèi)問(wèn)題下的普遍適應(yīng)性。
本文將兩種改進(jìn)的主成分聚類(lèi)分析方法,用于礦井安全水平的分類(lèi)問(wèn)題研究,通過(guò)比較新方法的分類(lèi)結(jié)果與《王文》的聚類(lèi)分析結(jié)果,目的在于論證兩種改進(jìn)的主成分聚類(lèi)分析方法的科學(xué)性,解釋不同礦井安全水平的差異,以發(fā)現(xiàn)安全工作中的盲點(diǎn)。為了最大程度地增強(qiáng)對(duì)比的效果,本文直接采用《王文》的數(shù)據(jù)為處理數(shù)據(jù)。需要說(shuō)明的是,本文并未選擇全部的7個(gè)主成分公因子,而是選取方差貢獻(xiàn)率較大的前3個(gè)主成分公因子。公因子命名及原始數(shù)據(jù)如表1所示。
表1 公因子命名及方差貢獻(xiàn)率[3]
本文使用SPSS(12.0) 統(tǒng)計(jì)軟件作為分析工具,先對(duì)3個(gè)主成分公因子原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,然后調(diào)用SPSS(12.0)中的聚類(lèi)分析程序,采用組間聯(lián)結(jié)系統(tǒng)聚類(lèi)法[3],分別按加權(quán)主成分因子綜合得分和加權(quán)歐氏距離兩種方法進(jìn)行聚類(lèi)分析。為了增強(qiáng)可比性,本文亦對(duì)礦井進(jìn)行了直接聚類(lèi)分析,結(jié)果見(jiàn)圖1~圖3、表2。
圖1 直接聚類(lèi)分析譜系圖
圖2 主成分因子綜合得分聚類(lèi)譜系圖
圖3 加權(quán)歐氏距離聚類(lèi)譜系圖
表2 各種聚類(lèi)方法分類(lèi)結(jié)果比較
基于表2中各種聚類(lèi)方法的分類(lèi)結(jié)果發(fā)現(xiàn),4種聚類(lèi)分析的分類(lèi)結(jié)果存在較大差異。圖1及表2第一列為直接聚類(lèi)分析的結(jié)果,不難發(fā)現(xiàn),直接聚類(lèi)分析對(duì)礦井的區(qū)分度不大,分類(lèi)效果不佳,難以結(jié)合分類(lèi)結(jié)果分析礦井的安全問(wèn)題?!锻跷摹返姆诸?lèi)結(jié)果與直接聚類(lèi)分析的結(jié)果相差不大,結(jié)合綜合排名發(fā)現(xiàn),6#礦井的聚類(lèi)分析結(jié)果排序與其綜合排名先后順序顛倒。圖2、圖3及表2的四、五兩列為兩種改進(jìn)的主成分聚類(lèi)分析結(jié)果。由圖2、圖3聚類(lèi)分析譜系圖及聚合系數(shù)可知,改進(jìn)的主成分聚類(lèi)分析對(duì)礦井的區(qū)分度增強(qiáng),尤其是加權(quán)歐氏距離聚類(lèi)分析對(duì)礦井安全水平差異區(qū)分度最大。為了形象地對(duì)八個(gè)礦井的安全水平進(jìn)行分析,本文繪制礦井安全水平的雷達(dá)圖,如圖4所示。在繪制雷達(dá)圖時(shí),為了繪圖方便和圖示清晰,本文對(duì)公因子數(shù)據(jù)進(jìn)行了0~1化處理,并添加了間隔軸。
兩種改進(jìn)的主成分聚類(lèi)分析結(jié)果都顯示,4#礦井和6#礦井單獨(dú)成一類(lèi)。結(jié)合這兩個(gè)礦井的原始指標(biāo)數(shù)據(jù)和主成分因子得分?jǐn)?shù)據(jù)不難發(fā)現(xiàn),4#礦井的各項(xiàng)指標(biāo)數(shù)據(jù)都是八個(gè)礦井中最好或接近最好的,特別是4#礦井的自然災(zāi)害管理公因子在八個(gè)礦井中排名第一,并且與其他礦井的差距較大,領(lǐng)先地位明顯。由于自然災(zāi)害管理公因子的方差貢獻(xiàn)率遠(yuǎn)大于其他兩個(gè)公因子,因此4#礦井在此公因子上的領(lǐng)先優(yōu)勢(shì),提升了其在八個(gè)礦井安全評(píng)價(jià)中的排名。盡管6#礦井的F2、F3兩個(gè)公因子排名都是第一,但是6#礦井的自然災(zāi)害管理公因子卻排名第六,因此6#礦井是安全管理極不平衡的典型礦山,影響了其安全評(píng)價(jià)的綜合排名。1#、5#、7#、8#礦井為第三類(lèi),這四個(gè)礦井的三個(gè)公因子取值均處于八個(gè)礦井中的平均水平,屬于各項(xiàng)安全管理比較平衡的礦井。2#和3#礦井為第四類(lèi),這兩個(gè)礦井的公因子取值均是八個(gè)礦井中最低或接近最低的,兩個(gè)礦井的綜合排名也是最后兩位,屬于安全管理落后的典型代表,必須引起管理部門(mén)的足夠重視。鑒于自然災(zāi)害管理公因子的方差貢獻(xiàn)最大,體現(xiàn)了礦井安全管理的主要方面,因此,在經(jīng)濟(jì)能力受限的條件下,2#、3#和6#礦井應(yīng)集中主要精力加強(qiáng)自然災(zāi)害安全方面的管理,這也是抓住了工作的重心。
圖4 礦井安全水平主成分得分雷達(dá)圖
礦井安全評(píng)價(jià)是以安全系統(tǒng)工程理論為基礎(chǔ),合理選擇評(píng)價(jià)方法,對(duì)礦井已經(jīng)存在和潛在的危險(xiǎn)有害因素進(jìn)行識(shí)別和分析,并提出合理可行的安全技術(shù)和安全管理對(duì)策措施的系統(tǒng)工程,目的是把生產(chǎn)過(guò)程中的不安全因素和作業(yè)場(chǎng)所的隱患消滅在萌芽階段。由于同一類(lèi)事物之間具有更多的近似特性,分門(mén)別類(lèi)地進(jìn)行研究,要遠(yuǎn)比在一個(gè)復(fù)雜多變的集合中更清晰明了。因此,科學(xué)地
將不同類(lèi)型的礦井分類(lèi),不僅大大減少了安全評(píng)價(jià)數(shù)據(jù)處理的工作量,而且可以準(zhǔn)確發(fā)現(xiàn)危險(xiǎn)因素所在,及時(shí)地為安全生產(chǎn)管理和決策提供合理的參考依據(jù)。
礦井的安全評(píng)價(jià),是一項(xiàng)動(dòng)態(tài)的、復(fù)雜的系統(tǒng)工程,安全評(píng)價(jià)的數(shù)據(jù)分析量大、不確定因素多。基于傳統(tǒng)統(tǒng)計(jì)技術(shù)建立的聚類(lèi)分析假設(shè)條件較多,實(shí)際應(yīng)用中面臨諸多的局限,因此對(duì)傳統(tǒng)聚類(lèi)分析的改進(jìn)是迫切需要解決的問(wèn)題。盡管主成分聚類(lèi)分析克服了傳統(tǒng)聚類(lèi)分析無(wú)法處理共線(xiàn)性變量的缺點(diǎn),但主成分聚類(lèi)的距離公式等權(quán)對(duì)待主成分公因子,不能體現(xiàn)主成分重要性的差異。本文提出的兩種改進(jìn)方法,彌補(bǔ)了主成分聚類(lèi)指標(biāo)賦權(quán)不科學(xué)的不足。實(shí)證分析表明,改進(jìn)的主成分聚類(lèi)相對(duì)原始的主成分聚類(lèi)分類(lèi)效果更佳,理論更充分。但是,強(qiáng)調(diào)對(duì)傳統(tǒng)聚類(lèi)方法的改進(jìn),并不是說(shuō)傳統(tǒng)聚類(lèi)分析方法不重要。應(yīng)該注意到,傳統(tǒng)聚類(lèi)分析無(wú)論是理論推導(dǎo)還是實(shí)際應(yīng)用方面都是比較成熟的,當(dāng)?shù)V井安全評(píng)價(jià)數(shù)據(jù)滿(mǎn)足傳統(tǒng)聚類(lèi)方法的條件時(shí),分類(lèi)問(wèn)題應(yīng)該首選傳統(tǒng)聚類(lèi)方法。
[1] 朱建平.應(yīng)用多元統(tǒng)計(jì)分析[M].北京:科學(xué)出版社,2006.
[2] 何曉群.多元統(tǒng)計(jì)分析(第二版)[M].北京:中國(guó)人民大學(xué)出版社,2008.
[3] 王旭,霍德利.主成分聚類(lèi)分析在煤礦安全評(píng)價(jià)中的應(yīng)用 [J].中國(guó)礦業(yè),2009,18(2):86-89.
[4] 王德青.統(tǒng)計(jì)分類(lèi)方法的比較 [J].中國(guó)統(tǒng)計(jì),2008(9):44-45.
[5] 汪文雄,等.基于因子與聚類(lèi)分析的中國(guó)建筑業(yè)產(chǎn)業(yè)競(jìng)爭(zhēng)力研究 [J].數(shù)理統(tǒng)計(jì)與管理,2008,27(2):329-337.
[6] 王慶豐,等.基于因子與聚類(lèi)分析的縣域經(jīng)濟(jì)發(fā)展研究 [J].數(shù)理統(tǒng)計(jì)與管理,2009,28(3):495-501.
[7] Sharma S. Applied Multivariate Techniques [M].John Wiley & Sons,Inc.,1996.