石淑清
摘要:穩(wěn)健統(tǒng)計(jì)學(xué)所針對(duì)的是統(tǒng)計(jì)學(xué)中一個(gè)普遍而實(shí)際的問(wèn)題,這套方法無(wú)論是對(duì)科學(xué)研究還是對(duì)相關(guān)部門經(jīng)濟(jì)政策的制定都有著重要的理論意義和現(xiàn)實(shí)意義,因此筆者認(rèn)為它的發(fā)展前景是可觀的。
關(guān)鍵詞:穩(wěn)健統(tǒng)計(jì);理論;應(yīng)用
統(tǒng)計(jì)學(xué)作為一門應(yīng)用性很強(qiáng)的工具性學(xué)科,其目的或任務(wù)是從眾多數(shù)據(jù)中挖掘有用的信息,然后得出有關(guān)這個(gè)領(lǐng)域的某些特征或結(jié)論,進(jìn)而用以指導(dǎo)實(shí)踐,來(lái)“創(chuàng)造”更好的數(shù)據(jù)。統(tǒng)計(jì)的結(jié)果一方面依賴于觀測(cè)數(shù)據(jù),另一方面依賴于對(duì)所研究總體某些特性的假設(shè),如分布形式,獨(dú)立性等等。穩(wěn)健統(tǒng)計(jì)學(xué)旨在克服當(dāng)數(shù)據(jù)顯著偏離假設(shè)時(shí)傳統(tǒng)統(tǒng)計(jì)學(xué)所面臨的一些困難。穩(wěn)健統(tǒng)計(jì)學(xué)早在十九世紀(jì)初就有萌芽,從二十世紀(jì)六十年代起隨著電子技術(shù)的迅速發(fā)展而倍受重視,如今已成為統(tǒng)計(jì)學(xué)中的一個(gè)活躍的研究領(lǐng)域。國(guó)際上統(tǒng)計(jì)學(xué)界的雜志及論文集上,有關(guān)穩(wěn)健統(tǒng)計(jì)學(xué)的文章源源不斷。許多傳統(tǒng)的統(tǒng)計(jì)方法已有了相應(yīng)的穩(wěn)健方法。這些方法被逐漸應(yīng)用到醫(yī)學(xué)、生物學(xué)、化學(xué)、及地質(zhì)學(xué)等領(lǐng)域,有的并被用于日常生產(chǎn)之中。但是由于穩(wěn)健統(tǒng)計(jì)學(xué)本身的相對(duì)復(fù)雜性,目前我國(guó)學(xué)者對(duì)穩(wěn)健統(tǒng)計(jì)學(xué)的研究還很少,而穩(wěn)健統(tǒng)計(jì)學(xué)所針對(duì)的是統(tǒng)計(jì)學(xué)中一個(gè)普遍而實(shí)際的問(wèn)題,這套方法無(wú)論是對(duì)科學(xué)研究還是對(duì)相關(guān)部門經(jīng)濟(jì)政策的制定都有著重要的理論意義和現(xiàn)實(shí)意義,因此筆者認(rèn)為它的發(fā)展前景是可觀的。
一、穩(wěn)健統(tǒng)計(jì)的理論
穩(wěn)健統(tǒng)計(jì)與其說(shuō)是一種統(tǒng)計(jì)方法,還不如說(shuō)是一種判斷和改進(jìn)統(tǒng)計(jì)估計(jì)的一個(gè)標(biāo)準(zhǔn)。我們知道,對(duì)總體的參數(shù),我們可以用不同的估計(jì)量對(duì)其進(jìn)行估計(jì),但估計(jì)的結(jié)果是不同的,有的效果較好,有的效果較差。這些估計(jì)效果的差異,除了估計(jì)量本身的性質(zhì)因素影響作用外,還有一個(gè)因素的影響即估計(jì)量對(duì)統(tǒng)計(jì)資料的敏感程度問(wèn)題。如果估計(jì)量對(duì)統(tǒng)計(jì)資料的敏感程度強(qiáng),那么這樣的估計(jì)量的估計(jì)結(jié)果將會(huì)不穩(wěn)定,反之,如果估計(jì)量對(duì)統(tǒng)計(jì)資料的敏感性弱,那么它的估計(jì)效果便會(huì)比較穩(wěn)定。例如,有二組數(shù):5、5.1、5.2、5.3、5.4;5、5.1、5.2、5.3、5.4。這兩組數(shù)中的中位數(shù)都是5.2,可是兩組數(shù)的平均數(shù)差別很大,一個(gè)是5.2,另一個(gè)是14.92。如果用平均數(shù)作為總體均值的估計(jì),那么當(dāng)把數(shù)列中某一數(shù)搞錯(cuò)了的時(shí)候,它的估計(jì)結(jié)果就會(huì)失真,相反,如果用中位數(shù)作為總體平均值的估計(jì),即使出現(xiàn)本例這樣的情況,也不會(huì)影響統(tǒng)計(jì)估計(jì)的結(jié)果。這表明,中位數(shù)估計(jì)量要比平均數(shù)估計(jì)量穩(wěn)健得多。
所謂的穩(wěn)健統(tǒng)計(jì),就是指估計(jì)量對(duì)總體參數(shù)的估計(jì)不隨統(tǒng)計(jì)資料中少數(shù)異常值的出現(xiàn),而發(fā)生較大的失真現(xiàn)象。穩(wěn)健性是改進(jìn)統(tǒng)計(jì)估計(jì)的基本思路之一。這一辦法,在我們?nèi)粘I钪?,已?jīng)郵很多的接觸了。例如,文藝表演比賽中的評(píng)分辦法,去掉幾個(gè)最高分幾個(gè)最低分,然后剩下的有效得分進(jìn)行平均,作為演員的最后得分,就是穩(wěn)健思想的生動(dòng)應(yīng)用。穩(wěn)健性的提出,對(duì)統(tǒng)計(jì)估計(jì)提出了新的高標(biāo)準(zhǔn)要求,增加了篩選估計(jì)量的難度,但也會(huì)促進(jìn)統(tǒng)計(jì)估計(jì)水平的再度提高。根據(jù)目前的文獻(xiàn)看來(lái),許多傳統(tǒng)的統(tǒng)計(jì)方法都有了穩(wěn)健方法。穩(wěn)健統(tǒng)計(jì)在醫(yī)學(xué)、化學(xué)、生物學(xué)、工農(nóng)業(yè)生產(chǎn)中,都得到了較為廣泛的應(yīng)用??梢钥隙ǎ€(wěn)健統(tǒng)計(jì)的前景可觀,具有很大的魅力。
二、穩(wěn)健性與效率
理論研究表明:像檢驗(yàn)(見假設(shè)檢驗(yàn)、方差分析)之類的與總體方差有關(guān)的統(tǒng)計(jì)方法,其性能多與總體的正態(tài)性有較強(qiáng)的依賴關(guān)系,穩(wěn)健性較差;而與總體均值有關(guān)的統(tǒng)計(jì)方法,如檢驗(yàn)之類,穩(wěn)健性相對(duì)說(shuō)來(lái)要好一些。
對(duì)異常數(shù)據(jù)的穩(wěn)健性
由于在大量次數(shù)的試驗(yàn)或觀測(cè)中,很難完全避免出現(xiàn)個(gè)別疏忽,因此,要使統(tǒng)計(jì)方法有較好的穩(wěn)健性,就必須要求,它所依據(jù)的統(tǒng)計(jì)量不受個(gè)別異常數(shù)據(jù)的太大影響。一個(gè)典型的例子是用樣本均值或樣本中位數(shù)(見統(tǒng)計(jì)量)去估計(jì)正態(tài)分布的均值,前者受個(gè)別異常數(shù)據(jù)的影響較大,而后者則幾乎不受到影響,故從穩(wěn)健性角度看,后者優(yōu)于前者。介于兩者之間的有所謂修削平均,即給定自然數(shù)</2(為樣本大小),把全部樣本中最大的個(gè)和最小的個(gè)舍棄,余下的2個(gè)的算術(shù)平均值稱為修削平均值,愈大,修削愈多,如果有少量異常數(shù)據(jù)混入,則在修削時(shí)被舍棄了,因而不致造成危害。這是一個(gè)較早的穩(wěn)健統(tǒng)計(jì)方法,但被廣泛使用。
為獲得對(duì)異常數(shù)據(jù)的穩(wěn)健性,有兩個(gè)途徑:一是設(shè)計(jì)出有效的方法以發(fā)現(xiàn)數(shù)據(jù)中的異常值,從而把它們剔除。這已成為數(shù)理統(tǒng)計(jì)學(xué)中的一個(gè)重要課題,積累了不少成果。另一個(gè)途徑是設(shè)計(jì)這樣的方法,使樣本中的個(gè)別數(shù)據(jù)不致對(duì)最終結(jié)果有過(guò)大的影響,如用最小二乘法求參數(shù)估計(jì)時(shí),是根據(jù)使偏差平方和為最小的原則,從而若有個(gè)別偏差特大的數(shù)據(jù),其對(duì)結(jié)果的影響很大,故基于最小二乘法的統(tǒng)計(jì)方法的穩(wěn)健性一般較差,若改用絕對(duì)偏差和最小的原則,則穩(wěn)健性有所改善。
使統(tǒng)計(jì)方法具有穩(wěn)健性,在一定的意義上可以看成是一種“保險(xiǎn)”:付出一定的保險(xiǎn)費(fèi),以避免遭受重大損失,保險(xiǎn)費(fèi)就表現(xiàn)為方法在效率上的降低。例如,用樣本中位數(shù)估計(jì)正態(tài)分布均值,在穩(wěn)健性上比用樣本均值好;但如情況沒有異常,即總體分布確為正態(tài),并且無(wú)異常數(shù)據(jù),則樣本中位數(shù)以方差大小衡量的效率,約只有樣本均值的三分之二。穩(wěn)健統(tǒng)計(jì)的一個(gè)任務(wù),就是設(shè)計(jì)有穩(wěn)健性的統(tǒng)計(jì)方法,而使其在效率上的損失盡可能小。
與非參數(shù)統(tǒng)計(jì)的關(guān)系非參數(shù)統(tǒng)計(jì)方法往往有較好的穩(wěn)健性,而一些穩(wěn)健統(tǒng)計(jì)方法常要用到非參數(shù)性質(zhì)的統(tǒng)計(jì)量,因此二者關(guān)系密切。但從性質(zhì)上看二者是不同的:非參數(shù)統(tǒng)計(jì)中,對(duì)總體分布的假定很少;而穩(wěn)健統(tǒng)計(jì)則一般是從一個(gè)確定的參數(shù)性模型(如正態(tài)模型)出發(fā),考慮當(dāng)模型條件有少許擾動(dòng)時(shí)的后果。因此,穩(wěn)健統(tǒng)計(jì)本質(zhì)上屬于參數(shù)統(tǒng)計(jì)的范疇。