鄭昌紅
摘 要 本文先從一個(gè)實(shí)際問題出發(fā),引出離散型均勻分布的參數(shù)估計(jì)的合理性,進(jìn)而討論連續(xù)性均勻分布的參數(shù)估計(jì)的合理性,從而推出更一般的情況。
關(guān)鍵詞 參數(shù)估計(jì) 矩估計(jì) 均勻分布 無(wú)偏估計(jì)
中圖分類號(hào):O212.1 文獻(xiàn)標(biāo)識(shí)碼:A
在二戰(zhàn)期間,德國(guó)坦克戰(zhàn)斗力優(yōu)于盟軍。為了知己知彼,了解德軍坦克數(shù)顯然可以幫助盟軍評(píng)估獲勝幾率和調(diào)整武器裝備。因此盟軍開始尋找方法進(jìn)行推算,他們最后找到了重要線索。盟軍發(fā)現(xiàn)德軍墨守成規(guī),每輛坦克都有一個(gè)獨(dú)特的序列號(hào),序列號(hào)有一個(gè)模式,代表了坦克生產(chǎn)訂單,而且每個(gè)號(hào)碼不會(huì)重復(fù)。那么怎么樣根據(jù)繳獲的德軍坦克的編號(hào)來(lái)估計(jì)德軍坦克數(shù)量呢?
觀察整個(gè)問題,最終需要估計(jì)德軍坦克的數(shù)量,這個(gè)數(shù)量是一個(gè)未知參數(shù),其估計(jì)值要通過(guò)繳獲的坦克編號(hào)得到。
設(shè)總體表示繳獲的坦克的編號(hào),德軍坦克數(shù)為。顯然繳獲每一輛坦克都是等可能的,則的分布律為:( = ) = ,( = 1,2,…,)其中分布律中德軍坦克數(shù)為未知參數(shù)。
這種分布不如可以理解成離散型的隨機(jī)變量的均勻分布,即取得每個(gè)可能取值的可能性是一樣的。
這里我們先給出第一種常規(guī)方法求出未知參數(shù)的矩估計(jì)。
根據(jù)總體的分布律,只有一個(gè)未知參數(shù),所以只需求出其數(shù)學(xué)期望:
由于隨機(jī)變量的可能取值為1,2,…,,顯然這個(gè)估計(jì)量不能保證估計(jì)出來(lái)的坦克數(shù)比繳獲的坦克編號(hào)中最大的大,所以用這個(gè)來(lái)估計(jì)坦克數(shù)不合理。合理的估計(jì)值一定要大于等于繳獲的坦克編號(hào)中最大的,也就是說(shuō)我們關(guān)心的其實(shí)是取得的最大編號(hào)。為了滿足這個(gè)合理?xiàng)l件,我們通過(guò)編號(hào)最大值的分布來(lái)估計(jì)參數(shù)。
設(shè)總體表示繳獲坦克的編號(hào)的最大值,德軍坦克數(shù)為,繳獲的坦克數(shù)為,則的分布律為:
那么如何求呢?這要用到二項(xiàng)式系數(shù)的相關(guān)方法 。
顯然代數(shù)式 + + … + 中的系數(shù)為,經(jīng)過(guò)求和有 + + … + = ,所以其的系數(shù)即為分子的的系數(shù),也就是說(shuō) = 。
進(jìn)一步可以得到: = = = ,從而 = ,所以矩估計(jì)為:。
首先一定滿足估計(jì)值大于等于繳獲坦克編號(hào)的條件。其次這個(gè)結(jié)果可以理解成估計(jì)值等于最大編號(hào)加上平均遺失的編號(hào)。
二戰(zhàn)結(jié)束后,盟軍通過(guò)德軍遺留下來(lái)的資料發(fā)現(xiàn),德國(guó)在1940年夏天到1942年秋天期間,每月生產(chǎn)坦克255輛。根據(jù)戰(zhàn)后獲得的德國(guó)內(nèi)部統(tǒng)計(jì)數(shù)字,坦克的真實(shí)生產(chǎn)速度是每月256輛,僅僅差了一輛,用統(tǒng)計(jì)方法估計(jì)出來(lái)的坦克數(shù)量與實(shí)際坦克數(shù)量如此驚人的相似。這個(gè)結(jié)果比剛開始動(dòng)用傳統(tǒng)的情報(bào)收集方法:間諜活動(dòng)、攔截和破譯軸心國(guó)通訊,審訊俘虜這些手段估計(jì)出來(lái)的結(jié)果要準(zhǔn)確得多。
這實(shí)際上是一個(gè)離散均勻分布的參數(shù)估計(jì)問題。自然我們想到連續(xù)性均勻分布的參數(shù)估計(jì)問題。
設(shè)隨機(jī)變量~(),其中為未知參數(shù)。很容易求出的極大似然估計(jì)為:,即用樣本的最小值和最大值分別來(lái)估計(jì)。但是顯然估計(jì)偏大, 估計(jì)偏小。
下面我們用一般的矩估計(jì)的方法求的估計(jì)量。
的概率密度函數(shù)為:
則,解得:
所以的矩估計(jì)量為:
此估計(jì)量與上面的例子類似的存在缺點(diǎn):對(duì)樣本(,,…,),記 = (,,…,), = (,,…,),顯然對(duì)任意樣本觀察值都有≤≤≤,所以上述矩估計(jì)不能保證的估計(jì)值小于最小的,的估計(jì)值大于最大的這個(gè)條件,也就是說(shuō)這個(gè)估計(jì)量是不合理的。為了滿足合理性,我們更應(yīng)該關(guān)心樣本中的最大和最小值的情況。即,的情況。
由于,,…,相互獨(dú)立且同分布,設(shè)其分布函數(shù)為(),則
是,的線性組合,其估計(jì)的結(jié)果可以理解成:表示樣本的最小值減去樣本的平均距離,表示樣本的最大值加上樣本的平均距離,這個(gè)結(jié)果比起極大似然估計(jì)和一般的矩估計(jì)顯然更合理。
很容易證明分別是的無(wú)偏估計(jì)量,由文獻(xiàn)[3]還可以知道還是的一致最小方差無(wú)偏估計(jì)量。
由上面的討論,我們可以把這個(gè)問題推廣到更一般的情況。若隨機(jī)變量的可能取值范圍受未知參數(shù)的控制,那么我們用常規(guī)的點(diǎn)估計(jì)的方法估計(jì)出來(lái)的結(jié)果可能不合理,這時(shí)我們可以用類似于上述的方法對(duì)估計(jì)方法進(jìn)行調(diào)整,使得估計(jì)量具有合理性。