張夢琇
石河子大學(xué)理學(xué)院 新疆石河子 832000
數(shù)據(jù)的收集是處理統(tǒng)計(jì)問題的關(guān)鍵,由于測量精度不高,調(diào)查者在收集處理數(shù)據(jù)時經(jīng)常會出現(xiàn)測量不精準(zhǔn)的情況,調(diào)查者收集到的數(shù)據(jù)大多是缺失數(shù)據(jù),對于缺失數(shù)據(jù)而言,調(diào)查者經(jīng)?;蛴龅竭@樣兩類數(shù)據(jù),一類數(shù)據(jù)是指在設(shè)定的時間間隔之前,研究對象就已經(jīng)結(jié)束工作,這種數(shù)據(jù)稱之為刪失數(shù)據(jù);另一類數(shù)據(jù)是指在設(shè)定的時間間隔之后,該研究對象仍持續(xù)地進(jìn)行這種操作,此種數(shù)據(jù)被稱之為截?cái)鄶?shù)據(jù)。研究生活中的自然現(xiàn)象需要數(shù)據(jù)的支撐,采用最多的數(shù)據(jù)類型為左截?cái)嘤覄h失數(shù)據(jù),本文以左截?cái)嘤覄h失數(shù)據(jù)為基礎(chǔ)數(shù)據(jù)類出,主要處理不完全信息數(shù)據(jù),它包括截?cái)鄶?shù)據(jù)、刪失數(shù)據(jù)以及既截?cái)嘤謩h失數(shù)據(jù)。本文以帶有不完全信息下的數(shù)據(jù)作為研究對象,結(jié)合特定的分布,探究不完全信息數(shù)據(jù)下指數(shù)分布的參數(shù)估計(jì)問題。
指數(shù)分布是一種常用的連續(xù)型壽命函數(shù),被廣泛應(yīng)用于檢測電子元件的使用壽命。文獻(xiàn)[1-3]探究了帶有缺失數(shù)據(jù)下指數(shù)分布的參數(shù)估計(jì),這三篇文章從不同的數(shù)據(jù)類型,不同參數(shù)下的指數(shù)分布研究指數(shù)分布的參數(shù)估計(jì);文獻(xiàn)[4-6]研究了左截?cái)嘤覄h失下不同分布多變點(diǎn)模型的Bayes估計(jì),這三篇文章主要研究指數(shù)分布的貝葉斯估計(jì);文獻(xiàn)[7]主要研究了帶有不完全信息的不同分布下的變點(diǎn)模型,作者主要研究其他分布下的不完全數(shù)據(jù)的參數(shù)估計(jì)問題;文獻(xiàn)[8]利用EM算法研究了指數(shù)分布的參數(shù)估計(jì),作者研究完全數(shù)據(jù)下的指數(shù)分布。本篇文章將EM算法與不完全數(shù)據(jù)結(jié)合到一起,考察指數(shù)分布參數(shù)變點(diǎn)在數(shù)據(jù)不完整的情況下的迭代表達(dá)式。首先,利用EM算法對不完全信息下的指數(shù)分布的參數(shù)進(jìn)行了研究與分析,隨后,利用R軟件進(jìn)行數(shù)值模擬,檢驗(yàn)不完全信息下的指數(shù)分布參數(shù)的迭代式的精確性。最后,隨機(jī)模擬的結(jié)果表明,迭代式的精度較高,并且提高了計(jì)算速度。
假設(shè)產(chǎn)品壽命X1,X2,…是相互獨(dú)立同分布的連續(xù)型隨機(jī)變量序列,其分布函數(shù)為F(x;λ)=P(Xi≤x),概率密度函數(shù)為f(x;λ),其中,λ為未知參數(shù)。又設(shè)Y1,Y2,…是相互獨(dú)立的、取值為非負(fù)整數(shù)的連續(xù)型隨機(jī)變量序列,分布函數(shù)分別為G1(y),G2(y),…,概率密度函數(shù)為g1(y),g2(y),…,且gi(y)與未知參數(shù)λ無關(guān)。假定隨機(jī)變量序列{Xi}與{Yi}是相互獨(dú)立的。
為了估計(jì)連續(xù)型隨機(jī)序列的未知參數(shù)λ,選取樣本容量為n的樣本作為觀測數(shù)集,則這n個樣本的觀測數(shù)據(jù)記為{Zi,1≤i≤n}如下:
(1)當(dāng)Xi≤Yi時,分為以下兩種情況:①Xi以概率ai立即顯示,此時,記為Zi=Xi;②Xi以概率1-ai不被顯示,此時,記為Zi=Yi,其中,ai稱為失效顯示概率,即:
(2)當(dāng)Xi>Yi時,取Zi=min(Xi,Yi),即Zi=Yi。
為了研究方便,本文引入如下的示性變量αi,βi,i=1,2,…,n。
若Xi≤Yi成立,則αi=1;否則,當(dāng)Xi>Yi成立,則αi=0;
若Xi≤Yi并且Xi未被顯示,βi=0;其他情況,βi=1。
假定,前n1個樣本數(shù)據(jù)滿足Xi≤Yi(i=1,2,…,n1),剩余n2個樣本數(shù)據(jù)滿足Xi>Yi成立,所以,該似然函數(shù)為:
下面對于滿足αi=1,βi=0的缺失觀測數(shù)據(jù),進(jìn)行增添數(shù)據(jù),對增添后的新數(shù)據(jù)重新建立似然函數(shù),若第i個樣本的壽命值沒有被顯示,(i=1,2,…n1),添加的觀測值為(ti,γi,ωi),其中ti=xi∧yi=min(xi,yi),γi=I(xi≤yi),i=1,2,…n1;示性變量ωi表示,若滿足Xi≤Yi,并且Xi未被顯示ωi=0;其他情況,ωi=1,i=1,2,…n1。添加缺損數(shù)據(jù)后,所得到的似然函數(shù)為:
其中:
若X服從參數(shù)為λ的指數(shù)分布,指數(shù)分布的似然函數(shù)為:
(1)
利用統(tǒng)計(jì)思想,建立似然函數(shù),對不完全數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分布。對于不完全信息下的指數(shù)分布的數(shù)據(jù)而言,似然函數(shù)的概率密度核的形式只與未知參數(shù)有關(guān),則(1)表示不完全信息下的指數(shù)分布的似然函數(shù)的概率密度核的形式。
由于αi,βi表示當(dāng)i=1,2,…,n的示性變量,所以,當(dāng)i=1,2,…,n1時,有αi=γi,βi=ωi。
(2)
將(2)式代入(1)式,替換掉(1)中的γi和ωi,i=1,2,…,n1。
所以:
假設(shè)λ(i)為第i步的初始迭代值,利用EM算法,根據(jù)帶有不完全信息的指數(shù)分布的迭代式計(jì)算,每次迭代可得到一個新的估計(jì)值λ(i+1)。
下面我們采用EM算法對不完全信息下的指數(shù)分布數(shù)據(jù)進(jìn)行優(yōu)化處理:
EM算法是一種迭代優(yōu)化策略,由于它的計(jì)算方法中每一次迭代都分兩步,其中一個為期望步(E步),另一個為極大步(M步),所以算法被稱為EM算法(Expectation-Maximization Algorithm),最初是為了解決數(shù)據(jù)缺失情況下(包含隱變量)的參數(shù)估計(jì)問題。
其基本思想是:首先根據(jù)已經(jīng)給出的觀測數(shù)據(jù),估計(jì)出模型參數(shù)的值(初始化);然后再依據(jù)上一步估計(jì)出的參數(shù)值估計(jì)缺失數(shù)據(jù)的值,再根據(jù)估計(jì)出的缺失數(shù)據(jù)加上之前已經(jīng)觀測到的數(shù)據(jù)重新再對參數(shù)值進(jìn)行估計(jì),然后反復(fù)迭代,直至最后收斂,迭代結(jié)束。
操作步驟具體如下:
(1)E步:
接下來,計(jì)算Ti的密度函數(shù):
(2)M步:
(3)若帶有不完全信息的數(shù)據(jù)也服從指數(shù)分布,即G~E(λ1),那么,有:
(3)
通過假設(shè)數(shù)據(jù)服從的分布類型,利用EM算法建立不完全數(shù)據(jù)下指數(shù)分布的參數(shù)估計(jì)的迭代公式,如(3)式所示。
為了檢驗(yàn)不完全數(shù)據(jù)下指數(shù)分布的參數(shù)估計(jì)的迭代公式的收斂速度和收斂精度,利用R軟件進(jìn)行數(shù)值模擬。分別從不完全數(shù)據(jù)所服從指數(shù)分布的參數(shù)相同和參數(shù)不同的兩個角度進(jìn)行考慮。從而驗(yàn)證不完全數(shù)據(jù)下指數(shù)分布的參數(shù)估計(jì)的迭代公式的收斂速度和收斂精度。
利用R軟件,結(jié)合EM算法,對指數(shù)分布的未知參數(shù)λ,進(jìn)行統(tǒng)計(jì)推斷,我們主要進(jìn)行五組試驗(yàn),假定不完全信息的分布是參數(shù)λ1=2恒定不變,每組都進(jìn)行n=100的隨機(jī)模擬試驗(yàn),具體情況如下表所示:
表1 n=100,λ1=2時,參數(shù)λ的模擬結(jié)果
通過上表,我們能發(fā)現(xiàn)利用EM算法,對指數(shù)分布進(jìn)行數(shù)值模擬,參數(shù)λ的精度較高,誤差限在10-4,即誤差較小,迭代次數(shù)在27~45之間。因此,采用EM算法對未知參數(shù)進(jìn)行檢驗(yàn)是可取的。
利用R軟件,結(jié)合EM算法,對指數(shù)分布的未知參數(shù)λ,進(jìn)行統(tǒng)計(jì)推斷,我們主要進(jìn)行五組試驗(yàn),假定缺損數(shù)據(jù)的分布是參數(shù)λ(i)=2恒定,每組進(jìn)行n=100的隨機(jī)模擬試驗(yàn),具體情況如下表所示:
表2 n=100,λ(i)=2時,參數(shù)λ的模擬結(jié)果
通過上表,可以看出,不完全信息的分布下的指數(shù)分布的參數(shù)收斂較快,但精度不高,精度為10-2。利用不完全信息下的指數(shù)分布的迭代公式的次數(shù)減少了,迭代速度較相同參數(shù)的不完全信息下的指數(shù)分布的情況下減少了迭代時間,加快了迭代速度。
總之,對于不完全信息下的指數(shù)分布參數(shù)的迭代式,收斂速度快,精度較高,利用EM算法處理不完全信息下的指數(shù)分布是可取的。