EM算法對不完全數(shù)據(jù)下指數(shù)分布的參數(shù)估計(jì)

2023-04-03 07:40張夢琇

科技風(fēng) 2023年8期

張夢琇

石河子大學(xué)理學(xué)院新疆石河子 832000

1 概述

數(shù)據(jù)的收集是處理統(tǒng)計(jì)問題的關(guān)鍵，由于測量精度不高，調(diào)查者在收集處理數(shù)據(jù)時經(jīng)常會出現(xiàn)測量不精準(zhǔn)的情況，調(diào)查者收集到的數(shù)據(jù)大多是缺失數(shù)據(jù)，對于缺失數(shù)據(jù)而言，調(diào)查者經(jīng)?；蛴龅竭@樣兩類數(shù)據(jù)，一類數(shù)據(jù)是指在設(shè)定的時間間隔之前，研究對象就已經(jīng)結(jié)束工作，這種數(shù)據(jù)稱之為刪失數(shù)據(jù)；另一類數(shù)據(jù)是指在設(shè)定的時間間隔之后，該研究對象仍持續(xù)地進(jìn)行這種操作，此種數(shù)據(jù)被稱之為截?cái)鄶?shù)據(jù)。研究生活中的自然現(xiàn)象需要數(shù)據(jù)的支撐，采用最多的數(shù)據(jù)類型為左截?cái)嘤覄h失數(shù)據(jù)，本文以左截?cái)嘤覄h失數(shù)據(jù)為基礎(chǔ)數(shù)據(jù)類出，主要處理不完全信息數(shù)據(jù)，它包括截?cái)鄶?shù)據(jù)、刪失數(shù)據(jù)以及既截?cái)嘤謩h失數(shù)據(jù)。本文以帶有不完全信息下的數(shù)據(jù)作為研究對象，結(jié)合特定的分布，探究不完全信息數(shù)據(jù)下指數(shù)分布的參數(shù)估計(jì)問題。

指數(shù)分布是一種常用的連續(xù)型壽命函數(shù)，被廣泛應(yīng)用于檢測電子元件的使用壽命。文獻(xiàn)[1-3]探究了帶有缺失數(shù)據(jù)下指數(shù)分布的參數(shù)估計(jì)，這三篇文章從不同的數(shù)據(jù)類型，不同參數(shù)下的指數(shù)分布研究指數(shù)分布的參數(shù)估計(jì)；文獻(xiàn)[4-6]研究了左截?cái)嘤覄h失下不同分布多變點(diǎn)模型的Bayes估計(jì)，這三篇文章主要研究指數(shù)分布的貝葉斯估計(jì)；文獻(xiàn)[7]主要研究了帶有不完全信息的不同分布下的變點(diǎn)模型，作者主要研究其他分布下的不完全數(shù)據(jù)的參數(shù)估計(jì)問題；文獻(xiàn)[8]利用EM算法研究了指數(shù)分布的參數(shù)估計(jì)，作者研究完全數(shù)據(jù)下的指數(shù)分布。本篇文章將EM算法與不完全數(shù)據(jù)結(jié)合到一起，考察指數(shù)分布參數(shù)變點(diǎn)在數(shù)據(jù)不完整的情況下的迭代表達(dá)式。首先，利用EM算法對不完全信息下的指數(shù)分布的參數(shù)進(jìn)行了研究與分析，隨后，利用R軟件進(jìn)行數(shù)值模擬，檢驗(yàn)不完全信息下的指數(shù)分布參數(shù)的迭代式的精確性。最后，隨機(jī)模擬的結(jié)果表明，迭代式的精度較高，并且提高了計(jì)算速度。

2 連續(xù)型壽命IIRCT(帶有不完全信息隨機(jī)截尾試驗(yàn)Random censoring test with incomplete information，簡稱IIRCT)

假設(shè)產(chǎn)品壽命X1，X2，…是相互獨(dú)立同分布的連續(xù)型隨機(jī)變量序列，其分布函數(shù)為F(x；λ)=P(Xi≤x)，概率密度函數(shù)為f(x；λ)，其中，λ為未知參數(shù)。又設(shè)Y1，Y2，…是相互獨(dú)立的、取值為非負(fù)整數(shù)的連續(xù)型隨機(jī)變量序列，分布函數(shù)分別為G1(y)，G2(y)，…，概率密度函數(shù)為g1(y)，g2(y)，…，且gi(y)與未知參數(shù)λ無關(guān)。假定隨機(jī)變量序列{Xi}與{Yi}是相互獨(dú)立的。

為了估計(jì)連續(xù)型隨機(jī)序列的未知參數(shù)λ，選取樣本容量為n的樣本作為觀測數(shù)集，則這n個樣本的觀測數(shù)據(jù)記為{Zi，1≤i≤n}如下：

(1)當(dāng)Xi≤Yi時，分為以下兩種情況：①Xi以概率ai立即顯示，此時，記為Zi=Xi；②Xi以概率1-ai不被顯示，此時，記為Zi=Yi，其中，ai稱為失效顯示概率，即：

(2)當(dāng)Xi>Yi時，取Zi=min(Xi，Yi)，即Zi=Yi。

為了研究方便，本文引入如下的示性變量αi，βi，i=1，2，…，n。

若Xi≤Yi成立，則αi=1；否則，當(dāng)Xi>Yi成立，則αi=0；

若Xi≤Yi并且Xi未被顯示，βi=0；其他情況，βi=1。

假定，前n1個樣本數(shù)據(jù)滿足Xi≤Yi(i=1，2，…，n1)，剩余n2個樣本數(shù)據(jù)滿足Xi>Yi成立，所以，該似然函數(shù)為：

下面對于滿足αi=1，βi=0的缺失觀測數(shù)據(jù)，進(jìn)行增添數(shù)據(jù)，對增添后的新數(shù)據(jù)重新建立似然函數(shù)，若第i個樣本的壽命值沒有被顯示，(i=1，2，…n1)，添加的觀測值為(ti，γi，ωi)，其中ti=xi∧yi=min(xi，yi)，γi=I(xi≤yi)，i=1，2，…n1；示性變量ωi表示，若滿足Xi≤Yi，并且Xi未被顯示ωi=0；其他情況，ωi=1，i=1，2，…n1。添加缺損數(shù)據(jù)后，所得到的似然函數(shù)為：

其中:

3 IIRCT下指數(shù)分布的參數(shù)估計(jì)

若X服從參數(shù)為λ的指數(shù)分布，指數(shù)分布的似然函數(shù)為：

(1)

利用統(tǒng)計(jì)思想，建立似然函數(shù)，對不完全數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分布。對于不完全信息下的指數(shù)分布的數(shù)據(jù)而言，似然函數(shù)的概率密度核的形式只與未知參數(shù)有關(guān)，則(1)表示不完全信息下的指數(shù)分布的似然函數(shù)的概率密度核的形式。

由于αi，βi表示當(dāng)i=1，2，…，n的示性變量，所以，當(dāng)i=1，2，…，n1時，有αi=γi，βi=ωi。

(2)

將(2)式代入(1)式，替換掉(1)中的γi和ωi，i=1，2，…，n1。

所以:

假設(shè)λ(i)為第i步的初始迭代值，利用EM算法，根據(jù)帶有不完全信息的指數(shù)分布的迭代式計(jì)算，每次迭代可得到一個新的估計(jì)值λ(i+1)。

下面我們采用EM算法對不完全信息下的指數(shù)分布數(shù)據(jù)進(jìn)行優(yōu)化處理：

EM算法是一種迭代優(yōu)化策略，由于它的計(jì)算方法中每一次迭代都分兩步，其中一個為期望步(E步)，另一個為極大步(M步)，所以算法被稱為EM算法(Expectation-Maximization Algorithm)，最初是為了解決數(shù)據(jù)缺失情況下(包含隱變量)的參數(shù)估計(jì)問題。

其基本思想是：首先根據(jù)已經(jīng)給出的觀測數(shù)據(jù)，估計(jì)出模型參數(shù)的值(初始化)；然后再依據(jù)上一步估計(jì)出的參數(shù)值估計(jì)缺失數(shù)據(jù)的值，再根據(jù)估計(jì)出的缺失數(shù)據(jù)加上之前已經(jīng)觀測到的數(shù)據(jù)重新再對參數(shù)值進(jìn)行估計(jì)，然后反復(fù)迭代，直至最后收斂，迭代結(jié)束。

操作步驟具體如下：

(1)E步：

接下來，計(jì)算Ti的密度函數(shù)：

(2)M步：

(3)若帶有不完全信息的數(shù)據(jù)也服從指數(shù)分布，即G～E(λ1)，那么，有：

(3)

通過假設(shè)數(shù)據(jù)服從的分布類型，利用EM算法建立不完全數(shù)據(jù)下指數(shù)分布的參數(shù)估計(jì)的迭代公式，如(3)式所示。

4 數(shù)值模擬

為了檢驗(yàn)不完全數(shù)據(jù)下指數(shù)分布的參數(shù)估計(jì)的迭代公式的收斂速度和收斂精度，利用R軟件進(jìn)行數(shù)值模擬。分別從不完全數(shù)據(jù)所服從指數(shù)分布的參數(shù)相同和參數(shù)不同的兩個角度進(jìn)行考慮。從而驗(yàn)證不完全數(shù)據(jù)下指數(shù)分布的參數(shù)估計(jì)的迭代公式的收斂速度和收斂精度。

4.1 不同參數(shù)下的指數(shù)分布

利用R軟件，結(jié)合EM算法，對指數(shù)分布的未知參數(shù)λ，進(jìn)行統(tǒng)計(jì)推斷，我們主要進(jìn)行五組試驗(yàn)，假定不完全信息的分布是參數(shù)λ1=2恒定不變，每組都進(jìn)行n=100的隨機(jī)模擬試驗(yàn)，具體情況如下表所示：

表1 n=100，λ1=2時，參數(shù)λ的模擬結(jié)果

通過上表，我們能發(fā)現(xiàn)利用EM算法，對指數(shù)分布進(jìn)行數(shù)值模擬，參數(shù)λ的精度較高，誤差限在10-4，即誤差較小，迭代次數(shù)在27～45之間。因此，采用EM算法對未知參數(shù)進(jìn)行檢驗(yàn)是可取的。

4.2 不同參數(shù)下的不完全信息

利用R軟件，結(jié)合EM算法，對指數(shù)分布的未知參數(shù)λ，進(jìn)行統(tǒng)計(jì)推斷，我們主要進(jìn)行五組試驗(yàn)，假定缺損數(shù)據(jù)的分布是參數(shù)λ(i)=2恒定，每組進(jìn)行n=100的隨機(jī)模擬試驗(yàn)，具體情況如下表所示：

表2 n=100，λ(i)=2時，參數(shù)λ的模擬結(jié)果

通過上表，可以看出，不完全信息的分布下的指數(shù)分布的參數(shù)收斂較快，但精度不高，精度為10-2。利用不完全信息下的指數(shù)分布的迭代公式的次數(shù)減少了，迭代速度較相同參數(shù)的不完全信息下的指數(shù)分布的情況下減少了迭代時間，加快了迭代速度。

總之，對于不完全信息下的指數(shù)分布參數(shù)的迭代式，收斂速度快，精度較高，利用EM算法處理不完全信息下的指數(shù)分布是可取的。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡