三參數(shù)Weibull分布有限混合模型及應(yīng)用

2018-09-04 07:51:16劉福香

統(tǒng)計(jì)與決策 2018年15期

劉福香

（哈爾濱商業(yè)大學(xué) 經(jīng)濟(jì)學(xué)院，哈爾濱 150028）

0 引言

有限混合模型（Finite mixture models,FMM）是利用有限個已知分布的混合去擬合數(shù)據(jù)分布的參數(shù)方法。主要用于表現(xiàn)數(shù)據(jù)的分布及變異程度，特別擅長擬合數(shù)據(jù)是多峰、有偏和結(jié)尾等數(shù)據(jù)類型。FMM也可以用于頻數(shù)數(shù)據(jù)或分組數(shù)據(jù)的分布結(jié)構(gòu)探索，即也可以用于分類研究，并估計(jì)每一類別的比例。本文通過介紹FMM的原理及實(shí)際應(yīng)用，并與現(xiàn)在通用的研究方法比較，為研究者提供借鑒。

1 有限混合分布模型介紹

有限混合模型（FMM）又稱為有限混合分布模型，它是有限個已知分布的混合?，F(xiàn)在主要應(yīng)用于經(jīng)濟(jì)、漁業(yè)、生物、醫(yī)藥等領(lǐng)域[1-3]。FMM可以估計(jì)每個已知分布函數(shù)的參數(shù)，還能估計(jì)出每個組成部分的比例[4]。FMM模型可以擬合不同分布函數(shù)的混合，例如Γ分布、正態(tài)分布、β分布、logistic分布、正態(tài)分布、Weibull分布[5]。參數(shù)估計(jì)方法有矩估計(jì)[6]、極大似然估計(jì)、Bayes估計(jì)[7]等。

1.1FMM模型原理

假設(shè)有k個分布函數(shù)混合（j=1,2,…,k），x是目標(biāo)隨機(jī)變量，例如本文中的樹的胸徑。fj（x）是對應(yīng)第j個組成分布的概率密度函數(shù)，f（x,p）就是對應(yīng)的有限混合模型，有限混合函數(shù)表示為:

其中 p=（p1，p2，…，pk-1）是 k-1 個組成部分的比例向量。每個獨(dú)立成分必須滿足下面的限制條件：0＜pj＜1和其中，f（x,p）可以是同一分布函數(shù)，也可以是不同分布函數(shù)的混合。

在本文中，以3個參數(shù)的Weibull函數(shù)的混合為例，fj（x）:

其中aj，bj和cj分別是對應(yīng)第j個組成成分的位置參數(shù)、尺度參數(shù)和形狀參數(shù)。

第j個組成成分的累計(jì)概率密度函數(shù)為：

因此，有限混合對應(yīng)的累計(jì)概率密度函數(shù)為：

1.2FMM模型參數(shù)的估計(jì)

在本文中，模型的參數(shù)估計(jì)采用極大似然估計(jì)，因?yàn)闃O大似然估計(jì)具有均方誤差較小及相合性等比較好的統(tǒng)計(jì)特性。

FMM對應(yīng)的似然密度函數(shù)為：

對似然函數(shù)取對數(shù)，如下：

然后對式（6）的對數(shù)似然函數(shù)求偏導(dǎo)，找到使得函數(shù)取得最大值的對應(yīng)參數(shù)值，即偏導(dǎo)數(shù)為0，最后可以利用迭代法求出參數(shù)的值。

FMM模型是基于數(shù)據(jù)分類的比較有效的方法，但是對于數(shù)據(jù)中具體分成多少個成分，目前是研究界的問題之一，本文也涉及這一問題的討論。本文在以天然的混交林中已知樹種組成的前提下，利用FMM模型擬合實(shí)際林分的直徑分布，與普通的方法比較。探討FMM模型應(yīng)用優(yōu)勢及劣勢。

2 數(shù)據(jù)來源及模型應(yīng)用

本文以兩個三參數(shù)的參數(shù)Weibull分布函數(shù)進(jìn)行混合，來擬合天然混交林分中各個樹種的徑階分布,分別與全林分用一個Weibull分布函數(shù)的擬合，與每個樹種分別用一個Weibull分布函數(shù)的擬合，并于FMM模型相比較。利用統(tǒng)計(jì)軟件SAS9.3中的FMM Procedure過程進(jìn)行數(shù)據(jù)整理和處理。

2.1 數(shù)據(jù)來源及整理

本文數(shù)據(jù)用的是大興安嶺地區(qū)，位于西林吉林業(yè)局、圖強(qiáng)林業(yè)局和阿木爾林業(yè)局的天然混交林的四塊樣地的直徑分布數(shù)據(jù)，分別記為1號樣地、2號樣地、3號樣地和4號樣地。其中1號樣地是落葉松-白樺兩個樹種的混交林，3號樣地和4號樣地是落葉松-白樺-蒙古櫟3個樹種的混交林。分別對這四塊樣地進(jìn)行徑階整理分組，以2為徑階矩，再對每個徑階的株數(shù)進(jìn)行匯總，并對樹種進(jìn)行分類。表1是對數(shù)據(jù)的描述性匯總。4直徑分布柱態(tài)圖如圖1所示。

表1 描述性統(tǒng)計(jì)

圖1 4直徑分布柱狀圖

2.2 模型應(yīng)用

對應(yīng)的分布函數(shù)如下：

其中i表示第i徑階，其中共s個徑階，xi是第i個徑階對應(yīng)的中值。p1對應(yīng)第一個樹種的比例，即p1=N1/N，也就是這一樹種占整個樹種的比例，N1，N2林分中兩樹種對應(yīng)的株樹，p2同上。

因此，式（7）可以被改寫為：

擬合林分直徑采用以下三種方法并進(jìn)行比較：

方法1：FMM模型方法，即三參數(shù)Weibull分布的混合；

方法2：用一個三參數(shù)Weibull分布函數(shù)模擬整個樣地的直徑分布形態(tài)，不分樹種。

方法3：分樹種進(jìn)行分別擬合，然后再加總，得到整個樣地的擬合情況。

最后比較三種方法擬合優(yōu)劣。

2.3 模型評價(jià)指標(biāo)

模型評價(jià)指標(biāo)包括AIC信息準(zhǔn)則（AIC）、偏差（Bias）、均方根誤差（RMSE）和似然比 χ2檢驗(yàn) （likelihood-ratio χ2test），如下：

其中l(wèi)ogL是對應(yīng)模型的對數(shù)似然函數(shù)，m是有效的參數(shù)數(shù)量，AIC越小越好。

其中s是徑級的數(shù)，Di是第i個徑級的直徑的和，?是模型估計(jì)的第i個徑級的直徑的和。第i個徑級的直徑的和其中Ni是第i個徑級的株數(shù)，di是第i個徑級中值。

其中Oi是第i個徑級觀察株數(shù)是第i個徑級有模型預(yù)測的株數(shù)。 χ2檢驗(yàn)的自由度是（N-m-1），m被估計(jì)參數(shù)的數(shù)量。

本文中，模型的殘差是：

這個殘差的優(yōu)勢是可以給較大徑階的樹木有較大的權(quán)重，因?yàn)樵趯?shí)際的林業(yè)經(jīng)營中較大徑階的樹木有較大的經(jīng)濟(jì)效益。給它賦予較大的權(quán)重，有利于林業(yè)經(jīng)營管理。

3 模擬結(jié)果及討論

對整塊樣地的擬合看出方法1（FMM）明顯優(yōu)于方法2和方法3，方法1的平均偏差、均方根誤差和似然比卡方值都明顯優(yōu)于方法2和方法3（見表2）。而且方法1考慮了每個樹種的組成比例。樣地1和樣地2直徑分布屬于反J型分布，樣地3和樣地4屬于雙峰分布，方法1都體現(xiàn)了很好的擬合效果，方法2對于擬合樣地1和樣地2也體現(xiàn)了較好的形式，只有方法3效果不佳，說明不考慮樹種分別擬合是不符合實(shí)際的。在預(yù)測方面方法2和方法3都高估了實(shí)際株樹。特別是在18cm徑級和26cm徑階有小幅的波動，方法2和方法3都沒有表現(xiàn)出來。對于三個樹種的混合（樣地3和樣地4），模型1（FMM）也表現(xiàn)了比較好的擬合效果。

對于樹種比例的預(yù)測，只有方法1（FMM）和方法3能對比例進(jìn)行預(yù)測，方法2是對整塊樣地直徑分布進(jìn)行擬合，所以表3比較了方法1（FMM）和方法3對樹種比例的預(yù)測結(jié)果。樣地1和樣地2，方法1（FMM）也優(yōu)于方法3，樣地3和樣地4，方法1（FMM）與方法3各有優(yōu)劣（見表3）。由于樣地3和樣地4是三個樹種的混合，其中蒙古櫟在林分中的比例較少，也影響了比例的估計(jì)，如果對于樣本數(shù)量增加會提高估計(jì)的效果。3種方法對4塊樣的擬合結(jié)果見圖2，其株數(shù)預(yù)測殘差圖見圖3。

表2 三種方法的Bias、RMSE和χ2檢驗(yàn)結(jié)果

表3 方法1和方法3對樹種比例的估計(jì)

圖3 3種方法對4塊樣地的株數(shù)預(yù)測殘差圖

4 結(jié)論

本文研究了三參數(shù)Weibull分布函數(shù)的FMM模型的應(yīng)用，擬合了混交林直徑的分布，擬合結(jié)果表明三參數(shù)Weibull分布函數(shù)的FMM模型能夠靈活地表現(xiàn)數(shù)據(jù)的特征，并能對每個組成部分的比例進(jìn)行估計(jì)，并與傳統(tǒng)的方法進(jìn)行比較，得到了理想的結(jié)果。核密度估計(jì)方法也可以用于描述數(shù)據(jù)的分布形態(tài)，但是它對未知分布的描述也不是最準(zhǔn)確的，相比FMM模型有一定的優(yōu)勢，在以后的研究中可以進(jìn)行比較。FMM模型也可以用于聚類分析，并且能夠估計(jì)每一類的比例，且考慮數(shù)據(jù)中未被考慮到的異質(zhì)性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡