劉福香
(哈爾濱商業(yè)大學(xué) 經(jīng)濟(jì)學(xué)院,哈爾濱 150028)
有限混合模型(Finite mixture models,FMM)是利用有限個已知分布的混合去擬合數(shù)據(jù)分布的參數(shù)方法。主要用于表現(xiàn)數(shù)據(jù)的分布及變異程度,特別擅長擬合數(shù)據(jù)是多峰、有偏和結(jié)尾等數(shù)據(jù)類型。FMM也可以用于頻數(shù)數(shù)據(jù)或分組數(shù)據(jù)的分布結(jié)構(gòu)探索,即也可以用于分類研究,并估計(jì)每一類別的比例。本文通過介紹FMM的原理及實(shí)際應(yīng)用,并與現(xiàn)在通用的研究方法比較,為研究者提供借鑒。
有限混合模型(FMM)又稱為有限混合分布模型,它是有限個已知分布的混合?,F(xiàn)在主要應(yīng)用于經(jīng)濟(jì)、漁業(yè)、生物、醫(yī)藥等領(lǐng)域[1-3]。FMM可以估計(jì)每個已知分布函數(shù)的參數(shù),還能估計(jì)出每個組成部分的比例[4]。FMM模型可以擬合不同分布函數(shù)的混合,例如Γ分布、正態(tài)分布、β分布、logistic分布、正態(tài)分布、Weibull分布[5]。參數(shù)估計(jì)方法有矩估計(jì)[6]、極大似然估計(jì)、Bayes估計(jì)[7]等。
假設(shè)有k個分布函數(shù)混合(j=1,2,…,k),x是目標(biāo)隨機(jī)變量,例如本文中的樹的胸徑。fj(x)是對應(yīng)第j個組成分布的概率密度函數(shù),f(x,p)就是對應(yīng)的有限混合模型,有限混合函數(shù)表示為:
其中 p=(p1,p2,…,pk-1)是 k-1 個組成部分的比例向量。每個獨(dú)立成分必須滿足下面的限制條件:0<pj<1和其中,f(x,p)可以是同一分布函數(shù),也可以是不同分布函數(shù)的混合。
在本文中,以3個參數(shù)的Weibull函數(shù)的混合為例,fj(x):
其中aj,bj和cj分別是對應(yīng)第j個組成成分的位置參數(shù)、尺度參數(shù)和形狀參數(shù)。
第j個組成成分的累計(jì)概率密度函數(shù)為:
因此,有限混合對應(yīng)的累計(jì)概率密度函數(shù)為:
在本文中,模型的參數(shù)估計(jì)采用極大似然估計(jì),因?yàn)闃O大似然估計(jì)具有均方誤差較小及相合性等比較好的統(tǒng)計(jì)特性。
FMM對應(yīng)的似然密度函數(shù)為:
對似然函數(shù)取對數(shù),如下:
然后對式(6)的對數(shù)似然函數(shù)求偏導(dǎo),找到使得函數(shù)取得最大值的對應(yīng)參數(shù)值,即偏導(dǎo)數(shù)為0,最后可以利用迭代法求出參數(shù)的值。
FMM模型是基于數(shù)據(jù)分類的比較有效的方法,但是對于數(shù)據(jù)中具體分成多少個成分,目前是研究界的問題之一,本文也涉及這一問題的討論。本文在以天然的混交林中已知樹種組成的前提下,利用FMM模型擬合實(shí)際林分的直徑分布,與普通的方法比較。探討FMM模型應(yīng)用優(yōu)勢及劣勢。
本文以兩個三參數(shù)的參數(shù)Weibull分布函數(shù)進(jìn)行混合,來擬合天然混交林分中各個樹種的徑階分布,分別與全林分用一個Weibull分布函數(shù)的擬合,與每個樹種分別用一個Weibull分布函數(shù)的擬合,并于FMM模型相比較。利用統(tǒng)計(jì)軟件SAS9.3中的FMM Procedure過程進(jìn)行數(shù)據(jù)整理和處理。
本文數(shù)據(jù)用的是大興安嶺地區(qū),位于西林吉林業(yè)局、圖強(qiáng)林業(yè)局和阿木爾林業(yè)局的天然混交林的四塊樣地的直徑分布數(shù)據(jù),分別記為1號樣地、2號樣地、3號樣地和4號樣地。其中1號樣地是落葉松-白樺兩個樹種的混交林,3號樣地和4號樣地是落葉松-白樺-蒙古櫟3個樹種的混交林。分別對這四塊樣地進(jìn)行徑階整理分組,以2為徑階矩,再對每個徑階的株數(shù)進(jìn)行匯總,并對樹種進(jìn)行分類。表1是對數(shù)據(jù)的描述性匯總。4直徑分布柱態(tài)圖如圖1所示。
表1 描述性統(tǒng)計(jì)
圖1 4直徑分布柱狀圖
對應(yīng)的分布函數(shù)如下:
其中i表示第i徑階,其中共s個徑階,xi是第i個徑階對應(yīng)的中值。p1對應(yīng)第一個樹種的比例,即p1=N1/N,也就是這一樹種占整個樹種的比例,N1,N2林分中兩樹種對應(yīng)的株樹,p2同上。
因此,式(7)可以被改寫為:
擬合林分直徑采用以下三種方法并進(jìn)行比較:
方法1:FMM模型方法,即三參數(shù)Weibull分布的混合;
方法2:用一個三參數(shù)Weibull分布函數(shù)模擬整個樣地的直徑分布形態(tài),不分樹種。
方法3:分樹種進(jìn)行分別擬合,然后再加總,得到整個樣地的擬合情況。
最后比較三種方法擬合優(yōu)劣。
模型評價(jià)指標(biāo)包括AIC信息準(zhǔn)則 (AIC)、偏差(Bias)、均方 根 誤差 (RMSE)和似然 比 χ2檢 驗(yàn) (likelihood-ratio χ2test),如下:
其中l(wèi)ogL是對應(yīng)模型的對數(shù)似然函數(shù),m是有效的參數(shù)數(shù)量,AIC越小越好。
其中s是徑級的數(shù),Di是第i個徑級的直徑的和,?是模型估計(jì)的第i個徑級的直徑的和。第i個徑級的直徑的和其中Ni是第i個徑級的株數(shù),di是第i個徑級中值。
其中Oi是第i個徑級觀察株數(shù)是第i個徑級有模型預(yù)測的株數(shù)。 χ2檢驗(yàn)的自由度是(N-m-1),m被估計(jì)參數(shù)的數(shù)量。
本文中,模型的殘差是:
這個殘差的優(yōu)勢是可以給較大徑階的樹木有較大的權(quán)重,因?yàn)樵趯?shí)際的林業(yè)經(jīng)營中較大徑階的樹木有較大的經(jīng)濟(jì)效益。給它賦予較大的權(quán)重,有利于林業(yè)經(jīng)營管理。
對整塊樣地的擬合看出方法1(FMM)明顯優(yōu)于方法2和方法3,方法1的平均偏差、均方根誤差和似然比卡方值都明顯優(yōu)于方法2和方法3(見表2)。而且方法1考慮了每個樹種的組成比例。樣地1和樣地2直徑分布屬于反J型分布,樣地3和樣地4屬于雙峰分布,方法1都體現(xiàn)了很好的擬合效果,方法2對于擬合樣地1和樣地2也體現(xiàn)了較好的形式,只有方法3效果不佳,說明不考慮樹種分別擬合是不符合實(shí)際的。在預(yù)測方面方法2和方法3都高估了實(shí)際株樹。特別是在18cm徑級和26cm徑階有小幅的波動,方法2和方法3都沒有表現(xiàn)出來。對于三個樹種的混合(樣地3和樣地4),模型1(FMM)也表現(xiàn)了比較好的擬合效果。
對于樹種比例的預(yù)測,只有方法1(FMM)和方法3能對比例進(jìn)行預(yù)測,方法2是對整塊樣地直徑分布進(jìn)行擬合,所以表3比較了方法1(FMM)和方法3對樹種比例的預(yù)測結(jié)果。樣地1和樣地2,方法1(FMM)也優(yōu)于方法3,樣地3和樣地4,方法1(FMM)與方法3各有優(yōu)劣(見表3)。由于樣地3和樣地4是三個樹種的混合,其中蒙古櫟在林分中的比例較少,也影響了比例的估計(jì),如果對于樣本數(shù)量增加會提高估計(jì)的效果。3種方法對4塊樣的擬合結(jié)果見圖2,其株數(shù)預(yù)測殘差圖見圖3。
表2 三種方法的Bias、RMSE和χ2檢驗(yàn)結(jié)果
表3 方法1和方法3對樹種比例的估計(jì)
圖3 3種方法對4塊樣地的株數(shù)預(yù)測殘差圖
本文研究了三參數(shù)Weibull分布函數(shù)的FMM模型的應(yīng)用,擬合了混交林直徑的分布,擬合結(jié)果表明三參數(shù)Weibull分布函數(shù)的FMM模型能夠靈活地表現(xiàn)數(shù)據(jù)的特征,并能對每個組成部分的比例進(jìn)行估計(jì),并與傳統(tǒng)的方法進(jìn)行比較,得到了理想的結(jié)果。核密度估計(jì)方法也可以用于描述數(shù)據(jù)的分布形態(tài),但是它對未知分布的描述也不是最準(zhǔn)確的,相比FMM模型有一定的優(yōu)勢,在以后的研究中可以進(jìn)行比較。FMM模型也可以用于聚類分析,并且能夠估計(jì)每一類的比例,且考慮數(shù)據(jù)中未被考慮到的異質(zhì)性。