范曉東,崔 瑩,張慶春
(1.吉林化工學(xué)院 理學(xué)院,吉林 吉林 132022;2.遼寧師范大學(xué) 數(shù)學(xué)學(xué)院,遼寧 大連 116029)
近年來,有限混合模型[1]得到了學(xué)者廣泛關(guān)注,已知樣本觀測(cè)數(shù)據(jù)來自于一些不同的類,但是每個(gè)類的比例是缺失的,有限混合模型經(jīng)常被用來對(duì)這類數(shù)據(jù)進(jìn)行建模.EM算法[2]作為一種迭代算法,是處理有限混合模型的一個(gè)重要算法.本文用EM算法來求解帶有刪失數(shù)據(jù)[3-4]的混合線性回歸問題,建立了混合線性回歸模型[5]的參數(shù)估計(jì)程序并對(duì)國(guó)民生產(chǎn)總值數(shù)據(jù)集進(jìn)行了分析.
(1)
(2)
(3)
(4)
和
(5)
1.E步驟
計(jì)算Q(θ|θ(t)),也就是計(jì)算組分包含的“后驗(yàn)”概率(以數(shù)據(jù)和θ(t)為條件),則對(duì)于i=1,2,…,n,j=1,2,…,m,
(6)
2.M步驟:
(1)對(duì)于參數(shù)λ,設(shè)
(7)
重復(fù)上面的步驟1、2直至收斂.
收集了2019年46個(gè)國(guó)家的人均國(guó)民生產(chǎn)總值和人均二氧化碳排放量的數(shù)據(jù)建立數(shù)據(jù)集,該數(shù)據(jù)集包括2019年人均國(guó)民生產(chǎn)總值(GNP)和2019年人均二氧化碳(CO2)排放量,主要討論兩者之間的關(guān)系.使用模型(1)來建立人均國(guó)民生產(chǎn)總值關(guān)于人均二氧化碳排放量的混合線性回歸模型,對(duì)于模型(1)采用分兩類的情況,使用第二節(jié)中的程序得到混合線性回歸模型為:
(8)
圖1展示了回歸曲線及其99%的置信帶.圖1表明使用兩個(gè)組分的混合回歸來擬合數(shù)據(jù)集是合理的,而且對(duì)于GNP較低的國(guó)家來說,如果將來他們想增加GNP有(8)式中的兩種方案可供選擇.
Predictor圖1 回歸曲線
研究了帶有刪失數(shù)據(jù)的混合線性回歸模型的參數(shù)估計(jì)問題,并且利用EM算法建立了混合線性回歸模型的估計(jì)程序.收集2019年46個(gè)國(guó)家的人均國(guó)民生產(chǎn)總值和人均二氧化碳排放量的數(shù)據(jù)建立數(shù)據(jù)集,利用混合線性回歸模型來分析這個(gè)數(shù)據(jù)集,得出使用兩個(gè)組分的混合回歸來擬合數(shù)據(jù)集是合理的,并且得到了回歸方程,為低GNP國(guó)家增加GNP提供了兩種選擇方案.