曾 鑫,吳劉倉,曹幸運(yùn)
(昆明理工大學(xué) 理學(xué)院,云南 昆明 650093)
在計(jì)量經(jīng)濟(jì)學(xué)文獻(xiàn)中,混合回歸模型也稱為轉(zhuǎn)換回歸模型,它為研究來自兩個(gè)或兩個(gè)以上總體的數(shù)據(jù)提供了有效的工具. 自Goldfeld等[1]首次提出有限混合回歸模型以來,混合回歸模型在生物學(xué)、醫(yī)學(xué)、經(jīng)濟(jì)學(xué)、環(huán)境科學(xué)、抽樣調(diào)查和工程技術(shù)等領(lǐng)域得到了廣泛的應(yīng)用,可參考文獻(xiàn)[2-5].現(xiàn)實(shí)世界中, 我們搜集到的數(shù)據(jù)往往不嚴(yán)格服從正態(tài)分布, 當(dāng)數(shù)據(jù)存在偏斜時(shí), 我們?cè)偈褂谜龖B(tài)分布、t分布或Laplace分布等對(duì)稱分布來描述它們是不合理的.因此, 自Azzalini[6]首次提出偏正態(tài)分布及其性質(zhì)以來, 偏正態(tài)分布比傳統(tǒng)的正態(tài)分布更加廣泛地應(yīng)用于實(shí)際數(shù)據(jù)的擬合, 關(guān)于偏正態(tài)分布的更多細(xì)節(jié)可以參考[7].基于偏正態(tài)分布,吳劉倉等[8]研究了聯(lián)合位置與尺度混合專家回歸模型的參數(shù)估計(jì),馬婷等[9]基于Gauss-Newton迭代法研究了聯(lián)合位置、尺度與偏度模型的極大似然估計(jì),李世凱等[10]研究了偏正態(tài)數(shù)據(jù)下混合非線性回歸模型的參數(shù)估計(jì).
以上文獻(xiàn)僅局限于均值模型的參數(shù)估計(jì),目前還沒有文獻(xiàn)研究混合偏正態(tài)數(shù)據(jù)下中位數(shù)回歸模型的參數(shù)估計(jì),為了提高偏正態(tài)數(shù)據(jù)下參數(shù)估計(jì)的靈活性,本文研究了混合偏正態(tài)數(shù)據(jù)下中位數(shù)回歸模型的參數(shù)估計(jì).模擬和實(shí)例研究結(jié)果顯示該模型的方法是有效的.
如果一個(gè)隨機(jī)變量Y的概率密度函數(shù)[6]可以表示為:
(1)
其中:μ為位置參數(shù),σ為尺度參數(shù),λ為偏度參數(shù),則稱隨機(jī)變量Y服從偏正態(tài)分布,記為Y~SN(μ,σ2,λ).其中?(·)和Φ(·)分別為標(biāo)準(zhǔn)正態(tài)分布的密度函數(shù)與分布函數(shù).易知,當(dāng)偏度參數(shù)λ=0時(shí),Y的密度函數(shù)退化為正態(tài)分布的密度函數(shù),即此時(shí)偏正態(tài)分布SN(μ,σ2,λ)退化為正態(tài)分布N(μ,σ2);當(dāng)λ>0和λ<0分別稱為右偏和左偏.
同時(shí),若隨機(jī)變量Y服從偏正態(tài)分布,則Y的隨機(jī)表達(dá)形式為:
(2)
(3)
即偏正態(tài)分布可以分層表示為一個(gè)截尾正態(tài)分布R和一個(gè)條件正態(tài)分布Y|(R=r),其中截尾正態(tài)分布TN(0,1;(0,∞))表示一個(gè)標(biāo)準(zhǔn)正態(tài)分布在區(qū)間(0,∞)的截尾,概率密度函數(shù)可表示為:
偏正態(tài)分布的隨機(jī)表達(dá)形式和分層表達(dá)形式將分別在Monte Carlo模擬和EM算法中使用到.此外,Azzalini等[7]提出偏正態(tài)分布的均值和眾數(shù)可以表示為:
Mean(Y)=μ+μ0(λ)σ,Mode(Y)=μ+m0(λ)σ
其中:
并且:
由均值、中位數(shù)和眾數(shù)之間的數(shù)量關(guān)系|mean(Y)-mode(Y)|≈3|mean(Y)-median(Y)|,有:
(4)
為了研究概率密度函數(shù)(1)的解釋變量與中位數(shù)之間的關(guān)系,我們提出下列混合偏正態(tài)數(shù)據(jù)下的中位數(shù)回歸模型:
(5)
(6)
模型的可識(shí)別性是統(tǒng)計(jì)推斷的重要部分,這也是混合回歸模型的關(guān)鍵問題. Titterington等[11]提出連續(xù)分布的有限混合在大多數(shù)情況下都是可識(shí)別的.本文中,模型:
可識(shí)別的充要條件為m=m*,θ=θ*,i=1,2,…,n;j=1,2,…,m,其中μij由(6)定義.對(duì)于偏正態(tài)分布,不同的參數(shù)對(duì)應(yīng)不同的偏正態(tài)分布,即分布可識(shí)別,則模型可識(shí)別.
EM算法可以極大化任意分布有限混合的對(duì)數(shù)似然函數(shù),可參考Dempster等[12].記潛變量zi=(zi1,zi2,…,zim),其中
通過使用偏正態(tài)分布的分層表達(dá)(3),我們得到下列混合偏正態(tài)分布的分層表達(dá)形式:
(7)
其中,Z服從多點(diǎn)分布.因此,當(dāng)zij=1時(shí)(Y,R)的聯(lián)合密度為:
其中,eij=yi-μij.根據(jù)貝葉斯準(zhǔn)則,可得:
因此有:
E-步:計(jì)算
求替代函數(shù)如下:
Q(θ|θ(t))=E[l(θ|Ycom)|Yobs,θ(t)]=Q1+Q2+Q3+Q4
(8)
式(8)中:
且:
M-步:給定初值θ(0)=(β(0)T,σ(0),λ(0),π(0)),θ(1)=(β(1)T,σ(1),λ(1),π(1)).基于兩點(diǎn)步長梯度法[13]給定下列梯度迭代以更新:
θ(t+1)=θ(t)+s(t)G(θ(t))
(9)
其中:得分函數(shù)G(θ(t))和步長s(t)定義為:
計(jì)算得分函數(shù)為:
其中:
其中:
且:
為了評(píng)價(jià)上述參數(shù)估計(jì)方法的估計(jì)效果,需要對(duì)有限樣本性質(zhì)進(jìn)行模擬研究.為了節(jié)省空間, 我們只討論混合偏正態(tài)中位數(shù)回歸模型, 參數(shù)的估計(jì)精度使用均方誤差來衡量,定義為:
表1 混合偏正態(tài)中位數(shù)回歸模型的模擬結(jié)果
從表1可以得出以下結(jié)論:
2) 對(duì)于給定的樣本量n,當(dāng)混合比例時(shí)1=2=0.5時(shí),兩個(gè)子聚類估計(jì)的均方誤差(MSE)接近;當(dāng)混合比例1=0.35,2=0.65時(shí),子聚類2估計(jì)的均方誤差(MSE)比子聚類1估計(jì)的均方誤差(MSE)小.
以上結(jié)論表明,本文提出的混合偏正態(tài)中位數(shù)回歸模型及使用的EM算法對(duì)參數(shù)的極大似然估計(jì)取得了較理想的效果.
在本節(jié)中,我們利用Cook和Weisberg[15]所測(cè)量的數(shù)據(jù)集來論證本文所提出的模型和方法的實(shí)際應(yīng)用效果. 數(shù)據(jù)集包括來自澳大利亞體育學(xué)院的100名女性運(yùn)動(dòng)員和102名男性運(yùn)動(dòng)員的身體質(zhì)量指數(shù)(BMI)數(shù)據(jù),其中響應(yīng)變量為BMI(y),解釋變量為紅細(xì)胞計(jì)數(shù)(x1),血漿鐵蛋白濃度(x2),皮膚褶皺和(x3),身體脂肪百分比(x4).根據(jù)不同性別的數(shù)據(jù)特征,我們將數(shù)據(jù)分為兩個(gè)子聚類.圖1顯示了男性運(yùn)動(dòng)員和女性運(yùn)動(dòng)員的直方圖,容易看出數(shù)據(jù)右偏且不存在尖峰厚尾的情況,近似服從偏正態(tài)分布.
圖1 男性運(yùn)動(dòng)員和女性運(yùn)動(dòng)員BMI直方圖Fig.1 Histogram of BMI data for male and female athletes
我們考慮下列混合偏正態(tài)中位數(shù)回歸模型,其中子聚類1(男性)所占比例為1=102/202≈0.505,子聚類2(女性)所占比例為2=100/202≈0.495.
基于第2節(jié)提出的方法,分別使用兩個(gè)子聚類的數(shù)據(jù)和總的數(shù)據(jù),經(jīng)算法迭代收斂,表2給出了實(shí)際數(shù)據(jù)下混合偏正態(tài)中位數(shù)回歸模型的參數(shù)估計(jì)結(jié)果.
表2 BMI數(shù)據(jù)的模型參數(shù)估計(jì)結(jié)果
由表2可以得出,使用三種數(shù)據(jù)所估計(jì)的參數(shù)是存在差異的.從回歸系數(shù)的正負(fù)來看,紅細(xì)胞計(jì)數(shù)(x1)和身體脂肪百分比(x4)與女性運(yùn)動(dòng)員BMI呈正相關(guān),而與男性運(yùn)動(dòng)員BMI呈負(fù)相關(guān);血漿鐵蛋白濃度(x2)與男性運(yùn)動(dòng)員BMI呈正相關(guān),而與女性運(yùn)動(dòng)員BMI呈負(fù)相關(guān);皮膚褶皺和(x3)與男女性運(yùn)動(dòng)員都呈正相關(guān).從系數(shù)的大小來看,各解釋變量對(duì)男性運(yùn)動(dòng)員和女性運(yùn)動(dòng)員BMI的影響程度也不相同.因此,若不考慮對(duì)來自異質(zhì)總體的數(shù)據(jù)進(jìn)行分類研究,得到的結(jié)果可能是不準(zhǔn)確甚至是錯(cuò)誤的.
與其他文獻(xiàn)所提出的模型相比,本文提出的模型有以下方面的優(yōu)勢(shì):
1)建立的混合回歸模型可以同時(shí)對(duì)各異質(zhì)總體進(jìn)行參數(shù)估計(jì),這一點(diǎn)在實(shí)際問題中有很重要的意義.
2)基于偏正態(tài)數(shù)據(jù)的特征,對(duì)中位數(shù)進(jìn)行建模并進(jìn)行參數(shù)估計(jì),相比于傳統(tǒng)的均值模型的參數(shù)估計(jì)更加靈活.
模擬研究和實(shí)例分析結(jié)果表明:與現(xiàn)有的模型和參數(shù)估計(jì)方法相比,本文提出的混合偏正態(tài)中位數(shù)回歸模型具有較大的靈活性,能夠很好的結(jié)合實(shí)際數(shù)據(jù)進(jìn)行分析.本文提出的模型及參數(shù)估計(jì)方法具有實(shí)用性和有效性.
昆明理工大學(xué)學(xué)報(bào)(自然科學(xué)版)2021年3期