国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

混合偏正態(tài)數(shù)據(jù)下中位數(shù)回歸模型的參數(shù)估計(jì)

2021-11-11 05:48:30吳劉倉曹幸運(yùn)
關(guān)鍵詞:參數(shù)估計(jì)中位數(shù)正態(tài)分布

曾 鑫,吳劉倉,曹幸運(yùn)

(昆明理工大學(xué) 理學(xué)院,云南 昆明 650093)

0 引 言

在計(jì)量經(jīng)濟(jì)學(xué)文獻(xiàn)中,混合回歸模型也稱為轉(zhuǎn)換回歸模型,它為研究來自兩個(gè)或兩個(gè)以上總體的數(shù)據(jù)提供了有效的工具. 自Goldfeld等[1]首次提出有限混合回歸模型以來,混合回歸模型在生物學(xué)、醫(yī)學(xué)、經(jīng)濟(jì)學(xué)、環(huán)境科學(xué)、抽樣調(diào)查和工程技術(shù)等領(lǐng)域得到了廣泛的應(yīng)用,可參考文獻(xiàn)[2-5].現(xiàn)實(shí)世界中, 我們搜集到的數(shù)據(jù)往往不嚴(yán)格服從正態(tài)分布, 當(dāng)數(shù)據(jù)存在偏斜時(shí), 我們?cè)偈褂谜龖B(tài)分布、t分布或Laplace分布等對(duì)稱分布來描述它們是不合理的.因此, 自Azzalini[6]首次提出偏正態(tài)分布及其性質(zhì)以來, 偏正態(tài)分布比傳統(tǒng)的正態(tài)分布更加廣泛地應(yīng)用于實(shí)際數(shù)據(jù)的擬合, 關(guān)于偏正態(tài)分布的更多細(xì)節(jié)可以參考[7].基于偏正態(tài)分布,吳劉倉等[8]研究了聯(lián)合位置與尺度混合專家回歸模型的參數(shù)估計(jì),馬婷等[9]基于Gauss-Newton迭代法研究了聯(lián)合位置、尺度與偏度模型的極大似然估計(jì),李世凱等[10]研究了偏正態(tài)數(shù)據(jù)下混合非線性回歸模型的參數(shù)估計(jì).

以上文獻(xiàn)僅局限于均值模型的參數(shù)估計(jì),目前還沒有文獻(xiàn)研究混合偏正態(tài)數(shù)據(jù)下中位數(shù)回歸模型的參數(shù)估計(jì),為了提高偏正態(tài)數(shù)據(jù)下參數(shù)估計(jì)的靈活性,本文研究了混合偏正態(tài)數(shù)據(jù)下中位數(shù)回歸模型的參數(shù)估計(jì).模擬和實(shí)例研究結(jié)果顯示該模型的方法是有效的.

1 混合偏正態(tài)中位數(shù)回歸模型

1.1 偏正態(tài)分布

如果一個(gè)隨機(jī)變量Y的概率密度函數(shù)[6]可以表示為:

(1)

其中:μ為位置參數(shù),σ為尺度參數(shù),λ為偏度參數(shù),則稱隨機(jī)變量Y服從偏正態(tài)分布,記為Y~SN(μ,σ2,λ).其中?(·)和Φ(·)分別為標(biāo)準(zhǔn)正態(tài)分布的密度函數(shù)與分布函數(shù).易知,當(dāng)偏度參數(shù)λ=0時(shí),Y的密度函數(shù)退化為正態(tài)分布的密度函數(shù),即此時(shí)偏正態(tài)分布SN(μ,σ2,λ)退化為正態(tài)分布N(μ,σ2);當(dāng)λ>0和λ<0分別稱為右偏和左偏.

同時(shí),若隨機(jī)變量Y服從偏正態(tài)分布,則Y的隨機(jī)表達(dá)形式為:

(2)

(3)

即偏正態(tài)分布可以分層表示為一個(gè)截尾正態(tài)分布R和一個(gè)條件正態(tài)分布Y|(R=r),其中截尾正態(tài)分布TN(0,1;(0,∞))表示一個(gè)標(biāo)準(zhǔn)正態(tài)分布在區(qū)間(0,∞)的截尾,概率密度函數(shù)可表示為:

偏正態(tài)分布的隨機(jī)表達(dá)形式和分層表達(dá)形式將分別在Monte Carlo模擬和EM算法中使用到.此外,Azzalini等[7]提出偏正態(tài)分布的均值和眾數(shù)可以表示為:

Mean(Y)=μ+μ0(λ)σ,Mode(Y)=μ+m0(λ)σ

其中:

并且:

由均值、中位數(shù)和眾數(shù)之間的數(shù)量關(guān)系|mean(Y)-mode(Y)|≈3|mean(Y)-median(Y)|,有:

(4)

1.2 混合偏正態(tài)中位數(shù)回歸模型

為了研究概率密度函數(shù)(1)的解釋變量與中位數(shù)之間的關(guān)系,我們提出下列混合偏正態(tài)數(shù)據(jù)下的中位數(shù)回歸模型:

(5)

(6)

1.3 模型的可識(shí)別性

模型的可識(shí)別性是統(tǒng)計(jì)推斷的重要部分,這也是混合回歸模型的關(guān)鍵問題. Titterington等[11]提出連續(xù)分布的有限混合在大多數(shù)情況下都是可識(shí)別的.本文中,模型:

可識(shí)別的充要條件為m=m*,θ=θ*,i=1,2,…,n;j=1,2,…,m,其中μij由(6)定義.對(duì)于偏正態(tài)分布,不同的參數(shù)對(duì)應(yīng)不同的偏正態(tài)分布,即分布可識(shí)別,則模型可識(shí)別.

2 參數(shù)估計(jì)的EM算法

EM算法可以極大化任意分布有限混合的對(duì)數(shù)似然函數(shù),可參考Dempster等[12].記潛變量zi=(zi1,zi2,…,zim),其中

通過使用偏正態(tài)分布的分層表達(dá)(3),我們得到下列混合偏正態(tài)分布的分層表達(dá)形式:

(7)

其中,Z服從多點(diǎn)分布.因此,當(dāng)zij=1時(shí)(Y,R)的聯(lián)合密度為:

其中,eij=yi-μij.根據(jù)貝葉斯準(zhǔn)則,可得:

因此有:

E-步:計(jì)算

求替代函數(shù)如下:

Q(θ|θ(t))=E[l(θ|Ycom)|Yobs,θ(t)]=Q1+Q2+Q3+Q4

(8)

式(8)中:

且:

M-步:給定初值θ(0)=(β(0)T,σ(0),λ(0),π(0)),θ(1)=(β(1)T,σ(1),λ(1),π(1)).基于兩點(diǎn)步長梯度法[13]給定下列梯度迭代以更新:

θ(t+1)=θ(t)+s(t)G(θ(t))

(9)

其中:得分函數(shù)G(θ(t))和步長s(t)定義為:

計(jì)算得分函數(shù)為:

其中:

其中:

且:

3 Monte Carlo模擬

為了評(píng)價(jià)上述參數(shù)估計(jì)方法的估計(jì)效果,需要對(duì)有限樣本性質(zhì)進(jìn)行模擬研究.為了節(jié)省空間, 我們只討論混合偏正態(tài)中位數(shù)回歸模型, 參數(shù)的估計(jì)精度使用均方誤差來衡量,定義為:

表1 混合偏正態(tài)中位數(shù)回歸模型的模擬結(jié)果

從表1可以得出以下結(jié)論:

2) 對(duì)于給定的樣本量n,當(dāng)混合比例時(shí)1=2=0.5時(shí),兩個(gè)子聚類估計(jì)的均方誤差(MSE)接近;當(dāng)混合比例1=0.35,2=0.65時(shí),子聚類2估計(jì)的均方誤差(MSE)比子聚類1估計(jì)的均方誤差(MSE)小.

以上結(jié)論表明,本文提出的混合偏正態(tài)中位數(shù)回歸模型及使用的EM算法對(duì)參數(shù)的極大似然估計(jì)取得了較理想的效果.

4 實(shí)例分析

在本節(jié)中,我們利用Cook和Weisberg[15]所測(cè)量的數(shù)據(jù)集來論證本文所提出的模型和方法的實(shí)際應(yīng)用效果. 數(shù)據(jù)集包括來自澳大利亞體育學(xué)院的100名女性運(yùn)動(dòng)員和102名男性運(yùn)動(dòng)員的身體質(zhì)量指數(shù)(BMI)數(shù)據(jù),其中響應(yīng)變量為BMI(y),解釋變量為紅細(xì)胞計(jì)數(shù)(x1),血漿鐵蛋白濃度(x2),皮膚褶皺和(x3),身體脂肪百分比(x4).根據(jù)不同性別的數(shù)據(jù)特征,我們將數(shù)據(jù)分為兩個(gè)子聚類.圖1顯示了男性運(yùn)動(dòng)員和女性運(yùn)動(dòng)員的直方圖,容易看出數(shù)據(jù)右偏且不存在尖峰厚尾的情況,近似服從偏正態(tài)分布.

圖1 男性運(yùn)動(dòng)員和女性運(yùn)動(dòng)員BMI直方圖Fig.1 Histogram of BMI data for male and female athletes

我們考慮下列混合偏正態(tài)中位數(shù)回歸模型,其中子聚類1(男性)所占比例為1=102/202≈0.505,子聚類2(女性)所占比例為2=100/202≈0.495.

基于第2節(jié)提出的方法,分別使用兩個(gè)子聚類的數(shù)據(jù)和總的數(shù)據(jù),經(jīng)算法迭代收斂,表2給出了實(shí)際數(shù)據(jù)下混合偏正態(tài)中位數(shù)回歸模型的參數(shù)估計(jì)結(jié)果.

表2 BMI數(shù)據(jù)的模型參數(shù)估計(jì)結(jié)果

由表2可以得出,使用三種數(shù)據(jù)所估計(jì)的參數(shù)是存在差異的.從回歸系數(shù)的正負(fù)來看,紅細(xì)胞計(jì)數(shù)(x1)和身體脂肪百分比(x4)與女性運(yùn)動(dòng)員BMI呈正相關(guān),而與男性運(yùn)動(dòng)員BMI呈負(fù)相關(guān);血漿鐵蛋白濃度(x2)與男性運(yùn)動(dòng)員BMI呈正相關(guān),而與女性運(yùn)動(dòng)員BMI呈負(fù)相關(guān);皮膚褶皺和(x3)與男女性運(yùn)動(dòng)員都呈正相關(guān).從系數(shù)的大小來看,各解釋變量對(duì)男性運(yùn)動(dòng)員和女性運(yùn)動(dòng)員BMI的影響程度也不相同.因此,若不考慮對(duì)來自異質(zhì)總體的數(shù)據(jù)進(jìn)行分類研究,得到的結(jié)果可能是不準(zhǔn)確甚至是錯(cuò)誤的.

5 結(jié) 論

與其他文獻(xiàn)所提出的模型相比,本文提出的模型有以下方面的優(yōu)勢(shì):

1)建立的混合回歸模型可以同時(shí)對(duì)各異質(zhì)總體進(jìn)行參數(shù)估計(jì),這一點(diǎn)在實(shí)際問題中有很重要的意義.

2)基于偏正態(tài)數(shù)據(jù)的特征,對(duì)中位數(shù)進(jìn)行建模并進(jìn)行參數(shù)估計(jì),相比于傳統(tǒng)的均值模型的參數(shù)估計(jì)更加靈活.

模擬研究和實(shí)例分析結(jié)果表明:與現(xiàn)有的模型和參數(shù)估計(jì)方法相比,本文提出的混合偏正態(tài)中位數(shù)回歸模型具有較大的靈活性,能夠很好的結(jié)合實(shí)際數(shù)據(jù)進(jìn)行分析.本文提出的模型及參數(shù)估計(jì)方法具有實(shí)用性和有效性.

猜你喜歡
參數(shù)估計(jì)中位數(shù)正態(tài)分布
基于新型DFrFT的LFM信號(hào)參數(shù)估計(jì)算法
中位數(shù)計(jì)算公式及數(shù)學(xué)性質(zhì)的新認(rèn)識(shí)
基于對(duì)數(shù)正態(tài)分布的出行時(shí)長可靠性計(jì)算
Logistic回歸模型的幾乎無偏兩參數(shù)估計(jì)
正態(tài)分布及其應(yīng)用
基于向前方程的平穩(wěn)分布參數(shù)估計(jì)
基于競(jìng)爭(zhēng)失效數(shù)據(jù)的Lindley分布參數(shù)估計(jì)
正態(tài)分布題型剖析
χ2分布、t 分布、F 分布與正態(tài)分布間的關(guān)系
2015年中考數(shù)學(xué)模擬試題(五)
麻阳| 晋中市| 潜江市| 巴中市| 泸溪县| 平山县| 云安县| 龙井市| 怀安县| 贺州市| 塔城市| 赣州市| 石棉县| 睢宁县| 阳信县| 小金县| 香港| 峡江县| 定边县| 乌审旗| 积石山| 正定县| 阿勒泰市| 邯郸市| 育儿| 桃园市| 白玉县| 上杭县| 沙河市| 梁平县| 太仆寺旗| 轮台县| 湛江市| 称多县| 古田县| 陆川县| 宿迁市| 苍溪县| 德格县| 申扎县| 千阳县|