劉成友 丁 勇
相對(duì)誤差直線回歸模型兩種參數(shù)估計(jì)方法的比較
劉成友1丁 勇2△
1.南京醫(yī)科大學(xué)生物醫(yī)學(xué)工程系(210029)
2.南京醫(yī)科大學(xué)數(shù)學(xué)與計(jì)算機(jī)教研室(210029)
△通訊作者:丁勇,E-mail:yding@njmu.edu.cn
最小二乘法的原理是觀察值與擬合值的絕對(duì)誤差平方和最小,其評(píng)價(jià)依據(jù)是針對(duì)等精度數(shù)據(jù)而言的,即觀測(cè)數(shù)據(jù)具有大體相同的絕對(duì)誤差,這些誤差服從均值為0的正態(tài)分布。然而大量的科學(xué)研究的觀測(cè)數(shù)據(jù)的誤差往往是相對(duì)誤差,即被觀測(cè)量愈大,允許的實(shí)際觀測(cè)誤差也愈大。例如,醫(yī)學(xué)應(yīng)用中,濃度測(cè)定的標(biāo)準(zhǔn)曲線,樣品測(cè)定的準(zhǔn)確度和精度是以相對(duì)誤差為依據(jù)的,這樣的數(shù)據(jù)用通常的最小二乘法將導(dǎo)致參數(shù)估計(jì)的不準(zhǔn)確,因此,以相對(duì)誤差最小為原理的直線回歸的方法應(yīng)運(yùn)而生〔1-8〕。
目前有兩種以相對(duì)誤差平方和最小為原理的求直線回歸的方法〔2-7〕,本文對(duì)這兩種方法進(jìn)行比較和評(píng)價(jià),為實(shí)際應(yīng)用選擇較好的方法提供依據(jù)。
實(shí)際計(jì)算時(shí),要先估計(jì)a、b的一個(gè)初始值、,再用上述公式進(jìn)行迭代。當(dāng)前后兩次的迭代值小于給定的精度ε時(shí),即ε、|<ε時(shí),停止迭代。將最后一次的計(jì)算結(jié)果作為a、b的估計(jì)值,即取a=a2、b=b2。
用哪一種方法估計(jì)a、b較好呢?這是本文要討論的問題。
絕對(duì)誤差服從正態(tài)分布的回歸模型為〔9〕:
我們將這種模型稱為絕對(duì)誤差回歸模型。
相對(duì)誤差服從正態(tài)分布的回歸模型可表示為:
我們將這種模型稱為相對(duì)誤差回歸模型。
即用相對(duì)殘差平方和對(duì)總體方差進(jìn)行估計(jì)。
再來推導(dǎo)觀察數(shù)據(jù)相對(duì)誤差限與正態(tài)分布方差的關(guān)系。設(shè)X~N(μ,σ2),由正態(tài)分布的 3σ 原則〔9〕可知,P{|X-μ|≤3σ}=0.9973,這里我們可將3σ 視為絕對(duì)誤差限。
上式給出了相對(duì)誤差模型中標(biāo)準(zhǔn)差與觀察數(shù)據(jù)的相對(duì)誤差限的關(guān)系。
在此基礎(chǔ)上,可用計(jì)算機(jī)進(jìn)行模擬計(jì)算。通過模擬計(jì)算,對(duì)兩種方法進(jìn)行比較、評(píng)價(jià)。
取a=5,b=10,自變量x=1,2,…,10,用計(jì)算機(jī)產(chǎn)生ε~N(0,0.03332)隨機(jī)數(shù)作為相對(duì)誤差,按公式(3)得到對(duì)應(yīng)的因變量y,分別用如下兩種方法估計(jì)各參數(shù),共進(jìn)行了1萬次模擬,計(jì)算結(jié)果的均值見表1。
方法2:將用方法1求出的a1、b1作為初值、,再用公式(2)進(jìn)行迭代,當(dāng)前后兩次參數(shù)值的差小于 ε=0.00001時(shí),停止迭代。再用計(jì)算a2、b2的相對(duì)誤差,再用(6)式求出S=
再分別取a=5、b=5 和a=10、b=5,用上述類似的方法,求出各參數(shù),結(jié)果列于表1。
所有模擬和計(jì)算,用MATLAB 7.0編程完成。
表1 兩種方法參數(shù)估計(jì)的比較(ˉx±s,10000次模擬結(jié)果)
在實(shí)際應(yīng)用中,大量數(shù)據(jù)的相對(duì)誤差服從正態(tài)分布,這樣的數(shù)據(jù)不宜用通常的最小二乘法估計(jì)參數(shù),而應(yīng)該用以相對(duì)誤差最小為原理的方法估計(jì)參數(shù)。
本文揭示了正態(tài)總體方差與相對(duì)殘差平方和、觀察數(shù)據(jù)相對(duì)誤差限之間的關(guān)系,推導(dǎo)了公式(5)~(7),從而為計(jì)算機(jī)模擬和σ2的估計(jì)提供了方法。
我們針對(duì)a<b、a=b和a>b,設(shè)計(jì)了表1中3種不同情況的模擬。由表1可知,隨著相對(duì)誤差(對(duì)應(yīng)于σ)的增大,參數(shù)估計(jì)的誤差也增大。無論哪種情況,a(截距)的誤差要比b(斜率)的誤差大些。在實(shí)際問題中,要求觀察數(shù)據(jù)的相對(duì)誤差不能太大,否則失去應(yīng)用價(jià)值。在我們的模擬過程中,設(shè)計(jì)了3種相對(duì)誤差限,來考察計(jì)算方法的穩(wěn)健性,由表1可知,即使相對(duì)誤差較大(20%,對(duì)應(yīng)于σ=0.0667),兩種方法計(jì)算的結(jié)果還都是可靠的。
圖1 參數(shù)分布圖(σ=0.0377,a=5,b=10)
本文用模擬數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)分析:圖1為σ=0.0377、a=5和b=10時(shí),兩種不同算法a、b估計(jì)值的4幅分布直方圖。表1的9種情況,共有36幅分布直方圖,絕大多數(shù)都服從正態(tài)分布(用Lilliefors正態(tài)檢驗(yàn)法〔10〕,有5幅不服從正態(tài)分布;用Jarque-Bera正態(tài)檢驗(yàn)法〔11〕,有4幅不服從正態(tài)分布);比較表1的σ和S可知,用公式(5)或(6)對(duì)總體方差σ2進(jìn)行估計(jì)還是比較準(zhǔn)確的。
1.Narvla SC,Wellington JF.Prediction,linear regression and the minimum sum of relative errors.Technometrics,1977,19(2):185-191.
2.成軍,孫關(guān)忠,李早榮,等.相對(duì)殘差法線性回歸與相關(guān)的理論研究:回歸模型的建立及實(shí)驗(yàn)分析.中國衛(wèi)生統(tǒng)計(jì),1996,13(3):37-39.
3.成軍,孫關(guān)忠.相對(duì)殘差法線性回歸與相關(guān)的理論研究:回歸分析、相關(guān)模型及其假設(shè)檢驗(yàn).?dāng)?shù)理醫(yī)藥學(xué)雜志,1999,12(3):200-201.
4.成軍,孫關(guān)忠,李早榮.現(xiàn)行線性回歸理論的局限性及相對(duì)殘差線性回歸法在醫(yī)學(xué)檢驗(yàn)中的應(yīng)用價(jià)值.陜西醫(yī)學(xué)檢驗(yàn),2000,15(1):62-64.
5.李成思.基于相對(duì)誤差意義下的最小二乘法.?dāng)?shù)理統(tǒng)計(jì)與管理,2003,22(4):36-40.
6.Arnold B,Stahlecker P.Relative squared error prediction in the generalized linear regression model.Statistical Papers,2003,44(1):107-115.
7.云連英,曹勃.基于優(yōu)化的相對(duì)誤差意義下的數(shù)據(jù)擬合.統(tǒng)計(jì)與決策,2007,21:15-16.
8.Tong TJ,Liu AN,Wang YD.Relative errors of difference-based variance estimators in nonparametric regression.Communications in Statistics:Theory and Methods,2008,37(18):2890-2902.
9.祝國強(qiáng).醫(yī)藥數(shù)理統(tǒng)計(jì)方法.第2版.北京:高等教育出版社,2009,228-230,97,39-42.
10.Conover WJ.Practical nonparametric statistics.New York,Wiley,1980.
11.Judge GG,Hill RC,Griffiths WE,et al.Introduction to the theory and practice of econometrics.New York,Wiley,1988.