王慧鋆 胡典順
摘? 要:殘差是觀測(cè)值與預(yù)測(cè)值之差,它看似簡(jiǎn)單卻蘊(yùn)含了回歸模型的許多重要信息. 通過(guò)對(duì)殘差知識(shí)的深入梳理,介紹殘差圖,再用四個(gè)虛擬數(shù)據(jù)集探討殘差分析的必要性,最后借助實(shí)例展現(xiàn)模型建構(gòu)與診斷過(guò)程,使師生更深入地了解殘差和殘差分析在回歸模型中的重要作用,以便在實(shí)際生產(chǎn)、生活中利用數(shù)據(jù)構(gòu)建并選取最佳模型.
關(guān)鍵詞:殘差;殘差圖;殘差分析;回歸模型診斷
一、引言
在生產(chǎn)、生活中,人們經(jīng)常會(huì)遇到各種各樣的誤差. 例如,在超市里購(gòu)買的食鹽其質(zhì)量和它的標(biāo)準(zhǔn)質(zhì)量有一定的誤差;在化學(xué)實(shí)驗(yàn)室稱量物質(zhì)時(shí)會(huì)產(chǎn)生測(cè)量誤差;工廠加工的零件受工藝影響會(huì)產(chǎn)生加工誤差. 在眾多誤差中,有些誤差可以避免,而有些誤差無(wú)法避免. 隨機(jī)誤差就是不能避免的誤差,它是由測(cè)量實(shí)驗(yàn)中許多獨(dú)立因素的微小變化的總和引起的,無(wú)法用實(shí)驗(yàn)的方法加以消除. 但總體來(lái)說(shuō),多次測(cè)量中隨機(jī)誤差服從統(tǒng)計(jì)規(guī)律,最常見(jiàn)的是正態(tài)分布規(guī)律.
由于隨機(jī)誤差具有總體的統(tǒng)計(jì)規(guī)律性,即使它的大小、正負(fù)不固定,難以消除或減小,人們還是可以運(yùn)用統(tǒng)計(jì)方法分析其對(duì)測(cè)量結(jié)果的影響. 那么,如何運(yùn)用統(tǒng)計(jì)方法進(jìn)行合理的分析、計(jì)算呢?實(shí)際上,可以建立適當(dāng)?shù)慕y(tǒng)計(jì)模型,利用已知數(shù)據(jù)求出模型參數(shù),再通過(guò)計(jì)算得到隨機(jī)誤差的估計(jì)值殘差,這樣就方便分析其對(duì)測(cè)量結(jié)果的影響. 在回歸分析中,殘差蘊(yùn)含了有關(guān)模型基本假定的許多重要信息,在估計(jì)隨機(jī)誤差和診斷回歸模型上具有重要作用. 本文將圍繞殘差的知識(shí)理解,以及殘差之于模型的重要作用進(jìn)行拓展闡述.
二、殘差的知識(shí)理解
1. 教材中回歸模型與殘差的概念定義
人教A版《普通高中教科書·數(shù)學(xué)》選擇性必修第三冊(cè)(以下統(tǒng)稱“教材”)定義回歸模型與殘差如下.
教材以研究?jī)鹤由砀吆透赣H身高之間的關(guān)系為例,先由收集的數(shù)據(jù)做出了兩者間的散點(diǎn)圖,發(fā)現(xiàn)散點(diǎn)落在一條斜率大于0的直線附近,有較強(qiáng)的線性相關(guān)關(guān)系. 然后,讓學(xué)生思考兩者間的關(guān)系能否用一次函數(shù)模型刻畫. 因?yàn)榇嬖诟赣H身高相同時(shí)對(duì)應(yīng)兒子身高不同的情況,所以不能用一次函數(shù)模型刻畫. 于是給出了能夠刻畫兒子身高[Y]與父親身高x相關(guān)關(guān)系的一元線性回歸模型,其表達(dá)式為[Y=bx+a+e,Ee=0,De=σ2.]
此模型是對(duì)Y與x之間真實(shí)關(guān)系的一種近似. 其中,Y是因變量(響應(yīng)變量),x是自變量(解釋變量),x是影響Y的主要因素,e是其他相關(guān)因素. 模型中關(guān)于隨機(jī)誤差e的假定為對(duì)自變量x的任意取值,e的均值都為0,方差始終為[σ2,] 即e的均值和方差不隨x的變化而變化.
建立回歸模型后,為了合理估計(jì)模型中參數(shù)a,b的值,需要利用收集的成對(duì)樣本數(shù)據(jù)[xi,yi]進(jìn)行分析. 因?yàn)閇Y=bx+a+e]刻畫的是變量Y與x的線性相關(guān)關(guān)系,所以估計(jì)參數(shù)a,b相當(dāng)于尋找一條合適的直線,使表示成對(duì)樣本數(shù)據(jù)的點(diǎn)散落在這條直線附近. 為了使“從整體上看,各散點(diǎn)與直線最接近”,教材著重探討并介紹了最小二乘法,然后應(yīng)用最小二乘準(zhǔn)則得到了經(jīng)驗(yàn)回歸方程[y=bx+a.] 其中,[y]稱為預(yù)測(cè)值,求得的[a,b]叫做a,b的最小二乘估計(jì). 為了檢驗(yàn)所求模型的擬合效果,得出預(yù)測(cè)值與實(shí)際觀測(cè)值之間的偏差,在比較因變量Y的觀測(cè)值和預(yù)測(cè)值[y]時(shí)給出了殘差的概念,觀測(cè)值減去預(yù)測(cè)值就是殘差.
通過(guò)以上梳理可以發(fā)現(xiàn),教材在探究?jī)鹤由砀吲c父親身高的相關(guān)關(guān)系時(shí)引入了一元線性回歸模型,并在建立的模型中體現(xiàn)了隨機(jī)誤差. 然后利用最小二乘法求出經(jīng)驗(yàn)回歸方程,代入數(shù)據(jù)發(fā)現(xiàn)預(yù)測(cè)值與觀測(cè)值有偏差之后,引出了殘差的概念. 因?yàn)槟P图俣ㄖ饕轻槍?duì)隨機(jī)誤差e提出的,所以考查所求模型的準(zhǔn)確性需要從分析隨機(jī)誤差e的估計(jì)量殘差入手. 教材將殘差放在參數(shù)估計(jì)這一節(jié),是為了確定模型假定條件的合理性,也是對(duì)所求模型的檢驗(yàn)或驗(yàn)證.
一般地,在根據(jù)實(shí)際情況或利用所得數(shù)據(jù)建立回歸模型時(shí),無(wú)論建立的是何種模型,都可以通過(guò)計(jì)算實(shí)際觀測(cè)值與預(yù)測(cè)值之間的差得到殘差. 這體現(xiàn)了殘差的普適性和簡(jiǎn)潔性,其計(jì)算簡(jiǎn)便且適用范圍廣,看似簡(jiǎn)單卻十分必要.
2. 回歸模型中的誤差假定
利用散點(diǎn)圖,人們可以直觀判斷兩個(gè)變量間是否存在線性相關(guān)關(guān)系,但這只是一種視覺(jué)上的判斷. 為了從數(shù)量上對(duì)兩個(gè)變量的線性相關(guān)關(guān)系進(jìn)行嚴(yán)格說(shuō)明,統(tǒng)計(jì)學(xué)中常用假設(shè)檢驗(yàn)法對(duì)回歸參數(shù)進(jìn)行檢驗(yàn),即提出假設(shè)H0:x與Y之間沒(méi)有線性相關(guān)關(guān)系. 但是,檢驗(yàn)這樣的假設(shè),需要進(jìn)一步完善教材中給出的隨機(jī)誤差假定,完善后的誤差假定為:對(duì)x的每一個(gè)固定值,所有e都相互獨(dú)立,且它們同時(shí)服從均值為0,方差為[σ2]的正態(tài)分布. 注意,這句話蘊(yùn)含了以下4層含義.
(1)隨機(jī)誤差[ei i=1,2,…,n]服從正態(tài)分布. 但因?yàn)槟P椭械碾S機(jī)誤差難以確定,所以對(duì)其正態(tài)性的檢驗(yàn)往往通過(guò)殘差進(jìn)行.
(2)[Eei=0]對(duì)[i=1,2,…,n]均成立.
(3)[Dei=σ2]對(duì)[i=1,2,…,n]均成立. 這被稱為等方差假定或方差齊性假定. 若該假定不成立,說(shuō)明出現(xiàn)了異方差問(wèn)題.
(4)隨機(jī)誤差[e1,e2,…,en]相互獨(dú)立,即[Covei,ej=0]對(duì)[i≠j,i=1,2,…,n,j=1,2,…,n]均成立.
在這樣的假定下,最小二乘估計(jì)[a,b]具有明確的抽樣分布,即正態(tài)分布. 利用[a,b]的抽樣分布,可以分析自變量x對(duì)因變量Y的預(yù)測(cè)能力,體現(xiàn)了回歸方程的預(yù)測(cè)功能. 但因?yàn)榻滩闹袥](méi)有涉及對(duì)回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn)的內(nèi)容,也沒(méi)有直接給出不同觀測(cè)誤差之間相互獨(dú)立的概念,所以本節(jié)內(nèi)容是對(duì)教材隨機(jī)誤差假定的一個(gè)拓展,旨在使師生從理論上對(duì)這一內(nèi)容有更加深入的認(rèn)識(shí).
3. 殘差與殘差圖
了解殘差的生成背景與模型的誤差假定后,給出殘差的具體定義. 所謂殘差,就是人們獲得的實(shí)際觀測(cè)值與回歸模型擬合(預(yù)測(cè))值的差,其數(shù)學(xué)表達(dá)式為[ei=yi-yi.] 這是普通殘差,也是最簡(jiǎn)單的一種殘差. 此外,還有學(xué)生氏殘差(標(biāo)準(zhǔn)化殘差)和預(yù)測(cè)殘差. 得到殘差的表達(dá)式后,在一元線性回歸模型中代入經(jīng)驗(yàn)回歸方程,即為[ei=yi-bxi-a.] 由此可知,殘差是因變量中未被自變量解釋的部分,這就說(shuō)明了殘差與自變量無(wú)關(guān). 將樣本數(shù)據(jù)的所有殘差相加,還可以得到[i=1nei=i=1nyi-yi=i=1nyi-bxi-a=ny-nbx-na=][ny-bx-a=0.] 這與隨機(jī)誤差均值為0的假設(shè)相符,但因?yàn)橛?jì)算過(guò)程中有近似,所以殘差和一般近似為0.
如圖1,以一元線性回歸模型為例,在平面直角坐標(biāo)系中,可以清楚地知道殘差的幾何意義,即實(shí)際觀測(cè)數(shù)據(jù)點(diǎn)與其所對(duì)應(yīng)的回歸模型數(shù)據(jù)點(diǎn)間的縱向差異值.
圖1中只標(biāo)明了一個(gè)觀測(cè)點(diǎn)[x4,y4,] 該觀測(cè)點(diǎn)在預(yù)測(cè)點(diǎn)上方,它的殘差為正值. 通過(guò)圖1可以看出還有些觀測(cè)點(diǎn)落在回歸直線下方,這說(shuō)明殘差可正可負(fù).
為了使不同觀測(cè)點(diǎn)的殘差數(shù)據(jù)更加直觀,可以繪制殘差圖. 所謂殘差圖,就是以某種殘差為縱坐標(biāo),以觀測(cè)時(shí)間t、觀測(cè)序號(hào)n、預(yù)測(cè)值[y]或某一自變量xi [i=1,2,…,n]為橫坐標(biāo)繪制的散點(diǎn)圖. 下面以殘差為縱坐標(biāo),以自變量為橫坐標(biāo)的殘差圖為例,介紹兩種不同情況下的殘差圖,分別如圖2和圖3所示.
圖2中大多數(shù)觀測(cè)點(diǎn)都比較均勻地分布在橫軸的上方和下方,滿足隨機(jī)誤差均值為0,方差為[σ2]的假定條件,只有一個(gè)偏離均值很多的點(diǎn),這樣的點(diǎn)被稱為異常點(diǎn). 圖3中的觀測(cè)點(diǎn)沒(méi)有均勻地分布在橫軸的上方和下方,其分布似開(kāi)口向上的二次曲線,其表面所建模型不符合隨機(jī)誤差假定條件,即現(xiàn)有模型不成立,可能沒(méi)有把因變量中蘊(yùn)含的二次項(xiàng)表達(dá)出來(lái). 此時(shí)應(yīng)該考慮在模型中加入自變量的二次項(xiàng),以完善模型,達(dá)到最佳擬合效果.
以上只列舉了兩個(gè)較為簡(jiǎn)單的殘差圖. 在回歸分析中,繪制殘差圖有許多優(yōu)點(diǎn):放大預(yù)測(cè)值與觀測(cè)值之間的差距;提醒我們關(guān)注是否在收集數(shù)據(jù)或模型擬合的過(guò)程中遺漏了某些重要的自變量;幫助我們直觀高效地診斷模型、改進(jìn)模型.
三、殘差分析的必要性
回歸模型在建立時(shí)蘊(yùn)含了模型假定,而回歸模型的有效性也依賴于這些假定,在用求出的經(jīng)驗(yàn)回歸方程做出任何分析之前,需要先確定這些假定條件是否成立. 作為一個(gè)重要的回歸診斷量,殘差包含了模型假定的許多重要信息,因此殘差分析能夠較好地驗(yàn)證所得數(shù)據(jù)是否滿足模型假定. 下面通過(guò)一個(gè)例子具體說(shuō)明.
對(duì)于不同的數(shù)據(jù)集,利用最小二乘法求出的回歸方程是否會(huì)幾乎相同?雖然這種情況比較極端,但也不是沒(méi)有出現(xiàn)的可能. 實(shí)際上,對(duì)現(xiàn)實(shí)數(shù)據(jù)進(jìn)行回歸分析時(shí)會(huì)遇到類似的問(wèn)題. 1973年,耶魯大學(xué)的安斯柯姆教授構(gòu)建了四個(gè)虛擬數(shù)據(jù)集,這四個(gè)虛擬數(shù)據(jù)集就反映出以上問(wèn)題,具體數(shù)據(jù)如表1所示.
不難發(fā)現(xiàn),前三個(gè)數(shù)據(jù)集的自變量取值完全相同,只是對(duì)應(yīng)的因變量取值發(fā)生了一些變化;而最后一個(gè)數(shù)據(jù)集中只有一個(gè)自變量不同,其他自變量的取值均是8. 表1中的數(shù)據(jù)看起來(lái)比較奇特,并且數(shù)據(jù)量較大,計(jì)算起來(lái)較為復(fù)雜. 但是交給計(jì)算機(jī)軟件來(lái)計(jì)算,可以詳細(xì)地分析數(shù)據(jù),也提高了計(jì)算效率. 下面利用Excel“數(shù)據(jù)分析”中的“回歸”功能,對(duì)四組數(shù)據(jù)進(jìn)行一元線性回歸. 分別得到了這四個(gè)數(shù)據(jù)集的相關(guān)數(shù)值統(tǒng)計(jì)結(jié)果,如表2所示.
在回歸分析中,設(shè)定模型[y=a+bx+e,] 采用最小二乘法估計(jì)模型. 由表2可知,四個(gè)數(shù)據(jù)集的模型參數(shù)相近,a的值都略大于3,b的值都在0.5附近,且a的標(biāo)準(zhǔn)誤相近,b的標(biāo)準(zhǔn)誤也相近(標(biāo)準(zhǔn)誤是標(biāo)準(zhǔn)差的估計(jì)量,它越小估計(jì)精度越高). 各數(shù)據(jù)集的[R2]和[r]都十分接近,誤差不超過(guò)千分之一. [R2]是擬合優(yōu)度判定系數(shù),也叫決定系數(shù),其表達(dá)式為[R2=1-i=1nyi-yi2i=1nyi-y2=1-]
[i=1nei2i=1nyi-y2.] 其中,[i=1ne2i]是殘差平方和. [R2]反映了自變量解釋因變量的比例,取值區(qū)間是[0,1.] 一般來(lái)說(shuō),[R2]越大模型擬合效果越好. 而四個(gè)數(shù)據(jù)集的[R2]相近,說(shuō)明所建模型的擬合效果相近. 樣本相關(guān)系數(shù)r是度量成對(duì)樣本數(shù)據(jù)線性相關(guān)程度的量,且[r]越接近1,說(shuō)明成對(duì)樣本數(shù)據(jù)線性相關(guān)程度越強(qiáng). 四個(gè)數(shù)據(jù)集的[r]相近,說(shuō)明因變量與自變量的線性相關(guān)程度相近. 但是,這四個(gè)數(shù)據(jù)集中因變量與自變量的線性相關(guān)程度真的差不多嗎?因變量與自變量之間真的具有線性相關(guān)性嗎?數(shù)據(jù)會(huì)不會(huì)欺騙了我們呢?如果只看統(tǒng)計(jì)分析的數(shù)據(jù)結(jié)果,這四個(gè)數(shù)據(jù)集的回歸分析幾乎無(wú)差異,但事實(shí)是這四組數(shù)據(jù)確實(shí)存在很大差別. 這個(gè)案例提醒我們不能完全相信數(shù)值結(jié)果,還要結(jié)合適當(dāng)?shù)膱D形對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步分析. 有時(shí)圖形方法不但可以揭示數(shù)據(jù)結(jié)構(gòu),還可以發(fā)現(xiàn)數(shù)值結(jié)果無(wú)法提供的信息.
結(jié)合圖4 ~ 圖7中四個(gè)數(shù)據(jù)集的散點(diǎn)圖、擬合直線和圖8 ~ 圖11中的殘差圖,可以直觀地發(fā)現(xiàn)除了第一個(gè)數(shù)據(jù)集的線性回歸模型建立正確、殘差圖表現(xiàn)正常外,其他三個(gè)數(shù)據(jù)集的線性模型和殘差圖都表現(xiàn)異常,說(shuō)明這三個(gè)數(shù)據(jù)集不適合進(jìn)行線性擬合,違背了模型的誤差假定.
由這個(gè)案例可以看出,在回歸分析中,計(jì)算殘差是用最小二乘法求出模型參數(shù)后的必要步驟,殘差圖是整合分析殘差、進(jìn)行模型診斷的必要工具. 對(duì)殘差進(jìn)行殘差分析,可以幫助我們確定擬合模型是否正確、驗(yàn)證回歸模型假定是否成立,是診斷模型的關(guān)鍵一步. 利用最小二乘法計(jì)算不同數(shù)據(jù)的回歸方程之前,一定要畫出相應(yīng)的散點(diǎn)圖,判斷其走向和趨勢(shì),不能一股腦地把學(xué)過(guò)的模型套用在不同的情境中,必須要考慮實(shí)際情況及所建模型的目的等相關(guān)問(wèn)題.
四、建模實(shí)例
筆者對(duì)教材第120頁(yè)的練習(xí)第2題做了適當(dāng)改編,下面通過(guò)此題闡述殘差在模型診斷中的作用.
1. 問(wèn)題描述
為了了解國(guó)內(nèi)生產(chǎn)總值(GDP)的增長(zhǎng)情況,便于對(duì)未來(lái)國(guó)內(nèi)生產(chǎn)總值(GDP)做出科學(xué)合理的預(yù)測(cè). 國(guó)家統(tǒng)計(jì)局收集并統(tǒng)計(jì)了1997 — 2006年中國(guó)國(guó)內(nèi)生產(chǎn)總值(GDP)的數(shù)據(jù),如表3所示.
試作出GDP關(guān)于年份的散點(diǎn)圖,并根據(jù)該圖猜想可以用什么模型描述它們之間的關(guān)系. 然后利用表3數(shù)據(jù)對(duì)模型參數(shù)進(jìn)行估計(jì),最后說(shuō)明所求模型是否能較好地刻畫GDP與年份之間的關(guān)系.
2. 問(wèn)題分析
在問(wèn)題中,人們關(guān)心未來(lái)國(guó)內(nèi)生產(chǎn)總值(GDP)是多少,而表3中只給出了過(guò)去每一年對(duì)應(yīng)的GDP數(shù)額,要想知道未來(lái)的GDP,可以將年份作為自變量,GDP作為因變量進(jìn)行分析. 但是GDP還可能受全球經(jīng)濟(jì)形勢(shì)、相關(guān)政策和社會(huì)環(huán)境等很多因素的影響,故不能用一個(gè)確定的函數(shù)來(lái)表達(dá)年份與GDP之間的關(guān)系,用統(tǒng)計(jì)方法建立兩者之間的回歸模型會(huì)更加適合.
3. 模型建立
首先,作GDP關(guān)于年份的散點(diǎn)圖,猜想可以用什么模型描述它們之間的關(guān)系. 因?yàn)閿?shù)值較大、數(shù)據(jù)量較多,所以采用統(tǒng)計(jì)軟件進(jìn)行分析. 在Excel中用“數(shù)據(jù)分析”中的“回歸”功能,得到散點(diǎn)圖如圖12所示. 圖12表明,隨著時(shí)間的推移GDP呈上升趨勢(shì),且增長(zhǎng)幅度越來(lái)越大.
分析圖12中的散點(diǎn)圖,可以發(fā)現(xiàn)散點(diǎn)尾部偏高,數(shù)據(jù)的傾向是增長(zhǎng)的、上凹的. 回顧學(xué)過(guò)的函數(shù)圖象,似乎開(kāi)口向上的二次曲線右側(cè)和此圖比較相似. 且圖13中殘差分布呈現(xiàn)二次曲線形狀,故可以考慮在模型中加入自變量的二次項(xiàng). 因?yàn)楸?中的數(shù)據(jù)年份是從1997年開(kāi)始的,所以可以認(rèn)為散點(diǎn)集中分布在曲線[y=a+bt-1 9972]附近. 不妨建立形如[y=a+bt-1 9972+ε]的回歸模型,其中a,b為未知參數(shù),ε為隨機(jī)誤差.
建立模型后,如何確定其中的參數(shù)呢?實(shí)際上,當(dāng)散點(diǎn)的分布沒(méi)有呈現(xiàn)線性相關(guān)特征時(shí),我們的策略是變換成對(duì)樣本數(shù)據(jù),使散點(diǎn)分布呈現(xiàn)線性相關(guān)性,即使散點(diǎn)均勻散落在某條直線附近. 在復(fù)雜情況下,具體應(yīng)該采用哪種變換需要反復(fù)試驗(yàn)、不斷摸索或結(jié)合以往經(jīng)驗(yàn)和所學(xué)函數(shù)做出大致估計(jì).
這里令[x=t-1 9972,x]是引入的一個(gè)中間變量. 變換后模型[y=a+bt-1 9972+ε]變?yōu)閇y=a+bx+ε,] 這是一個(gè)一元線性回歸模型,也是大家所熟知的. 變換后的新的成對(duì)數(shù)據(jù)如表4所示.
根據(jù)新數(shù)據(jù)繪制散點(diǎn)圖,如圖14所示,發(fā)現(xiàn)y對(duì)x呈現(xiàn)出很強(qiáng)的線性相關(guān)性,說(shuō)明數(shù)據(jù)變換正確,建立的回歸模型合適. 接下來(lái),利用統(tǒng)計(jì)軟件得出分析結(jié)果,如表5所示. 得到回歸方程為[y2=82 329.233+][1 652.851 8x.] 相關(guān)系數(shù)[r]為0.998 5,說(shuō)明GDP與年份之間有很強(qiáng)的線性相關(guān)關(guān)系;[R2]為0.996 9,意味著此模型可以解釋數(shù)據(jù)幾乎100%的波動(dòng);顯著性(p值)小于0.001,說(shuō)明y與x顯著相關(guān). 以上各種數(shù)據(jù)都說(shuō)明此模型的擬合效果很好. 接下來(lái)繪制殘差圖(如圖15)檢驗(yàn)統(tǒng)計(jì)分析結(jié)果.
觀察圖15可以發(fā)現(xiàn),散點(diǎn)比較均勻地分布在橫軸兩側(cè),沒(méi)有呈現(xiàn)聚攏或散開(kāi)的趨勢(shì),這說(shuō)明二次變換的線性化模型比較理想.
將[x=t-1 9972]代入[y2=82 329.233+1 652.851 8x,] 得到由年份預(yù)報(bào)國(guó)內(nèi)生產(chǎn)總值(GDP)的經(jīng)驗(yàn)回歸方程[y2=82 329.233+1 652.851 8t-1 9972,] 這就是要求的經(jīng)驗(yàn)回歸方程.
對(duì)于實(shí)際問(wèn)題,沒(méi)有人知道真正的模型是什么. 而統(tǒng)計(jì)方法就是不斷尋找有用的模型,精益求精,力爭(zhēng)找出最適合的模型. 在實(shí)際教學(xué)中,教師可以鼓勵(lì)學(xué)生嘗試其他的數(shù)據(jù)處理方法并建立更好的模型. 學(xué)生儲(chǔ)備的知識(shí)越多,可供選擇的方法就越多.
五、總結(jié)
回歸分析法是統(tǒng)計(jì)學(xué)中的重要方法,而殘差分析是回歸分析中檢驗(yàn)?zāi)P图俣?、診斷并選取模型的重要方法. 它對(duì)應(yīng)數(shù)學(xué)建模中“檢驗(yàn)結(jié)果、改進(jìn)模型”這兩步,是對(duì)模型的事后檢驗(yàn),看似微不足道實(shí)則意義深遠(yuǎn). 殘差分析體現(xiàn)了數(shù)學(xué)學(xué)科所要求的思維的嚴(yán)謹(jǐn)性,以及操作的規(guī)范性和完整性,提醒我們要在日常的工作、學(xué)習(xí)和生活中養(yǎng)成良好的檢查與驗(yàn)證的習(xí)慣.
計(jì)算并分析殘差不僅能夠幫助我們大致觀察隨機(jī)誤差對(duì)因變量的影響,還能幫助我們直觀診斷模型. 借助殘差圖對(duì)殘差進(jìn)行進(jìn)一步分析,能夠發(fā)現(xiàn)現(xiàn)有模型的優(yōu)點(diǎn)和缺點(diǎn),并根據(jù)發(fā)現(xiàn)的問(wèn)題改進(jìn)模型,對(duì)數(shù)據(jù)進(jìn)行更為恰當(dāng)?shù)臄M合,以建立“最佳”模型,這也能對(duì)未知的數(shù)據(jù)做出更符合實(shí)際的預(yù)測(cè).
參考文獻(xiàn):
[1]胡福年,白春艷,李洪美. 電氣測(cè)量技術(shù)實(shí)驗(yàn)教程[M]. 南京:東南大學(xué)出版社,2009.
[2]劉沛. 回歸分析的新進(jìn)展:回歸診斷[J]. 中國(guó)衛(wèi)生統(tǒng)計(jì),1989,6(6):51-55.
[3]SAMPRIT CHATTERJEE,ALI S HADI. 例解回歸分析[M]. 鄭忠國(guó),許靜,譯. 北京:機(jī)械工業(yè)出版社,2013.
[4]胡菊華. 基于殘差分析的線性回歸模型的診斷與修正[J]. 統(tǒng)計(jì)與決策,2019,35(24):5-8.
[5]王敏. 殘差分析在統(tǒng)計(jì)中的應(yīng)用[J]. 江蘇統(tǒng)計(jì),2000(8):24,11.
[6]FRANK R GIORDANO,WILLIAM P FOX,STEVEN B HORTON. 數(shù)學(xué)建模(原書第5版)[M]. 葉其孝,姜啟源,等譯. 北京:機(jī)械工業(yè)出版社,2014.
收稿日期:2022-08-05
基金項(xiàng)目:教育部人文社會(huì)科學(xué)研究規(guī)劃基金項(xiàng)目——中小學(xué)核心素養(yǎng)測(cè)評(píng)的模型建構(gòu)與實(shí)證研究(19YJA880012);
中央高?;究蒲袠I(yè)務(wù)費(fèi)項(xiàng)目——新高考分省市命題分學(xué)科質(zhì)量評(píng)價(jià)指標(biāo)體系研究(CCNUTEI2021-13).
作者簡(jiǎn)介:王慧鋆(1999— ),女,在讀碩士研究生,主要從事數(shù)學(xué)教育研究.