概率統(tǒng)計(jì)的知識(shí)理解之殘差與回歸模型診斷

2022-05-30 10:48王慧鋆胡典順

中國(guó)數(shù)學(xué)教育（高中版） 2022年12期

關(guān)鍵詞：殘差

王慧鋆胡典順

摘? 要：殘差是觀測(cè)值與預(yù)測(cè)值之差，它看似簡(jiǎn)單卻蘊(yùn)含了回歸模型的許多重要信息. 通過(guò)對(duì)殘差知識(shí)的深入梳理，介紹殘差圖，再用四個(gè)虛擬數(shù)據(jù)集探討殘差分析的必要性，最后借助實(shí)例展現(xiàn)模型建構(gòu)與診斷過(guò)程，使師生更深入地了解殘差和殘差分析在回歸模型中的重要作用，以便在實(shí)際生產(chǎn)、生活中利用數(shù)據(jù)構(gòu)建并選取最佳模型.

關(guān)鍵詞：殘差；殘差圖；殘差分析；回歸模型診斷

一、引言

在生產(chǎn)、生活中，人們經(jīng)常會(huì)遇到各種各樣的誤差. 例如，在超市里購(gòu)買的食鹽其質(zhì)量和它的標(biāo)準(zhǔn)質(zhì)量有一定的誤差；在化學(xué)實(shí)驗(yàn)室稱量物質(zhì)時(shí)會(huì)產(chǎn)生測(cè)量誤差；工廠加工的零件受工藝影響會(huì)產(chǎn)生加工誤差. 在眾多誤差中，有些誤差可以避免，而有些誤差無(wú)法避免. 隨機(jī)誤差就是不能避免的誤差，它是由測(cè)量實(shí)驗(yàn)中許多獨(dú)立因素的微小變化的總和引起的，無(wú)法用實(shí)驗(yàn)的方法加以消除. 但總體來(lái)說(shuō)，多次測(cè)量中隨機(jī)誤差服從統(tǒng)計(jì)規(guī)律，最常見(jiàn)的是正態(tài)分布規(guī)律.

由于隨機(jī)誤差具有總體的統(tǒng)計(jì)規(guī)律性，即使它的大小、正負(fù)不固定，難以消除或減小，人們還是可以運(yùn)用統(tǒng)計(jì)方法分析其對(duì)測(cè)量結(jié)果的影響. 那么，如何運(yùn)用統(tǒng)計(jì)方法進(jìn)行合理的分析、計(jì)算呢？實(shí)際上，可以建立適當(dāng)?shù)慕y(tǒng)計(jì)模型，利用已知數(shù)據(jù)求出模型參數(shù)，再通過(guò)計(jì)算得到隨機(jī)誤差的估計(jì)值殘差，這樣就方便分析其對(duì)測(cè)量結(jié)果的影響. 在回歸分析中，殘差蘊(yùn)含了有關(guān)模型基本假定的許多重要信息，在估計(jì)隨機(jī)誤差和診斷回歸模型上具有重要作用. 本文將圍繞殘差的知識(shí)理解，以及殘差之于模型的重要作用進(jìn)行拓展闡述.

二、殘差的知識(shí)理解

1. 教材中回歸模型與殘差的概念定義

人教A版《普通高中教科書·數(shù)學(xué)》選擇性必修第三冊(cè)（以下統(tǒng)稱“教材”）定義回歸模型與殘差如下.

教材以研究?jī)鹤由砀吆透赣H身高之間的關(guān)系為例，先由收集的數(shù)據(jù)做出了兩者間的散點(diǎn)圖，發(fā)現(xiàn)散點(diǎn)落在一條斜率大于0的直線附近，有較強(qiáng)的線性相關(guān)關(guān)系. 然后，讓學(xué)生思考兩者間的關(guān)系能否用一次函數(shù)模型刻畫. 因?yàn)榇嬖诟赣H身高相同時(shí)對(duì)應(yīng)兒子身高不同的情況，所以不能用一次函數(shù)模型刻畫. 于是給出了能夠刻畫兒子身高[Y]與父親身高x相關(guān)關(guān)系的一元線性回歸模型，其表達(dá)式為[Y=bx+a+e，Ee=0，De=σ2.]

此模型是對(duì)Y與x之間真實(shí)關(guān)系的一種近似. 其中，Y是因變量（響應(yīng)變量），x是自變量（解釋變量），x是影響Y的主要因素，e是其他相關(guān)因素. 模型中關(guān)于隨機(jī)誤差e的假定為對(duì)自變量x的任意取值，e的均值都為0，方差始終為[σ2，] 即e的均值和方差不隨x的變化而變化.

建立回歸模型后，為了合理估計(jì)模型中參數(shù)a，b的值，需要利用收集的成對(duì)樣本數(shù)據(jù)[xi，yi]進(jìn)行分析. 因?yàn)閇Y=bx+a+e]刻畫的是變量Y與x的線性相關(guān)關(guān)系，所以估計(jì)參數(shù)a，b相當(dāng)于尋找一條合適的直線，使表示成對(duì)樣本數(shù)據(jù)的點(diǎn)散落在這條直線附近. 為了使“從整體上看，各散點(diǎn)與直線最接近”，教材著重探討并介紹了最小二乘法，然后應(yīng)用最小二乘準(zhǔn)則得到了經(jīng)驗(yàn)回歸方程[y=bx+a.] 其中，[y]稱為預(yù)測(cè)值，求得的[a，b]叫做a，b的最小二乘估計(jì). 為了檢驗(yàn)所求模型的擬合效果，得出預(yù)測(cè)值與實(shí)際觀測(cè)值之間的偏差，在比較因變量Y的觀測(cè)值和預(yù)測(cè)值[y]時(shí)給出了殘差的概念，觀測(cè)值減去預(yù)測(cè)值就是殘差.

通過(guò)以上梳理可以發(fā)現(xiàn)，教材在探究?jī)鹤由砀吲c父親身高的相關(guān)關(guān)系時(shí)引入了一元線性回歸模型，并在建立的模型中體現(xiàn)了隨機(jī)誤差. 然后利用最小二乘法求出經(jīng)驗(yàn)回歸方程，代入數(shù)據(jù)發(fā)現(xiàn)預(yù)測(cè)值與觀測(cè)值有偏差之后，引出了殘差的概念. 因?yàn)槟Ｐ图俣ㄖ饕轻槍?duì)隨機(jī)誤差e提出的，所以考查所求模型的準(zhǔn)確性需要從分析隨機(jī)誤差e的估計(jì)量殘差入手. 教材將殘差放在參數(shù)估計(jì)這一節(jié)，是為了確定模型假定條件的合理性，也是對(duì)所求模型的檢驗(yàn)或驗(yàn)證.

一般地，在根據(jù)實(shí)際情況或利用所得數(shù)據(jù)建立回歸模型時(shí)，無(wú)論建立的是何種模型，都可以通過(guò)計(jì)算實(shí)際觀測(cè)值與預(yù)測(cè)值之間的差得到殘差. 這體現(xiàn)了殘差的普適性和簡(jiǎn)潔性，其計(jì)算簡(jiǎn)便且適用范圍廣，看似簡(jiǎn)單卻十分必要.

2. 回歸模型中的誤差假定

利用散點(diǎn)圖，人們可以直觀判斷兩個(gè)變量間是否存在線性相關(guān)關(guān)系，但這只是一種視覺(jué)上的判斷. 為了從數(shù)量上對(duì)兩個(gè)變量的線性相關(guān)關(guān)系進(jìn)行嚴(yán)格說(shuō)明，統(tǒng)計(jì)學(xué)中常用假設(shè)檢驗(yàn)法對(duì)回歸參數(shù)進(jìn)行檢驗(yàn)，即提出假設(shè)H0：x與Y之間沒(méi)有線性相關(guān)關(guān)系. 但是，檢驗(yàn)這樣的假設(shè)，需要進(jìn)一步完善教材中給出的隨機(jī)誤差假定，完善后的誤差假定為：對(duì)x的每一個(gè)固定值，所有e都相互獨(dú)立，且它們同時(shí)服從均值為0，方差為[σ2]的正態(tài)分布. 注意，這句話蘊(yùn)含了以下4層含義.

（1）隨機(jī)誤差[ei i=1，2，…，n]服從正態(tài)分布. 但因?yàn)槟Ｐ椭械碾S機(jī)誤差難以確定，所以對(duì)其正態(tài)性的檢驗(yàn)往往通過(guò)殘差進(jìn)行.

（2）[Eei=0]對(duì)[i=1，2，…，n]均成立.

（3）[Dei=σ2]對(duì)[i=1，2，…，n]均成立. 這被稱為等方差假定或方差齊性假定. 若該假定不成立，說(shuō)明出現(xiàn)了異方差問(wèn)題.

（4）隨機(jī)誤差[e1，e2，…，en]相互獨(dú)立，即[Covei，ej=0]對(duì)[i≠j，i=1，2，…，n，j=1，2，…，n]均成立.

在這樣的假定下，最小二乘估計(jì)[a，b]具有明確的抽樣分布，即正態(tài)分布. 利用[a，b]的抽樣分布，可以分析自變量x對(duì)因變量Y的預(yù)測(cè)能力，體現(xiàn)了回歸方程的預(yù)測(cè)功能. 但因?yàn)榻滩闹袥](méi)有涉及對(duì)回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn)的內(nèi)容，也沒(méi)有直接給出不同觀測(cè)誤差之間相互獨(dú)立的概念，所以本節(jié)內(nèi)容是對(duì)教材隨機(jī)誤差假定的一個(gè)拓展，旨在使師生從理論上對(duì)這一內(nèi)容有更加深入的認(rèn)識(shí).

3. 殘差與殘差圖

了解殘差的生成背景與模型的誤差假定后，給出殘差的具體定義. 所謂殘差，就是人們獲得的實(shí)際觀測(cè)值與回歸模型擬合（預(yù)測(cè)）值的差，其數(shù)學(xué)表達(dá)式為[ei=yi-yi.] 這是普通殘差，也是最簡(jiǎn)單的一種殘差. 此外，還有學(xué)生氏殘差（標(biāo)準(zhǔn)化殘差）和預(yù)測(cè)殘差. 得到殘差的表達(dá)式后，在一元線性回歸模型中代入經(jīng)驗(yàn)回歸方程，即為[ei=yi-bxi-a.] 由此可知，殘差是因變量中未被自變量解釋的部分，這就說(shuō)明了殘差與自變量無(wú)關(guān). 將樣本數(shù)據(jù)的所有殘差相加，還可以得到[i=1nei=i=1nyi-yi=i=1nyi-bxi-a=ny-nbx-na=][ny-bx-a=0.] 這與隨機(jī)誤差均值為0的假設(shè)相符，但因?yàn)橛?jì)算過(guò)程中有近似，所以殘差和一般近似為0.

如圖1，以一元線性回歸模型為例，在平面直角坐標(biāo)系中，可以清楚地知道殘差的幾何意義，即實(shí)際觀測(cè)數(shù)據(jù)點(diǎn)與其所對(duì)應(yīng)的回歸模型數(shù)據(jù)點(diǎn)間的縱向差異值.

圖1中只標(biāo)明了一個(gè)觀測(cè)點(diǎn)[x4，y4，] 該觀測(cè)點(diǎn)在預(yù)測(cè)點(diǎn)上方，它的殘差為正值. 通過(guò)圖1可以看出還有些觀測(cè)點(diǎn)落在回歸直線下方，這說(shuō)明殘差可正可負(fù).

為了使不同觀測(cè)點(diǎn)的殘差數(shù)據(jù)更加直觀，可以繪制殘差圖. 所謂殘差圖，就是以某種殘差為縱坐標(biāo)，以觀測(cè)時(shí)間t、觀測(cè)序號(hào)n、預(yù)測(cè)值[y]或某一自變量xi [i=1，2，…，n]為橫坐標(biāo)繪制的散點(diǎn)圖. 下面以殘差為縱坐標(biāo)，以自變量為橫坐標(biāo)的殘差圖為例，介紹兩種不同情況下的殘差圖，分別如圖2和圖3所示.

圖2中大多數(shù)觀測(cè)點(diǎn)都比較均勻地分布在橫軸的上方和下方，滿足隨機(jī)誤差均值為0，方差為[σ2]的假定條件，只有一個(gè)偏離均值很多的點(diǎn)，這樣的點(diǎn)被稱為異常點(diǎn). 圖3中的觀測(cè)點(diǎn)沒(méi)有均勻地分布在橫軸的上方和下方，其分布似開(kāi)口向上的二次曲線，其表面所建模型不符合隨機(jī)誤差假定條件，即現(xiàn)有模型不成立，可能沒(méi)有把因變量中蘊(yùn)含的二次項(xiàng)表達(dá)出來(lái). 此時(shí)應(yīng)該考慮在模型中加入自變量的二次項(xiàng)，以完善模型，達(dá)到最佳擬合效果.

以上只列舉了兩個(gè)較為簡(jiǎn)單的殘差圖. 在回歸分析中，繪制殘差圖有許多優(yōu)點(diǎn)：放大預(yù)測(cè)值與觀測(cè)值之間的差距；提醒我們關(guān)注是否在收集數(shù)據(jù)或模型擬合的過(guò)程中遺漏了某些重要的自變量；幫助我們直觀高效地診斷模型、改進(jìn)模型.

三、殘差分析的必要性

回歸模型在建立時(shí)蘊(yùn)含了模型假定，而回歸模型的有效性也依賴于這些假定，在用求出的經(jīng)驗(yàn)回歸方程做出任何分析之前，需要先確定這些假定條件是否成立. 作為一個(gè)重要的回歸診斷量，殘差包含了模型假定的許多重要信息，因此殘差分析能夠較好地驗(yàn)證所得數(shù)據(jù)是否滿足模型假定. 下面通過(guò)一個(gè)例子具體說(shuō)明.

對(duì)于不同的數(shù)據(jù)集，利用最小二乘法求出的回歸方程是否會(huì)幾乎相同？雖然這種情況比較極端，但也不是沒(méi)有出現(xiàn)的可能. 實(shí)際上，對(duì)現(xiàn)實(shí)數(shù)據(jù)進(jìn)行回歸分析時(shí)會(huì)遇到類似的問(wèn)題. 1973年，耶魯大學(xué)的安斯柯姆教授構(gòu)建了四個(gè)虛擬數(shù)據(jù)集，這四個(gè)虛擬數(shù)據(jù)集就反映出以上問(wèn)題，具體數(shù)據(jù)如表1所示.

不難發(fā)現(xiàn)，前三個(gè)數(shù)據(jù)集的自變量取值完全相同，只是對(duì)應(yīng)的因變量取值發(fā)生了一些變化；而最后一個(gè)數(shù)據(jù)集中只有一個(gè)自變量不同，其他自變量的取值均是8. 表1中的數(shù)據(jù)看起來(lái)比較奇特，并且數(shù)據(jù)量較大，計(jì)算起來(lái)較為復(fù)雜. 但是交給計(jì)算機(jī)軟件來(lái)計(jì)算，可以詳細(xì)地分析數(shù)據(jù)，也提高了計(jì)算效率. 下面利用Excel“數(shù)據(jù)分析”中的“回歸”功能，對(duì)四組數(shù)據(jù)進(jìn)行一元線性回歸. 分別得到了這四個(gè)數(shù)據(jù)集的相關(guān)數(shù)值統(tǒng)計(jì)結(jié)果，如表2所示.

在回歸分析中，設(shè)定模型[y=a+bx+e，] 采用最小二乘法估計(jì)模型. 由表2可知，四個(gè)數(shù)據(jù)集的模型參數(shù)相近，a的值都略大于3，b的值都在0.5附近，且a的標(biāo)準(zhǔn)誤相近，b的標(biāo)準(zhǔn)誤也相近（標(biāo)準(zhǔn)誤是標(biāo)準(zhǔn)差的估計(jì)量，它越小估計(jì)精度越高）. 各數(shù)據(jù)集的[R2]和[r]都十分接近，誤差不超過(guò)千分之一. [R2]是擬合優(yōu)度判定系數(shù)，也叫決定系數(shù)，其表達(dá)式為[R2=1-i=1nyi-yi2i=1nyi-y2=1-]

[i=1nei2i=1nyi-y2.] 其中，[i=1ne2i]是殘差平方和. [R2]反映了自變量解釋因變量的比例，取值區(qū)間是[0，1.] 一般來(lái)說(shuō)，[R2]越大模型擬合效果越好. 而四個(gè)數(shù)據(jù)集的[R2]相近，說(shuō)明所建模型的擬合效果相近. 樣本相關(guān)系數(shù)r是度量成對(duì)樣本數(shù)據(jù)線性相關(guān)程度的量，且[r]越接近1，說(shuō)明成對(duì)樣本數(shù)據(jù)線性相關(guān)程度越強(qiáng). 四個(gè)數(shù)據(jù)集的[r]相近，說(shuō)明因變量與自變量的線性相關(guān)程度相近. 但是，這四個(gè)數(shù)據(jù)集中因變量與自變量的線性相關(guān)程度真的差不多嗎？因變量與自變量之間真的具有線性相關(guān)性嗎？數(shù)據(jù)會(huì)不會(huì)欺騙了我們呢？如果只看統(tǒng)計(jì)分析的數(shù)據(jù)結(jié)果，這四個(gè)數(shù)據(jù)集的回歸分析幾乎無(wú)差異，但事實(shí)是這四組數(shù)據(jù)確實(shí)存在很大差別. 這個(gè)案例提醒我們不能完全相信數(shù)值結(jié)果，還要結(jié)合適當(dāng)?shù)膱D形對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步分析. 有時(shí)圖形方法不但可以揭示數(shù)據(jù)結(jié)構(gòu)，還可以發(fā)現(xiàn)數(shù)值結(jié)果無(wú)法提供的信息.

結(jié)合圖4 ～圖7中四個(gè)數(shù)據(jù)集的散點(diǎn)圖、擬合直線和圖8 ～圖11中的殘差圖，可以直觀地發(fā)現(xiàn)除了第一個(gè)數(shù)據(jù)集的線性回歸模型建立正確、殘差圖表現(xiàn)正常外，其他三個(gè)數(shù)據(jù)集的線性模型和殘差圖都表現(xiàn)異常，說(shuō)明這三個(gè)數(shù)據(jù)集不適合進(jìn)行線性擬合，違背了模型的誤差假定.

由這個(gè)案例可以看出，在回歸分析中，計(jì)算殘差是用最小二乘法求出模型參數(shù)后的必要步驟，殘差圖是整合分析殘差、進(jìn)行模型診斷的必要工具. 對(duì)殘差進(jìn)行殘差分析，可以幫助我們確定擬合模型是否正確、驗(yàn)證回歸模型假定是否成立，是診斷模型的關(guān)鍵一步. 利用最小二乘法計(jì)算不同數(shù)據(jù)的回歸方程之前，一定要畫出相應(yīng)的散點(diǎn)圖，判斷其走向和趨勢(shì)，不能一股腦地把學(xué)過(guò)的模型套用在不同的情境中，必須要考慮實(shí)際情況及所建模型的目的等相關(guān)問(wèn)題.

四、建模實(shí)例

筆者對(duì)教材第120頁(yè)的練習(xí)第2題做了適當(dāng)改編，下面通過(guò)此題闡述殘差在模型診斷中的作用.

1. 問(wèn)題描述

為了了解國(guó)內(nèi)生產(chǎn)總值（GDP）的增長(zhǎng)情況，便于對(duì)未來(lái)國(guó)內(nèi)生產(chǎn)總值（GDP）做出科學(xué)合理的預(yù)測(cè). 國(guó)家統(tǒng)計(jì)局收集并統(tǒng)計(jì)了1997 — 2006年中國(guó)國(guó)內(nèi)生產(chǎn)總值（GDP）的數(shù)據(jù)，如表3所示.

試作出GDP關(guān)于年份的散點(diǎn)圖，并根據(jù)該圖猜想可以用什么模型描述它們之間的關(guān)系. 然后利用表3數(shù)據(jù)對(duì)模型參數(shù)進(jìn)行估計(jì)，最后說(shuō)明所求模型是否能較好地刻畫GDP與年份之間的關(guān)系.

2. 問(wèn)題分析

在問(wèn)題中，人們關(guān)心未來(lái)國(guó)內(nèi)生產(chǎn)總值（GDP）是多少，而表3中只給出了過(guò)去每一年對(duì)應(yīng)的GDP數(shù)額，要想知道未來(lái)的GDP，可以將年份作為自變量，GDP作為因變量進(jìn)行分析. 但是GDP還可能受全球經(jīng)濟(jì)形勢(shì)、相關(guān)政策和社會(huì)環(huán)境等很多因素的影響，故不能用一個(gè)確定的函數(shù)來(lái)表達(dá)年份與GDP之間的關(guān)系，用統(tǒng)計(jì)方法建立兩者之間的回歸模型會(huì)更加適合.

3. 模型建立

首先，作GDP關(guān)于年份的散點(diǎn)圖，猜想可以用什么模型描述它們之間的關(guān)系. 因?yàn)閿?shù)值較大、數(shù)據(jù)量較多，所以采用統(tǒng)計(jì)軟件進(jìn)行分析. 在Excel中用“數(shù)據(jù)分析”中的“回歸”功能，得到散點(diǎn)圖如圖12所示. 圖12表明，隨著時(shí)間的推移GDP呈上升趨勢(shì)，且增長(zhǎng)幅度越來(lái)越大.

分析圖12中的散點(diǎn)圖，可以發(fā)現(xiàn)散點(diǎn)尾部偏高，數(shù)據(jù)的傾向是增長(zhǎng)的、上凹的. 回顧學(xué)過(guò)的函數(shù)圖象，似乎開(kāi)口向上的二次曲線右側(cè)和此圖比較相似. 且圖13中殘差分布呈現(xiàn)二次曲線形狀，故可以考慮在模型中加入自變量的二次項(xiàng). 因?yàn)楸?中的數(shù)據(jù)年份是從1997年開(kāi)始的，所以可以認(rèn)為散點(diǎn)集中分布在曲線[y=a+bt-1 9972]附近. 不妨建立形如[y=a+bt-1 9972+ε]的回歸模型，其中a，b為未知參數(shù)，ε為隨機(jī)誤差.

建立模型后，如何確定其中的參數(shù)呢？實(shí)際上，當(dāng)散點(diǎn)的分布沒(méi)有呈現(xiàn)線性相關(guān)特征時(shí)，我們的策略是變換成對(duì)樣本數(shù)據(jù)，使散點(diǎn)分布呈現(xiàn)線性相關(guān)性，即使散點(diǎn)均勻散落在某條直線附近. 在復(fù)雜情況下，具體應(yīng)該采用哪種變換需要反復(fù)試驗(yàn)、不斷摸索或結(jié)合以往經(jīng)驗(yàn)和所學(xué)函數(shù)做出大致估計(jì).

這里令[x=t-1 9972，x]是引入的一個(gè)中間變量. 變換后模型[y=a+bt-1 9972+ε]變?yōu)閇y=a+bx+ε，] 這是一個(gè)一元線性回歸模型，也是大家所熟知的. 變換后的新的成對(duì)數(shù)據(jù)如表4所示.

根據(jù)新數(shù)據(jù)繪制散點(diǎn)圖，如圖14所示，發(fā)現(xiàn)y對(duì)x呈現(xiàn)出很強(qiáng)的線性相關(guān)性，說(shuō)明數(shù)據(jù)變換正確，建立的回歸模型合適. 接下來(lái)，利用統(tǒng)計(jì)軟件得出分析結(jié)果，如表5所示. 得到回歸方程為[y2=82 329.233+][1 652.851 8x.] 相關(guān)系數(shù)[r]為0.998 5，說(shuō)明GDP與年份之間有很強(qiáng)的線性相關(guān)關(guān)系；[R2]為0.996 9，意味著此模型可以解釋數(shù)據(jù)幾乎100%的波動(dòng)；顯著性（p值）小于0.001，說(shuō)明y與x顯著相關(guān). 以上各種數(shù)據(jù)都說(shuō)明此模型的擬合效果很好. 接下來(lái)繪制殘差圖（如圖15）檢驗(yàn)統(tǒng)計(jì)分析結(jié)果.

觀察圖15可以發(fā)現(xiàn)，散點(diǎn)比較均勻地分布在橫軸兩側(cè)，沒(méi)有呈現(xiàn)聚攏或散開(kāi)的趨勢(shì)，這說(shuō)明二次變換的線性化模型比較理想.

將[x=t-1 9972]代入[y2=82 329.233+1 652.851 8x，] 得到由年份預(yù)報(bào)國(guó)內(nèi)生產(chǎn)總值（GDP）的經(jīng)驗(yàn)回歸方程[y2=82 329.233+1 652.851 8t-1 9972，] 這就是要求的經(jīng)驗(yàn)回歸方程.

對(duì)于實(shí)際問(wèn)題，沒(méi)有人知道真正的模型是什么. 而統(tǒng)計(jì)方法就是不斷尋找有用的模型，精益求精，力爭(zhēng)找出最適合的模型. 在實(shí)際教學(xué)中，教師可以鼓勵(lì)學(xué)生嘗試其他的數(shù)據(jù)處理方法并建立更好的模型. 學(xué)生儲(chǔ)備的知識(shí)越多，可供選擇的方法就越多.

五、總結(jié)

回歸分析法是統(tǒng)計(jì)學(xué)中的重要方法，而殘差分析是回歸分析中檢驗(yàn)?zāi)Ｐ图俣?、診斷并選取模型的重要方法. 它對(duì)應(yīng)數(shù)學(xué)建模中“檢驗(yàn)結(jié)果、改進(jìn)模型”這兩步，是對(duì)模型的事后檢驗(yàn)，看似微不足道實(shí)則意義深遠(yuǎn). 殘差分析體現(xiàn)了數(shù)學(xué)學(xué)科所要求的思維的嚴(yán)謹(jǐn)性，以及操作的規(guī)范性和完整性，提醒我們要在日常的工作、學(xué)習(xí)和生活中養(yǎng)成良好的檢查與驗(yàn)證的習(xí)慣.

計(jì)算并分析殘差不僅能夠幫助我們大致觀察隨機(jī)誤差對(duì)因變量的影響，還能幫助我們直觀診斷模型. 借助殘差圖對(duì)殘差進(jìn)行進(jìn)一步分析，能夠發(fā)現(xiàn)現(xiàn)有模型的優(yōu)點(diǎn)和缺點(diǎn)，并根據(jù)發(fā)現(xiàn)的問(wèn)題改進(jìn)模型，對(duì)數(shù)據(jù)進(jìn)行更為恰當(dāng)?shù)臄M合，以建立“最佳”模型，這也能對(duì)未知的數(shù)據(jù)做出更符合實(shí)際的預(yù)測(cè).

參考文獻(xiàn)：

［1］胡福年，白春艷，李洪美. 電氣測(cè)量技術(shù)實(shí)驗(yàn)教程［M］. 南京：東南大學(xué)出版社，2009.

［2］劉沛. 回歸分析的新進(jìn)展：回歸診斷［J］. 中國(guó)衛(wèi)生統(tǒng)計(jì)，1989，6（6）：51-55.

［3］SAMPRIT CHATTERJEE，ALI S HADI. 例解回歸分析［M］. 鄭忠國(guó)，許靜，譯. 北京：機(jī)械工業(yè)出版社，2013.

［4］胡菊華. 基于殘差分析的線性回歸模型的診斷與修正［J］. 統(tǒng)計(jì)與決策，2019，35（24）：5-8.

［5］王敏. 殘差分析在統(tǒng)計(jì)中的應(yīng)用［J］. 江蘇統(tǒng)計(jì)，2000（8）：24，11.

［6］FRANK R GIORDANO，WILLIAM P FOX，STEVEN B HORTON. 數(shù)學(xué)建模（原書第5版）［M］. 葉其孝，姜啟源，等譯. 北京：機(jī)械工業(yè)出版社，2014.

收稿日期：2022-08-05

基金項(xiàng)目：教育部人文社會(huì)科學(xué)研究規(guī)劃基金項(xiàng)目——中小學(xué)核心素養(yǎng)測(cè)評(píng)的模型建構(gòu)與實(shí)證研究（19YJA880012）；

中央高?；究蒲袠I(yè)務(wù)費(fèi)項(xiàng)目——新高考分省市命題分學(xué)科質(zhì)量評(píng)價(jià)指標(biāo)體系研究（CCNUTEI2021-13）．

作者簡(jiǎn)介：王慧鋆（1999— ），女，在讀碩士研究生，主要從事數(shù)學(xué)教育研究.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

概率統(tǒng)計(jì)的知識(shí)理解之殘差與回歸模型診斷