国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

回歸分析的內(nèi)涵與教學(xué)探究

2021-09-11 10:17:22湯向明
數(shù)學(xué)通報(bào) 2021年7期
關(guān)鍵詞:縱坐標(biāo)平方和方差

湯向明 金 蛟

(1.泉州市教育科學(xué)研究所 362000;2. 北京師范大學(xué)統(tǒng)計(jì)學(xué)院 100875)

現(xiàn)實(shí)生活中,很多變量間存在著一定的關(guān)系,描述變量間關(guān)系的線性回歸模型有著廣泛的應(yīng)用.現(xiàn)行高中教材中包含有相關(guān)和線性回歸的內(nèi)容,本文以案例教學(xué)的方式分析回歸的內(nèi)涵并對(duì)關(guān)鍵問(wèn)題進(jìn)行探究,供高中教師教學(xué)參考.

1 相關(guān)

案例1 身高和臂展

根據(jù)直觀經(jīng)驗(yàn),我們普遍認(rèn)識(shí)到,人的身高和臂展相近.我們收集1024名同學(xué)的身高和臂展數(shù)據(jù)(不同群體身高和臂展數(shù)據(jù)特點(diǎn)不盡相同,本文采用模擬數(shù)據(jù),各授課教師可收集教學(xué)班級(jí)的數(shù)據(jù),提升學(xué)生參與度和授課效果),部分?jǐn)?shù)據(jù)如表1所示.

表1

從數(shù)據(jù)中能看出身高和臂展確實(shí)非常接近.但我們也會(huì)遇到如下情形:某籃球運(yùn)動(dòng)員身高226cm,但臂展只有220cm.又比如《三國(guó)演義》小說(shuō)中描寫的人物劉備,身高7尺5寸,雙耳垂肩,雙臂過(guò)膝. 身高7尺5寸相當(dāng)于現(xiàn)在的173cm,劉備的臂展相對(duì)于他的身高遠(yuǎn)遠(yuǎn)偏長(zhǎng).

如果身高、臂展數(shù)據(jù)的散點(diǎn)圖中所有點(diǎn)(為了直觀,取20點(diǎn)展示)在一條線上(圖1左),這就是數(shù)學(xué)上確定的函數(shù)關(guān)系.而實(shí)際收集數(shù)據(jù)(為了直觀,取20名同學(xué))繪制的散點(diǎn)圖如圖1右,這些點(diǎn)不嚴(yán)格在線上,而是在線附近,這種變量間有影響,又沒(méi)達(dá)到確定程度的關(guān)系就是統(tǒng)計(jì)上的相關(guān)關(guān)系.

圖1

相關(guān)關(guān)系的度量方式有多種,英國(guó)生物學(xué)家、統(tǒng)計(jì)學(xué)家Pearson定義了線性相關(guān)系數(shù):

模擬具有不同相關(guān)系數(shù)的數(shù)據(jù)繪制散點(diǎn)圖如圖2:

圖2

由相關(guān)系數(shù)定義和圖2可見(jiàn),相關(guān)系數(shù)的取值范圍在-1到1之間.相關(guān)系數(shù)為負(fù)時(shí),隨著一個(gè)變量的增加,另一變量有著相反的降低趨勢(shì);相關(guān)系數(shù)為正時(shí),兩個(gè)變量之間有著同增同減的相同趨勢(shì);相關(guān)系數(shù)為0時(shí),兩個(gè)變量間沒(méi)有線性關(guān)系;隨著相關(guān)系數(shù)絕對(duì)值的增加,兩個(gè)變量間的相關(guān)關(guān)系增強(qiáng),如果等于1,就嚴(yán)格在一條線上.

探究1 相關(guān)與線性相關(guān)

兩個(gè)變量間相關(guān)關(guān)系的度量方式除了Pearson線性相關(guān)系數(shù),還有Spearman秩相關(guān)系數(shù)、Kendall等級(jí)相關(guān)系數(shù)等(可作為延伸探討).取數(shù)據(jù)如表2,變量x和y的Pearson線性相關(guān)系數(shù)為0.928,而x和y的Spearman秩相關(guān)系數(shù)和Kendall等級(jí)相關(guān)系數(shù)都為1.可見(jiàn),常用的Pearson線性相關(guān)系數(shù)r僅度量?jī)蓚€(gè)變量的線性相關(guān)程度.

表2

2 回歸

案例1續(xù)

將數(shù)據(jù)繪成散點(diǎn)圖(如圖3),看出身高和臂展很接近,計(jì)算得相關(guān)系數(shù)為0.94,說(shuō)明二者的相關(guān)關(guān)系非常強(qiáng).學(xué)生們都經(jīng)歷過(guò)入學(xué)體檢,所以學(xué)生一般都知道自己的身高、體重的最新數(shù)據(jù),但知道自己的臂展是多少嗎?

假定學(xué)生們的身高、臂展數(shù)據(jù)規(guī)律和案例1的數(shù)據(jù)一致,我們提出問(wèn)題:已經(jīng)知道學(xué)生的身高,能否估計(jì)出其臂展?進(jìn)一步明確問(wèn)題:假如學(xué)生的身高為180cm,我們可否基于數(shù)據(jù)提供的趨勢(shì)信息,估計(jì)出臂展.這就引出回歸.

圖3

回歸方法應(yīng)用非常廣泛,例如可通過(guò)容易測(cè)量的樹的胸徑估計(jì)不容易測(cè)量的樹的高度;通過(guò)容易測(cè)量的氣壓估計(jì)不容易測(cè)量的海拔高度等等.

要講兩個(gè)變量的回歸,先回顧單個(gè)變量的分析方法.比如要研究某學(xué)校的全體同學(xué)身高的分布規(guī)律,我們抽取部分同學(xué)的身高數(shù)據(jù)(案例1的身高)作為樣本,繪制了直方圖、箱線圖,即使推測(cè)數(shù)據(jù)可能來(lái)自的總體分布其密度函數(shù)有著單峰、對(duì)稱、鐘型曲線特點(diǎn),但仍無(wú)法確定其分布是否為正態(tài)分布(因還有其他對(duì)稱分布,例如t分布等).也就是說(shuō)嚴(yán)格確定分布是困難的,我們退而求其次,考慮期望、方差等數(shù)字特征來(lái)描述總體分布特征.

圖4

處理兩個(gè)變量的相關(guān)關(guān)系,可以用回歸分析方法.

案例2 父子身高數(shù)據(jù)

英國(guó)科學(xué)家高爾頓研究遺傳差異時(shí),收集了1078對(duì)成年父子身高的數(shù)據(jù),這個(gè)研究非常經(jīng)典,是回歸分析的起源.

圖5

圖5左圖橫坐標(biāo)為父親身高,縱坐標(biāo)為兒子身高.注意到身高是72英寸時(shí),相當(dāng)于183cm的父代,他們的子代身高是有變化的一些數(shù)據(jù).同樣,身高是64英寸,相當(dāng)于163cm的父代,他們的子代身高也是一些不同的數(shù)據(jù).之所以是帶狀區(qū)域,是因?yàn)橛兴纳嵛迦氲挠绊?所以兩變量的研究就聚焦到給定一個(gè)變量后,另一個(gè)變量的條件分布(如父親身高為72英寸的子代的身高分布)問(wèn)題,與一維數(shù)據(jù)分析類似:分布難以確定,就研究期望、方差等數(shù)字特征;條件分布同樣難以確定,我們就退而求其次,研究條件期望和條件方差這些數(shù)字特征.

圖5右上圖可以幫助理解回歸模型,坐標(biāo)橫軸為父親身高,縱坐標(biāo)為兒子身高,當(dāng)父代身高為72英寸時(shí),子代的條件分布有單峰對(duì)稱輪廓線,同樣當(dāng)父代身高為64英寸時(shí),子代的條件分布有單峰對(duì)稱輪廓線.回歸模型假定:條件期望(不同輪廓線的對(duì)稱中心)是x的線性函數(shù),就是條件期望成線性.不同輪廓線的形狀相同,與x取值無(wú)關(guān),就是條件方差等方差.圖5右下圖展示了不等方差情形,即異方差回歸模型(可作為回歸分析深入學(xué)習(xí)的延伸探討).一般講解的回歸模型可按圖5右上圖理解.

下面給出回歸模型的總體形式:

·均值函數(shù):E(Y|X=x)=β0+β1x.

·方差函數(shù):Var(Y|X=x)=σ2.

就是條件期望成線性,條件方差等方差.待估參數(shù)為回歸參數(shù)β0和β1,及誤差方差σ2.

更為大家熟悉的是回歸模型的樣本形式:

xi,yi為第i個(gè)觀測(cè)數(shù)據(jù),β0+β1xi為回歸直線,數(shù)據(jù)點(diǎn)不嚴(yán)格在線上,這個(gè)擾動(dòng)用模型誤差ei來(lái)表達(dá),模型的具體限定條件分別為誤差項(xiàng)期望為0、等方差、不相關(guān),也就是有名的高斯-馬爾可夫條件.

探究2 回歸名稱的由來(lái)

這個(gè)模型為什么叫回歸模型呢?英國(guó)科學(xué)家高爾頓研究遺傳問(wèn)題時(shí)收集了1078對(duì)成年父子身高數(shù)據(jù),分析發(fā)現(xiàn):平均意義下,身高偏高的父親,兒子的身高也偏高,但沒(méi)有父親那么高.同樣,平均意義下,身高偏低的父親,兒子的身高也偏低,但沒(méi)有父親那么低.

圖6 圖片來(lái)自文獻(xiàn)[2]

通過(guò)圖片展示能得到什么結(jié)論嗎?高爾頓得出結(jié)論:子代的身高有向族群平均身高“回歸”的趨勢(shì).他把分析方法稱為回歸分析方法,回歸這個(gè)詞就一直沿用至今了.

3 估計(jì)

我們主要關(guān)注回歸參數(shù)β0和β1的估計(jì)問(wèn)題.目前手中掌握了數(shù)據(jù),假定了回歸模型.β0和β1取不同的估計(jì)值,就是擬合了不同的直線,如何選擇估計(jì)值,等價(jià)于如何選擇最優(yōu)的擬合直線.

我們給出直觀解釋:為展示方便,忽略掉橫縱坐標(biāo)的實(shí)際含義,繪制了散點(diǎn)圖如圖7.

圖7

參數(shù)估計(jì)問(wèn)題直觀上看就是最優(yōu)擬合直線的選擇問(wèn)題, 圖7繪制了兩條直線,一條實(shí)線,一條虛線,哪一條的擬合效果更好?大部分學(xué)生會(huì)覺(jué)得實(shí)線更好,因?yàn)橐曈X(jué)上我們會(huì)主觀判斷這條線更好地?cái)M合了數(shù)據(jù)點(diǎn),也就是所有這些點(diǎn)和這條線更接近.那么引出一個(gè)問(wèn)題:如何度量點(diǎn)到線的接近程度?

把直線記作y=β0+β1xi,先描述一個(gè)點(diǎn)到線的接近程度,這點(diǎn)橫坐標(biāo)取為xi縱坐標(biāo)為yi,在直線上選擇xi對(duì)應(yīng)的點(diǎn),縱坐標(biāo)為β0+β1xi,二者之間的差異,稱作殘差,記為ri.如果這個(gè)點(diǎn)在直線的下方,那么殘差符號(hào)為負(fù).

圖8

圖9

定義了回歸模型并給出直觀理解后,我們可以給出參數(shù)的最小二乘估計(jì)方法,殘差平方和可以具體寫為參數(shù)β0和β1的函數(shù):

使得殘差平方和達(dá)到最小值的自變量的取值就是參數(shù)的最小二乘估計(jì).

明確了估計(jì)方法,那么最小二乘的具體表達(dá)就容易得到.本質(zhì)上就是一個(gè)優(yōu)化問(wèn)題,具體而言,就是求函數(shù)的極值點(diǎn).結(jié)果為:

其中

探究3 為什么是最小二乘

需要說(shuō)明的是回歸分析中參數(shù)估計(jì)方法有多種,最小二乘法只是我們介紹的一種常用估計(jì)方法.

探究4 為什么是縱向的差異

圖10

對(duì)于點(diǎn)(xi,yi),在直線上選擇xi對(duì)應(yīng)的點(diǎn),縱坐標(biāo)為β0+β1xi,二者之間的差異,稱作殘差,記為:

ri=yi-β0-β1xi.

為什么不是如圖10所示的點(diǎn)到直線的垂直距離?這是因?yàn)榛貧w模型假定解釋變量x是精確值,沒(méi)有測(cè)量誤差.

如果有測(cè)量誤差存在,可以采用測(cè)量誤差模型:

這時(shí)觀測(cè)數(shù)據(jù)為(wi,yi),可基于垂直距離,使用正交回歸方法.這可作為回歸分析深入學(xué)習(xí)的延伸探討.

4 預(yù)測(cè)

最后再回到案例1的問(wèn)題,使用計(jì)算機(jī)軟件(如Excel等,本文使用R語(yǔ)言)得到回歸參數(shù)的估計(jì)值.進(jìn)一步可以得到擬合的回歸直線,這里我們稱為經(jīng)驗(yàn)回歸方程.它就是圖11的散點(diǎn)圖中的直線,它描述了數(shù)據(jù)的線性趨勢(shì).

圖11

5 效果

如何衡量回歸模型的擬合效果?殘差平方和是個(gè)不錯(cuò)的選擇,殘差平方和越小表明回歸直線和所有點(diǎn)越接近,擬合效果越好.但殘差平方和與數(shù)據(jù)的單位有關(guān),比如把身高數(shù)據(jù)的單位由厘米改為米,那同樣的數(shù)據(jù),殘差平方和就會(huì)縮小10000倍.人們常用另外一種指標(biāo):

探究5 解釋變量和響應(yīng)變量互換會(huì)怎樣

模型中的x稱作解釋變量,或自變量;y稱作響應(yīng)變量,或因變量.解釋變量和響應(yīng)變量互換后使用最小二乘法得到的結(jié)果不同,即兩個(gè)經(jīng)驗(yàn)回歸方程不同.這是因?yàn)樽钚《朔俣ń忉屪兞繘](méi)有測(cè)量誤差,只考慮響應(yīng)變量(因變量)方向的殘差變化.

另需說(shuō)明,回歸分析雖然是處理變量間的相關(guān)關(guān)系的一種統(tǒng)計(jì)方法,但在實(shí)際使用中,常常考慮解釋變量對(duì)響應(yīng)變量一定意義下的影響作用(所以解釋變量也稱作自變量、響應(yīng)變量也稱作因變量).在應(yīng)用回歸模型進(jìn)行實(shí)際數(shù)據(jù)分析時(shí),哪些變量作為解釋變量,什么變量作為響應(yīng)變量,是需要結(jié)合專業(yè)知識(shí)謹(jǐn)慎選擇的.

6 總結(jié)

本文結(jié)合案例,旨在為中學(xué)師生教授、學(xué)習(xí)回歸分析提供幫助,最后給出本文總結(jié):一個(gè)變量:推分布,過(guò)猶不及.對(duì)單變量的分析,我們想知道它的統(tǒng)計(jì)分布,但精確分布難以確定,就退而研究期望、方差.兩個(gè)變量:用回歸,中庸之道.處理兩個(gè)變量的相關(guān)關(guān)系,我們想知道它的條件分布,同樣關(guān)注數(shù)字特征,具體描述為條件期望成線性,條件方差等方差,就是線性回歸模型.最小二乘:做擬合,眾志成城.我們給出參數(shù)的最小二乘估計(jì)方法,是使得所有點(diǎn)的殘差平方和最小的參數(shù)取值.統(tǒng)計(jì)結(jié)論:看效果,衡短論長(zhǎng).參數(shù)估計(jì)還有最小一乘等其他參數(shù)估計(jì)方法,同樣的數(shù)據(jù),采用不同方法,會(huì)得到不同的結(jié)論,我們要制定標(biāo)準(zhǔn),比較擬合效果,最終找到更好的統(tǒng)計(jì)方法.

另外還有一些探究問(wèn)題,如為什么采用條件期望?為什么不考慮條件中位數(shù)或其他條件分位數(shù)?什么是線性?等等,可留待高等教育階段學(xué)習(xí)時(shí)深入探究.

猜你喜歡
縱坐標(biāo)平方和方差
方差怎么算
變化的“魚”
更正
勘 誤
概率與統(tǒng)計(jì)(2)——離散型隨機(jī)變量的期望與方差
計(jì)算方差用哪個(gè)公式
費(fèi)馬—?dú)W拉兩平方和定理
利用平方和方法證明不等式賽題
方差生活秀
勾股定理的擴(kuò)展
崇文区| 绥江县| 寿宁县| 城市| 金溪县| 临颍县| 阳东县| 曲阜市| 临安市| 天气| 衢州市| 万源市| 巴彦淖尔市| 潞城市| 东源县| 登封市| 白玉县| 资中县| 拉孜县| 永胜县| 华池县| 日照市| 恩平市| 渝北区| 噶尔县| 普格县| 布拖县| 当涂县| 灵寿县| 资中县| 库车县| 光山县| 宽甸| 登封市| 太保市| 美姑县| 博乐市| 东宁县| 武穴市| 双牌县| 阳山县|