李悅 袁智強(qiáng)
摘要:《一元線性回歸模型》一課,借鑒美國統(tǒng)計(jì)學(xué)會(huì)提出的“提出問題—收集數(shù)據(jù)—分析數(shù)據(jù)—解釋結(jié)果”四環(huán)節(jié)教學(xué)模式,嘗試運(yùn)用動(dòng)態(tài)數(shù)學(xué)軟件GeoGebra,幫助學(xué)生充分經(jīng)歷數(shù)據(jù)分析過程。具體地,創(chuàng)設(shè)兒子身高和父親身高相關(guān)關(guān)系的問題情境,收集學(xué)生及其父親身高的真實(shí)數(shù)據(jù),運(yùn)用GeoGebra軟件的動(dòng)態(tài)作圖和較大規(guī)模計(jì)算功能,讓學(xué)生能夠直觀、便捷地探索如何尋找最佳擬合直線;引導(dǎo)學(xué)生解釋實(shí)驗(yàn)發(fā)現(xiàn)的最佳擬合直線背后的數(shù)學(xué)思考過程,體會(huì)其中蘊(yùn)含的數(shù)學(xué)思想。
關(guān)鍵詞:數(shù)據(jù)分析;GeoGebra軟件;《一元線性回歸模型》
本文系教育部人文社會(huì)科學(xué)研究青年基金項(xiàng)目“創(chuàng)新型STEM教師培養(yǎng)的探索性研究”(批準(zhǔn)號(hào):18YJC880115)的階段性研究成果?!敖y(tǒng)計(jì)的研究對(duì)象是數(shù)據(jù),核心是數(shù)據(jù)分析?!雹壑腥A人民共和國教育部.普通高中數(shù)學(xué)課程標(biāo)準(zhǔn)(2017年版2020年修訂)[S].北京:人民教育出版社,2020:31,7?!皵?shù)據(jù)分析是指針對(duì)研究對(duì)象獲取數(shù)據(jù),運(yùn)用數(shù)學(xué)方法對(duì)數(shù)據(jù)進(jìn)行整理、分析和推斷,形成關(guān)于研究對(duì)象知識(shí)的素養(yǎng)?!雹蹖?duì)于人教A版高中數(shù)學(xué)選擇性必修第三冊(cè)第8章第2節(jié)《一元線性回歸模型》一課,我們基于美國統(tǒng)計(jì)學(xué)會(huì)為中小學(xué)以及幼兒園制訂的《統(tǒng)計(jì)教育評(píng)價(jià)與教學(xué)指導(dǎo)綱要》中提出的“提出問題—收集數(shù)據(jù)—分析數(shù)據(jù)—解釋結(jié)果”四環(huán)節(jié)教學(xué)模式,嘗試運(yùn)用動(dòng)態(tài)數(shù)學(xué)軟件GeoGebra,幫助學(xué)生充分經(jīng)歷數(shù)據(jù)分析過程,提升數(shù)據(jù)分析素養(yǎng)。
一、教學(xué)過程
(一)提出問題,引發(fā)思考
教師帶領(lǐng)學(xué)生回憶之前學(xué)過的“成對(duì)數(shù)據(jù)的統(tǒng)計(jì)相關(guān)性”,然后觀看“姚明家族身高”短視頻新聞,引出問題:兒子身高與父親身高這兩個(gè)變量究竟有什么關(guān)系?通過這一與現(xiàn)實(shí)生活密切相關(guān)的問題,激發(fā)學(xué)生的好奇心和求知欲。
(二)收集數(shù)據(jù),觀察探索
在課前布置作業(yè),請(qǐng)所有男生回家了解自己父親身高的基礎(chǔ)上,教師采取現(xiàn)場(chǎng)收集數(shù)據(jù)的方式,隨機(jī)抽取14位男生將父親的身高與自己的身高通過平板電腦填入教師下發(fā)的在線文檔中。由此,讓學(xué)生直接產(chǎn)生數(shù)據(jù),接觸數(shù)據(jù),提高對(duì)生活中常見數(shù)據(jù)的敏感度,培養(yǎng)學(xué)生的數(shù)據(jù)意識(shí)。
(三)分析數(shù)據(jù),技術(shù)整合
這一環(huán)節(jié)是本課教學(xué)的重點(diǎn)之一,教師運(yùn)用GeoGebra軟件展示數(shù)據(jù)的散點(diǎn)圖,引導(dǎo)學(xué)生分析數(shù)據(jù),嘗試?yán)煤瘮?shù)模型近似描述數(shù)據(jù)的相關(guān)關(guān)系,并且通過軟件作圖與計(jì)算,充分探討如何尋找最佳擬合直線(一次函數(shù)模型)。具體教學(xué)過程如下:
師(將通過在線文檔收集到的數(shù)據(jù)粘貼到GeoGebra的表格區(qū),并選中表格區(qū)的“父親身高”與“兒子身高”,點(diǎn)擊右鍵 ,選擇“創(chuàng)建—點(diǎn)列”,畫出散點(diǎn)圖)觀察散點(diǎn)圖,看看點(diǎn)的分布有何特點(diǎn),從而探討兒子身高和父親身高有何關(guān)系。
生直觀上可發(fā)現(xiàn),散點(diǎn)大致分布在一條從左下角至右上角的直線附近,這表明兒子身高和父親身高呈線性關(guān)系。
(教師出示問題1:兒子身高和父親身高這兩個(gè)變量之間的關(guān)系可以用函數(shù)模型刻畫嗎?)
生從散點(diǎn)圖可以看出,這些點(diǎn)大致分布在一條直線附近,可以用一次函數(shù)模型來刻畫兩者之間的關(guān)系。
師非常好!我們可以看到,散點(diǎn)分布在一條直線附近,但不在同一條直線上。例如,兩個(gè)父親身高均為172 cm,但是他們兒子的身高不同,一個(gè)是166 cm,另一個(gè)是170 cm??梢园l(fā)現(xiàn),兩者之間的關(guān)系不是簡單的函數(shù)關(guān)系,因此不能用函數(shù)模型來刻畫,但是可以用一次函數(shù)來刻畫父親身高對(duì)兒子身高的影響。
[教師出示問題2:我們選擇直線模型(一次函數(shù))來刻畫父親身高對(duì)兒子身高的影響,那么,如何找到最佳直線,使樣本數(shù)據(jù)的散點(diǎn)在整體上與此直線最接近? ]
生畫出一條直線,測(cè)量出各點(diǎn)到直線的距離,使得距離之和最小。
生畫出一條直線,使得直線兩側(cè)分布的點(diǎn)的個(gè)數(shù)相同。
生在散點(diǎn)圖中多取幾對(duì)點(diǎn),確定幾條直線,再分別求出各直線的斜率、縱截距的平均值,即為所求直線的斜率和縱截距。
師同學(xué)們的想法都非常好!我們不妨實(shí)踐一下,看這些方法是否真的可行。事實(shí)上,利用傳統(tǒng)的工具完成這些任務(wù)是非常麻煩的,并且不一定能達(dá)到我們的目的。我們嘗試使用GeoGebra來操作。(同步在GeoGebra中操作,得到圖1所示的結(jié)果)隨便選兩點(diǎn)O、P確定一條直線l,在指令欄輸入“T_2=序列(線段(元素(T_2,i),交點(diǎn)(垂線(元素(T_1,i),f),f)),i,1,14)”,即將所有的點(diǎn)向直
線l引垂線,并求出每個(gè)垂線段長(即點(diǎn)到直線的距離)的序列T2;在指令欄輸入“D1=總和(T_2)”,求出點(diǎn)到直線的距離之和。此時(shí),我們要使得D1的值最小,不妨改變O、P的位置,移動(dòng)直線。我請(qǐng)一位同學(xué)上來移動(dòng)兩點(diǎn)的位置,其他同學(xué)觀察能否找到使D1的值最小的直線。
生(同步在GeoGebra中操作)先移動(dòng)其中一個(gè)點(diǎn),發(fā)現(xiàn)距離和也在發(fā)生變動(dòng),使可觀察到的D1的值最小;再移動(dòng)另一個(gè)點(diǎn),使可觀察到的D1的值最小。但我發(fā)現(xiàn),這時(shí)再進(jìn)行微小的移動(dòng),總會(huì)發(fā)現(xiàn)D1的值比之前還要小,所以,無法確定所找到的D1的值是不是最小值。這種方法不妥。
師同學(xué)們可以發(fā)現(xiàn),移動(dòng)直線可以將點(diǎn)到直線的距離之和變小,但是無法確定該值何時(shí)最小。接下來,我們探討一下第二種方法,考慮直線兩側(cè)點(diǎn)的分布情況。還是請(qǐng)一位同學(xué)上來移動(dòng)直線,其他同學(xué)觀察直線兩側(cè)點(diǎn)分布情況的變化。
生(同步在GeoGebra中操作)當(dāng)直線在一定的范圍內(nèi)移動(dòng)時(shí),均可使直線兩側(cè)分布的點(diǎn)數(shù)相同,都是7。也就是說,使直線兩側(cè)分布點(diǎn)數(shù)相同的直線有無數(shù)條,無法判斷哪條是最佳直線。
師同樣地,考慮第三種方法。(同步在GeoGebra中操作)首先,取不同對(duì)的點(diǎn),可以確定不同的直線,從而得到不同的斜率、縱截距及其平均值。其次,用我們學(xué)過的計(jì)數(shù)原理,在14個(gè)點(diǎn)構(gòu)成的散點(diǎn)圖中最多可以取14×13÷2=91(對(duì))點(diǎn),在沒有三點(diǎn)共線的情況下最多可以確定14條直線,但是,其中會(huì)有直線沒有斜率與縱截距,這時(shí)便無法求出斜率與縱截距的平均值。(稍停)可見,以上方法雖然都有一定的道理,但是都比較難確定哪條直線為最佳擬合直線。請(qǐng)同學(xué)們?cè)偎伎家幌拢耗芊裾业狡渌麡?biāo)準(zhǔn)?
(學(xué)生遲疑。)
師在許多實(shí)際問題中,x是沒有誤差的固定值,只有y才是有誤差的觀測(cè)值,所以只考慮y偏離直線的程度即可。而點(diǎn)到直線的距離同時(shí)考慮了x和y偏離直線的程度。
生那就讓樣本數(shù)據(jù)點(diǎn)離直線的豎直距離之和最小。
師非常好!用各點(diǎn)到直線的豎直距離來刻畫各點(diǎn)與該直線的接近程度。也就是說,樣本觀測(cè)值與直線的預(yù)測(cè)(解釋)值之間的偏差越小,說明直線的擬合效果越佳。但豎直距離是縱坐標(biāo)之差的絕對(duì)值,絕對(duì)值求和不方便計(jì)算,怎么辦?
(學(xué)生討論。)
生可以平方后求和。
師很好!那就是用各點(diǎn)到直線豎直距離的平方和,即偏差平方和刻畫“整體接近程度”。(同步在GeoGebra中操作,得到圖2所示的結(jié)果)在指令欄輸入“T_3=序列(多邊形(元素(T_1,i),交點(diǎn)(垂線(元素(T_1,i),x軸),f),4),i,1,14)”,畫出偏差平方和的圖像。同學(xué)們可以看到,要求各點(diǎn)到直線豎直距離的平方和,就是要求以各點(diǎn)到直線的豎直距離為邊長的正方形的面積和。(將課前設(shè)計(jì)好
的課件發(fā)給學(xué)生)同學(xué)們可以改變直線的位置,尋找小正方形面積和的最小值。
(學(xué)生自主探索,用時(shí)2分鐘。)
師請(qǐng)同學(xué)們分享一下自己找到的最小值。
生139.54。
師還有同學(xué)找到比這個(gè)值更小的嗎?
生128.8。
師還有比這個(gè)更小的嗎?
生128.78。
師同學(xué)們可以看到,偏差平方和為128.78時(shí),直線的方程為y=0.74x+43.93。接下來,給同學(xué)們2分鐘時(shí)間進(jìn)行驗(yàn)證。
(學(xué)生驗(yàn)證。)
師同學(xué)們驗(yàn)證好了嗎?(同步在GeoGebra中操作)在指令欄輸入“線性回歸Y(T_1)”,會(huì)得到擬合直線的方程為y=074x+43.93。該直線即為使各散點(diǎn)到直線的偏差平方和最小的直線。
(四)解釋結(jié)果,揭示思想
這一環(huán)節(jié),教師引導(dǎo)學(xué)生解釋實(shí)驗(yàn)發(fā)現(xiàn)的最佳擬合直線(線性回歸模型)背后的數(shù)學(xué)思考過程,從而經(jīng)歷完整的統(tǒng)計(jì)問題解決過程,體會(huì)數(shù)學(xué)研究抽象出一般模型、通過推理與計(jì)算嚴(yán)格論證的根本追求和總體思路,并且?guī)椭鷮W(xué)生進(jìn)一步理解其中蘊(yùn)含的數(shù)學(xué)思想。具體教學(xué)過程如下:
師兒子身高和父親身高之間關(guān)系的最佳擬合直線,我們是通過GeoGebra軟件強(qiáng)大的計(jì)算功能,快速計(jì)算各種情況下的偏差平方和找到的?,F(xiàn)在請(qǐng)同學(xué)們思考一下——
(教師出示問題3:現(xiàn)實(shí)生活中,當(dāng)我們拿到樣本數(shù)據(jù)后,該如何計(jì)算以找到最佳擬合直線的方程,即擬合函數(shù)呢?學(xué)生思考。)
師前面說了,不能用一次函數(shù)模型來表示兒子身高與父親身高兩個(gè)變量之間的關(guān)系,只能用一次函數(shù)模型來刻畫父親身高對(duì)兒子身高的影響,而影響兒子身高的其他因素應(yīng)作為隨機(jī)誤差。我們用x表示父親的身高,Y表示兒子的身高,e表示隨機(jī)誤差。假定隨機(jī)誤差e的均值為0,方差為與父親身高無關(guān)的定值σ2,可以構(gòu)建Y關(guān)于x的線性回歸模型,即Y=bx+a+e,
E(e)=0,D(e)=σ2。其中,父親身高為xi的所有男生的身高組成一個(gè)子總體,該子總體的均值為bxi+a,即該子總體的均值與父親的身高是線性函數(shù)關(guān)系。但當(dāng)一個(gè)男生父親的身高為xi時(shí),這個(gè)男生的身高yi卻不一定為bxi+a,而是該子總體中的一個(gè)觀測(cè)值,這個(gè)觀測(cè)值與均值之間有一個(gè)誤差項(xiàng)|ei|=|yi-(bxi+a)|。誤差項(xiàng)越小,表示樣本數(shù)據(jù)點(diǎn)與直線的豎直距離越小。對(duì)一組真實(shí)的數(shù)據(jù)(xi,yi)(i=1,2,…,n),設(shè)最佳擬合直線的方程為y=bx+a,根據(jù)我們前面討論的尋找最佳擬合直線的方法,即使樣本數(shù)據(jù)點(diǎn)與直線豎直距離的平方和最小,就是要確定什么的值,使什么最小?
生確定a、b的值,使∑ni=1(yi-bxi-a)2的值最小。
師你可以通過數(shù)學(xué)上求二次多項(xiàng)式最小值的方法,確定a、b的值嗎?
(學(xué)生遲疑。)
師注意,這里有很多字母,首先要分清哪些是未知數(shù)或變量、哪些是已知數(shù)或常量。
生a、b是變量,xi、yi是常量。
師所以,這個(gè)式子本質(zhì)上是一個(gè)二元二次多項(xiàng)式。求一元二次多項(xiàng)式,即一元二次函數(shù)的最值,最根本的方法是什么?
生配方法。
師同學(xué)們可以試著求一下a、b分別等于多少時(shí),∑ni=1(yi-bxi-a)2取最小值。實(shí)在求不出來,可以看一看教材第109頁的推導(dǎo)過程。
(學(xué)生活動(dòng)。)
師得到了a、b,也就得到了最佳擬合直線的方程。我們將其稱為Y關(guān)于x的經(jīng)驗(yàn)回歸方程,將相應(yīng)的擬合直線稱為經(jīng)驗(yàn)回歸直線,將這種求經(jīng)驗(yàn)回歸方程的方法叫作最小二乘法。由經(jīng)驗(yàn)回歸方程可以發(fā)現(xiàn),經(jīng)驗(yàn)回歸直線過點(diǎn)(x,y),我們將其稱為樣本中心點(diǎn)。(稍停)再來看前面我們收集的兒子身高與父親身高的14組數(shù)據(jù),利用推導(dǎo)出來的公式可以計(jì)算出其經(jīng)驗(yàn)回歸方程中的a、b分別為多少?
(學(xué)生用電腦程序計(jì)算。)
生b=0.74,a=43.93。
師這和我們剛剛運(yùn)用GeoGebra軟件所求的經(jīng)驗(yàn)回歸方程一致。
(教師出示問題4:請(qǐng)同學(xué)們利用剛剛求出的經(jīng)驗(yàn)回歸方程,求出當(dāng)x=176 時(shí),Y為多少?如果一位父親的身高數(shù)據(jù)是176,那么其兒子的身高數(shù)據(jù)一定為所求的值嗎?)
生Y≈174。兒子的身高不一定為174cm,影響兒子身高的還有諸多其他因素,只是按經(jīng)驗(yàn)來說一般平均為該值,用回歸方程求出來的值為總體中兒子平均身高的估計(jì)值。
師沒錯(cuò)。而且,經(jīng)驗(yàn)回歸方程y=0.74x+43.94的斜率可以解釋為父親的身高每增加1 cm,兒子的身高平均增加0.74 cm。通過對(duì)該模型的分析,還可以發(fā)現(xiàn),高個(gè)子父親有生高個(gè)子兒子的趨勢(shì),但一群高個(gè)子父親的平均身高要高于其兒子的平均身高;矮個(gè)子父親有生矮個(gè)子兒子的趨勢(shì),但一群矮個(gè)子父親的平均身高要低于其兒子的平均身高。英國著名統(tǒng)計(jì)學(xué)家高爾頓把這種后代的身高向中間值靠近的趨勢(shì)稱為“回歸現(xiàn)象”。后來,人們就把用一個(gè)變量的變化去推測(cè)另一個(gè)變量的變化的方法稱為“回歸分析”。(稍停)用最小二乘法求得的經(jīng)驗(yàn)回歸模型擬合效果如何?是否還能進(jìn)行優(yōu)化?請(qǐng)同學(xué)們帶著問題回去思考一下。
二、教學(xué)思考
本節(jié)課基于統(tǒng)計(jì)教學(xué)的“四環(huán)節(jié)”教學(xué)模式,運(yùn)用動(dòng)態(tài)數(shù)學(xué)軟件GeoGebra,讓學(xué)生充分經(jīng)歷了統(tǒng)計(jì)問題解決的數(shù)據(jù)分析過程。課上,教師創(chuàng)設(shè)現(xiàn)實(shí)情境,引導(dǎo)學(xué)生提出問題,進(jìn)而收集真實(shí)數(shù)據(jù),多元分析數(shù)據(jù),充分經(jīng)歷“從猜想到證實(shí)或證偽、從嘗試到確定或否定”的數(shù)學(xué)探究過程,尋找解決問題的方案。
注重信息技術(shù)與數(shù)學(xué)教學(xué)的深度融合是高中數(shù)學(xué)新課標(biāo)理念之一。統(tǒng)計(jì)教學(xué)往往需要收集和分析(包括制表、作圖、計(jì)算以及隨機(jī)模擬等)大量數(shù)據(jù),因此,信息技術(shù)的運(yùn)用顯得尤為重要。本節(jié)課最大的亮點(diǎn)是,教師運(yùn)用GeoGebra軟件的動(dòng)態(tài)作圖和較大規(guī)模計(jì)算功能,讓學(xué)生能夠直觀、便捷地探索“如何找到最佳直線,使樣本數(shù)據(jù)的散點(diǎn)在整體上與此直線最接近”,從而充分經(jīng)歷從實(shí)驗(yàn)發(fā)現(xiàn)到理論推導(dǎo)的數(shù)學(xué)探究過程,對(duì)客觀數(shù)據(jù)中蘊(yùn)含的統(tǒng)計(jì)規(guī)律有從感性到理性的認(rèn)識(shí)與思考,更深刻地理解數(shù)據(jù)分析的內(nèi)涵。
此外,值得一提的是,單純通過實(shí)驗(yàn)探索得到通過豎直距離(偏差)平方和最小尋找最佳擬合直線的方法,說服力還是有些不足的。所以,教學(xué)中,教師在充分放手的基礎(chǔ)上適時(shí)介入,補(bǔ)充了一定的道理,引導(dǎo)學(xué)生得出上述方法。