張唯一
摘要: 用統(tǒng)計(jì)軟件處理數(shù)據(jù)已成為統(tǒng)計(jì)學(xué)習(xí)的必要組成部分。統(tǒng)計(jì)圖的繪制和統(tǒng)計(jì)量的計(jì)算是統(tǒng)計(jì)建模難點(diǎn)。以高中數(shù)學(xué)一元線性回歸建模為例,教師設(shè)置定量探究不同因素對PM2.5濃度的影響這一問題情境,利用數(shù)學(xué)教學(xué)軟件GeoGebra,指導(dǎo)學(xué)生繪制散點(diǎn)圖,計(jì)算回歸方程,對回歸模型擬合并作效果評估,不僅能將學(xué)生從制圖和計(jì)算中解放出來,高效開展建模活動,而且有利于調(diào)動學(xué)生在實(shí)際中使用統(tǒng)計(jì)方法的積極性。
關(guān)鍵詞:一元線性回歸模型;散點(diǎn)圖;GeoGebra;統(tǒng)計(jì)建模
統(tǒng)計(jì)學(xué)是采用收集數(shù)據(jù)、分析數(shù)據(jù)等手段來認(rèn)識未知現(xiàn)象的一門科學(xué)。用統(tǒng)計(jì)方法解決實(shí)際問題,必然涉及數(shù)據(jù)處理問題。當(dāng)數(shù)據(jù)量大時(shí),純粹依靠紙筆計(jì)算,數(shù)據(jù)處理的工作量是非常大的,以致很多統(tǒng)計(jì)方法難以應(yīng)用。隨著計(jì)算機(jī)技術(shù)的發(fā)展,各種專業(yè)統(tǒng)計(jì)軟件被開發(fā)出來,處理大量數(shù)據(jù)不再困難,這大大促進(jìn)了統(tǒng)計(jì)方法的應(yīng)用和統(tǒng)計(jì)學(xué)的發(fā)展。當(dāng)今,用統(tǒng)計(jì)軟件處理數(shù)據(jù)已成為統(tǒng)計(jì)學(xué)習(xí)的必要組成部分。在高中數(shù)學(xué)課程中,《普通高中數(shù)學(xué)課程標(biāo)準(zhǔn)(2017年版)》對統(tǒng)計(jì)中使用信息技術(shù)提出要求 :對于必修課程的一維數(shù)據(jù),“可以鼓勵學(xué)生盡可能運(yùn)用計(jì)算器、計(jì)算機(jī)進(jìn)行模擬活動,處理數(shù)據(jù)”;對于選擇性必修課程的成對數(shù)據(jù),明確要求“會使用統(tǒng)計(jì)軟件進(jìn)行數(shù)據(jù)分析”。
如何根據(jù)隨機(jī)性數(shù)據(jù)推斷變量之間關(guān)系?建立統(tǒng)計(jì)模型是解決這類問題的常用方法。開展有效的統(tǒng)計(jì)建?;顒?,是應(yīng)用統(tǒng)計(jì)知識解決實(shí)際問題的必經(jīng)過程。在解決實(shí)際問題的過程中數(shù)據(jù)處理量較大,學(xué)生學(xué)會借助信息技術(shù)工具處理數(shù)據(jù)對于高效建模非常重要。下面結(jié)合人教A版《普通高中教科書數(shù)學(xué)選擇性必修第三冊》“建立統(tǒng)計(jì)模型進(jìn)行預(yù)測”中,定量探究不同因素對PM2.5濃度的影響這個案例,介紹在回歸分析中建模的過程與方法,以及信息技術(shù)的應(yīng)用要領(lǐng)。此案例收集了24個監(jiān)測點(diǎn)汽車流量、平均氣溫、空氣濕度、風(fēng)速、PM2.5濃度等數(shù)據(jù),因?yàn)椴挥绊懞罄m(xù)行文,這里不再呈現(xiàn)。教科書采用的信息技術(shù)是R語言,借助編程實(shí)現(xiàn)統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖。為了降低使用信息技術(shù)的難度,這里采用操作相對容易的數(shù)學(xué)教學(xué)軟件GeoGebra(以下簡稱“GGB軟件”)。
一、利用散點(diǎn)圖觀察變量之間的關(guān)系
顯然探究不同因素對PM2.5濃度的影響,是一個研究變量之間關(guān)系的問題。為了初步了解數(shù)據(jù)分布的特征,對數(shù)據(jù)進(jìn)行可視化表示是統(tǒng)計(jì)中常用且有效的手段。對數(shù)據(jù)進(jìn)行可視化表示,不僅可以直觀判斷變量之間的關(guān)系,而且可以為后續(xù)進(jìn)一步開展定量研究提供思路和方向上的指引。學(xué)生利用軟件畫圖不僅速度快,省時(shí)、省力,而且標(biāo)準(zhǔn)、美觀,有利于更好地觀察數(shù)據(jù)的特征。
為了簡單起見,我們研究PM2.5濃度與汽車流量兩個變量之間的關(guān)系。首先判斷兩個變量有沒有關(guān)系,若有關(guān)系是什么關(guān)系。觀察兩個定量變量的成對觀測數(shù)據(jù)分布特征,最常用的是散點(diǎn)圖。散點(diǎn)圖的繪制可以由GGB軟件完成。學(xué)生將PM2.5濃度與汽車流量數(shù)據(jù)輸入軟件的表格區(qū)(見表1),選中兩列數(shù)據(jù)(B2:C25),點(diǎn)擊工具欄中“雙變量回歸分析”,即可得到以汽車流量為橫軸、PM2.5濃度為縱軸的散點(diǎn)圖(如圖1)。
如何利用散點(diǎn)分布的特征尋找兩個變量之間關(guān)系?觀察散點(diǎn)圖,可以發(fā)現(xiàn):PM2.5濃度隨汽車流量的增加呈增長趨勢,但汽車流量增加對應(yīng)的PM2.5濃度并不一定增加,甚至還有個別汽車流量相同而對應(yīng)的PM2.5濃度不同的情況。由此判斷兩個變量不是函數(shù)關(guān)系,而是相關(guān)關(guān)系。
二、借助一元線性回歸模型刻畫變量之間的關(guān)系
可以看到,參數(shù)估計(jì)的計(jì)算量較大,當(dāng)數(shù)據(jù)量大時(shí)更是如此。利用GGB軟件計(jì)算時(shí),只需要操作鼠標(biāo),就可以得到回歸方程并進(jìn)行預(yù)測。軟件計(jì)算不僅速度快,而且準(zhǔn)確度高。
在圖1界面的左下角,選擇回歸模型為“線性”,可得到回歸方程y=138.597 6x-99.688 4,以及其對應(yīng)的直線(如圖2)。學(xué)生根據(jù)此回歸方程進(jìn)行預(yù)測:只要在左下角空白框中輸入汽車流量的值,就可得到對應(yīng)的平均PM2.5濃度。
三、對模型的擬合效果進(jìn)行評估
評估模型的擬合效果,是統(tǒng)計(jì)建模的重要環(huán)節(jié)。在高中,模型的擬合效果主要是根據(jù)R2的大小和殘差圖散點(diǎn)的分布進(jìn)行評估。相關(guān)計(jì)算和繪圖可以由GGB軟件完成。
對于上述一元線性回歸模型的擬合效果,在圖2界面中,左上角點(diǎn)擊“∑x”(顯示統(tǒng)計(jì)),可得到R2為0.672 5(如圖3);在左上角選擇“殘差圖”,可得到殘差圖(如圖4)。由R2可知模型擬合的效果一般,還有改進(jìn)的空間。觀察殘差圖發(fā)現(xiàn),殘差在汽車流量不同取值時(shí)不是一個常數(shù),而是隨著汽車流量的增加而增加,這說明回歸模型中對于隨機(jī)誤差的方差假定(D(e)=σ2)不合理。
雖然學(xué)生在高中階段只學(xué)習(xí)一元線性回歸模型,但利用GGB軟件,還可以嘗試用不同的回歸模型擬合數(shù)據(jù)。只要在圖2界面的左下角,選擇其他類型的回歸模型,如“對數(shù)”“多項(xiàng)式”“冪”等,就可以快捷得到不同的經(jīng)驗(yàn)方程的曲線,以及R2和殘差圖。學(xué)生可以比較不同模型的R2和殘差圖,將擬合效果相對好的作為最終選擇的回歸模型。
上述案例證明,在信息技術(shù)輔助下作回歸分析,學(xué)生可以完整參與統(tǒng)計(jì)建?;顒?。從數(shù)據(jù)直觀表示到建立模型再到預(yù)測,中學(xué)涉及的所有建模過程都可以在GGB軟件中完成,這個過程在統(tǒng)計(jì)建模中具有一般性。事實(shí)上,各種統(tǒng)計(jì)方法在統(tǒng)計(jì)軟件中都可以找到相應(yīng)的實(shí)現(xiàn)功能。從應(yīng)用統(tǒng)計(jì)方法角度看,重要的是數(shù)據(jù)分析的思路,學(xué)生要學(xué)會選用合適的統(tǒng)計(jì)方法,并對統(tǒng)計(jì)的結(jié)果作合理的解釋,而統(tǒng)計(jì)制圖和統(tǒng)計(jì)計(jì)算工作可以交給統(tǒng)計(jì)軟件完成。
在高中數(shù)學(xué)統(tǒng)計(jì)建?;顒又校處熀侠硎褂媒y(tǒng)計(jì)軟件對教學(xué)大有裨益:不僅將學(xué)生從機(jī)械、煩瑣的數(shù)據(jù)處理中解放出來,專注于尋找數(shù)據(jù)分析思路、選擇統(tǒng)計(jì)方法、解釋結(jié)果等創(chuàng)造性工作,使活動順利開展,而且降低實(shí)際問題中使用統(tǒng)計(jì)方法的難度,提高其主動使用統(tǒng)計(jì)方法解決實(shí)際問題的積極性。
(作者系人民教育出版社中學(xué)數(shù)學(xué)編輯室副主任、副編審)
責(zé)任編輯:祝元志