[摘? ? ? ? ? ?要]? 相關(guān)分析與回歸分析是統(tǒng)計(jì)學(xué)中重要的概念,在二者的知識(shí)體系中涉及很多關(guān)聯(lián)性問題,如相關(guān)分析與回歸分析、相關(guān)關(guān)系與函數(shù)關(guān)系、相關(guān)系數(shù)與估計(jì)誤差、線性回歸與曲線回歸、真實(shí)相關(guān)與虛假相關(guān)等。從上述五組關(guān)聯(lián)性問題的各自概念入手,解剖了它們之間的內(nèi)在關(guān)聯(lián)性,即內(nèi)在聯(lián)系與區(qū)別,從數(shù)學(xué)本質(zhì)上認(rèn)識(shí)了它們之間的對(duì)立統(tǒng)一性,對(duì)深刻理解相關(guān)與回歸分析提供幫助。同時(shí),站在課程思政角度,指出關(guān)聯(lián)性分析所蘊(yùn)含的思政價(jià)值。
[關(guān)? ? 鍵? ?詞]? 統(tǒng)計(jì);相關(guān);回歸;關(guān)聯(lián)
[中圖分類號(hào)]? C81? ? ? ? ? ? ? ? ? ? ? [文獻(xiàn)標(biāo)志碼]? A? ? ? ? ? ? ? ? ? [文章編號(hào)]? 2096-0603(2022)21-0097-03
相關(guān)與回歸分析提供了研究相關(guān)關(guān)系的方法,在相關(guān)與回歸分析知識(shí)體系中,存在很多值得研究的關(guān)聯(lián)性問題,這些關(guān)聯(lián)性問題中也不乏思政話題。
一、相關(guān)分析與回歸分析
(一)相關(guān)分析與回歸分析的概念
相關(guān)關(guān)系的分析方法主要有兩種:相關(guān)分析和回歸分析。
相關(guān)分析,是對(duì)現(xiàn)象之間數(shù)量關(guān)系的分析研究,目的在于探討變量之間相互關(guān)系的密切程度及其變化規(guī)律,以便作出準(zhǔn)確的判斷,對(duì)其進(jìn)行必要的預(yù)測(cè)和控制。
相關(guān)分析的基本步驟:(1)繪制散點(diǎn)圖。觀察變量間是否呈規(guī)律變化。(2)選擇系數(shù)類別。根據(jù)變量類型或數(shù)據(jù)的正態(tài)性檢驗(yàn),選擇合適的相關(guān)系數(shù)公式。(3)檢驗(yàn)異常值。對(duì)于出現(xiàn)的異常值,要充分考慮它存在的合理性,如果經(jīng)分析,異常值不適合存在,檢測(cè)前應(yīng)把異常值清除,以便保證數(shù)據(jù)的穩(wěn)定性。(4)計(jì)算相關(guān)系數(shù)。計(jì)算相關(guān)系數(shù)r,評(píng)估相關(guān)程度。(5)顯著性檢驗(yàn)。由于r一般是從樣本數(shù)據(jù)得來的,不保證可靠,會(huì)存在隨機(jī)性的抽樣誤差,因此對(duì)相關(guān)系數(shù)r需進(jìn)行顯著性檢驗(yàn)。(6)得出相關(guān)結(jié)論。根據(jù)以上分析,得出變量之間的相關(guān)程度的結(jié)論。
回歸分析就是依據(jù)相關(guān)分析得出的結(jié)論,確定回歸模型(即數(shù)學(xué)方程)描繪變量間的相關(guān)關(guān)系,以便進(jìn)行估計(jì)或預(yù)測(cè)的統(tǒng)計(jì)方法。
回歸分析的基本步驟:(1)確定變量。首先根據(jù)對(duì)問題的分析判斷,將變量分為自變量和因變量。(2)建立回歸模型。依據(jù)自變量和因變量的統(tǒng)計(jì)資料,建立數(shù)學(xué)方程式,即回歸模型,描述變量間的關(guān)系。(3)對(duì)回歸模型統(tǒng)計(jì)檢驗(yàn)。由于涉及的變量具有不確定性,還要對(duì)回歸模型進(jìn)行檢驗(yàn)?;貧w模型只有通過各種檢驗(yàn),且預(yù)測(cè)誤差較小,才能用回歸模型進(jìn)行預(yù)測(cè)。(4)確定預(yù)測(cè)值。對(duì)獲得檢驗(yàn)通過的回歸模型,用自變量的取值來估計(jì)或預(yù)測(cè)因變量取值。
相關(guān)分析與回歸分析的區(qū)別:相關(guān)分析側(cè)重研究變量間的相關(guān)性;回歸分析側(cè)重于研究變量間的回歸模型,以便運(yùn)用模型進(jìn)行預(yù)測(cè)。
(二)相關(guān)分析與回歸分析的關(guān)聯(lián)性
一般來說,相關(guān)分析與回歸分析是相關(guān)關(guān)系分析中整個(gè)完整過程的兩個(gè)階段,相關(guān)分析是回歸分析的前提和基礎(chǔ),回歸分析則是相關(guān)分析的深入和繼續(xù),只有當(dāng)變量之間存在高度相關(guān)時(shí),進(jìn)行回歸分析才有意義。
相關(guān)分析中,各變量均是隨機(jī)變量,變量間處于平等地位,他們之間的關(guān)系類似于方程關(guān)系。而回歸分析中,明確了自變量和因變量,自變量可以是確定性變量,因變量處于被解釋的地位,它們之間的關(guān)系類似于函數(shù)關(guān)系。
教科書中習(xí)慣把相關(guān)分析與回歸分析分開論述,但實(shí)際上二者互相補(bǔ)充構(gòu)成了相關(guān)關(guān)系研究的一個(gè)整體。因此只有把二者結(jié)合起來,往往才能達(dá)到研究的目的。
通過相關(guān)分析與回歸分析的關(guān)聯(lián)性學(xué)習(xí),可培育學(xué)生科學(xué)把握事物之間聯(lián)系的思維,同時(shí)堅(jiān)持一分為二看問題的思維習(xí)慣。
二、相關(guān)關(guān)系與函數(shù)關(guān)系
(一)相關(guān)關(guān)系與函數(shù)關(guān)系的概念
客觀現(xiàn)象之間的關(guān)系可分為兩類:一是函數(shù)關(guān)系,二是相關(guān)關(guān)系。
函數(shù)關(guān)系是指現(xiàn)象之間是一種確定性的數(shù)量依存關(guān)系,表現(xiàn)為某一變量發(fā)生變化另一變量有確定的數(shù)值與之對(duì)應(yīng)。如,正方形的面積與邊長(zhǎng)之間就是函數(shù)關(guān)系。
相關(guān)關(guān)系是客觀現(xiàn)象存在的一種非確定的相互依存關(guān)系,表現(xiàn)為某一變量發(fā)生變化另一變量也發(fā)生變化,但變化的數(shù)值是不確定的。如價(jià)格與銷售量、廣告費(fèi)投入與廣告收益等都屬于相關(guān)關(guān)系。相關(guān)關(guān)系可分為一元相關(guān)(單相關(guān))和多元相關(guān)(復(fù)相關(guān))、線性相關(guān)和非線性相關(guān)、正相關(guān)和負(fù)相關(guān)。相關(guān)關(guān)系覆蓋了我們生活的全部,它符合世界是普遍聯(lián)系的觀點(diǎn)。
(二)相關(guān)關(guān)系與函數(shù)關(guān)系的關(guān)聯(lián)性
相關(guān)關(guān)系與函數(shù)關(guān)系具有數(shù)學(xué)意義下的內(nèi)在的關(guān)聯(lián)性。看下面的多元函數(shù):
y=f(x1,x2,…,xn),(x1,x2,…,xn)∈D? ? (1)
上面的多元函數(shù)(n≥2)中,如果某些自變量缺失,那么其余變量與y之間便構(gòu)成相關(guān)關(guān)系。(1)式中,不妨設(shè)剩余變量為x1,x2,…,xr(r<n)相關(guān)關(guān)系用f來表示,那么此時(shí)相關(guān)關(guān)系可以表示為y=f(x1,x2,…,xr),當(dāng)r=1時(shí)為一元相關(guān),當(dāng)r≥2時(shí)為多元相關(guān)。類似地,可以定義多個(gè)因變量與自變量之間的相關(guān)關(guān)系。
從數(shù)學(xué)意義上說,相關(guān)關(guān)系與函數(shù)關(guān)系是一個(gè)問題的兩個(gè)方面。由于我們?nèi)狈?duì)世界的真正認(rèn)識(shí)以及研究工具的不足,客觀世界的很多現(xiàn)象之間很難確定出準(zhǔn)確的函數(shù)關(guān)系。因而函數(shù)關(guān)系往往僅是一種理想狀態(tài),而研究變量之間的相關(guān)關(guān)系成為一種可能。隨著相關(guān)關(guān)系研究的深入,相關(guān)關(guān)系的極限目標(biāo)就是函數(shù)關(guān)系。
相關(guān)關(guān)系與函數(shù)關(guān)系的關(guān)聯(lián)性分析,其思政價(jià)值是能讓學(xué)生進(jìn)一步理解世界是普遍聯(lián)系的觀點(diǎn),以及普遍性與特殊性、理想與現(xiàn)實(shí)等的辯證關(guān)系。
三、相關(guān)系數(shù)與估計(jì)誤差
(一)相關(guān)系數(shù)與估計(jì)誤差的概念
相關(guān)系數(shù)是用量化的方式描繪線性相關(guān)條件下變量之間相關(guān)關(guān)系密切程度的指標(biāo)。相關(guān)系數(shù)有很多種,不同的數(shù)據(jù)特征和分析需求會(huì)選擇不同的相關(guān)系數(shù)。這里所指的相關(guān)系數(shù)是應(yīng)用最廣泛的皮爾遜相關(guān)系數(shù)。
相關(guān)系數(shù)公式與方差,兩者均來自協(xié)方差。協(xié)方差用于衡量?jī)蓚€(gè)變量的總體誤差,協(xié)方差的計(jì)算公式為:
式中:σx為變量x的標(biāo)準(zhǔn)差;σy為變量y的標(biāo)準(zhǔn)差。
估計(jì)誤差,本文特指估計(jì)標(biāo)準(zhǔn)誤差。估計(jì)標(biāo)準(zhǔn)誤差,它是說明實(shí)際值與其估計(jì)值之間相對(duì)偏離程度的指標(biāo),主要用來衡量回歸方程的代表性。
估計(jì)標(biāo)準(zhǔn)誤差可從另一角度顯示回歸模型擬合的優(yōu)劣狀況。估計(jì)標(biāo)準(zhǔn)誤差越小,表明模型擬合越好。反之,正好相反。
(二)相關(guān)系數(shù)與估計(jì)誤差的關(guān)聯(lián)性
相關(guān)系數(shù)和估計(jì)標(biāo)準(zhǔn)誤差從公式設(shè)計(jì)的結(jié)構(gòu)及推理上,均體現(xiàn)了二者之間的關(guān)聯(lián)性。當(dāng)n充分大時(shí),相關(guān)系數(shù)與估計(jì)標(biāo)準(zhǔn)誤差在數(shù)值上存在推理關(guān)系。即
從以上推算公式可知,相關(guān)系數(shù)越大,對(duì)應(yīng)估計(jì)標(biāo)準(zhǔn)誤差的值越小,回歸直線的代表性越好。反之,正好相反。
相關(guān)系數(shù)與估計(jì)誤差的關(guān)聯(lián)性,一方面使學(xué)生認(rèn)識(shí)到回歸分析涉及誤差問題的重要性,另一方面其思政價(jià)值在于培育學(xué)生對(duì)數(shù)學(xué)本質(zhì)的洞察力和科學(xué)探索精神。
四、線性回歸與曲線回歸
(一)線性回歸與曲線回歸的概念
線性回歸是當(dāng)兩變量的增量按一定比例變化,或者說兩個(gè)變量增長(zhǎng)率為常數(shù)時(shí),就認(rèn)為兩個(gè)變量符合線性關(guān)系,可建立線性回歸方程。
曲線回歸是兩變量的增量不按一定比例變化,即兩變量屬于非線性關(guān)系的變量,這時(shí)的回歸就是曲線回歸。曲線回歸是為了彌補(bǔ)普通線性回歸不擅長(zhǎng)處理非線性問題而設(shè)計(jì)的,它給自變量加上一些適合當(dāng)前問題的非線性特征(比如指數(shù)等),讓模型可以更好地?cái)M合當(dāng)前非線性問題。
統(tǒng)計(jì)學(xué)具有過程導(dǎo)向性,需要每一步都要滿足相應(yīng)的數(shù)學(xué)邏輯。不管哪種回歸,分析的時(shí)候需要關(guān)注假設(shè)條件是否滿足、模型擬合是否達(dá)標(biāo)、參數(shù)是否顯著、自變量之間是否存在多重共線性等問題。
(二)線性回歸與曲線回歸的關(guān)聯(lián)性
在線性回歸中,數(shù)據(jù)使用線性預(yù)測(cè)函數(shù)來建模,并且未知的模型參數(shù)也是通過數(shù)據(jù)來估計(jì),這些模型被稱為線性模型。對(duì)于一些可線性化的曲線類型,可通過變換等方法轉(zhuǎn)化為線性模型,利用線性回歸的方法求出相應(yīng)的回歸方程。
例如,經(jīng)過散點(diǎn)圖觀察,一組數(shù)據(jù)的兩個(gè)變量符合指數(shù)類函數(shù)曲線:y=aebx(a,b∈R,a>0)
對(duì)方程兩邊取對(duì)數(shù),得lny=lna+bx令y′=lny?圯y′=lna+bx.即化為了一元線性方程的形式,然后利用公式計(jì)算出lna與b的值,再把最后a和b的值代入所設(shè)方程。
可見,上述幾種類型的曲線,都可通過變換將曲線回歸轉(zhuǎn)化為線性回歸來解決。
線性回歸與曲線回歸的關(guān)聯(lián)性,體現(xiàn)復(fù)雜問題簡(jiǎn)單化,用簡(jiǎn)單定義復(fù)雜。其思政價(jià)值在于教學(xué)中深入解讀這一科學(xué)方法,培育學(xué)生的科學(xué)思維。
五、真實(shí)相關(guān)與虛假相關(guān)
(一)真實(shí)相關(guān)與虛假相關(guān)的概念
回歸分析的目的是為了找到自變量和因變量之間的相關(guān)性,這種相關(guān)變量之間如果確實(shí)存在一定的“因果關(guān)系”,并具有研究意義,這樣的相關(guān)就是真實(shí)相關(guān)。
虛假相關(guān),也稱偽相關(guān),它指的是自變量和因變量之間本來沒有任何現(xiàn)實(shí)的邏輯關(guān)系,但由于某種原因,相關(guān)分析卻顯示出它們之間存在統(tǒng)計(jì)意義上的相關(guān)性,讓人錯(cuò)誤地認(rèn)為兩者之間有關(guān)聯(lián),這種相關(guān)就是虛假相關(guān)。虛假相關(guān),在生活中隨處可見。
例:冰淇淋銷量和溺水兒童數(shù)。某個(gè)夏天,人們發(fā)現(xiàn)鎮(zhèn)上的冰淇淋銷量和溺水兒童數(shù)量同步上升,進(jìn)而拿冰淇淋銷量對(duì)溺水兒童數(shù)量進(jìn)行相關(guān)分析,得到的結(jié)論是二者相關(guān)。但其真實(shí)的原因是夏天高溫的天氣,同時(shí)引起兩者數(shù)量的增長(zhǎng)。
虛假相關(guān)的成因一般有兩個(gè):一個(gè)是存在第三變量(干擾因素)同時(shí)對(duì)這兩個(gè)事件造成影響。例子1中夏天炎熱的高溫是引起虛假相關(guān)的第三變量。虛假相關(guān)的另一個(gè)成因是純屬巧合,如例子2,不受第三方干預(yù)的兩個(gè)獨(dú)立個(gè)體產(chǎn)生相關(guān)巧合。
(二)真實(shí)相關(guān)與虛假相關(guān)的關(guān)聯(lián)性
真實(shí)相關(guān)與虛假相關(guān)在數(shù)據(jù)上都滿足相關(guān)的條件,而虛假相關(guān)雖有數(shù)據(jù)支撐,但缺乏數(shù)據(jù)之外的邏輯支撐。
當(dāng)變量A和B相關(guān)時(shí),有以下三種可能:(1)A導(dǎo)致B,或B導(dǎo)致A。A和B真實(shí)相關(guān),二者有邏輯關(guān)系;(2)C導(dǎo)致A,C導(dǎo)致B,共同干擾因素C引起A和B虛假相關(guān),A與B沒有邏輯關(guān)系;(3)D導(dǎo)致A,E導(dǎo)致B,兩個(gè)獨(dú)立因素D和E引起A與B的虛假相關(guān),A與B沒有邏輯關(guān)系。
虛假相關(guān)需要通過某種手段檢測(cè)分辨。如設(shè)計(jì)檢測(cè)“X→Y”的相關(guān)關(guān)系,則下列三個(gè)條件都成立,才可得出X與Y相關(guān):(1)X發(fā)生在Y之前;(2)若X不發(fā)生則Y也不發(fā)生;(3)若X發(fā)生則Y一定發(fā)生。如“汽車行駛的速度與剎車距離”滿足上面三個(gè)條件,二者相關(guān)?!袄滹嫷匿N量與泳池溺水的人數(shù)”不滿足上面三個(gè)條件,無(wú)法確認(rèn)二者相關(guān)。
虛假相關(guān)是有危害的,但也不能一概而論,如果相關(guān)因?yàn)榈谌兞浚ǔ梢蛞唬┮?,那么這種相關(guān)可能是有用的。原因很簡(jiǎn)單,很多情況我們無(wú)法追根溯源,無(wú)法依靠純粹的“因果推斷”,這時(shí)通過間接手段獲取信息就是有價(jià)值的。還拿冰淇淋例子來說,假設(shè)我們無(wú)法得到任何季節(jié)或氣溫等信息,那么僅靠冰淇淋的銷售數(shù)同樣可以推斷溺亡人數(shù)的趨勢(shì)。
實(shí)際中,因相關(guān)與回歸分析關(guān)乎數(shù)據(jù)的來源與數(shù)量的多少、模型的選擇,以及計(jì)算的精準(zhǔn)度等因素,都可能產(chǎn)生虛假相關(guān),因此需采取綜合方法研究。
在數(shù)據(jù)泛濫的當(dāng)今時(shí)代,真實(shí)相關(guān)與虛假相關(guān)的問題提示我們:要相信數(shù)據(jù)但不能迷信數(shù)據(jù),特別是一些缺乏論證的數(shù)據(jù),對(duì)其可靠性我們要善于提出質(zhì)疑。課堂上,圍繞這一點(diǎn)要啟發(fā)學(xué)生善于明辨是非,樹立嚴(yán)謹(jǐn)、求實(shí)的科學(xué)態(tài)度。
六、結(jié)語(yǔ)
統(tǒng)計(jì)學(xué)相關(guān)與回歸分析知識(shí)體系中,關(guān)聯(lián)性問題很多,他們具有數(shù)學(xué)本質(zhì)的一致性。關(guān)聯(lián)性問題的研究有助于發(fā)現(xiàn)事物之間的內(nèi)在聯(lián)系,把復(fù)雜問題簡(jiǎn)單化。同時(shí),關(guān)聯(lián)性分析,又可以為我們課程思政找到更多資源。
參考文獻(xiàn):
[1]宋立新.概率論與數(shù)理統(tǒng)計(jì)[M].北京:人民教育出版社,2003.
[2]王孝玲.教育統(tǒng)計(jì)學(xué)[M].上海:華東師范大學(xué)出版社,2001.
[3]劉宏偉.統(tǒng)計(jì)學(xué)原理[M].北京:中國(guó)傳媒大學(xué)出版社,2008.
[4]趙海榮.統(tǒng)計(jì)學(xué)基礎(chǔ)[M].北京:教育科學(xué)出版社,2018.
[5]劉澤.統(tǒng)計(jì)學(xué)基礎(chǔ)[M].北京:人民郵電出版社,2017.
◎編輯 馬花萍
作者簡(jiǎn)介:宋斌(1968—),男,漢族,黑龍江五常人,教育碩士,副教授,研究方向:經(jīng)濟(jì)數(shù)學(xué)、統(tǒng)計(jì)學(xué)和橋牌。