董世榮
(閩南師范大學外國語言學院,福建漳州 363000)
回歸分析(Regression Analysis)是研究因變量y和自變量x之間數(shù)量變化規(guī)律,并通過一定的數(shù)學表達式來描述這種關(guān)系,進而確定一個或幾個自變量的變化對因變量的影響程度??梢院唵蔚乩斫鉃橛靡环N確定的函數(shù)關(guān)系近似代替比較復雜的相關(guān)關(guān)系,用線性回歸方程來描述其關(guān)系,進而確定一個或幾個變量的變化對另一個變量的影響程度?;貧w分析所研究的主要問題就是如何利用變量x,y的觀察值(樣本),對回歸函數(shù)進行統(tǒng)計推斷,包括對它進行估計及檢驗與其有關(guān)的假設等,從而為預測提供科學依據(jù)。
目前,在外語定量研究中基本都是采用線性回歸方法對兩個變量間相關(guān)性進行研究。簡單線性回歸的原理是基于最小二乘法原則(即保證各實測點至直線的縱向距離的平方和最小)得到回歸系數(shù)R2和回歸直線在Y軸上的截距b[1-4]。本文把SPSS 19.0系統(tǒng)軟件中K-均值聚類分析原理與一元線性回歸原理相結(jié)合,提出一種研究兩個變量間相關(guān)性的新方法。
某校2014級某專業(yè)的學生,共計92人,以其高考總成績與高考英語成績?yōu)檠芯繉ο蟆?/p>
(1)以樣本的高考總成績?yōu)橐蜃兞俊⒏呖加⒄Z成績?yōu)樽宰兞?,對樣本?shù)據(jù)進行一元線性回歸的相關(guān)性研究(以下簡稱方法一)。線性回歸方法在SPSS 19.0統(tǒng)計軟件中的設置方法如下:“Analyze”→“Regression”→“Linear”,從而得到相應的輸出結(jié)果。
(2)結(jié)合K-均值聚類分析、再進行一元線性回歸的相關(guān)性研究方法(以下簡稱方法二):設置聚類數(shù),把高考總成績變量作為被聚對象進行分類并迭代,把若干個最終聚類成績結(jié)果作為Y軸數(shù)據(jù)。再對每個聚類數(shù)內(nèi)的若干個高考英語成績變量取平均值,并將這些均值數(shù)據(jù)作為X軸數(shù)據(jù);然后對這兩列數(shù)據(jù)(X軸和Y軸)進行一元線性回歸處理,從而得到相應的線性方程和線性系數(shù)R2。
將92名學生的高考總成績和高考英語成績進行初步的統(tǒng)計分析,提取各項相關(guān)數(shù)據(jù)制表進行對比,其結(jié)果如表1所示。
表1 兩種成績的描述性分析
由表1數(shù)據(jù)顯示,高考英語成績和高考總成績的標準差分別為13.41和8.746,說明該專業(yè)學生的整體水平差異比英語水平差異相對較小,同時也說明這些學生的英語水平參差不齊,差距較懸殊。另外,高考英語成績與高考總成績Pearson相關(guān)性的雙側(cè)顯著性檢驗結(jié)果p為0.009,小于0.05,應否定零假設,即高考英語成績與高考總成績間不是獨立的,存在著相關(guān)性,Pearson相關(guān)系數(shù)為0.269。
在主菜單欄中按“Analyze”→“Regression”→“Linear”和“Analyze”→“Graphs”→“Scatter”的順序逐一點擊鼠標,并進行相關(guān)設置;對92名學生的高考總成績和高考英語成績進行統(tǒng)計處理,提取出各項相關(guān)數(shù)據(jù),并以高考總成績?yōu)橐蜃兞縴,以高考英語成績?yōu)樽宰兞縳,其線性回歸方程為y=0.173x+491.3。
該線性回歸方程表明:高考英語成績每增加1分,其高考總成績約增加0.173分[4]。該方程中高考總成績與高考英語成績這兩個變量間的相關(guān)系數(shù)R2為0.072,表明這兩個成績變量并不服從正態(tài)分布。
聚類分析又稱群分析,是根據(jù)事物本身的特性研究個體分類的方法。通俗地說,就是指相似元素的集合,因此這種方法也常被稱為逐步聚類分析,即先把被聚對象進行初始分類,然后逐步調(diào)整,得到最終分類。
SPSS軟件中的聚類分析的原理如下:(1)根據(jù)用戶提供的待分析數(shù)據(jù)的分布情況,結(jié)合用戶分析需要所設定的聚類數(shù)目,采用距離最近原則進行分類;(2)逐一計算每一數(shù)據(jù)到各個中心點的距離,最后把各個數(shù)據(jù)按照距離最近的原則歸入各個類別,并計算新形成類別的中心點;(3)再按照新的中心位置,重新計算每一數(shù)據(jù)距離新的類別中心點的距離,并重新進行迭代收斂,直到達到一定的收斂標準并形成最終的聚類中心。
(1)在SPSS 19.0主菜單中按“Analyze”→“Classify”→“K-Means Cluster”的順序逐一單擊鼠標鍵,打開快速聚類主對話框。然后分別把高考總成績變量移入“Variables”中,把高考英語成績變量移入“Label Cases by”中。在“Number of Clusters”中,根據(jù)分析設置需要,填入相應的聚類分類數(shù)。其他的采用系統(tǒng)默認設置。
(2)在主對話框中分別打開“Save New Variables”和“Option”對話框,然后勾選“Cluser membership”及“Initial cluster centers,Cluster information for each case”選項,其他的按照默認設置即可。
(3)提取SPSS輸出結(jié)果中Final Cluster Centers的高考總成績數(shù)據(jù)于新建的Excel文件中,并作為Y軸數(shù)據(jù);提取SPSS輸出結(jié)果的Report中Mean數(shù)據(jù)(高考英語成績),作為X軸數(shù)據(jù);然后再將X軸與Y軸數(shù)據(jù)進行擬合直線作圖,從而得到線性方程和線性系數(shù)R2。
(4)改變步驟(1)中Number of Clusters的數(shù)值,進行類似操作,得到不同聚類數(shù)時高考總成績和高考英語成績間的線性方程和線性系數(shù)R2(表2),并將聚類數(shù)m與線性系數(shù)R2進行作圖(圖1)。
表2 不同聚類數(shù)與線性方程及線性系數(shù)之間的變化關(guān)系
由表2數(shù)據(jù)顯示,隨著聚類數(shù)的不斷增多,其相關(guān)系數(shù)的值也逐漸增大。當聚類數(shù)為6時,線性系數(shù)為0.875。然后隨著聚類數(shù)增大,其線性系數(shù)又逐漸降低。但聚類數(shù)并不能無限增大,當聚類數(shù)超過高考總成績的數(shù)量時,無法得到線性系數(shù),例如這92位同學的高考總成績分別為35個不同數(shù)值,則聚類數(shù)不能超過35,否則該方法無法使用。
表3 高考英語成績的正態(tài)分布分析
表4 兩種方法在進行兩變量間相關(guān)性分析時的差異對比
注:*實際高考總成績:某一指定的高考英語成績對應的若干個實際的高考總績??赡艿母呖伎偝煽?1):指定某一英語成績,采用方法一得到的高考總成績。可能的高考總成績(2):指定某一英語成績,采用方法二得到的高考總成績(6次和30次分別為聚類數(shù),進一步對比不同聚類數(shù)在相關(guān)性分析中的差異性)。
對圖3的研究結(jié)果表明:(1)以實際的高考總成績的標準差為對照線(a線),當采用方法一(b線)進行相關(guān)性研究時,其在大于52%區(qū)域(圖3中CD段區(qū)域)和小于3%區(qū)域(圖3中AB段區(qū)域),離a線較近,表明采用線性回歸(方法一)得到的高考總成績與實際高考總成績的偏差較小,即該方法在兩變量間相關(guān)性分析時能夠得到較合理的分析結(jié)果。(2)以實際的高考總成績的標準差為對照線(a線),當采用方法二(c線和d線)進行相關(guān)性研究時,其在正態(tài)分布的3%~52%區(qū)域(圖3中BC和CD段區(qū)域),c線與a線的距離及d線與a線的距離均小于b線與a線的距離。這表明采用結(jié)合聚類分析的線性回歸法(方法二)得到的高考總成績與實際高考總成績的偏差較小,即該方法在兩變量間相關(guān)性分析時能夠得到較合理的分析結(jié)果。同時,不同的聚類數(shù)會對相關(guān)性分析結(jié)果造成一定影響。
本文將某校2014級某專業(yè)學生的高考總成績及高考英語成績作為研究對象,分析了學生高考英語成績及高考總成績的相關(guān)性。研究結(jié)果表明,該專業(yè)學生的高考總成績差異幅度比英語成績差異幅度要小,英語水平總體參差不齊,差距較懸殊。
分別采用方法一和方法二對學生的高考英語成績及高考總成績的相關(guān)性進行分析。在高考英語成績的不同分布階段,兩個方法各自有優(yōu)缺點。因此,為了達到較高的合理性或準確性,當樣本數(shù)據(jù)分布比較接近正態(tài)分布時,應采用一元線性回歸法(方法一)進行兩變量間相關(guān)性分析;當樣本數(shù)據(jù)分布比較偏離正態(tài)分布時,應采用結(jié)合聚類分析的一元線性回歸法(方法二)進行兩變量間相關(guān)性分析。