劉佳佳 劉志杰
摘要:介紹了統(tǒng)計分析方法中的主成分分析法,對考生考試成績數(shù)據(jù)利用matlab軟件進行了主成分分析,得出了數(shù)據(jù)的主成分和綜合評價函數(shù), 并結合學生成績進行分析,了解到了每個考生在數(shù)學學科學習上有哪些優(yōu)勢和不足,從而為改善學習方法和提高學習成績方面的提供重要參考。
關鍵詞:主成分分析;考生考試數(shù)據(jù);matlab軟件
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2015)01-0010-05
Principal Component Analysis of Test Data Based on Matlab
LIU jia-jia, LIU Zhi-jie
(Guizhou Normal University & Laboratory of Information and Computation Science Guizhou Provience, Guiyang 55001, China)
Abstract:This paper introduces the methods of principal component analysis of multivariate statistical analysis method, and use matlab to conduct the principal component analysis on student achievement, concluded that principal components and the comprehensive evaluation function of the data, , and combining the students' test scores to analyze, in order to understand the advantages and disadvantages of each of the students in the subject, as an important reference to improve the learning methods and enhance academic performance indicators.
Key words:principal component analysis; test data of student;Matlab software
1 概述
考試是用來教學評價和檢查考生學習情況的基本手段,但每一次考試帶給我們的信息,絕不僅僅是每個考生的具體得了多少分數(shù)。其實我們還可以了解到更多考生的學習情況,那么我們就需要對批改試卷產生的數(shù)據(jù)進行統(tǒng)計分析,根據(jù)分析結果得到的結論,能夠為教學和學習提供參考,從而能不斷改進我們教學和學習工作。
對試卷進行統(tǒng)計分析時,我們會發(fā)現(xiàn)試卷各試題之問往往存在一定的相關性,即有些題目考察了相似的知識點和考點,對得到的數(shù)據(jù)不進行任何處理就進行分析,勢必會把試卷分析的變得復雜化.就不容易抓住數(shù)據(jù)的主要規(guī)律并對事物的性質做出準確的評價。因此,我們需要把原來的指標轉化為一個或少數(shù)幾個互相獨立的綜合指標來達到分析的目的。該文講的主成分分析法就是能達到這種目的的統(tǒng)計分析方法。
2 主成分分析的基本原理
2.1 主成分分析的基本思想[1]
主成分分析首先是Hotelling于1933年時提出的。主成分分析是一種利用數(shù)學思想達到降低維數(shù)的統(tǒng)計方法,即通過找出幾個綜合指標來代替眾多的原始指標, 并盡可能多的反映原始數(shù)據(jù)所提供的信息量,而且彼此之間相互獨立。主成分分析所要做的內容就是要設法把原來具有一定相關性的眾多變量,重新組合成一組新的相互獨立的綜合變量來代替原來變量,通常數(shù)學上的處理方法就是將原來的變量做線性組合,作為新的綜合變量,但這種組合如果不加以限制,就會有很多情況,那么我們如何選擇呢?如果將選取的第一個線性組合作為第一個綜合變量記為[F1],那么我們自然希望它能盡可能地反應原來變量的信息,這里我們把包含“信息”的多少用方差來測量,即[Var(F1)]越大,表示[Y1]包含的信息越多。
因此所選取的[F1]應該是所有的線性組合中方差最大的,我們把[F1稱為]第一主成分。如果第一主成分不能夠代表原來多個變量的基本信息,那么就再選取第二個線性組合[F2],為了有效的反應原來信息,[F1]已有的信息就不需要再出現(xiàn)在[F2]中,用數(shù)學語言表達就是要求[CovF1,F(xiàn)2=0],我們把[F2稱]為第二主成分,依此類推,可以得到出第三、第四……第[p]個主成分。
2.2 主成分分析的基本理論[2]
設研究某一事物時涉及到[p]個變量,我們分別用[X1,X2,…,XP]表示,[X=(X1,X2,…,XP)T為]這[p]個指標構成的[p]維隨機向量。設隨機向量[X]均值[EX]和協(xié)方差陣[DX]分別為[μ]和Σ。對[X]進行線性變換,即可得到新的綜合變量,它可由原來的變量線性表示,即滿足下式:
[Yi=μTiX=μ1iX1+μ2iX21+…+μpiXpi=1,2,…,p ] (1)
易見 [VarYi=μTiμi,CovYi,Yj=μTiμj,(i,j=1,2,…,p)]
定義1 設[X=X1,X2,…,XPT] 為[P]維隨機向量。稱[Yi=μTiX] 為[X] 的第[i]主成分[i=1,2,…,p,如果:]
[μTiμi]=[μ21i+μ21i+…+μ21i=1,i=1,2,…,p] (2)
[CovYi,Yj=0],[i≠j, i,j=1,2,…,p,即Yi與Yj不相關] (3)
[VarY1?VarY2?…?VarYp] (4)
從這個定義1,我們可以知道主成分是原來[p]個原始變量進行特殊線性組合構成的. 那么, 我們如何來求主成分呢? 一般地, 我們有:
定理 2 設[X=X1,X2,…,XPT] 為[P]維隨機向量。且[D(X)=Σ], [Σ] 的特征值為 [λ1≥λ2?…≥λp>0,] [α1,α2,…,αp]為相應的單位正交特征向量,
則[X]的第[i]主成分為[Fi=αTiX i=1,2,…,p]
從這個定義2,我們了解到要求[X]的第[i]主成分,必須首先求出[X]方差的第[i]大特征值和相應的單位正交特征向量。
2.3 主成分分析的分析步驟[3]
設研究某一事物涉及[到p]個變量,每個變量都有[n]個數(shù)據(jù)。那么我們就可以得到一個[n×p]階的矩陣,將其記為
[X=xijnm=x11…x1p???xn1…xnp]=[X1,X2,...,Xp]
1)對矩陣[X]進行標準化處理
[xij=xij-xjσj],[i=1,2,...,n;j=1,2,...,p],
其中[xj=1ni=1nxij],[σj=1ni=1nxij-xij2] ,
得到標準化矩陣仍記為
[X=xijnm=x11…x1m???xn1…xnm]
[Xi=x1i,xni,...xniT,i=1,2,...,p]
2) 求標準化后矩陣的相關系數(shù)矩陣:
[R=r11…r1n???rp1…rpn]=[1nXTX]
其中,[rij=1ni=1nxijxik=1nXiTXk],[j,k=1,2,...,p]
3) 求相關系數(shù)矩陣[R]的特征值[λi]和相應的特征向量[αi]
4) 確定要選取的主成分個數(shù),我們稱[λkk=1pλk]為第[k]個主成分的貢獻率,記為[ρk],稱[k=1mλkk=1pλk]為前[m]個主成分的累積貢獻率。當前[m]個主成分累積貢獻率超過[83%]時,取前[m]個主成分代替原來的[p]個指標。
5) 求各主成分載荷[βi=λiαi]以及主成分載荷矩陣,再計算各主成分的得分函數(shù)[Fi=αiXi,i=1,2,...,m]
6) 把各變量的原始數(shù)據(jù)標準化后代入各主成分方程中,求得綜合評價值[F=ρ1F1+ρ2F2+...+ρmFm]進行分析評價。
3 應用主成分分析法分析考生成績[4-5]
3.1 選取主成分和構造綜合評價函數(shù)
以貴陽某中學的一個班在高三模擬考試中的數(shù)學選擇題的得分情況的數(shù)據(jù)為例.運用主成分分析法對考生數(shù)學學習情況進行分析。該班一共有50名考生。高中數(shù)學選擇題共12題,每題5分,將數(shù)學選擇題每個題目分別用[X1]、[X2]、[…]、[X12]。來表示,用[xij]表示第i個考生在數(shù)學選擇題第j題上的得分,則這樣就得到了一個[X=(xij)50×12]的矩陣,因此我們可以借助matlab主成分分析程序對這個矩陣進行主成分分析,得到下列結果:
根據(jù)主成分分析的相關理論,在選取主成分時,只需要將特征值從小到大排列,選取前[m]個累計貢獻率超過83%的主成分即可,通過上面表格和圖形的顯示的累計貢獻率可知,我們只需要選取5個主成分,從上面累積貢獻率情況可知我們選取的這5個主成分是可以反映全部指標的基本信息,所以可以用這5個新變量來代替原來的12個變量。根據(jù)前面講到的定理2我們可以得到選擇題的5個主成分公式,如下所示:
[F1=0.1932X1+0.1359X2+0.3402X3+0.2662X4+0.1254X5+0.2944X6 +0.2828X7+0.2454X8+0.5176X9+0.4098X10+0.2061X11+0.1915X12]
[F2=0.5196X1+0.5343X2+0.4956X3+0.2918X4-0.3985X5-0.4281X6 +0.3391X7-0.1558X8-0.1008X9+0.3771X10-0.3291X11-0.1933X12]
[F3=-0.0117X1-0.1687X2+0.1733X3-0.2693X4-0.3008X5+0.0588X6 +0.3456X7+0.5041X8-0.2919X9-0.2080X10-0.1174X11+0.5090X12]
[F4=-0.0802X1-0.0883X2+0.3429X3-0.0951X4-0.4928X5+0.5271X6 +0.0005X7-0.1161X8+0.1591X9-0.1941X10-0.2019X11-0.2702X12][F5=0.0993X1+0.1617X2+0.2707X3-0.0251X4+0.1000X5+0.1639X6 -0.3226X7-0.4542X8+0.0146X9+0.0011X10-0.4819X11+0.5571X12]
根據(jù)主成分分析的分析步驟的第6步可得到選擇題綜合評價函數(shù):
[F=0.1894X1+0.1578X2+0.3443X3+0.0904X4-0.1792X5+0.0873X6 +0.1840X7+0.0356X8+0.1024X9+0.1524X10-0.1397X11+0.1210X12]
3.2 選擇題主成分分析
3.2.1 各題目重要性比較
通過圖1,我們可以知道變量[X1]、[X2]、[X3]、[X7]、[X8]、 [X9]、[X12]所對應的題目要高于平均重要性,而變量[X4]、[X5]、[X6]、[X8]、[X11]所對應的題目重要性要低于平均重要性(0.0955)。
3.2.2 模擬考生試卷數(shù)學各個選擇題對5個主成分影響。
我們可以從[F1]、[F2]、…、[F5]及各個題目變量的載荷的柱狀圖中清楚直觀的觀察出各個題目變量對[F1]、[F2]、…、[F5]影響的大小。
3.2.3 各主成分的含義分析
通過表1,我們知道主成分分析結果的前5個主成分的累積貢獻率分別為24.31%、46.03%、59.81%、72.77%、83.86%。如果我們選擇用這5個主成分變量來替換原來12個題目變量,那么數(shù)據(jù)信息的損失只有原始信息的16.14%,我們可以根據(jù)主成分在題目變量上載荷的大小和所考察知識點的角度來對5個主成分的含義進行解釋和命名:
1)對于選擇題第一主成分[F1],在其上有較高載荷量的是變量[X9],選擇題第9題考察的是利用導數(shù)求參數(shù)的范圍,考察的是考生利用數(shù)形結合的思想解題的能力。我們把主成分[F1]含義取名為:“數(shù)學思想方法的掌握程度”
2) 選擇題第二主成分[F2]沒有明顯較大的特征向量載荷,就說明了多個因素影響第二主成分[F2],我們發(fā)現(xiàn)這些題目分量分別考察的是一元二次不等式、復數(shù)、向量、三角形的基本知識和基本題型掌握程度,因此我們可以將其含義命名為“基礎知識和基本題型的掌握程度”。
3) 我們都知道任何知識都不是死的,這就要求我們不僅需要掌握知識,還要能夠靈活運用所學知識才行,在第三主成分[F3]中,X8、X12的載荷最大,這兩題分別考察利用導數(shù)研究極值、直線與拋物線的位置關系,考生需要靈活運用所學知識,才能做出來。因此我們取名為“數(shù)學基礎知識的靈活運用情況”。
4) 對于第四主成分[F4],在其上擁有較高絕對載荷變量是[X5、] [X6],這兩題分別考察了立體學科中的幾何三視圖、空間向量的基本運算,考生不僅需要數(shù)學基礎知識,還需要憑借良好的數(shù)學能力(空間想象能力和畫圖能力),才能做對并選出答案。因此把F4取名為“數(shù)學的基本能力如空間想象能力和畫圖能力等掌握情況”。
5) 對于第五主成分[F5],在其上絕對載荷量較高是變量[X11、X12],這兩題分別考察利用導數(shù)研究極值、利用空間向量求線線角,考生需要認真仔細的分析題意,確定考察知識點然后利用所學知識解決問題得出答案,所以,把[F5]取名為“利用數(shù)學知識分析和解決問題的能力的情況”。
3.2.4 對考生的評價
首先把每個考生的選擇題得分數(shù)據(jù)標準化,然后將數(shù)據(jù)分別代入[上面得到的5個主成分]的表達式中,就可得到各考生在[F1]、[F2]、[F3]、[F4]、[F5]及[F]上的得分多少,即可看出每個考生這5個方面的表現(xiàn)。由于考生的人數(shù)較多,現(xiàn)列出幾名典型考生的計算結果(參見表2)以作分析。
1) 數(shù)學學習能力好壞可以通過考生的綜合成績F得分高低來評價,考生的綜合成績F得分越高就說明數(shù)學學習能力越好,我們會發(fā)現(xiàn)綜合成績F的排列結果和不使用主成分分析法情況基本一致,但也有一些考生不同。例如我們可以看到選擇題得分排在第19名的考生,綜合成績卻排到了第25名,那是因為在第一主成分[F1](數(shù)學思想方法的掌握程度)上他的得分較低,因此該考生對基本數(shù)學思想方法掌握比較薄弱需要加強學習。我們再來看看選擇題得分排在第35名與第36名的考生,他們的綜合得分分別排在了第30名和37名,那是因為在第一主成分上的得分不同,選擇題得分排在第22名的考生在第一主成分上稍微高一些。這就說明排名22名的考生比27名考生在解題技巧和方法上學習的要好。
2) 我們還可以對每個考生在主成分及綜合函數(shù)上的得分情況進行分析,可以比較客觀全面地了解每個考生在這5個方面的掌握情況。例如選擇題得分排在第一的考生在主成分[F2上有]非常高的得分,說明他對數(shù)學科目基礎知識的掌握比較好,可其[主成分F5]的得分不太高,處在第六位,說明該考生在分析和解決問題的能力方面比較欠缺,平時應加強這方面的鍛煉;還有選擇題得分第二的考生,5個主成分分得分排名比較均勻,說明此考生在5個主成分方面的表現(xiàn)比較理想,因而該考生基本掌握了這次試卷選擇題部分所考察的知識點。另外我們再來看選擇題得分排在第10名和第8名的考生,他們的綜合成績分別排在了第7名和第8名,從上面分析可知,雖然得分在第8名的考生在[主成分F2](基礎知識和基本題型的掌握程度)得分比第10名的考生低,但從表中我們可以看出,他在主成分[F3](數(shù)學基礎知識的靈活運用)和[F1(數(shù)學思想方法的掌握程度)]得分卻比第10名號考生高,說明更能決定考生學習的優(yōu)勢的是良好的知識運用能力和解題能力。
從以上分析可以看出,在評價和反映考生的學習能力方面,主成分分析法比以往傳統(tǒng)方法要更全面、更為具體,可以為今后考生的學習,教師的教學提供了可靠的依據(jù)。
4 結論
本文運用通過對模擬考試中數(shù)學選擇題進行主成分分析法,分析評價了考生的數(shù)學學習情況,克服了傳統(tǒng)方法中只能籠統(tǒng)反映考生成績多少的缺點,分析的結果更客觀地反映出了考生各方面知識和能力的掌握情況,了解到了考生在學習上的優(yōu)勢和劣勢,幫助教學人員和考生,針對具體情況,做到有針對性地指導考生發(fā)揮優(yōu)勢,彌補劣勢。為教學研究提供科學依據(jù)。
參考文獻:
[1] 李柏年,吳禮斌.數(shù)據(jù)分析方法[M].北京:機械工業(yè)出版社,2012.
[2] 何亮.主成分分析在SPSS中的應用[J].山西農業(yè)大學學報,2007(S1):20-22.
[3] 高惠璇.應用多元統(tǒng)計分析[M].北京:北京大學出版社, 2005.
[4] 李瑞琴.主成分分析在考試成績綜合評定中的應用[J].開放教育研究,2003,4:50-51.
[5] 陸元鴻.數(shù)理統(tǒng)計方法[M].上海:華東理工大學出版社,2005.