楊東海,胡 凌,錢 瑩
(深圳信息職業(yè)技術(shù)學院 商務管理學院,廣東 深圳518172)
基于核Fisher判別分析的高職學生考試成績預測
楊東海,胡 凌,錢 瑩
(深圳信息職業(yè)技術(shù)學院 商務管理學院,廣東 深圳518172)
高職教育中對學生考試成績的預測,可以幫助教師提前評估教學效果,優(yōu)化課程設(shè)計,從而提高學生考試成績和教學質(zhì)量。文章基于核Fisher判別分析,搭建了高職學生期末考試成績預測模型,以學生自身特點和平時表現(xiàn)等構(gòu)成模型輸入變量的維度信息,來預測學生是否可以通過期末考試。實驗中以深圳信息職業(yè)技術(shù)學院學生作為研究分析對象,考察建立模型的預測精度,并與經(jīng)典算法進行了比較。實驗結(jié)果證明,核Fisher判別分析具有良好的泛化能力,其預測精度與支持向量機相近,但優(yōu)于C4.5決策樹方法。
核Fisher判別分析;高職教育;考試成績預測
隨著國家“十三五”規(guī)劃的順利進行,加快發(fā)展職業(yè)教育已經(jīng)越來越成為國家、社會和教育界的共識,高職院校不可避免的成為了培養(yǎng)實用技能型人才的主要基地。隨著高職招生人數(shù)的不斷擴大,以及社會還沒有擺脫對職業(yè)教育的傳統(tǒng)觀念,高職院校的生源質(zhì)量每況愈下。一部分學生的基礎(chǔ)知識較差,學習新知識的意愿不強,無論在課堂上與老師的互動,還是課下的平時作業(yè)完成情況,都不盡如人意,使得教師很難在真正考試之前評估教學效果,從而造成教學質(zhì)量下降。因此,如何提高高職學生的學習成績,成為社會和學校都關(guān)注的問題。在教學過程中、期末考試之前,有針對性的建立模型預測考試成績,提前評估教學效果,可以起到預警的作用。對那些有可能不及格的學生及時糾正其不良學習行為,并進行單獨輔導,則有助于提高學生成績,減少不合格現(xiàn)象,進而提高學生培養(yǎng)質(zhì)量,優(yōu)化課程設(shè)計,促進教師教學進步。
正是意識到學生成績預測對提高教學質(zhì)量、促進教學改革的重要性,國內(nèi)一些學者在幾年前就已經(jīng)開始對該領(lǐng)域展開研究。大部分學者將成績預測視為分類問題,于是多采用數(shù)據(jù)挖掘或機器學習領(lǐng)域的算法,如決策樹、人工神經(jīng)網(wǎng)絡、支持向量機等來建立模型。其中,決策樹方法因為理論發(fā)展成熟、易于理解等優(yōu)點,被廣泛用于大學生英語成績預測[1]、大學生計算機等級考試成績預測[2]、一般性課程的成績預測[3,4]等;而人工神經(jīng)網(wǎng)絡和支持向量機也因為扎實的理論基礎(chǔ)和廣泛應用,被用于大學生課程成績預測[5,6],并取得良好的效果。
核Fisher判別分析作為基于核函數(shù)的機器學習算法的典型代表[7],其分類效果在其他模式識別和預測領(lǐng)域得到了很好的驗證[8,9]。學者們前期的研究成果表明,決策樹、神經(jīng)網(wǎng)絡和支持向量機方法在學生考試成績預測方面均取得了不俗的成績。但是到目前為止,我們尚未發(fā)現(xiàn)有學者應用完整的核Fisher判別分析進行大學生成績預測的系統(tǒng)報道(雖然有學者利用線性Fisher判別分析對SVM模型中的數(shù)據(jù)因素進行加權(quán)[6])。因此,本文提出利用核Fisher判別分析作為工具,嘗試尋找學生學習屬性與成績之間隱含的非線性復雜關(guān)系,從而建立高職在校學生期末考試成績預測模型。實驗分析中以深圳信息職業(yè)技術(shù)學院物流管理專業(yè)2015級3個班級的學生作為研究對象,采用學生性別、生源地、考勤表現(xiàn)和平時作業(yè)成績等作為模型的輸入變量,來預測學生的期末考試成績。實驗結(jié)果證明,核Fisher判別分析的泛化能力強,其預測精度與支持向量機十分接近,并且優(yōu)于C4.5決策樹方法。
核Fisher判別分析[7]是基于核函數(shù)的機器學習算法中的一種,其結(jié)合了線性Fisher判別分析與核函數(shù)的思想,能夠有效地解決現(xiàn)實中的分類問題[8,9]。
1.線性Fisher判別分析原理[10]
線性Fisher判別分析是一種有監(jiān)督學習的分類方法。給定一組d維空間的樣本數(shù)據(jù)xi∈Rd(i∈1,2,.....n(,n為樣本數(shù)據(jù)集的大小,他們分別屬于不同的兩類,則樣本類別標識記為yi∈{1,2}。屬于類1的n1個樣本記為,屬于類2的n2個樣本記為,。算法“學習”或者“訓練”的過程,就是要找到樣本數(shù)據(jù)與其類別隱含的內(nèi)在關(guān)系模式x→y。線性Fisher判別分析構(gòu)造學習模型的核心目標是尋找一個d維向量w∈Rd,當樣本數(shù)據(jù)向該方向投影時,最大化類間散度和類內(nèi)散度的比值,使得樣本數(shù)據(jù)在這個方向上盡可能的分開,達到清楚辨識的目的。定義某一類樣本(i=1,2(數(shù)據(jù)類內(nèi)均值為:
對式(2)分母進行歸一化,引入拉格朗日乘子并求導后得到
則F(w(最大化的解就是矩陣S-1WSB的特征向量,經(jīng)過數(shù)學處理后,只考慮w的方向而不考慮向量的模,得到線性Fisher判別分析的解:
2.核Fisher判別分析原理
線性Fisher判別分析是一種線性分類器,當樣本數(shù)據(jù)與類別呈現(xiàn)線性關(guān)系時其分類效果會很好。但是實際問題中,樣本數(shù)據(jù)與其類別的關(guān)系往往呈現(xiàn)出復雜的非線性,則線性Fisher判別分析的分類效果就會差強人意,而且也無法解決模式識別中常見的維數(shù)災難問題。在支持向量機中成功應用的核函數(shù)的出現(xiàn)解決了這個問題[11,12]。核函數(shù)首先將數(shù)據(jù)從低維的輸入向量空間Rd映射到高維(甚至是無限維)的特征空間,即φ:Rd→。通過某些核φ(·),映射可表示為xi→φ(xi)=(a1φ1(xi),……,amφm(xi),……)。在這個高維的特征空間中應用線性Fisher判別分析,在特征空間得到的線性分類器通過核映射回原始的輸入數(shù)據(jù)空間Rd時,就得到了非線性分類器。
基于線性Fisher判別分析的原理,核Fisher判別分析在特征空間要尋找,使得下式F(w(最大化:
其中
和
分別為在特征空間內(nèi)的類間散度矩陣和類內(nèi)散度矩陣,且
為某一類樣本(i=1,2(數(shù)據(jù)在特征空間的類內(nèi)均值。
常用的核函數(shù)包括RBF徑向基核函數(shù)K(xi,xj(=exp(-γ|| xi-xj||2(,多項式核函數(shù),多層感知器核函數(shù)]等。
根據(jù)Mercer定理[12],w∈在特征空間可以表示為
αi(i=1,2,……,n(為系數(shù)。根據(jù)式(8(和(10(,并用核函數(shù)代替點積計算得到
與線性Fisher判別分析的求解過程類似,式(12(的解可以通過求解N-1M矩陣的特征向量獲得。矩陣N的正定性與核函數(shù)參數(shù)設(shè)置有關(guān),不能保證在所有情況下都一直保持正定。因此為了保證N可逆,Mika建議在矩陣N的對角線元素加上一個小幅的擾動變量δ,即N'= n+δI,這種類似正則化的方法不僅能夠保證矩陣N可逆,還能夠增加訓練模型的泛化能力[7]。
使得式(12(最大得到的解α就是模型學習的結(jié)果,可以用來預測新的樣本數(shù)據(jù)。在實際訓練和測試數(shù)據(jù)時用到的判別函數(shù)可以表達為:
其中xt為測試樣本數(shù)據(jù),常數(shù)由線性支持向量機確定。
為了評估本文提出的基于核Fisher判別分析的預測模型的實際效果,我們將深圳信息職業(yè)技術(shù)學院物流管理專業(yè)2015級3個班級共151名學生作為研究對象,收集第一學年某門專業(yè)基礎(chǔ)課的期末考試成績及相關(guān)因素作為模型的輸出和輸入變量。預測模型的輸入變量(樣本屬性)應該與考試成績密切相關(guān),我們選擇輸入向量時主要根據(jù)日常教學經(jīng)驗反饋的以下幾點事實:①大學生個體的期末成績往往與其曠課、遲到次數(shù)(出勤反映學習態(tài)度)負相關(guān),與平時作業(yè)成績(平時作業(yè)代表學習態(tài)度和對知識的理解程度)正相關(guān);②本專業(yè)學生的自有特點是女同學平均成績比男同學略勝一籌;③深圳市外生源較市內(nèi)生源入學平均成績高。因此,我們選擇學生的性別、生源地、出勤表現(xiàn)和平時作業(yè)成績作為樣本的屬性變量,具體總結(jié)如表1所示。
表1 預測模型輸入樣本屬性
此外,將所有學生分為兩類,期末考試成績大于等于60分記為“合格”,否則記為“不合格”。數(shù)據(jù)集中的部分樣本示例如表2所示。
表2 數(shù)據(jù)集中的部分樣本示例
我們在MATLAB環(huán)境中編寫核Fisher判別分析的實現(xiàn)代碼,并裝載收集到的原始數(shù)據(jù)集進行實驗研究。為了比較核Fisher判別分析對高職學生成績的預測效果,我們還測試了支持向量機SVM算法和C4.5決策樹方法,這兩種方法同樣在MATLAB環(huán)境中實現(xiàn)。在核Fisher判別分析和SVM建模時,為了防止樣本中某個維度的數(shù)值過大而在核函數(shù)計算中淹沒其他維度數(shù)據(jù)的作用,我們先對原始數(shù)據(jù)進行預處理,即將原始數(shù)據(jù)標準化在[-1,+1]的范圍內(nèi)。在使用C4.5決策樹建模時,因為其能夠同時處理連續(xù)值和離散值的屬性,訓練和測試過程不受數(shù)據(jù)大小的影響,所以C4.5方法實現(xiàn)中仍舊保持原始數(shù)據(jù),不進行額外處理。
由于實驗用的原始數(shù)據(jù)集較小,如果簡單地分為訓練和測試兩個數(shù)據(jù)集合,評估效果容易出現(xiàn)偏差。為了能夠全面反映各種算法預測的精度,我們對整個樣本數(shù)據(jù)進行多次劃分,每次從全體數(shù)據(jù)集中選擇10%的數(shù)據(jù)作為測試數(shù)據(jù),其余數(shù)據(jù)用于訓練模型和確定最優(yōu)參數(shù)。此外,核Fisher判別分析和SVM均采用RBF徑向基核K(xi,xj(=exp(-γ||xi-xj||2(作為核函數(shù),其中γ是核參數(shù)。由于訓練得到的模型的泛化能力高度依賴于核函數(shù)參數(shù)、正則化參數(shù)或懲罰系數(shù)的選擇,因此選擇最優(yōu)的參數(shù)很有必要。在實驗中,核Fisher判別分析的正則化參數(shù)設(shè)為δ=10-3,核Fisher判別分析和SVM中用到的核參數(shù)γ和懲罰系數(shù)由10-交叉驗證網(wǎng)格搜索法來確定[13]。在最優(yōu)參數(shù)設(shè)置下對測試樣本數(shù)據(jù)進行預測,每次測試的準確率定義如下:
實驗的結(jié)果是進行十次測試的平均值,如表3所示。
表3 高職學生成績預測準確率
從實驗結(jié)果可以看出,基于核函數(shù)方法的核Fisher判別分析和SVM預測精度相近(其中核Fisher判別分析預測準確度的平均值略微高于SVM),這一點與兩者在標準數(shù)據(jù)集上的測試結(jié)果一致[7],但是兩者的預測精度都明顯高于C4.5決策樹算法。C4.5決策樹方法訓練模型時,主要采用信息增益率作為選擇根結(jié)點和各內(nèi)部結(jié)點中分支屬性的評價標準,訓練速度快,得到的模型直觀性強,規(guī)則易于被使用者理解。但是決策樹方法在訓練集上的預測效果往往優(yōu)于測試集,即容易出現(xiàn)過擬合的現(xiàn)象。核Fisher判別分析和SVM利用的核函數(shù)將數(shù)據(jù)從低維的輸入空間映射到高維的特征空間,在特征空間都基于各自的分類原理構(gòu)建線性分類器使得兩類數(shù)據(jù)集盡可能的分開,得到的線性分類器經(jīng)過核函數(shù)映射回輸入空間后,即成為非線性分類器。因此,核Fisher判別分析和SVM得到的預測模型泛化性能良好,能夠挖掘出輸入樣本屬性與其類別之間隱含的非線性復雜關(guān)系。另外,本文用到的原始實驗數(shù)據(jù)采集自學生的實際情況,其中包含著一部分不完全、有噪聲的數(shù)據(jù),比如有些學生學習能力強、成績突出,但是有個別作業(yè)沒有提交或是遲到的情況,卻依然會通過考試。噪聲數(shù)據(jù)會使得決策樹方法產(chǎn)生的過擬合現(xiàn)象更加嚴重,減小了泛化能力,從而影響測試效果。與之對應的是,核Fisher判別分析和SVM分類的基本原理保證了盡可能將噪聲數(shù)據(jù)的影響降到最低,所以會取得較好的預測效果。
在我國的長期規(guī)劃中,高等職業(yè)教育受到越來越多的重視?;谀壳案呗毥虒W和生源的自有特點,建立準確的學生考試成績預測模型,能夠幫助教師提前評估教學成果,改進教學方法,對提高教學質(zhì)量具有非常重要的意義。本文在MATLAB環(huán)境中建立了基于核Fisher判別方法的學生考試成績預測模型,可以在期末考試之前,根據(jù)學生的自身特點和平時表現(xiàn)來預測其成績。在以本校高職學生為研究對象的實驗中,核Fisher判別方法取得了良好的預測效果,可以成為一線教師提高教學的有力工具。同時,只要能夠正確地選擇輸入變量的屬性,該模型可以被直接推廣到一般本科院校的學生考試成績預測中,同時也為后續(xù)建立教育信息化決策系統(tǒng)打下基礎(chǔ)。
在后續(xù)的研究中,可以在兩個方面進行進一步的拓展。第一,在實際情況中,經(jīng)常會出現(xiàn)通過考試的學生數(shù)量遠遠超過未通過考試的學生數(shù)量,使得不同類別的原始采樣數(shù)據(jù)數(shù)量不平衡,這有可能影響模型的泛化能力。未來可以考慮如何針對不平衡數(shù)據(jù)集進行訓練和測試。第二,本文建立的分類模型,僅僅可以根據(jù)輸入向量來預測學生是否通過考試,而不能預測學生具體的考試分數(shù)。期望以后能夠應用基于核函數(shù)的回歸分析算法[11],進行學生成績的分數(shù)預測。
[1]孫力,程玉霞.大數(shù)據(jù)時代網(wǎng)絡教育學習成績預測的研究與實現(xiàn)——以本科公共課程統(tǒng)考英語為例[J].開放教育研究,2015(3):74-80.
[2]黃振功.決策樹在高校計算機等級考試成績分析的應用[J].科技資訊,2013(25):18-19.
[3]武彤,王秀坤.決策樹算法在學生成績預測分析中的應用[J].微計算機信息,2010(3):209-211.
[4]于立紅,張建偉.基于數(shù)據(jù)挖掘的高職生成績分析與預測[J].鄭州輕工業(yè)學院學報,2006(3):77-79.
[5]邱文教.基于人工神經(jīng)網(wǎng)絡的學習成績預測[J].計算機與信息技術(shù),2010(4):5-6.
[6]李建萍.基于加權(quán)支持向量機的學習成績預測模型[J].中國科教創(chuàng)新導刊,2009(14):137-138.
[7]M ikaS,R tsch G,Weston J,etal.Fisher discriminantanalysisw ith kernels[C].NeuralNetworks for Signal Processing IX,1999.Proceedingsof the1999 IEEESignal Processing SocietyW orkshop.
[8]李建云,邱菀華.核Fisher判別分析方法評估消費者信用風險[J].系統(tǒng)工程理論方法應用,2004(6):548-552.
[9]李映,焦李成.基于核Fisher判別分析的目標識別[J].西安電子科技大學學報,2003(2):179-182.
[10]Bishop C.Pattern Recognition and Machine Learning[M].Springer Science&BusinessM edia,2006.
[11]Vapnik V.Thenature ofstatistical learning theory [M].Springer Science&BusinessM edia,2013.
[12]Mercer J.Functions of positive and negative type,and their connection w ith the theory of integralequations[J].Philosophical transactionsof the royalsociety of London.SeriesA,containing papersofamathematical orphysicalcharacter,1909,209:415-446.
[13]Chang C,Lin C.LIBSVM:a library for support vectormachines[J].ACM Transactionson Intelligent Systemsand Technology(TIST),2011,2(3):27.
(編輯:魯利瑞)
TP391
A
1673-8454(2016)16-0076-04
廣東省高等職業(yè)教育品牌專業(yè)建設(shè)項目,深信院第六批校級教研課題(項目編號:2016jgyb04)。