馬潔明,李池利,王 儉,班建民,奚雪峰,付保川
(1.蘇州科技學(xué)院電子與信息工程學(xué)院,江蘇蘇州215009;2.湖北工業(yè)大學(xué)外國(guó)語(yǔ)學(xué)院,湖北武漢430068)
?
基于相關(guān)向量機(jī)的SPOC成績(jī)預(yù)測(cè)模型構(gòu)建
馬潔明1,李池利2,王儉1,班建民1,奚雪峰1,付保川1
(1.蘇州科技學(xué)院電子與信息工程學(xué)院,江蘇蘇州215009;2.湖北工業(yè)大學(xué)外國(guó)語(yǔ)學(xué)院,湖北武漢430068)
摘要:SPOC是互聯(lián)網(wǎng)與傳統(tǒng)校園教學(xué)的有機(jī)結(jié)合。作為信息化教學(xué)平臺(tái)的一部分,成績(jī)預(yù)測(cè)模型可為學(xué)生相關(guān)課程成績(jī)進(jìn)行合理預(yù)測(cè)。針對(duì)SPOC學(xué)生成績(jī)樣本數(shù)量小的特點(diǎn),提出一種基于相關(guān)向量機(jī)的概率式成績(jī)預(yù)測(cè)方法。結(jié)果表明,模型較神經(jīng)網(wǎng)絡(luò)等傳統(tǒng)數(shù)據(jù)挖掘方法有更精確的預(yù)測(cè)性能,有助于師生及時(shí)了解掌握知識(shí)的程度,提高教學(xué)質(zhì)量,為推廣SPOC提供技術(shù)支持。
關(guān)鍵詞:相關(guān)向量機(jī);成績(jī)預(yù)測(cè);SPOC
在教育全球化和信息化的背景下,MOOC(Massive Open Online Course)概念被廣泛應(yīng)用到教學(xué)實(shí)踐中。MOOC是基于課程與教學(xué)論及網(wǎng)絡(luò)和智能技術(shù)發(fā)展起來的新興在線課程形式[1]。然而,在當(dāng)前的信息技術(shù)條件下,以脫離實(shí)體學(xué)校的大規(guī)模在線學(xué)習(xí)還難以完全替代傳統(tǒng)課堂[2]。加州大學(xué)伯克利分校的MOOC負(fù)責(zé)人Armando Fox提出通過網(wǎng)絡(luò)教學(xué)資源來改變傳統(tǒng)高等教育現(xiàn)狀的一種解決方案—SPOC(Small Private 0nline Course)。SPOC針對(duì)小規(guī)模、特定人群,采用講座視頻及在線評(píng)價(jià)等功能作為校園課堂的教學(xué)輔助手段,是MOOC與傳統(tǒng)校園教學(xué)的有機(jī)融合。SPOC不但可有效地彌補(bǔ)MOOC課程缺乏學(xué)習(xí)氣氛、平均完成率低等缺陷,而且在教學(xué)改進(jìn)中引入數(shù)據(jù)分析模塊。成績(jī)預(yù)測(cè)是SPOC教學(xué)中評(píng)價(jià)教學(xué)質(zhì)量和學(xué)習(xí)效果不可或缺的分析模型,其利用數(shù)據(jù)挖掘的方法,從學(xué)生的現(xiàn)有成績(jī)和其他相關(guān)信息對(duì)學(xué)生知識(shí)掌握程度進(jìn)行綜合預(yù)測(cè),及時(shí)預(yù)警學(xué)習(xí)狀況不良的學(xué)生,為教學(xué)管理部門提供決策支持信息,促進(jìn)教學(xué)質(zhì)量的提高。
近年來,數(shù)據(jù)挖掘方法,如BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)[3]、遺傳算法[4]、決策樹[5]等被應(yīng)用于成績(jī)預(yù)測(cè)。BP神經(jīng)網(wǎng)絡(luò)是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),是目前應(yīng)用較廣的神經(jīng)網(wǎng)絡(luò)模型。決策樹通過歸納和提煉現(xiàn)有數(shù)據(jù)所包含的規(guī)律,建立預(yù)測(cè)模型,實(shí)現(xiàn)對(duì)新數(shù)據(jù)的預(yù)測(cè)。這兩種模型往往需要大量數(shù)據(jù)樣本才能達(dá)到較好的預(yù)測(cè)結(jié)果,適用于數(shù)據(jù)較多的學(xué)生成績(jī)統(tǒng)計(jì)系統(tǒng)。遺傳算法是模擬達(dá)爾文生物進(jìn)化論自然選擇和遺傳學(xué)機(jī)理的優(yōu)化計(jì)算模型,但迭代過程中容易陷入局部極小點(diǎn)。文章提出基于相關(guān)向量機(jī)(Relevance Vector Machine,RVM)[6]的成績(jī)預(yù)測(cè)模型,以解決在SPOC課程樣本數(shù)量小,常規(guī)數(shù)據(jù)方法難以精確預(yù)測(cè)的問題。
RVM是由美國(guó)Tipping博士2000年提出的基于稀疏貝葉斯學(xué)習(xí)理論的算法模型。RVM根據(jù)有限的樣本信息,通過事先選擇的核函數(shù)(非線性映射),將低維輸入變量映射到一個(gè)高維的特征空間,在貝葉斯框架下估計(jì)回歸函數(shù)映射到高維空間的輸出,在模型的學(xué)習(xí)能力和復(fù)雜度之間尋求最佳折中,因此在回歸和預(yù)測(cè)領(lǐng)域得到廣泛應(yīng)用[7,8]。設(shè){xi}Ni=1為給定RVM訓(xùn)練樣本集,為目標(biāo)值,RVM的輸出模型如圖1,可數(shù)學(xué)表達(dá)為
式中,K(x,xi)為核函數(shù),wi為權(quán)值,N為樣本數(shù),w是由wi組成的向量??梢院侠淼丶俣繕?biāo)值是彼此獨(dú)立的,可用概率來表示帶噪聲的模型
圖1 RVM模型結(jié)構(gòu)
其中,εi為服從Gauss分布N(0,σ2)的噪聲,在已知{xi}Ni=1和σ2條件下,tt的分布如下
Φ是由xi{代入核函數(shù)所得的N×(N+1)矩陣,即
通過最大似然法可求出最優(yōu)w,但可能導(dǎo)致過度擬合。為避免這種情況,采用稀疏貝葉斯方法對(duì)權(quán)值賦予先驗(yàn)條件:w分布于0周圍的高斯分布,可表示為
α用于描述每個(gè)wi的反向變異。上式表明,每個(gè)權(quán)值與超參數(shù)αi相關(guān),控制著先驗(yàn)條件的影響程度。未知參數(shù)w、α和σ2的先驗(yàn)概率可表示為P(w,α,σ2|t),根據(jù)貝葉斯公式,可寫為其中
后驗(yàn)協(xié)方差∑=(σ-2ΦTΦ+A)-1,m=σ-2∑ΦTt,A=diag(α0,α1,α2,…,αN)。
后驗(yàn)概率P(α,σ2|t)不能通過分解求得,因此引入狄拉克函數(shù)做近似計(jì)算αMP和σ2MP為P(α,σ2|t)的最優(yōu)解,由于P(α)P(t|α,σ2|)P(α)P(),在一致超先驗(yàn)條件下,可忽略P(α)和P(σ2),對(duì)P(α,σ2|t)的極大極小估計(jì)轉(zhuǎn)化為最大化P(t|α)
其中,P(t|w,σ2)和P(w|α)服從如下分布
胃病是臨床上常見病。胃病與人的生活飲食無規(guī)律、心理壓力過大等有較大關(guān)系。在胃病患者護(hù)理實(shí)踐中,心理護(hù)理主要從患者心態(tài)的調(diào)適上,增加治療效果。
M為x的維度,將式(10)與(11)代入(9),簡(jiǎn)化整理后得
其中,∑ii為后驗(yàn)權(quán)協(xié)方差矩陣的第i個(gè)對(duì)角元素。由于不能直接求得m,可以反復(fù)迭代估計(jì)αi和σ2的值以實(shí)現(xiàn)相關(guān)向量學(xué)習(xí)。
1.2算法實(shí)現(xiàn)
文章以RVM進(jìn)行學(xué)生成績(jī)的仿真估計(jì)與預(yù)測(cè)。算法的學(xué)生成績(jī)輸入為xi{,xi可為包括D維成績(jī)的向量,綜合成績(jī)的預(yù)測(cè)值為輸出。由于成績(jī)的評(píng)價(jià)方式多樣,在執(zhí)行算法前往往對(duì)數(shù)據(jù)進(jìn)行歸一化處理。RVM通過在w上定義受超參數(shù)控制的高斯先驗(yàn)概率,利用自相關(guān)判定理論來移除不相關(guān)的點(diǎn),得到稀疏化模型,與支持向量機(jī)(Support Vector Machine,SVM)相比,不但適合小樣本預(yù)測(cè),而且減少了核函數(shù)計(jì)算量,具體見以下算法:
Algorithm 1基于相關(guān)向量機(jī)的成績(jī)預(yù)測(cè)
Input:學(xué)生現(xiàn)有成績(jī)x=[x0,x1,x2,…xN]T
Output:學(xué)生綜合成績(jī)預(yù)測(cè)值t=[t0,t1,t2,…tN]T1:數(shù)據(jù)歸一化處理
2:選擇和σ2起始值
3:while αi>αmindo
4:計(jì)算m=σ2∑ΦTt和∑=(A+σ2ΦTΦ)-1
5:根據(jù)公式(13)和(15)更新α、σ2
6:end while
7:預(yù)測(cè)成績(jī)t=mTΦ(x')
SPOC課程往往通過離線調(diào)查、在線測(cè)試等方式采集學(xué)生成績(jī)。為評(píng)價(jià)RVM的預(yù)測(cè)效果,選用24個(gè)學(xué)生在某課程中取得的教師評(píng)價(jià)數(shù)據(jù),包括課堂的考勤、作業(yè)成績(jī)、期末考試成績(jī)。同時(shí)通過自評(píng)互評(píng)的方式,了解學(xué)生對(duì)課堂考勤、作業(yè)成績(jī)、課程難度及對(duì)課程的興趣,見表1。
表1 原始輸入數(shù)據(jù)
設(shè)教師對(duì)課堂考勤、作業(yè)成績(jī)以及學(xué)生自評(píng)及互評(píng)成績(jī)?yōu)轭A(yù)測(cè)模型的輸入。表1中,學(xué)生自評(píng)及互評(píng)成績(jī)通過數(shù)據(jù)標(biāo)準(zhǔn)化處理,課堂考勤及作業(yè)成績(jī)分為0,0.5,1三個(gè)等級(jí),分別表示優(yōu)、中、差。同理,課程難度與學(xué)生對(duì)課程感興趣程度也分為0,0.5,1三個(gè)層次,分別表示程度的高、中、低。設(shè)期末考試為需要預(yù)測(cè)的結(jié)果,采用RVM、SVM(懲罰參數(shù)c=362.049和核函數(shù)參數(shù)g=0.016)、BP神經(jīng)網(wǎng)絡(luò)(雙隱含層,每層節(jié)點(diǎn)數(shù)為5)和隨機(jī)森林對(duì)表1中的數(shù)據(jù)進(jìn)行預(yù)測(cè)。圖2比較了四個(gè)模型的預(yù)測(cè)能力,模型的預(yù)測(cè)結(jié)果越精確,則其與實(shí)際成績(jī)的比值與斜線y=x越接近。不難發(fā)現(xiàn),SVM、BP神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林在[20,40]和[80,100]兩個(gè)區(qū)間內(nèi)有較大的誤差,RVM預(yù)測(cè)成績(jī)與實(shí)際成績(jī)的比值較接近于1。為量化各模型的預(yù)測(cè)能力,可采用擬合優(yōu)度(決定系數(shù))對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià)。經(jīng)過仿真計(jì)算,RVM、SVM、BP神經(jīng)網(wǎng)絡(luò)的擬合優(yōu)度分別為0.984 9,0.933 5,0.890 8,0.942 2,證實(shí)了RVM在小樣本數(shù)量情況下表現(xiàn)出最好的預(yù)測(cè)能力。
圖2 不同模型預(yù)測(cè)結(jié)果比較
文章面向SPOC課程提出了一種基于RVM的學(xué)生成績(jī)預(yù)測(cè)模型。根據(jù)實(shí)例,提出的模型擬合優(yōu)度較SVM和隨機(jī)森林提高了約5%,較BP神經(jīng)網(wǎng)絡(luò)提高了近10%,說明了RVM模型在小樣本數(shù)量概率式預(yù)測(cè)中有更好的精度和有效性。該模型方便教師實(shí)時(shí)掌握學(xué)生學(xué)習(xí)狀況,同時(shí)也可為相關(guān)學(xué)生提供預(yù)警作用,為SPOC課程的推廣提供了依據(jù)和數(shù)據(jù)基礎(chǔ),有較好的應(yīng)用價(jià)值。
參考文獻(xiàn):
[1]康葉欽.在線教育的“后MOOC時(shí)代”——SPOC解析[J].清華大學(xué)教育研究,2014,35(1):85-93.
[2]鄭奇,楊竹筠.SPOC:結(jié)合高校教學(xué)的融合創(chuàng)新[J].物理與工程,2014,24(1):15-18.
[3]鄒麗娜,丁茜.基于BP算法的成績(jī)預(yù)測(cè)模型[J].沈陽(yáng)師范大學(xué)學(xué)報(bào),2011,29(2):226-229.
[4]羅永國(guó).基于改進(jìn)的遺傳算法的學(xué)生成績(jī)預(yù)測(cè)模型[J].科技通報(bào),2012,28(10):223-225.
[5]商俊燕,陸兵,柏倩然.決策樹C4.5算法在學(xué)生成績(jī)分析中的應(yīng)用[J].微型電腦應(yīng)用,2015,31(4):43-52.
[6] DEH W.Time series prediction for machining errors using support vector regression [C]//Pro of the 1st International Conference of Intelligent Networks and Intelligent Systems,2008:27-30.
[7] YUAN J,YU T,WANG K S,et al.Adaptive spherical gaussian kernel for fast relevance vector machine regression [C]//Proc of the 7th World Congress on Intelligent Contrnl and Automation,2008:2071-2078.
[8] SHEN Y,LIU G H,LIU H.Classification method of power quality disturbances based on RVM [C]//Proc of the 8th World Congress on Intelligent Control and Automation,2010:6130-6135.
[9]黃芳.基于數(shù)據(jù)挖掘的決策樹技術(shù)在成績(jī)分析中的應(yīng)用研究[D].山東:山東大學(xué),2009:1-47.
(責(zé)任編輯:盧文君)
Students’grade prediction model using relevance vector machine
MA Jieming1,LI Chili2,WANG Jian2,BAN Jianming2,XI Xuefeng1,F(xiàn)U Baochuan1
(1.School of Electronic and Information Engineering,SUST,Suzhou 215009,China; 2.School of Foreign Languages,Hubei University of Technology,Wuhan 430068,China)
Abstract:Small Private Online Course(SPOC)combines E-learning and traditional campus teaching.As a module of digital teaching platforms, the grade prediction model is capable of predicting a reasonable grade for students in a course.Since SPOC is featured with its small sample size, a probabilistic grade prediction model is proposed based on Relevance Vector Machine(RVM).Compared with the data mining methods like neural networks, simulation results show that the RVM exhibits more accurate prediction performance, helping teachers and students to keep abreast of the degree of mastery of knowledge, improve teaching quality, and provid technical supports for the promotion of SPOC.
Key words:relevance vector machine; grade prediction; SPOC
中圖分類號(hào):TM311
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1672-0679(2016)01-0077-04
[收稿日期]2015-09-14
[基金項(xiàng)目]江蘇省教改重點(diǎn)項(xiàng)目(2013JSJG063);江蘇省高校自然科學(xué)基金項(xiàng)目(15KJB480002)
[作者簡(jiǎn)介]馬潔明(1984-),男,江蘇蘇州人,講師,博士,從事人工智能及其應(yīng)用方面的研究。