張琪 王紅梅 莊魯 賴松
【關(guān)鍵詞】? 學(xué)習(xí)分析;學(xué)習(xí)預(yù)測(cè);數(shù)據(jù)挖掘;人格特質(zhì);個(gè)性化建模;智能學(xué)習(xí)系統(tǒng);預(yù)測(cè)效能;數(shù)據(jù)驅(qū)動(dòng)教學(xué)
【中圖分類號(hào)】? G434?????? 【文獻(xiàn)標(biāo)識(shí)碼】? A?????? 【文章編號(hào)】 1009-458x(2019)4-0038-08
教育智能時(shí)代,教學(xué)范式的變化正順應(yīng)個(gè)性化教育的需求,以學(xué)習(xí)者為中心教學(xué)模式的深度應(yīng)用驅(qū)動(dòng)新技術(shù)的普及與常態(tài)化。技術(shù)在學(xué)習(xí)場(chǎng)景中的無縫切換,對(duì)學(xué)習(xí)時(shí)空的全方位覆蓋,對(duì)學(xué)習(xí)方式的個(gè)性化支持,無不突顯出技術(shù)以常態(tài)化形式“無縫內(nèi)嵌”學(xué)習(xí)過程之核心特征。以學(xué)習(xí)分析為核心的“數(shù)據(jù)驅(qū)動(dòng)教學(xué)”成為破解“千校一面”“千人一面”教育格局的主要力量。在學(xué)習(xí)分析多樣化研究領(lǐng)域中,基于“嵌入式”日志數(shù)據(jù)的學(xué)習(xí)預(yù)測(cè)(預(yù)警)是重要的研究趨向。通過對(duì)日志數(shù)據(jù)的挖掘與建模,可以分析學(xué)習(xí)者個(gè)體與群體的行為信息,幫助教師盡早洞察學(xué)習(xí)者的學(xué)習(xí)進(jìn)度與質(zhì)量,并對(duì)學(xué)習(xí)者真實(shí)水平進(jìn)行評(píng)測(cè)(丁夢(mèng)美, 等, 2017)。
在學(xué)習(xí)結(jié)果預(yù)測(cè)方面,目前大多數(shù)研究將學(xué)習(xí)者視為整體進(jìn)行評(píng)估,缺少個(gè)性化的分類形式與預(yù)測(cè)指標(biāo),統(tǒng)一的數(shù)據(jù)建模很難針對(duì)不同學(xué)習(xí)者獲得較好的預(yù)測(cè)效能。此外,也鮮有較為全面的數(shù)據(jù)挖掘算法的比較研究。本研究以學(xué)習(xí)分析支撐的數(shù)據(jù)驅(qū)動(dòng)教學(xué)為落腳點(diǎn),以實(shí)驗(yàn)校一學(xué)期的互聯(lián)網(wǎng)+教學(xué)實(shí)踐為研究對(duì)象,基于人格特質(zhì)分類對(duì)不同特征群體進(jìn)行建模,利用數(shù)據(jù)挖掘技術(shù)進(jìn)行預(yù)測(cè)與評(píng)估,以判斷學(xué)習(xí)者的潛在學(xué)習(xí)危險(xiǎn)。這不僅是預(yù)防輟學(xué)、以評(píng)促學(xué)的需要,更是契合“互聯(lián)網(wǎng)+教育”需求,實(shí)現(xiàn)智能教育與個(gè)性化學(xué)習(xí)支持的必然趨勢(shì)(李爽, 等, 2018)。
教育大數(shù)據(jù)為基于學(xué)習(xí)分析的預(yù)測(cè)研究提供了多方面的可能性。Morris等(2005)發(fā)現(xiàn)學(xué)習(xí)者在Blackboard上觀看內(nèi)容頁的數(shù)量與其最終成績顯著相關(guān),討論信息總數(shù)、發(fā)送郵件數(shù)量與作業(yè)情況對(duì)未能通過課程的判定準(zhǔn)確率達(dá)到74%;Romero等(2013)通過聚類算法預(yù)測(cè)學(xué)生是否成功通過課程,最佳準(zhǔn)確率為90.3%;Yu等(2014)建立了包含在線時(shí)間、同伴交互數(shù)量、教師交互量、總登錄頻率、下載次數(shù)與學(xué)習(xí)時(shí)間間隔規(guī)律等在內(nèi)的預(yù)測(cè)因子。Rafaeli等(1997)對(duì)混合學(xué)習(xí)環(huán)境中學(xué)習(xí)者平臺(tái)行為數(shù)據(jù)進(jìn)行了分析,研究表明學(xué)習(xí)者的閱讀量與在線提問數(shù)量導(dǎo)致了學(xué)習(xí)成績的差異;Wong(2013)構(gòu)建了混合學(xué)習(xí)環(huán)境下預(yù)測(cè)學(xué)習(xí)績效的在線學(xué)習(xí)行為指標(biāo),包括登錄次數(shù)、章節(jié)平均學(xué)習(xí)時(shí)間、在線測(cè)試完成次數(shù)及時(shí)間、查看和下載資源數(shù)量以及論壇參與頻率;Zacharis(2015)對(duì)混合學(xué)習(xí)環(huán)境的研究表明,閱讀量、發(fā)布消息數(shù)量、內(nèi)容創(chuàng)作數(shù)量、測(cè)驗(yàn)成績與文件瀏覽數(shù)量對(duì)學(xué)生成績預(yù)測(cè)準(zhǔn)確率為52%,分類預(yù)測(cè)準(zhǔn)確率為81.3%;A Pardo等(2017)結(jié)合學(xué)習(xí)動(dòng)機(jī)策略問卷與在線學(xué)習(xí)活動(dòng)共同預(yù)測(cè)學(xué)習(xí)投入,研究表明可以更全面地理解成功的學(xué)習(xí)狀態(tài)。趙慧瓊等(2017)利用多元回歸分析法分析影響學(xué)生學(xué)習(xí)績效的預(yù)警因素,在此基礎(chǔ)上構(gòu)建了干預(yù)模型;胡祖輝等(2017)比較了基于關(guān)聯(lián)規(guī)則、決策樹與邏輯回歸3種算法對(duì)學(xué)習(xí)結(jié)果的預(yù)測(cè)精度,認(rèn)為關(guān)聯(lián)規(guī)則挖掘算法的總體性能最好。
由此可見,學(xué)術(shù)界圍繞各類LMS平臺(tái)、MOOC課程、混合學(xué)習(xí)環(huán)境中的預(yù)測(cè)因子與教育數(shù)據(jù)挖掘技術(shù)展開了較為深入的研究,結(jié)果顯示預(yù)測(cè)指標(biāo)的多樣性以及預(yù)測(cè)精度的差異性。在過去十年中,有大量理論和研究集中在學(xué)習(xí)者個(gè)性特征如何影響其行為與信息加工。學(xué)術(shù)界普遍接受的觀點(diǎn)認(rèn)為,學(xué)習(xí)者優(yōu)先處理與人格特征相和諧的情感刺激,同類學(xué)習(xí)者在學(xué)習(xí)過程中會(huì)表現(xiàn)出相似行為傾向(Mischel, 1999)。但從研究方法上看,多數(shù)研究還是將學(xué)習(xí)者視作一個(gè)整體進(jìn)行預(yù)測(cè),并未針對(duì)他們的個(gè)性特征進(jìn)行分類建模,差異性研究的缺失使得預(yù)測(cè)模型精度不足(肖巍, 等, 2018),很難滿足構(gòu)建個(gè)性化干預(yù)系統(tǒng)的需求;從算法上看,學(xué)習(xí)結(jié)果預(yù)測(cè)(數(shù)值預(yù)測(cè)與分類預(yù)警)仍缺少較為全面的數(shù)據(jù)挖掘方法在預(yù)測(cè)精度以及魯棒性方面的比較研究。
本研究擬構(gòu)建適合不同特征群體的預(yù)測(cè)模型,利用多樣化的數(shù)據(jù)挖掘算法對(duì)預(yù)測(cè)精度進(jìn)行比較。對(duì)于學(xué)習(xí)者個(gè)性特征的劃分,目前的理論探討集中在西方對(duì)學(xué)習(xí)風(fēng)格與認(rèn)知風(fēng)格的相關(guān)研究上,鑒于地域差異以及學(xué)習(xí)者(尤其是中學(xué)生)學(xué)習(xí)風(fēng)格存在差異(張琪, 等, 2018),加之將傳統(tǒng)環(huán)境下的研究結(jié)論直接應(yīng)用于在線學(xué)習(xí)環(huán)境是否妥當(dāng)?shù)葐栴},制約了基于學(xué)習(xí)風(fēng)格與認(rèn)知風(fēng)格模型設(shè)計(jì)自適應(yīng)教學(xué)系統(tǒng)的合理性(葛子剛, 等, 2018)。眾所周知,在混合(在線)學(xué)習(xí)環(huán)境中學(xué)習(xí)的本質(zhì)是社會(huì)性學(xué)習(xí),涉及無形資源(多媒體信息與數(shù)字化資源)的信息交換。因此,人格特質(zhì)已廣泛應(yīng)用于在線學(xué)習(xí)環(huán)境的評(píng)估研究。
人格與在線學(xué)習(xí)行為的緊密聯(lián)系源于網(wǎng)絡(luò)信息的特征。在線學(xué)習(xí)涉及大量基于任務(wù)的學(xué)習(xí)、信息選擇策略以及優(yōu)秀觀念的產(chǎn)生(Burt, 2004),在此類人工情境下學(xué)習(xí)者的信息加工符合中介范式和調(diào)節(jié)范式(陳莉, 2005)。其中,中介范式認(rèn)為人格特質(zhì)對(duì)情緒加工的顯著作用是間接的,即人格影響心境狀態(tài),而心境狀態(tài)又影響情緒加工;調(diào)節(jié)范式認(rèn)為心境狀態(tài)對(duì)情緒加工的作用受人格特質(zhì)影響或受其調(diào)節(jié)。此外,人格特質(zhì)具有較好的穩(wěn)定性。其穩(wěn)定性與獨(dú)特性在很大程度上歸功于其核心成分——特質(zhì)(Trait)。特質(zhì)使個(gè)體對(duì)不同種類的刺激以某種相對(duì)一貫、穩(wěn)定且相同的方式進(jìn)行反應(yīng),是個(gè)體的“神經(jīng)特性”(Matthews, et al., 2003)以及“支配個(gè)人行為的能力”(Allport, 1937)。
鑒于人格特質(zhì)在識(shí)別個(gè)體差異、跨文化普適性以及與在線學(xué)習(xí)行為的關(guān)聯(lián)性等方面具備優(yōu)勢(shì),故本研究利用“大五人格”識(shí)別學(xué)習(xí)者特征?;凇按笪迦烁瘛钡摹伴_放性”和“外傾性”維度的高低水平劃分不同人格類型(張琪, 等, 2018),建立相應(yīng)預(yù)測(cè)模型,解析不同人格類型相應(yīng)的顯著預(yù)測(cè)因子。具體來說,本研究的研究問題包括3個(gè):
問題1:學(xué)習(xí)平臺(tái)采集的學(xué)習(xí)行為指標(biāo)與不同人格特質(zhì)群體學(xué)習(xí)結(jié)果之間是否呈顯著相關(guān)?
問題2:對(duì)于具有不同人格特質(zhì)的學(xué)習(xí)群體,哪些學(xué)習(xí)行為指標(biāo)對(duì)于預(yù)測(cè)學(xué)習(xí)結(jié)果是重要的,是否存在共性的行為指標(biāo)?
問題3:從統(tǒng)計(jì)學(xué)角度看,什么樣的數(shù)據(jù)挖掘算法在數(shù)值型與分類預(yù)測(cè)中具備最佳精度與魯棒性?
(一)研究場(chǎng)景
本研究基于高中實(shí)驗(yàn)校“互聯(lián)網(wǎng)+”混合學(xué)習(xí)場(chǎng)景。在智慧學(xué)習(xí)平臺(tái)支撐下,教學(xué)中心、學(xué)習(xí)中心、管理中心、資源中心全局?jǐn)?shù)據(jù)無縫銜接。學(xué)習(xí)者有明確的學(xué)習(xí)目標(biāo)、任務(wù)和時(shí)間安排,基于“四維驅(qū)動(dòng)”教學(xué)模式開展學(xué)習(xí)。“四維驅(qū)動(dòng)”教學(xué)模式是指“以導(dǎo)學(xué)任務(wù)單驅(qū)動(dòng)學(xué)生的自主學(xué)習(xí),以層級(jí)式問題驅(qū)動(dòng)學(xué)生的合作探究,以學(xué)習(xí)數(shù)據(jù)分析驅(qū)動(dòng)教師的按需教學(xué),以課堂即時(shí)評(píng)測(cè)和成果分享驅(qū)動(dòng)知識(shí)內(nèi)化”?!八木S驅(qū)動(dòng)”教學(xué)模式強(qiáng)調(diào)4個(gè)方面的特征:一是以層級(jí)式任務(wù)為導(dǎo)向,以銜接課前與課后的活動(dòng)貫穿始終;二是基于移動(dòng)學(xué)習(xí)終端,以教育云平臺(tái)作為支撐環(huán)境;三是平臺(tái)模塊功能與教學(xué)模式深度融合,技術(shù)以常態(tài)化形式“無縫內(nèi)嵌”于學(xué)習(xí)過程之中;四是派生出操作性和指導(dǎo)性極強(qiáng)的全學(xué)科常態(tài)化教學(xué)設(shè)計(jì)流程。
學(xué)生在一學(xué)期的課程學(xué)習(xí)中充分利用PAD終端進(jìn)行學(xué)習(xí),課程持續(xù)進(jìn)行16周,后2周為期末考試。研究選取全體高一年級(jí)662名學(xué)生為樣本,基于語文與英語兩門課程的學(xué)習(xí)行為數(shù)據(jù)展開分析。將兩門課程期末成績與平時(shí)成績加權(quán)分(期末成績占70%,課堂表現(xiàn)占30%)的平均分作為最終成績,以相對(duì)客觀地量化學(xué)習(xí)結(jié)果。
(二)采集行為指標(biāo)
采集的行為指標(biāo)來自LMS平臺(tái)的頁面系統(tǒng)、交互系統(tǒng)、課件點(diǎn)播系統(tǒng)、測(cè)試系統(tǒng)和筆記系統(tǒng)。其中,頁面系統(tǒng)包括課程頁面瀏覽總次數(shù)與總時(shí)間;交互系統(tǒng)包括文本型提問數(shù)量、文本型回答數(shù)量、媒體型提問數(shù)量、媒體型回答數(shù)量與教師推薦發(fā)言數(shù)量;課件點(diǎn)播系統(tǒng)以交互電子教材(視頻)形式呈現(xiàn),根據(jù)內(nèi)嵌客觀問題權(quán)重自動(dòng)判分,包括課件點(diǎn)播次數(shù)、課件點(diǎn)播時(shí)長與交互課件得分;測(cè)試系統(tǒng)包括及時(shí)測(cè)評(píng)剩余時(shí)長(班級(jí)學(xué)生最長作答時(shí)間減去各學(xué)生作答時(shí)間)、及時(shí)測(cè)評(píng)分?jǐn)?shù)與課后測(cè)驗(yàn)平均分?jǐn)?shù);筆記系統(tǒng)包括學(xué)習(xí)筆記數(shù)量(序號(hào)之和)與學(xué)習(xí)筆記長度(字符串長度之和)。
(三)人格特質(zhì)識(shí)別
本研究采用NEO-FFI大五人格簡化問卷測(cè)量人格特質(zhì)水平(Costa & McCrae, 1992)。已有研究表明,該問卷具有與完整版相同的信度和效度(Kurtz & Sherker, 2003),其中“開放性”和“外傾性”維度各為12個(gè)題項(xiàng),采用5級(jí)計(jì)分。“開放性”Cronbach α為0.736,均值為40.32,標(biāo)準(zhǔn)差為5.91;“外傾性”Cronbach α為0.831,均值為41.19,標(biāo)準(zhǔn)差為4.76。將各維度數(shù)值標(biāo)準(zhǔn)化,分別映射到區(qū)域[0,3]與[-3,0],即每一維度劃分為高低兩類,最終得出4種人格類型P={P1, P2, P3, P4}。P1、P2、P3、P4分別代表“高開放、高外傾”“低開放、高外傾”“低開放、低外傾”“高開放、低外傾”4類人格群體。樣本數(shù)量分布分別為31.11%(P1)、21.45%(P2)、25.23%(P3)和22.21%(P4),人數(shù)分布大致均勻。
(一)不同人格特質(zhì)群體行為指標(biāo)與學(xué)習(xí)結(jié)果的相關(guān)性
表1給出了不同數(shù)據(jù)集學(xué)習(xí)行為與學(xué)習(xí)結(jié)果相關(guān)分析的數(shù)據(jù)。基于全集樣本的相關(guān)分析結(jié)果表明,15個(gè)行為指標(biāo)與學(xué)習(xí)結(jié)果均呈顯著正相關(guān)。其中,課后測(cè)驗(yàn)平均分?jǐn)?shù)與學(xué)習(xí)結(jié)果呈現(xiàn)高相關(guān)(r=0.668),教師推薦發(fā)言數(shù)量(r=0.329)、學(xué)習(xí)筆記數(shù)量(r=0.341)與學(xué)習(xí)結(jié)果呈現(xiàn)中相關(guān),其余指標(biāo)均為低相關(guān)。
對(duì)于“高開放、高外傾”學(xué)習(xí)者,11個(gè)行為指標(biāo)與學(xué)習(xí)結(jié)果呈顯著正相關(guān)。其中,課后測(cè)驗(yàn)平均分?jǐn)?shù)與學(xué)習(xí)結(jié)果呈現(xiàn)高相關(guān)(r=0.677),教師推薦發(fā)言數(shù)量(r=0.413)、學(xué)習(xí)筆記數(shù)量(r=0.404)、學(xué)習(xí)筆記長度(r=0.369)、及時(shí)測(cè)評(píng)分?jǐn)?shù)(r=0.313)與學(xué)習(xí)結(jié)果呈現(xiàn)中相關(guān),其余指標(biāo)均為低相關(guān)。
對(duì)于“低開放、高外傾”學(xué)習(xí)者,9個(gè)行為指標(biāo)與學(xué)習(xí)結(jié)果呈顯著正相關(guān)。其中,課后測(cè)驗(yàn)平均分?jǐn)?shù)與學(xué)習(xí)結(jié)果呈現(xiàn)高相關(guān)(r=0.694),文本型回答數(shù)量(r=0.396)與學(xué)習(xí)結(jié)果呈現(xiàn)中相關(guān),其余指標(biāo)均為低相關(guān)。值得一提的是,總計(jì)學(xué)習(xí)時(shí)長(r=-0.167)和課件點(diǎn)播次數(shù)(r=-0.212)與學(xué)習(xí)結(jié)果均為低負(fù)相關(guān)。
對(duì)于“低開放、低外傾”學(xué)習(xí)者,10個(gè)行為指標(biāo)與學(xué)習(xí)結(jié)果呈顯著正相關(guān)。其中,課后測(cè)驗(yàn)平均分?jǐn)?shù)與學(xué)習(xí)結(jié)果呈現(xiàn)高相關(guān)(r=0.636),教師推薦發(fā)言數(shù)量(r=0.377)、學(xué)習(xí)筆記數(shù)量(r=0.428)、學(xué)習(xí)筆記長度(r=0.357)與學(xué)習(xí)結(jié)果呈現(xiàn)中相關(guān),其余指標(biāo)均為低相關(guān)。
對(duì)于“高開放、低外傾”學(xué)習(xí)者,8個(gè)行為指標(biāo)與學(xué)習(xí)結(jié)果呈顯著正相關(guān)。其中,課后測(cè)驗(yàn)平均分?jǐn)?shù)(r=0.672)與學(xué)習(xí)結(jié)果呈現(xiàn)高相關(guān),總計(jì)學(xué)習(xí)時(shí)長(r=0.313)與學(xué)習(xí)結(jié)果呈現(xiàn)中相關(guān),其余指標(biāo)均為低相關(guān)。
(二)不同人格特質(zhì)群體的學(xué)習(xí)建模
以15個(gè)行為指標(biāo)為自變量,學(xué)習(xí)結(jié)果為因變量,利用逐步回歸進(jìn)行數(shù)據(jù)建模。將所有具有低顯著水平的預(yù)測(cè)因子從模型中刪除。圖1給出了不同人格特質(zhì)群體學(xué)習(xí)結(jié)果分布的箱線圖。箱線圖的優(yōu)勢(shì)是不受異常值的影響,是相對(duì)穩(wěn)定的數(shù)據(jù)離散分布可視化形式。從圖1可以看出各群體均服從正態(tài)分布,“低開放、高外傾”群體的學(xué)習(xí)結(jié)果平均水平與波動(dòng)程度低于其他群體。
容忍度與方差膨脹系數(shù)的結(jié)果排除了各回歸方程的多元共線性問題。表2給出了5類學(xué)習(xí)群體對(duì)應(yīng)的回歸方程預(yù)測(cè)變量。其中,全集數(shù)據(jù)樣本中總計(jì)學(xué)習(xí)時(shí)長、文本型提問數(shù)量、教師推薦發(fā)言數(shù)量、及時(shí)測(cè)評(píng)分?jǐn)?shù)、課后測(cè)驗(yàn)平均分?jǐn)?shù)5個(gè)變量依次進(jìn)入回歸方程(F=174.141, P=0.000),對(duì)學(xué)習(xí)結(jié)果解釋力為55%;“高開放、高外傾”學(xué)習(xí)群體,總計(jì)學(xué)習(xí)時(shí)長、文本型提問數(shù)量、教師推薦發(fā)言數(shù)量、課后測(cè)驗(yàn)平均分?jǐn)?shù)4個(gè)變量依次進(jìn)入回歸方程(F=50.340, P=0.000),對(duì)學(xué)習(xí)結(jié)果解釋力為60.3%;“低開放、高外傾”學(xué)習(xí)群體,文本型回答數(shù)量、媒體型回答數(shù)量、學(xué)習(xí)筆記數(shù)量、課后測(cè)驗(yàn)平均分?jǐn)?shù)4個(gè)變量依次進(jìn)入回歸方程(F=174.141, P=0.000),對(duì)學(xué)習(xí)結(jié)果解釋力為74.6%;“低開放、低外傾”學(xué)習(xí)群體,總計(jì)登錄次數(shù)、教師推薦發(fā)言數(shù)量、課后測(cè)驗(yàn)平均分?jǐn)?shù)3個(gè)變量依次進(jìn)入回歸方程(F=46.451, P=0.000),對(duì)學(xué)習(xí)結(jié)果解釋力為59.1%;“高開放、低外傾”學(xué)習(xí)群體,總計(jì)學(xué)習(xí)時(shí)長、媒體型回答數(shù)量、教師推薦發(fā)言數(shù)量、課后測(cè)驗(yàn)平均分?jǐn)?shù)4個(gè)變量依次進(jìn)入回歸方程(F=43.916, P=0.000),對(duì)學(xué)習(xí)結(jié)果解釋力為60.9%。
為了進(jìn)一步考察各回歸方程中課后測(cè)驗(yàn)平均分?jǐn)?shù)(最高權(quán)重)與學(xué)習(xí)結(jié)果的關(guān)系,以散點(diǎn)圖形式給出了兩者可視化關(guān)系,見圖2。散點(diǎn)圖是識(shí)別變量之間潛在相關(guān)趨勢(shì)的有效方法(Field, 2005)。圖2再次表明,課后測(cè)驗(yàn)平均分?jǐn)?shù)與不同人格特質(zhì)學(xué)習(xí)者的學(xué)習(xí)結(jié)果之間呈正相關(guān),且為線性趨勢(shì)。
(三)不同數(shù)據(jù)挖掘方法的預(yù)測(cè)效能比較
基于Python 3.7環(huán)境,利用28種回歸算法比較預(yù)測(cè)精度,包括ElasticNet回歸、Linear回歸、MLP回歸、SMO回歸、RandomTree回歸、RandomForest回歸、SVM回歸等。利用皮爾遜相關(guān)系數(shù)(PCC)、一致性相關(guān)系數(shù)(CCC)、平均絕對(duì)誤差(MAE)與均方根誤差(RMSE)以及5倍交叉驗(yàn)證,判別具有最佳精度和魯棒性的數(shù)據(jù)挖掘方法。其中,皮爾遜相關(guān)系數(shù)是預(yù)測(cè)分值與實(shí)際分值的皮爾遜相關(guān);一致性相關(guān)系數(shù)考察連續(xù)變量之間的一致性與重現(xiàn)性;平均絕對(duì)誤差是絕對(duì)誤差的平均值,能反映預(yù)測(cè)值誤差的實(shí)際情況;均方根誤差用來衡量預(yù)測(cè)值與實(shí)際值之間的誤差大小。圖3給出了不同算法的分析結(jié)果。
如圖3所示,對(duì)于皮爾遜相關(guān)系數(shù),RandomForest回歸最高(0.859),其次是KStar回歸(0.841);對(duì)于一致性相關(guān)系數(shù),RandomForest回歸最高(0.850),其次是KStar回歸(0.837);對(duì)于平均絕對(duì)誤差,KStar回歸最低(4.176),其次是JR回歸(6.490)和RandomForest回歸(6.635);對(duì)于均方根誤差,RandomForest回歸最低(10.906),其次是KStar回歸(11.663)。由此可以看出RandomForest回歸為最佳的預(yù)測(cè)算法。
利用分類算法對(duì)課程風(fēng)險(xiǎn)進(jìn)行識(shí)別預(yù)測(cè),學(xué)習(xí)結(jié)果低于60分的學(xué)習(xí)者被視為“具有風(fēng)險(xiǎn)”,60分至80分被視為“表現(xiàn)良好”,高于80分被視為“學(xué)業(yè)優(yōu)秀”。本研究比較了24種分類算法的預(yù)測(cè)精度,包括JR、RandomTree、RandomForest、SVM以及SMO等。利用準(zhǔn)確率(Precision)、正確率(Accuracy)、召回率(Recall)、F值(F-Measure)以及5倍交叉驗(yàn)證,判別具有最佳精度和魯棒性的數(shù)據(jù)挖掘方法。其中,正確率指分類正確的樣本數(shù)與樣本總數(shù)的比率;準(zhǔn)確率即查準(zhǔn)率,指檢索相關(guān)文檔數(shù)與檢索出文檔總數(shù)的比率;召回率即查全率,指檢索相關(guān)文檔數(shù)與所有相關(guān)文檔數(shù)的比率;F-Measure為查準(zhǔn)率與查全率加權(quán)調(diào)和平均值。圖4給出了不同算法的分析結(jié)果。
如圖4所示,在準(zhǔn)確率方面,RandomForest最高(0.905),其次是KStar(0.891)和MODLEM (0.875),NaiveBayes最低(0.563);在正確率方面,RandomForest最高(0.913),其次為MODLEM (0.887)與KStar(0.873),ConjunctiveRule(0.498)最低;在召回率方面,KStar最高(0.870),其次是RandomForest(0.859)和PART(0.830),SMO(0.591)最低;在F-Measure方面,RandomForest最高(0.879),其次為KStar(0.871)與MODLEM(0.830),SMO(0.529)最低??梢钥闯觯琑andomForest在預(yù)測(cè)學(xué)習(xí)者失敗風(fēng)險(xiǎn)方面效果最好。
(一)研究結(jié)論