袁亞興
(國(guó)家開放大學(xué),北京 100039)
由于互聯(lián)網(wǎng)科技的普及教育模式的轉(zhuǎn)變,在線教育越來(lái)越被人們認(rèn)可和接受。截止到2017年12月,國(guó)家開放大學(xué)在校生達(dá)到333.4萬(wàn),較2016年底增加2.5萬(wàn)人,年增長(zhǎng)率為0.77%[1]。學(xué)生學(xué)習(xí)主要基于網(wǎng)絡(luò)進(jìn)行,如此龐大的在線學(xué)生數(shù)量,其教學(xué)質(zhì)量及學(xué)生在線學(xué)習(xí)效果成為當(dāng)前國(guó)家開放大學(xué)關(guān)注的重點(diǎn)問題。由于在線教育時(shí)通過網(wǎng)絡(luò)在線連接師生進(jìn)行教育模式的劃定,如何根據(jù)在線學(xué)習(xí)者的學(xué)習(xí)行為進(jìn)行成績(jī)預(yù)測(cè),并為教育管理人員提供教學(xué)輔助,是在線教育亟待解決的重要問題[2][3]。
當(dāng)前數(shù)據(jù)挖掘技術(shù)飛速發(fā)展,通過探究數(shù)據(jù)間規(guī)律構(gòu)建在線學(xué)習(xí)成績(jī)預(yù)測(cè)模型,即從數(shù)據(jù)中學(xué)習(xí)預(yù)測(cè)模型是目前人工智能技術(shù)應(yīng)用教育數(shù)據(jù)的研究熱點(diǎn)。
然而,由于在線教育數(shù)據(jù)存在基數(shù)大、格式多樣的問題,針對(duì)不同數(shù)據(jù)需要提供特定算法模型,面向不同的在線情景各類算法準(zhǔn)確率也各有不同。本文基于國(guó)家開放大學(xué)2017年度學(xué)生網(wǎng)絡(luò)在線學(xué)習(xí)者學(xué)習(xí)行為數(shù)據(jù),使用機(jī)器學(xué)習(xí)中經(jīng)典分類模型,通過對(duì)在線學(xué)習(xí)者的學(xué)習(xí)行為特征的提取確定影響成績(jī)因素,然后提出基于機(jī)器學(xué)習(xí)預(yù)測(cè)方法對(duì)在線學(xué)習(xí)者學(xué)習(xí)成績(jī)進(jìn)行預(yù)測(cè),在實(shí)驗(yàn)驗(yàn)證的基礎(chǔ)上,通過對(duì)不同模型的實(shí)驗(yàn)結(jié)果的分析與比較,對(duì)模型的性能進(jìn)行評(píng)估與分析,最后對(duì)課程適用模型做出總結(jié)。
教育數(shù)據(jù)挖掘技術(shù)是利用數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域進(jìn)行針對(duì)各類不同教育環(huán)境中的數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,挖掘出數(shù)據(jù)內(nèi)蘊(yùn)藏行為規(guī)律,以幫助教育工作者更好地了解學(xué)生,幫助學(xué)生了解自身定位,改善學(xué)習(xí)環(huán)境。如今各類基建設(shè)施日趨完善,獲取的教育數(shù)據(jù)的質(zhì)量大幅提高,然而由于數(shù)據(jù)表現(xiàn)形式單一,無(wú)法直觀地從數(shù)據(jù)中發(fā)現(xiàn)其中潛在的規(guī)律,從而實(shí)現(xiàn)對(duì)事物的發(fā)展趨勢(shì)的預(yù)測(cè)[4]。德國(guó)學(xué)者Hans-peter Kriegel等于2007發(fā)表一篇關(guān)于數(shù)據(jù)挖掘技術(shù)發(fā)展前景及規(guī)律發(fā)現(xiàn)的文章[5],為數(shù)據(jù)挖掘在教育領(lǐng)域應(yīng)用奠定理論基礎(chǔ)。Romreo.C等利用學(xué)習(xí)日志數(shù)據(jù),構(gòu)建學(xué)習(xí)者行為數(shù)據(jù)預(yù)測(cè)模型,對(duì)學(xué)生學(xué)習(xí)動(dòng)機(jī)進(jìn)行預(yù)估[6]。
隨著教育數(shù)據(jù)挖掘技術(shù)逐漸發(fā)展,研究人員逐漸完成了針對(duì)教育數(shù)據(jù)的分類、聚類等相關(guān)分析工作,并利用數(shù)據(jù)統(tǒng)計(jì)分析方法完成了時(shí)序模型、關(guān)聯(lián)分析、偏差分析等任務(wù)[7]。其中應(yīng)用分類方法對(duì)成績(jī)進(jìn)行預(yù)測(cè)是分類技術(shù)應(yīng)用頻率最高的。通過對(duì)國(guó)內(nèi)外研究現(xiàn)狀的了解,針對(duì)教育數(shù)據(jù)進(jìn)行分類的應(yīng)用比較廣泛使用的方法有:Decision Trees、Support Vector Machine、Neural Network等。我國(guó)學(xué)者崔人桀應(yīng)用C4.5決策樹算法對(duì)學(xué)生專業(yè)培養(yǎng)數(shù)據(jù)進(jìn)行建模分析,挖掘?qū)W生行為規(guī)律[8]。隨后姜丹等人利用慕課網(wǎng)在線教育的特點(diǎn)及實(shí)踐現(xiàn)狀設(shè)計(jì)了一個(gè)智能學(xué)習(xí)平臺(tái),用來(lái)提升在線學(xué)習(xí)用戶的在線學(xué)習(xí)效果[9]。
綜上所述,已有研究中大多結(jié)合平臺(tái)自有數(shù)據(jù)進(jìn)行建模并進(jìn)行分析,少有結(jié)合在線課程行為數(shù)據(jù)以及針對(duì)網(wǎng)絡(luò)課程設(shè)計(jì)的模型,本文基于國(guó)家開放大學(xué)學(xué)生在線學(xué)習(xí)行為數(shù)據(jù)進(jìn)行方案的分析與設(shè)計(jì)。
本文研究學(xué)生網(wǎng)絡(luò)行為預(yù)測(cè)模型,首先通過對(duì)數(shù)據(jù)預(yù)處理,對(duì)數(shù)據(jù)進(jìn)行清洗,確保數(shù)據(jù)完整與完善,進(jìn)行特征提取,對(duì)特征進(jìn)行重復(fù)篩選與計(jì)算其相關(guān)系數(shù),最后使用經(jīng)典機(jī)器學(xué)習(xí)算法模型進(jìn)行預(yù)測(cè),最后對(duì)預(yù)測(cè)結(jié)果分析得出結(jié)論,并對(duì)不同課程使用不同模型,分析適合課程的理想模型。
圖1 模型流程框圖
本文從國(guó)家開放大學(xué)學(xué)習(xí)網(wǎng)篩選出116592名學(xué)生的學(xué)習(xí)數(shù)據(jù),主要包括用戶信息、課程信息、在線學(xué)習(xí)行為數(shù)據(jù)(提問、作業(yè)、測(cè)驗(yàn)、論壇、成績(jī))等進(jìn)行實(shí)驗(yàn)。
學(xué)生學(xué)習(xí)數(shù)據(jù)以關(guān)系數(shù)據(jù)形式進(jìn)行存儲(chǔ),以網(wǎng)絡(luò)構(gòu)架模式進(jìn)行采樣,對(duì)每次學(xué)生交互行為進(jìn)行記錄,根據(jù)主觀意識(shí)提取學(xué)生個(gè)人信息及學(xué)習(xí)情況作為實(shí)驗(yàn)數(shù)據(jù)。
通過獲取的格式化數(shù)據(jù)進(jìn)行處理,將數(shù)據(jù)轉(zhuǎn)化成標(biāo)準(zhǔn)化數(shù)據(jù),并進(jìn)行特征篩選,最后合成數(shù)據(jù)訓(xùn)練集與數(shù)據(jù)測(cè)試集。
通過對(duì)數(shù)據(jù)處理獲得相應(yīng)數(shù)據(jù)訓(xùn)練集與測(cè)試集,為模型訓(xùn)練提供了數(shù)據(jù)基礎(chǔ)。本研究第二重點(diǎn)為機(jī)器學(xué)習(xí)模型選取及模型訓(xùn)練。
本文使用神經(jīng)網(wǎng)絡(luò)、最近鄰、決策樹等多個(gè)經(jīng)典機(jī)器學(xué)習(xí)算法,進(jìn)行課程成績(jī)的預(yù)測(cè)與分析,通過分析得出相應(yīng)課程與適用模型的匹配規(guī)律。
數(shù)據(jù)處理后進(jìn)行數(shù)據(jù)提取工作,其中成績(jī)表為預(yù)測(cè)目的表,其中成績(jī)分為測(cè)試成績(jī)、最終成績(jī),最終成績(jī)?yōu)槟繕?biāo)成績(jī),也是我們的最終目的,由于成績(jī)值為連續(xù)性,采用分類方法將成績(jī)劃分,優(yōu)良中差四個(gè)等級(jí),劃分規(guī)律見表1所示。
表1 成績(jī)分級(jí)表
由于學(xué)生基數(shù)大且影響學(xué)生的其他因素較多,并且已經(jīng)獲取到的學(xué)生數(shù)據(jù)中存在大量的質(zhì)量問題,因此需要對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,主要存在問題分為以下三類:數(shù)據(jù)缺失、數(shù)據(jù)重復(fù)、數(shù)據(jù)錯(cuò)誤等。我們對(duì)所選取數(shù)據(jù)及逆行處理分析如下:
1.數(shù)據(jù)缺失
針對(duì)學(xué)生成績(jī)、學(xué)生學(xué)習(xí)信息缺失的情況進(jìn)行統(tǒng)計(jì)主要分為如下兩種情況,第一種為簡(jiǎn)單缺失,缺失某學(xué)生某一科目的或者某次課程時(shí)長(zhǎng),對(duì)于此問題采用向上采樣方式,獲取離其最近一次上課時(shí)長(zhǎng)作為填補(bǔ)值進(jìn)行填補(bǔ)。對(duì)于有的學(xué)生在選課表格中出現(xiàn)選課記錄,在成績(jī)表格中卻不存在上課記錄,此類缺失我們使用課程所屬科目?jī)?nèi)同類科目上課記錄,用其他科目對(duì)本科目成績(jī)進(jìn)行填充。
2.數(shù)據(jù)重復(fù)
數(shù)據(jù)出現(xiàn)重復(fù)記錄是錯(cuò)誤數(shù)據(jù)中最常見的,由于網(wǎng)絡(luò)問題,或者是提交問題,重復(fù)數(shù)據(jù)多種多樣,為避免重復(fù)數(shù)據(jù)對(duì)訓(xùn)練集造成影響,我們對(duì)于字段中重復(fù)出現(xiàn)的成績(jī)、信息等數(shù)據(jù)進(jìn)行簡(jiǎn)單去重,保留其最后一次提交數(shù)據(jù)。
3.數(shù)據(jù)錯(cuò)誤
錯(cuò)誤數(shù)據(jù)會(huì)影響預(yù)測(cè)準(zhǔn)確度,其存在于各類表中,但若對(duì)成績(jī)進(jìn)行預(yù)測(cè),成績(jī)準(zhǔn)確是最為客觀的標(biāo)準(zhǔn),我們對(duì)成績(jī)中出現(xiàn)的空值、異常值進(jìn)行遍歷刪除,用同類科目進(jìn)行填充。
在所有提取的學(xué)生行為特征中,有許多特征與目標(biāo)成績(jī)相關(guān)性極小,比如課程點(diǎn)擊次數(shù)對(duì)于成績(jī)影響較小。因此,可以進(jìn)行相關(guān)性分析,增強(qiáng)特征與特征之間的理解,并以此對(duì)特征進(jìn)行權(quán)重賦值,刪除權(quán)重值較輕的特征,增加特征間關(guān)聯(lián)性,以及與分類結(jié)果的相關(guān)性,以此達(dá)到改進(jìn)數(shù)據(jù)關(guān)聯(lián)強(qiáng)度,提高預(yù)測(cè)準(zhǔn)確精度的目的。同時(shí)適當(dāng)?shù)奶卣骱Y選,在降低算法復(fù)雜度的同時(shí)也適當(dāng)減小了工作量。
本文采取三種相關(guān)性分析方法即Pearson、RFE、Lasso,通過使用以上三種方法,進(jìn)行對(duì)學(xué)習(xí)行為特征的提取,本文所提出的算法采用最相關(guān)的前十個(gè)特征作為輸入數(shù)據(jù)進(jìn)行成績(jī)預(yù)測(cè),并根據(jù)不同算法模型,選取不同的特征進(jìn)行預(yù)測(cè)工作。
下文將對(duì)三種特征篩選方法進(jìn)行說(shuō)明。
1. Pearson相關(guān)分析:也稱作皮爾森相關(guān)系數(shù),是一種線性相關(guān)系數(shù),對(duì)于給定的兩個(gè)變量A和B,通過計(jì)算兩個(gè)變量的相關(guān)系數(shù)進(jìn)行相關(guān)性的判定。Pearson相關(guān)分析目的為了算出任意特征與目標(biāo)特征線性相關(guān)值,當(dāng)計(jì)算出所有相關(guān)系數(shù),我們可以根據(jù)實(shí)際需求效果選定合適的閾值進(jìn)行特征篩選,然后根據(jù)相關(guān)性的排布,將小于指定閾值的特征字段進(jìn)行剔除。
2. RFE特征消除法:也稱作遞歸特征消除法,旨在多次進(jìn)行模型構(gòu)建,通過衡量系數(shù)選擇最為合理的模型,以減小差值作為修改標(biāo)準(zhǔn),以此選擇出最為合理的模型特征,用來(lái)進(jìn)行特征的排序,確立了最優(yōu)先使用的特征和最優(yōu)先排除的特征,根據(jù)上述步驟循環(huán)進(jìn)行訓(xùn)練,直到所有的特征均被遍歷完成,RFE會(huì)給出一個(gè)次序特征,根據(jù)次序特征進(jìn)行特征選擇。
3. Lasso回歸算法:lasso是基于第一范式的特征選擇方法,其對(duì)數(shù)據(jù)要求極低,可以適用于一維連續(xù)因變量、多維連續(xù)因變量、非負(fù)次數(shù)因變量、二元離散因變量、多元離散因變量等線性模型,并且無(wú)論數(shù)據(jù)是連續(xù)值還是離散值,lasso算法均能很好地進(jìn)行特征選擇。同時(shí)lasso算法不僅可以選擇相對(duì)重要的變量,還可以穩(wěn)定的防止過擬合效應(yīng)。針對(duì)學(xué)生學(xué)習(xí)行為預(yù)測(cè)未來(lái)學(xué)生成績(jī),根據(jù)學(xué)生在進(jìn)行考試前一定時(shí)間內(nèi)量化的行為數(shù)據(jù)對(duì)歷史成績(jī)進(jìn)行訓(xùn)練學(xué)習(xí),為了在降低算法復(fù)雜度的同時(shí),更要保證成績(jī)預(yù)測(cè)準(zhǔn)確度,本文采用如上三種方法進(jìn)行特征篩選。
經(jīng)過特征選擇及特征降維,得到的特征數(shù)據(jù)為對(duì)成績(jī)影響最大的特征屬性,本文使用Pearson、Lasso、RFE等特征選擇方式經(jīng)過篩選剩余以下13類特征,詳情見表2:
表2 特征選取分析
提取特征后,從116592名學(xué)生中抽取了2000個(gè)學(xué)生以及他們兩個(gè)月在線學(xué)習(xí)數(shù)據(jù)作為樣本。以采用神經(jīng)網(wǎng)絡(luò)為例,BP神經(jīng)網(wǎng)絡(luò)[10]是一個(gè)信號(hào)前向傳播,誤差反向傳播的多層前饋神經(jīng)網(wǎng)絡(luò),在該預(yù)測(cè)模型中,神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖2所示。
圖2 神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖
xi輸入表示第i個(gè)輸入樣本數(shù)據(jù),同時(shí)所匹配的Vij權(quán)重表示輸入層到隱含層的第i個(gè)節(jié)點(diǎn)到第j個(gè)節(jié)點(diǎn)的權(quán)重代價(jià),Wij權(quán)重表示隱含層到輸出層的第i個(gè)節(jié)點(diǎn)到第j個(gè)節(jié)點(diǎn)的權(quán)重代價(jià)。對(duì)于輸入相應(yīng)的學(xué)生編號(hào)及提取隸屬于該課程信息進(jìn)行預(yù)測(cè),對(duì)結(jié)果進(jìn)行分析,并重復(fù)進(jìn)行。
經(jīng)過特征篩選與提取,利用機(jī)器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)、決策樹、高斯回歸、最近鄰等經(jīng)典算法進(jìn)行模型的構(gòu)建,對(duì)不同學(xué)生針對(duì)不同課程進(jìn)行預(yù)測(cè)分析。預(yù)測(cè)流程如圖3所示。
實(shí)驗(yàn)選取平均準(zhǔn)確率ACC、均方誤差MSE和均方根誤差RMSE作為相關(guān)性分析評(píng)價(jià)指標(biāo)。其中利用MSE、RMSE可以對(duì)預(yù)測(cè)方法的性能及準(zhǔn)確率進(jìn)行有效度量。假設(shè)Xi表示實(shí)際成績(jī)值,Mi為利用模型所得的預(yù)測(cè)成績(jī)值,則均方誤差和均方根誤差表示如下所示:
實(shí)驗(yàn)數(shù)據(jù)表明,分別采用神經(jīng)網(wǎng)絡(luò)模型、高斯回歸模型、最近鄰模型、決策樹等模型,使用上述三種降維方式進(jìn)行處理,準(zhǔn)確率比不做降維處理有所提高。相關(guān)性分析結(jié)果如表3所示。
表3 相關(guān)性分析結(jié)果
本次實(shí)驗(yàn)針對(duì)不同學(xué)生參與同一門課程的學(xué)習(xí)行為進(jìn)行分析,實(shí)驗(yàn)得出課程編號(hào)為23的課程,使用神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確率,比其他模型高出近一個(gè)百分點(diǎn)。因此可以選擇此類模型作為該課程預(yù)測(cè)模型。實(shí)驗(yàn)結(jié)果如表4所示。
本次實(shí)驗(yàn)以探究同一個(gè)學(xué)生對(duì)不同課程學(xué)習(xí)過程預(yù)測(cè)模型探究,實(shí)驗(yàn)表明,使用神經(jīng)網(wǎng)絡(luò)準(zhǔn)確率較其他模型要高,但對(duì)于樣本較少情況使用最近鄰更能很好適合樣本。部分實(shí)驗(yàn)結(jié)果如表5所示。
表4 同一門課程不同學(xué)生預(yù)測(cè)準(zhǔn)確率表
表5 同一個(gè)學(xué)生不同課程預(yù)測(cè)準(zhǔn)確率表
本文基于國(guó)家開放大學(xué)在線學(xué)習(xí)數(shù)據(jù),針對(duì)不同課程類型,選取不同特征數(shù)據(jù)進(jìn)行成績(jī)預(yù)測(cè),有效降低了算法復(fù)雜性,并大幅度提高了預(yù)測(cè)精度。實(shí)驗(yàn)結(jié)果表明,相對(duì)于所有同學(xué)都使用一個(gè)模型來(lái)說(shuō),不同學(xué)生選取不同模型有較高的定制與實(shí)用性,但由于數(shù)據(jù)質(zhì)量問題,學(xué)習(xí)者在線學(xué)習(xí)行為監(jiān)督不足等原因,各種策略的使用存在一定缺陷。下一步將針對(duì)每個(gè)學(xué)生具體情況進(jìn)行更為復(fù)雜的預(yù)測(cè),引入深度學(xué)習(xí)相關(guān)算法,進(jìn)一步改善特征選取的人為意愿的弊端,使得方法更具有實(shí)用性。