一種基于分類算法的在線學(xué)習(xí)成績(jī)預(yù)測(cè)策略

2019-08-05 09:56:18袁亞興

廣播電視大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版) 2019年2期

袁亞興

(國(guó)家開放大學(xué)，北京 100039)

由于互聯(lián)網(wǎng)科技的普及教育模式的轉(zhuǎn)變，在線教育越來(lái)越被人們認(rèn)可和接受。截止到2017年12月，國(guó)家開放大學(xué)在校生達(dá)到333.4萬(wàn)，較2016年底增加2.5萬(wàn)人，年增長(zhǎng)率為0.77%[1]。學(xué)生學(xué)習(xí)主要基于網(wǎng)絡(luò)進(jìn)行，如此龐大的在線學(xué)生數(shù)量，其教學(xué)質(zhì)量及學(xué)生在線學(xué)習(xí)效果成為當(dāng)前國(guó)家開放大學(xué)關(guān)注的重點(diǎn)問題。由于在線教育時(shí)通過網(wǎng)絡(luò)在線連接師生進(jìn)行教育模式的劃定，如何根據(jù)在線學(xué)習(xí)者的學(xué)習(xí)行為進(jìn)行成績(jī)預(yù)測(cè)，并為教育管理人員提供教學(xué)輔助，是在線教育亟待解決的重要問題[2][3]。

當(dāng)前數(shù)據(jù)挖掘技術(shù)飛速發(fā)展，通過探究數(shù)據(jù)間規(guī)律構(gòu)建在線學(xué)習(xí)成績(jī)預(yù)測(cè)模型，即從數(shù)據(jù)中學(xué)習(xí)預(yù)測(cè)模型是目前人工智能技術(shù)應(yīng)用教育數(shù)據(jù)的研究熱點(diǎn)。

然而，由于在線教育數(shù)據(jù)存在基數(shù)大、格式多樣的問題，針對(duì)不同數(shù)據(jù)需要提供特定算法模型，面向不同的在線情景各類算法準(zhǔn)確率也各有不同。本文基于國(guó)家開放大學(xué)2017年度學(xué)生網(wǎng)絡(luò)在線學(xué)習(xí)者學(xué)習(xí)行為數(shù)據(jù)，使用機(jī)器學(xué)習(xí)中經(jīng)典分類模型，通過對(duì)在線學(xué)習(xí)者的學(xué)習(xí)行為特征的提取確定影響成績(jī)因素，然后提出基于機(jī)器學(xué)習(xí)預(yù)測(cè)方法對(duì)在線學(xué)習(xí)者學(xué)習(xí)成績(jī)進(jìn)行預(yù)測(cè)，在實(shí)驗(yàn)驗(yàn)證的基礎(chǔ)上，通過對(duì)不同模型的實(shí)驗(yàn)結(jié)果的分析與比較，對(duì)模型的性能進(jìn)行評(píng)估與分析，最后對(duì)課程適用模型做出總結(jié)。

一、相關(guān)工作

教育數(shù)據(jù)挖掘技術(shù)是利用數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域進(jìn)行針對(duì)各類不同教育環(huán)境中的數(shù)據(jù)進(jìn)行數(shù)據(jù)融合，挖掘出數(shù)據(jù)內(nèi)蘊(yùn)藏行為規(guī)律，以幫助教育工作者更好地了解學(xué)生，幫助學(xué)生了解自身定位，改善學(xué)習(xí)環(huán)境。如今各類基建設(shè)施日趨完善，獲取的教育數(shù)據(jù)的質(zhì)量大幅提高，然而由于數(shù)據(jù)表現(xiàn)形式單一，無(wú)法直觀地從數(shù)據(jù)中發(fā)現(xiàn)其中潛在的規(guī)律，從而實(shí)現(xiàn)對(duì)事物的發(fā)展趨勢(shì)的預(yù)測(cè)[4]。德國(guó)學(xué)者Hans-peter Kriegel等于2007發(fā)表一篇關(guān)于數(shù)據(jù)挖掘技術(shù)發(fā)展前景及規(guī)律發(fā)現(xiàn)的文章[5]，為數(shù)據(jù)挖掘在教育領(lǐng)域應(yīng)用奠定理論基礎(chǔ)。Romreo.C等利用學(xué)習(xí)日志數(shù)據(jù)，構(gòu)建學(xué)習(xí)者行為數(shù)據(jù)預(yù)測(cè)模型，對(duì)學(xué)生學(xué)習(xí)動(dòng)機(jī)進(jìn)行預(yù)估[6]。

隨著教育數(shù)據(jù)挖掘技術(shù)逐漸發(fā)展，研究人員逐漸完成了針對(duì)教育數(shù)據(jù)的分類、聚類等相關(guān)分析工作，并利用數(shù)據(jù)統(tǒng)計(jì)分析方法完成了時(shí)序模型、關(guān)聯(lián)分析、偏差分析等任務(wù)[7]。其中應(yīng)用分類方法對(duì)成績(jī)進(jìn)行預(yù)測(cè)是分類技術(shù)應(yīng)用頻率最高的。通過對(duì)國(guó)內(nèi)外研究現(xiàn)狀的了解，針對(duì)教育數(shù)據(jù)進(jìn)行分類的應(yīng)用比較廣泛使用的方法有：Decision Trees、Support Vector Machine、Neural Network等。我國(guó)學(xué)者崔人桀應(yīng)用C4.5決策樹算法對(duì)學(xué)生專業(yè)培養(yǎng)數(shù)據(jù)進(jìn)行建模分析，挖掘?qū)W生行為規(guī)律[8]。隨后姜丹等人利用慕課網(wǎng)在線教育的特點(diǎn)及實(shí)踐現(xiàn)狀設(shè)計(jì)了一個(gè)智能學(xué)習(xí)平臺(tái)，用來(lái)提升在線學(xué)習(xí)用戶的在線學(xué)習(xí)效果[9]。

綜上所述，已有研究中大多結(jié)合平臺(tái)自有數(shù)據(jù)進(jìn)行建模并進(jìn)行分析，少有結(jié)合在線課程行為數(shù)據(jù)以及針對(duì)網(wǎng)絡(luò)課程設(shè)計(jì)的模型，本文基于國(guó)家開放大學(xué)學(xué)生在線學(xué)習(xí)行為數(shù)據(jù)進(jìn)行方案的分析與設(shè)計(jì)。

二、研究?jī)?nèi)容

本文研究學(xué)生網(wǎng)絡(luò)行為預(yù)測(cè)模型，首先通過對(duì)數(shù)據(jù)預(yù)處理，對(duì)數(shù)據(jù)進(jìn)行清洗，確保數(shù)據(jù)完整與完善，進(jìn)行特征提取，對(duì)特征進(jìn)行重復(fù)篩選與計(jì)算其相關(guān)系數(shù)，最后使用經(jīng)典機(jī)器學(xué)習(xí)算法模型進(jìn)行預(yù)測(cè)，最后對(duì)預(yù)測(cè)結(jié)果分析得出結(jié)論，并對(duì)不同課程使用不同模型，分析適合課程的理想模型。

圖1 模型流程框圖

本文從國(guó)家開放大學(xué)學(xué)習(xí)網(wǎng)篩選出116592名學(xué)生的學(xué)習(xí)數(shù)據(jù)，主要包括用戶信息、課程信息、在線學(xué)習(xí)行為數(shù)據(jù)(提問、作業(yè)、測(cè)驗(yàn)、論壇、成績(jī))等進(jìn)行實(shí)驗(yàn)。

學(xué)生學(xué)習(xí)數(shù)據(jù)以關(guān)系數(shù)據(jù)形式進(jìn)行存儲(chǔ)，以網(wǎng)絡(luò)構(gòu)架模式進(jìn)行采樣，對(duì)每次學(xué)生交互行為進(jìn)行記錄，根據(jù)主觀意識(shí)提取學(xué)生個(gè)人信息及學(xué)習(xí)情況作為實(shí)驗(yàn)數(shù)據(jù)。

通過獲取的格式化數(shù)據(jù)進(jìn)行處理，將數(shù)據(jù)轉(zhuǎn)化成標(biāo)準(zhǔn)化數(shù)據(jù)，并進(jìn)行特征篩選，最后合成數(shù)據(jù)訓(xùn)練集與數(shù)據(jù)測(cè)試集。

通過對(duì)數(shù)據(jù)處理獲得相應(yīng)數(shù)據(jù)訓(xùn)練集與測(cè)試集，為模型訓(xùn)練提供了數(shù)據(jù)基礎(chǔ)。本研究第二重點(diǎn)為機(jī)器學(xué)習(xí)模型選取及模型訓(xùn)練。

本文使用神經(jīng)網(wǎng)絡(luò)、最近鄰、決策樹等多個(gè)經(jīng)典機(jī)器學(xué)習(xí)算法，進(jìn)行課程成績(jī)的預(yù)測(cè)與分析，通過分析得出相應(yīng)課程與適用模型的匹配規(guī)律。

三、數(shù)據(jù)預(yù)處理與特征提取

(一)數(shù)據(jù)預(yù)處理

數(shù)據(jù)處理后進(jìn)行數(shù)據(jù)提取工作，其中成績(jī)表為預(yù)測(cè)目的表，其中成績(jī)分為測(cè)試成績(jī)、最終成績(jī)，最終成績(jī)?yōu)槟繕?biāo)成績(jī)，也是我們的最終目的，由于成績(jī)值為連續(xù)性，采用分類方法將成績(jī)劃分，優(yōu)良中差四個(gè)等級(jí)，劃分規(guī)律見表1所示。

表1 成績(jī)分級(jí)表

由于學(xué)生基數(shù)大且影響學(xué)生的其他因素較多，并且已經(jīng)獲取到的學(xué)生數(shù)據(jù)中存在大量的質(zhì)量問題，因此需要對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗，主要存在問題分為以下三類：數(shù)據(jù)缺失、數(shù)據(jù)重復(fù)、數(shù)據(jù)錯(cuò)誤等。我們對(duì)所選取數(shù)據(jù)及逆行處理分析如下：

1.數(shù)據(jù)缺失

針對(duì)學(xué)生成績(jī)、學(xué)生學(xué)習(xí)信息缺失的情況進(jìn)行統(tǒng)計(jì)主要分為如下兩種情況，第一種為簡(jiǎn)單缺失，缺失某學(xué)生某一科目的或者某次課程時(shí)長(zhǎng)，對(duì)于此問題采用向上采樣方式，獲取離其最近一次上課時(shí)長(zhǎng)作為填補(bǔ)值進(jìn)行填補(bǔ)。對(duì)于有的學(xué)生在選課表格中出現(xiàn)選課記錄，在成績(jī)表格中卻不存在上課記錄，此類缺失我們使用課程所屬科目?jī)?nèi)同類科目上課記錄，用其他科目對(duì)本科目成績(jī)進(jìn)行填充。

2.數(shù)據(jù)重復(fù)

數(shù)據(jù)出現(xiàn)重復(fù)記錄是錯(cuò)誤數(shù)據(jù)中最常見的，由于網(wǎng)絡(luò)問題，或者是提交問題，重復(fù)數(shù)據(jù)多種多樣，為避免重復(fù)數(shù)據(jù)對(duì)訓(xùn)練集造成影響，我們對(duì)于字段中重復(fù)出現(xiàn)的成績(jī)、信息等數(shù)據(jù)進(jìn)行簡(jiǎn)單去重，保留其最后一次提交數(shù)據(jù)。

3.數(shù)據(jù)錯(cuò)誤

錯(cuò)誤數(shù)據(jù)會(huì)影響預(yù)測(cè)準(zhǔn)確度，其存在于各類表中，但若對(duì)成績(jī)進(jìn)行預(yù)測(cè)，成績(jī)準(zhǔn)確是最為客觀的標(biāo)準(zhǔn)，我們對(duì)成績(jī)中出現(xiàn)的空值、異常值進(jìn)行遍歷刪除，用同類科目進(jìn)行填充。

(二)特征篩選

在所有提取的學(xué)生行為特征中，有許多特征與目標(biāo)成績(jī)相關(guān)性極小，比如課程點(diǎn)擊次數(shù)對(duì)于成績(jī)影響較小。因此，可以進(jìn)行相關(guān)性分析，增強(qiáng)特征與特征之間的理解，并以此對(duì)特征進(jìn)行權(quán)重賦值，刪除權(quán)重值較輕的特征，增加特征間關(guān)聯(lián)性，以及與分類結(jié)果的相關(guān)性，以此達(dá)到改進(jìn)數(shù)據(jù)關(guān)聯(lián)強(qiáng)度，提高預(yù)測(cè)準(zhǔn)確精度的目的。同時(shí)適當(dāng)?shù)奶卣骱Y選，在降低算法復(fù)雜度的同時(shí)也適當(dāng)減小了工作量。

本文采取三種相關(guān)性分析方法即Pearson、RFE、Lasso，通過使用以上三種方法，進(jìn)行對(duì)學(xué)習(xí)行為特征的提取，本文所提出的算法采用最相關(guān)的前十個(gè)特征作為輸入數(shù)據(jù)進(jìn)行成績(jī)預(yù)測(cè)，并根據(jù)不同算法模型，選取不同的特征進(jìn)行預(yù)測(cè)工作。

下文將對(duì)三種特征篩選方法進(jìn)行說(shuō)明。

1. Pearson相關(guān)分析：也稱作皮爾森相關(guān)系數(shù)，是一種線性相關(guān)系數(shù)，對(duì)于給定的兩個(gè)變量A和B，通過計(jì)算兩個(gè)變量的相關(guān)系數(shù)進(jìn)行相關(guān)性的判定。Pearson相關(guān)分析目的為了算出任意特征與目標(biāo)特征線性相關(guān)值，當(dāng)計(jì)算出所有相關(guān)系數(shù)，我們可以根據(jù)實(shí)際需求效果選定合適的閾值進(jìn)行特征篩選，然后根據(jù)相關(guān)性的排布，將小于指定閾值的特征字段進(jìn)行剔除。

2. RFE特征消除法：也稱作遞歸特征消除法，旨在多次進(jìn)行模型構(gòu)建，通過衡量系數(shù)選擇最為合理的模型，以減小差值作為修改標(biāo)準(zhǔn)，以此選擇出最為合理的模型特征，用來(lái)進(jìn)行特征的排序，確立了最優(yōu)先使用的特征和最優(yōu)先排除的特征，根據(jù)上述步驟循環(huán)進(jìn)行訓(xùn)練，直到所有的特征均被遍歷完成，RFE會(huì)給出一個(gè)次序特征，根據(jù)次序特征進(jìn)行特征選擇。

3. Lasso回歸算法：lasso是基于第一范式的特征選擇方法，其對(duì)數(shù)據(jù)要求極低，可以適用于一維連續(xù)因變量、多維連續(xù)因變量、非負(fù)次數(shù)因變量、二元離散因變量、多元離散因變量等線性模型，并且無(wú)論數(shù)據(jù)是連續(xù)值還是離散值，lasso算法均能很好地進(jìn)行特征選擇。同時(shí)lasso算法不僅可以選擇相對(duì)重要的變量，還可以穩(wěn)定的防止過擬合效應(yīng)。針對(duì)學(xué)生學(xué)習(xí)行為預(yù)測(cè)未來(lái)學(xué)生成績(jī)，根據(jù)學(xué)生在進(jìn)行考試前一定時(shí)間內(nèi)量化的行為數(shù)據(jù)對(duì)歷史成績(jī)進(jìn)行訓(xùn)練學(xué)習(xí)，為了在降低算法復(fù)雜度的同時(shí)，更要保證成績(jī)預(yù)測(cè)準(zhǔn)確度，本文采用如上三種方法進(jìn)行特征篩選。

四、基于機(jī)器學(xué)習(xí)分類算法預(yù)測(cè)模型建立

(一)特征提取

經(jīng)過特征選擇及特征降維，得到的特征數(shù)據(jù)為對(duì)成績(jī)影響最大的特征屬性，本文使用Pearson、Lasso、RFE等特征選擇方式經(jīng)過篩選剩余以下13類特征，詳情見表2：

表2 特征選取分析

(二)預(yù)測(cè)模型選取

提取特征后，從116592名學(xué)生中抽取了2000個(gè)學(xué)生以及他們兩個(gè)月在線學(xué)習(xí)數(shù)據(jù)作為樣本。以采用神經(jīng)網(wǎng)絡(luò)為例，BP神經(jīng)網(wǎng)絡(luò)[10]是一個(gè)信號(hào)前向傳播，誤差反向傳播的多層前饋神經(jīng)網(wǎng)絡(luò)，在該預(yù)測(cè)模型中，神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖2所示。

圖2 神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖

xi輸入表示第i個(gè)輸入樣本數(shù)據(jù)，同時(shí)所匹配的Vij權(quán)重表示輸入層到隱含層的第i個(gè)節(jié)點(diǎn)到第j個(gè)節(jié)點(diǎn)的權(quán)重代價(jià)，Wij權(quán)重表示隱含層到輸出層的第i個(gè)節(jié)點(diǎn)到第j個(gè)節(jié)點(diǎn)的權(quán)重代價(jià)。對(duì)于輸入相應(yīng)的學(xué)生編號(hào)及提取隸屬于該課程信息進(jìn)行預(yù)測(cè)，對(duì)結(jié)果進(jìn)行分析，并重復(fù)進(jìn)行。

(三)預(yù)測(cè)流程

經(jīng)過特征篩選與提取，利用機(jī)器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)、決策樹、高斯回歸、最近鄰等經(jīng)典算法進(jìn)行模型的構(gòu)建，對(duì)不同學(xué)生針對(duì)不同課程進(jìn)行預(yù)測(cè)分析。預(yù)測(cè)流程如圖3所示。

(一)特征選擇分析結(jié)果

實(shí)驗(yàn)選取平均準(zhǔn)確率ACC、均方誤差MSE和均方根誤差RMSE作為相關(guān)性分析評(píng)價(jià)指標(biāo)。其中利用MSE、RMSE可以對(duì)預(yù)測(cè)方法的性能及準(zhǔn)確率進(jìn)行有效度量。假設(shè)Xi表示實(shí)際成績(jī)值，Mi為利用模型所得的預(yù)測(cè)成績(jī)值，則均方誤差和均方根誤差表示如下所示：

實(shí)驗(yàn)數(shù)據(jù)表明，分別采用神經(jīng)網(wǎng)絡(luò)模型、高斯回歸模型、最近鄰模型、決策樹等模型，使用上述三種降維方式進(jìn)行處理，準(zhǔn)確率比不做降維處理有所提高。相關(guān)性分析結(jié)果如表3所示。

表3 相關(guān)性分析結(jié)果

(二)模型選擇分析結(jié)果

本次實(shí)驗(yàn)針對(duì)不同學(xué)生參與同一門課程的學(xué)習(xí)行為進(jìn)行分析，實(shí)驗(yàn)得出課程編號(hào)為23的課程，使用神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確率，比其他模型高出近一個(gè)百分點(diǎn)。因此可以選擇此類模型作為該課程預(yù)測(cè)模型。實(shí)驗(yàn)結(jié)果如表4所示。

本次實(shí)驗(yàn)以探究同一個(gè)學(xué)生對(duì)不同課程學(xué)習(xí)過程預(yù)測(cè)模型探究，實(shí)驗(yàn)表明，使用神經(jīng)網(wǎng)絡(luò)準(zhǔn)確率較其他模型要高，但對(duì)于樣本較少情況使用最近鄰更能很好適合樣本。部分實(shí)驗(yàn)結(jié)果如表5所示。

表4 同一門課程不同學(xué)生預(yù)測(cè)準(zhǔn)確率表

表5 同一個(gè)學(xué)生不同課程預(yù)測(cè)準(zhǔn)確率表

六、結(jié)論

本文基于國(guó)家開放大學(xué)在線學(xué)習(xí)數(shù)據(jù)，針對(duì)不同課程類型，選取不同特征數(shù)據(jù)進(jìn)行成績(jī)預(yù)測(cè)，有效降低了算法復(fù)雜性，并大幅度提高了預(yù)測(cè)精度。實(shí)驗(yàn)結(jié)果表明，相對(duì)于所有同學(xué)都使用一個(gè)模型來(lái)說(shuō)，不同學(xué)生選取不同模型有較高的定制與實(shí)用性，但由于數(shù)據(jù)質(zhì)量問題，學(xué)習(xí)者在線學(xué)習(xí)行為監(jiān)督不足等原因，各種策略的使用存在一定缺陷。下一步將針對(duì)每個(gè)學(xué)生具體情況進(jìn)行更為復(fù)雜的預(yù)測(cè)，引入深度學(xué)習(xí)相關(guān)算法，進(jìn)一步改善特征選取的人為意愿的弊端，使得方法更具有實(shí)用性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡