林龍 沈海青
摘? 要? 傳統(tǒng)的基于數(shù)據(jù)挖掘技術(shù)的學(xué)業(yè)表現(xiàn)研究存在數(shù)據(jù)來源單一、學(xué)習(xí)行為靜態(tài)、數(shù)據(jù)關(guān)聯(lián)模型準(zhǔn)確度低等問題,如何對(duì)學(xué)業(yè)表現(xiàn)進(jìn)行實(shí)時(shí)動(dòng)態(tài)精確監(jiān)測(cè),更好地為教育管理者服務(wù),實(shí)現(xiàn)學(xué)生學(xué)業(yè)預(yù)警,是目前較難解決的問題。針對(duì)以上問題,借助學(xué)校的多個(gè)平臺(tái)數(shù)據(jù)系統(tǒng),圍繞學(xué)業(yè)表現(xiàn)預(yù)警問題,采用當(dāng)下前沿的深度學(xué)習(xí)方法構(gòu)建模型,進(jìn)行學(xué)習(xí)表現(xiàn)預(yù)測(cè),研究成果為學(xué)校和教師及時(shí)進(jìn)行調(diào)整并給出個(gè)性化指導(dǎo)提供有益思路。
關(guān)鍵詞? 教育大數(shù)據(jù);數(shù)據(jù)平臺(tái);數(shù)據(jù)挖掘;深度學(xué)習(xí);學(xué)業(yè)預(yù)警
中圖分類號(hào):G712? ? 文獻(xiàn)標(biāo)識(shí)碼:B
文章編號(hào):1671-489X(2022)22-0034-04
0? 引言
隨著智慧校園、數(shù)字校園的推廣,大數(shù)據(jù)早已進(jìn)入校園各個(gè)角落,學(xué)生在學(xué)習(xí)、生活中無時(shí)無刻不在產(chǎn)生數(shù)據(jù),背后都有相應(yīng)的數(shù)據(jù)系統(tǒng)在跟蹤記錄。與此同時(shí),教育也從經(jīng)驗(yàn)向數(shù)據(jù)驅(qū)動(dòng)決策、管理的方向發(fā)展,教育大數(shù)據(jù)研究和應(yīng)用是當(dāng)下熱議的話題。學(xué)生的學(xué)業(yè)表現(xiàn)是教育大數(shù)據(jù)應(yīng)用研究的一個(gè)重要方向,也是學(xué)校教育管理者、教師、家長(zhǎng)共同關(guān)心的焦點(diǎn)。不少學(xué)者將教育大數(shù)據(jù)和人工智能技術(shù)相結(jié)合,應(yīng)用于學(xué)生的學(xué)習(xí)行為分析和學(xué)業(yè)表現(xiàn)預(yù)測(cè),目前在相關(guān)方面已開展深入而廣泛的研究[1-2]。但是基于數(shù)據(jù)挖掘分析技術(shù)的學(xué)業(yè)表現(xiàn)研究還存在以下問題。
1)數(shù)據(jù)來源單向、片面。學(xué)生的學(xué)業(yè)數(shù)據(jù)往往來源于課程成績(jī),這類數(shù)據(jù)較為單一。實(shí)際上,評(píng)價(jià)學(xué)生的學(xué)業(yè)表現(xiàn)應(yīng)該是多維度多方面的。學(xué)生無時(shí)無刻不在產(chǎn)生數(shù)據(jù),學(xué)業(yè)表現(xiàn)應(yīng)該體現(xiàn)在學(xué)生學(xué)習(xí)、生活的方方面面,比如學(xué)生的德智體美勞,這五個(gè)方面都應(yīng)該被納入評(píng)價(jià)范圍,因此需要構(gòu)建一個(gè)整合型教育數(shù)據(jù)系統(tǒng)。
2)學(xué)習(xí)行為的單一性、靜態(tài)性。基于學(xué)習(xí)行為的分析往往只考慮單一或者幾種靜態(tài)的學(xué)習(xí)行為,并未考慮學(xué)習(xí)行為隨著時(shí)間而變化的特點(diǎn),因此,如何追蹤學(xué)生在學(xué)習(xí)過程中不斷變化的行為特征,如何精準(zhǔn)確定學(xué)生相應(yīng)階段的狀態(tài)變化等,是當(dāng)前教育數(shù)據(jù)研究實(shí)踐中亟待解決的難題。
3)數(shù)據(jù)關(guān)聯(lián)模型精度不夠。如何基于學(xué)習(xí)生活行為對(duì)學(xué)業(yè)表現(xiàn)的影響,構(gòu)建學(xué)業(yè)表現(xiàn)的自變量和因變量因子,從而進(jìn)行客觀全面評(píng)價(jià),并對(duì)不良趨勢(shì)進(jìn)行精確預(yù)測(cè)預(yù)警,是目前研究的一個(gè)難點(diǎn)。
針對(duì)以上問題,在教育大數(shù)據(jù)挖掘分析與應(yīng)用中,收集和打通與學(xué)生相關(guān)的多個(gè)數(shù)據(jù)系統(tǒng),消除數(shù)據(jù)冗余,形成整合型教育數(shù)據(jù)系統(tǒng),構(gòu)建全方位的學(xué)生立體化數(shù)據(jù)庫,通過人工智能算法技術(shù),從宏觀層面對(duì)學(xué)生學(xué)業(yè)表現(xiàn)情況進(jìn)行建模研究,同時(shí)在微觀層面針對(duì)學(xué)生個(gè)體動(dòng)態(tài)監(jiān)控學(xué)習(xí)過程、實(shí)時(shí)預(yù)測(cè)學(xué)習(xí)成績(jī)、有效評(píng)價(jià)學(xué)習(xí)結(jié)果,進(jìn)而提供有針對(duì)性的干預(yù)和指導(dǎo),顯得很有實(shí)際價(jià)值和現(xiàn)實(shí)意義[3]。
深度學(xué)習(xí)技術(shù)由多倫多大學(xué)的Hinton教授提出,是目前機(jī)器學(xué)習(xí)的最新熱門研究領(lǐng)域。深度學(xué)習(xí)算法已被很多學(xué)者應(yīng)用于學(xué)習(xí)預(yù)測(cè)、語音識(shí)別等諸多領(lǐng)域,并展示出寬廣的應(yīng)用空間和價(jià)值,比其他的數(shù)據(jù)挖掘方法更具靈活性和準(zhǔn)確性,也彌補(bǔ)了許多數(shù)據(jù)挖掘方法的缺點(diǎn)[4]。本文基于深度學(xué)習(xí)算法,綜合學(xué)生在校表現(xiàn)的多維度評(píng)價(jià)數(shù)據(jù),高效利用學(xué)習(xí)過程的動(dòng)態(tài)數(shù)據(jù),構(gòu)建基于時(shí)間的學(xué)習(xí)行為表現(xiàn)模型,對(duì)學(xué)生的學(xué)習(xí)狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)測(cè),從而實(shí)現(xiàn)學(xué)業(yè)表現(xiàn)異常學(xué)生的及時(shí)預(yù)警。
1? 整合型教育數(shù)據(jù)系統(tǒng)采集
基于學(xué)生在校學(xué)習(xí)生活多類平臺(tái)系統(tǒng),對(duì)各類數(shù)據(jù)進(jìn)行收集匯總,建立學(xué)生在校檔案的立體數(shù)據(jù)庫,通過該數(shù)據(jù)庫可以了解學(xué)生在校學(xué)習(xí)生活的全方位信息。依據(jù)獲得數(shù)據(jù)的來源場(chǎng)合,從以下七個(gè)方面進(jìn)行數(shù)據(jù)收集:
1)招生管理系統(tǒng)中的檔案數(shù)據(jù),記錄了學(xué)生的基本信息;
2)教學(xué)平臺(tái)數(shù)據(jù),記錄了教務(wù)管理系統(tǒng)中學(xué)生的各門課程考試成績(jī);
3)在線學(xué)習(xí)平臺(tái)數(shù)據(jù),記錄了課堂教學(xué)過程中學(xué)生的學(xué)習(xí)行為數(shù)據(jù);
4)體育系統(tǒng)中的體測(cè)平臺(tái)數(shù)據(jù),記錄了學(xué)生體育鍛煉和測(cè)試的各項(xiàng)數(shù)據(jù);
5)教育科研平臺(tái)數(shù)據(jù),記錄學(xué)生參與創(chuàng)新創(chuàng)業(yè)、技能比賽數(shù)據(jù);
6)學(xué)生社會(huì)實(shí)踐平臺(tái)數(shù)據(jù),記錄學(xué)生成長(zhǎng)過程中的學(xué)習(xí)工作行為;
7)圖書借閱數(shù)據(jù),記錄了圖書管理系統(tǒng)中學(xué)生的閱讀記錄、借閱次數(shù)等。
采集表1所示數(shù)據(jù)表格作為學(xué)生個(gè)體的學(xué)業(yè)表現(xiàn)數(shù)據(jù),以固定周期作為數(shù)據(jù)統(tǒng)計(jì)的內(nèi)容,將數(shù)據(jù)以向量的形式保存在系統(tǒng)中,做好標(biāo)簽記錄,所有數(shù)據(jù)均以數(shù)值形式體現(xiàn)。
2? 基于深度學(xué)習(xí)的學(xué)生學(xué)業(yè)表現(xiàn)模型構(gòu)建及預(yù)測(cè)
2.1? 數(shù)據(jù)預(yù)處理
根據(jù)以上七大數(shù)據(jù)系統(tǒng)中提取的數(shù)十維特征,設(shè)得到的特征矩陣為X:
其中,X(t)=當(dāng)前學(xué)期不同月份對(duì)應(yīng)的特征矩陣,m=學(xué)生數(shù),n=特征個(gè)數(shù),t=時(shí)間度量間隔,本文以月份進(jìn)行表示。
由于數(shù)據(jù)維度很高,且格式不統(tǒng)一,因此需要對(duì)自變量數(shù)據(jù)X進(jìn)行預(yù)處理。先對(duì)單個(gè)學(xué)生的單組數(shù)據(jù)進(jìn)行歸一化,然后進(jìn)行主成分分析(PCA),獲得學(xué)生單組特征數(shù)據(jù)集。具體步驟如下。
1)標(biāo)準(zhǔn)化。對(duì)特征矩陣X中的每個(gè)月份特征X(t)進(jìn)行Z-Score標(biāo)準(zhǔn)化,得到具體標(biāo)準(zhǔn)化公式:
其中,和σ分別為每個(gè)月份特征X(t)的均值和方差。
2)降低數(shù)據(jù)維度。利用主成分分析方法對(duì)每個(gè)固定周期特征進(jìn)行降維,設(shè)定累積方差貢獻(xiàn)率θ,選擇累積方差貢獻(xiàn)率大于θ的主成分,作為降維后的特征Xd(t)。
學(xué)生的課程種類多,數(shù)據(jù)維度高,對(duì)因變量數(shù)據(jù)Y進(jìn)行預(yù)處理。設(shè)計(jì)以每學(xué)期的加權(quán)平均作為綜合成績(jī),公式如下:
其中,n=該生本學(xué)期的課程數(shù)量,credit=某門課程學(xué)分,score=某門課程成績(jī)。計(jì)算得到每學(xué)期的綜合加權(quán)平均成績(jī)之后,將成績(jī)按照優(yōu)秀、良好、中等、及格、不及格分成五檔,對(duì)應(yīng)的分?jǐn)?shù)分別為:90分及以上,80~89分,70~79分,60~69分,低于60分。以分?jǐn)?shù)段進(jìn)行獨(dú)熱編碼,形成學(xué)生成績(jī)標(biāo)簽Y:
2.2? 建立學(xué)習(xí)狀態(tài)異常監(jiān)測(cè)模型
構(gòu)建many2one形式的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型[5],將同一學(xué)生連續(xù)的若干個(gè)單組特征數(shù)據(jù)集輸入模型進(jìn)行訓(xùn)練,得到該學(xué)生的預(yù)測(cè)模型,從而實(shí)現(xiàn)對(duì)學(xué)生當(dāng)前成績(jī)的預(yù)測(cè)預(yù)警。
將Xd(t)作為輸入,Y作為輸出,訓(xùn)練長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型(LSTM),采用交叉熵?fù)p失函數(shù)作為損失函數(shù),形式如下:
其中,Y表示實(shí)際輸出,表示預(yù)測(cè)輸出。優(yōu)化器采用隨機(jī)梯度下降算法(SGD),為了獲取網(wǎng)絡(luò)模型的隱層單元值,在輸入與輸出處加入dropout層。另外,本模型中也可利用多個(gè)已知的歷史學(xué)業(yè)數(shù)據(jù)增多訓(xùn)練次數(shù),以便提高模型的預(yù)測(cè)準(zhǔn)確率。
2.3? 實(shí)現(xiàn)預(yù)測(cè)預(yù)警
在進(jìn)行成績(jī)預(yù)測(cè)時(shí),收集學(xué)生上一個(gè)學(xué)期的相應(yīng)學(xué)業(yè)表現(xiàn)數(shù)據(jù),按照以上方法提取特征并進(jìn)行標(biāo)準(zhǔn)化,然后進(jìn)行PCA降維,將低維特征數(shù)據(jù)輸入訓(xùn)練完成的LSTM模型,計(jì)算獲得網(wǎng)絡(luò)預(yù)測(cè)結(jié)果,即學(xué)生的成績(jī)類別,其中每個(gè)學(xué)生的預(yù)測(cè)結(jié)果為。
具體實(shí)施步驟如圖1所示。
1)對(duì)預(yù)測(cè)結(jié)果進(jìn)行轉(zhuǎn)化賦值。將學(xué)生的預(yù)測(cè)結(jié)果按照所在檔次的分段平均分進(jìn)行轉(zhuǎn)化。
2)計(jì)算公式。其中,W為預(yù)警率,當(dāng)W>0時(shí),說明該生學(xué)業(yè)表現(xiàn)存在下滑;當(dāng)W>30%時(shí),說明該生退步較大,需要談話預(yù)警。
3? 學(xué)業(yè)預(yù)警實(shí)例分析
以臺(tái)州科技職業(yè)學(xué)院汽車專業(yè)20級(jí)97位學(xué)生為例,進(jìn)行學(xué)業(yè)預(yù)警分析。首先,根據(jù)不同的數(shù)據(jù)庫,收集學(xué)生各方面數(shù)據(jù)信息,同時(shí)計(jì)算學(xué)生的綜合加權(quán)平均成績(jī),設(shè)置2020—2021學(xué)年第二學(xué)期學(xué)生在校期間五個(gè)月的數(shù)據(jù)作為訓(xùn)練樣本數(shù)據(jù),設(shè)置2021—2022學(xué)年第一學(xué)期學(xué)生的綜合加權(quán)平均成績(jī)作為因變量標(biāo)簽。按照表2,對(duì)每個(gè)學(xué)生的綜合行為表現(xiàn)數(shù)據(jù)以單月為單位進(jìn)行特征提取,然后進(jìn)行獨(dú)熱編碼,設(shè)置如下:
其中,Y1=[1? 0? 0? 0? 0]對(duì)應(yīng)[90,100),Y2=[0? 1? 0? 0? 0]對(duì)應(yīng)[80,90),Y3=[0? 0? 1??0? 0]對(duì)應(yīng)[70,80),Y4=[0? 0? 0? 1? 0]對(duì)應(yīng)[60,70),Y5=[0? 0? 0? 0? 1]對(duì)應(yīng)(0,60)。
最終得到學(xué)生特征矩陣X的大小為97×32,標(biāo)簽矩陣Y大小為97×5。即總共學(xué)生人數(shù)97人,提取的特征為32維。對(duì)特征數(shù)據(jù)進(jìn)行Z-Score標(biāo)準(zhǔn)化,然后進(jìn)行PCA降維,選擇累積方差貢獻(xiàn)率大于90%的主成分對(duì)應(yīng)的特征作為降維后的特征,降維后特征數(shù)據(jù)集為Xd(t),矩陣大小為97*4。
以每個(gè)月份特征矩陣Xd(t)作為輸入,Y作為輸出,訓(xùn)練長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型,采用交叉熵?fù)p失函數(shù),優(yōu)化器采用隨機(jī)梯度下降算法(SGD)。此時(shí)輸入網(wǎng)絡(luò)的序列長(zhǎng)度為5,輸入維度為4。通過網(wǎng)格搜索法進(jìn)行參數(shù)尋優(yōu),獲得優(yōu)化參數(shù):批輸入大小為32,網(wǎng)絡(luò)隱層單元為32,網(wǎng)絡(luò)隱藏層層數(shù)為1,SGD中的動(dòng)量參數(shù)為0.8,學(xué)習(xí)率設(shè)置為1×10-3,dropout層的丟棄比率為0.6。
取2021—2022學(xué)年第一學(xué)期的學(xué)業(yè)表現(xiàn)狀況來預(yù)測(cè)2021—2022學(xué)年第二學(xué)期學(xué)生的成績(jī)情況。獲取測(cè)試數(shù)據(jù),按照?qǐng)D1所示步驟進(jìn)行特征提取,標(biāo)準(zhǔn)化降維后輸入訓(xùn)練完成的網(wǎng)絡(luò)中進(jìn)行測(cè)試,最終得到每個(gè)學(xué)生的預(yù)測(cè)成績(jī)狀況。對(duì)每個(gè)學(xué)生預(yù)測(cè)成績(jī)所處分段,按照平均分進(jìn)行轉(zhuǎn)化,然后計(jì)算該學(xué)生上一學(xué)期成績(jī)與轉(zhuǎn)換后的預(yù)測(cè)成績(jī)差值,獲得預(yù)警率,如表2所示。篩選預(yù)警率大于30%的學(xué)生,總共九人,即成績(jī)下滑的學(xué)生,輔導(dǎo)員、班主任進(jìn)行談話預(yù)警。
4? 結(jié)束語
學(xué)生的學(xué)業(yè)表現(xiàn)與平時(shí)的學(xué)習(xí)生活息息相關(guān),其數(shù)據(jù)應(yīng)來源于學(xué)生多個(gè)方面的數(shù)據(jù)平臺(tái),以此能更客觀全面評(píng)價(jià)學(xué)生的學(xué)業(yè)。本文基于學(xué)生在校學(xué)習(xí)生活多類平臺(tái)系統(tǒng),對(duì)各類數(shù)據(jù)進(jìn)行收集匯總,建立學(xué)生在校檔案的立體數(shù)據(jù)庫,通過該數(shù)據(jù)庫可以了解學(xué)生在校學(xué)習(xí)生活的全方位信息;通過歸一化、加權(quán)平均、PCA分析對(duì)不同教育數(shù)據(jù)類別進(jìn)行統(tǒng)一,以便提取相應(yīng)的教育大數(shù)據(jù)特征,然后以該段時(shí)間內(nèi)的學(xué)習(xí)表現(xiàn)特征為自變量,以綜合學(xué)業(yè)成績(jī)?yōu)橐蜃兞?,基于深度學(xué)習(xí)的學(xué)業(yè)預(yù)測(cè)模型來構(gòu)建兩者之間的映射關(guān)系,最后對(duì)學(xué)生學(xué)業(yè)表現(xiàn)進(jìn)行實(shí)時(shí)預(yù)測(cè),進(jìn)而對(duì)成績(jī)退步學(xué)生實(shí)現(xiàn)預(yù)警監(jiān)測(cè)。
參考文獻(xiàn)
[1] 廖鵬,劉宸銘,蘇航,等.基于深度學(xué)習(xí)的學(xué)生課堂異常行為檢測(cè)與分析系統(tǒng)[J].電子世界,2018(8):97-98.
[2] 陳彥釗,朱雪穎,黃瑾,等.基于深度學(xué)習(xí)的大學(xué)生課堂行為分析系統(tǒng)研究[J].齊魯工業(yè)大學(xué)學(xué)報(bào),2020,34(1):13-18.
[3] 朱佳,張麗君,梁婉瑩.數(shù)據(jù)驅(qū)動(dòng)下的個(gè)性化自適應(yīng)學(xué)習(xí)研究綜述[J].華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,52(4):17-25.
[4] 陳德鑫,占袁圓,楊兵.深度學(xué)習(xí)技術(shù)在教育大數(shù)據(jù)挖掘領(lǐng)域的應(yīng)用分析[J].電化教育研究,2019,40(2):68-76.
[5] 吳和俊,王敏康.基于深度學(xué)習(xí)學(xué)生序列化行為的學(xué)業(yè)成績(jī)預(yù)測(cè)預(yù)警方法:CN201910401106[P].2019-05-15.
*項(xiàng)目來源:2021年浙江省教育規(guī)劃課題“多數(shù)據(jù)平臺(tái)融合下的學(xué)生學(xué)業(yè)表現(xiàn)及預(yù)警模型研究”(項(xiàng)目編號(hào):2021SCG131。主持人:林龍);2021年浙江省高等教育學(xué)會(huì)課題“數(shù)據(jù)驅(qū)動(dòng)的大學(xué)生學(xué)業(yè)表現(xiàn)精準(zhǔn)評(píng)價(jià)研究”(項(xiàng)目編號(hào):KT2021310。主持人:林龍)。
作者:林龍,臺(tái)州科技職業(yè)學(xué)院,講師,研究方向?yàn)榻逃畔⒒?;沈海青,臺(tái)州科技職業(yè)學(xué)院,高級(jí)工程師,研究方向?yàn)槠嚈z測(cè)技術(shù)(318020)。