阮進(jìn)軍
摘 要:混合式在線學(xué)習(xí)能把傳統(tǒng)學(xué)習(xí)方式的優(yōu)勢(shì)和網(wǎng)絡(luò)化學(xué)習(xí)的優(yōu)勢(shì)結(jié)合起來(lái)。尤其是在線學(xué)習(xí)階段能讓學(xué)生隨時(shí)隨地開展碎片化學(xué)習(xí),但是學(xué)生在線學(xué)習(xí)階段的測(cè)試題抄襲、學(xué)習(xí)不積極等異常學(xué)習(xí)行為教師難以及時(shí)掌握。將大數(shù)據(jù)技術(shù)和隱馬爾可夫模型相結(jié)合,可以對(duì)學(xué)生在線學(xué)習(xí)行為數(shù)據(jù)進(jìn)行采集、分析和評(píng)測(cè),能夠有效識(shí)別學(xué)生的抄襲等異常學(xué)習(xí)行為。
關(guān)鍵詞:學(xué)習(xí)行為;Hadoop;K-means;HMM
中圖分類號(hào):F27 文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.19311/j.cnki.1672-3198.2021.36.027
0 引言
混合式在線教學(xué)方式靈活,但是在線學(xué)習(xí)階段,部分學(xué)生會(huì)更容易放松學(xué)習(xí),甚至?xí)霈F(xiàn)測(cè)試題抄襲等不良行為。教師雖然可以通過(guò)在線答疑、討論等方式和學(xué)生進(jìn)行互動(dòng)督促學(xué)生學(xué)習(xí),但是教師要想真實(shí)掌握學(xué)生的在線學(xué)習(xí)狀態(tài)還是比較困難。當(dāng)前很多學(xué)者認(rèn)識(shí)到,通過(guò)分析學(xué)生在線學(xué)習(xí)平臺(tái)上產(chǎn)生的大量互動(dòng)信息,可以跟蹤學(xué)生學(xué)習(xí)過(guò)程、評(píng)價(jià)學(xué)生學(xué)習(xí)行為的優(yōu)劣。柴艷妹等利用5類數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)生的在線學(xué)習(xí)行為進(jìn)行了研究,王芳等建立了MOOC 在線學(xué)習(xí)的預(yù)警模型,但是上述方法不能對(duì)學(xué)生的抄襲等異常學(xué)習(xí)行為進(jìn)行評(píng)測(cè)。本文在利用Hadoop平臺(tái)采集并處理學(xué)生在線學(xué)習(xí)行為數(shù)據(jù)的基礎(chǔ)上,建立了基于隱馬爾科夫模型(Hidden Markov Model,HMM)的在線學(xué)習(xí)行為評(píng)測(cè)模型,實(shí)現(xiàn)了對(duì)學(xué)生抄襲等異常學(xué)習(xí)行為的識(shí)別。
1 基于Flume的學(xué)生在線學(xué)習(xí)行為數(shù)據(jù)采集
學(xué)生在線學(xué)習(xí)過(guò)程中,服務(wù)器系統(tǒng)日志會(huì)記錄學(xué)生的學(xué)習(xí)行為交互信息。對(duì)這些信息進(jìn)行數(shù)據(jù)挖掘處理可以有效獲取學(xué)生的學(xué)習(xí)狀態(tài)。學(xué)生的學(xué)習(xí)過(guò)程中操作比較頻繁,產(chǎn)生的數(shù)據(jù)量會(huì)非常龐大,因此有必要將大數(shù)據(jù)處理技術(shù)引入在線學(xué)習(xí)行為分析,本文將Hadoop中的分布式文件系統(tǒng)HDFS作為海量學(xué)習(xí)行為數(shù)據(jù)的存儲(chǔ)系統(tǒng)。利用可靠的分布式數(shù)據(jù)收集系統(tǒng)負(fù)責(zé)監(jiān)聽系統(tǒng)日志,并通過(guò)Flume管道存入到HDFS中。
2 基于MapReduce的學(xué)習(xí)行為K-means聚類分析
本文選擇安徽某高職院校SPOC在線學(xué)習(xí)平臺(tái)上1052名學(xué)生的《C語(yǔ)言程序設(shè)計(jì)》在線學(xué)習(xí)數(shù)據(jù)。篩選出其中具有代表性的屬性和行為:StuId(學(xué)生id)、SId(會(huì)話id)、Time(響應(yīng)時(shí)間)及StuAT(行為類型)。經(jīng)過(guò)數(shù)據(jù)清洗,剔除空白值和Time小于閾值的無(wú)效數(shù)據(jù)后,以“StuId+SId”為key, StuAT為value,建立鍵值對(duì),即按照StuId相同且SId也相同的原則,按照時(shí)間戳將學(xué)生的操作行為記錄下來(lái)。最后對(duì)上述數(shù)據(jù)集進(jìn)行基于MapReduce的K-means聚類分析,經(jīng)過(guò)多次聚類,在K取值為3時(shí)得到了較好的聚類結(jié)果。聚類完成后標(biāo)記每條行為數(shù)據(jù)的類別,按照占比最多的原則將學(xué)生劃分為3類。得到3類不同狀態(tài)的學(xué)習(xí)行為學(xué)生評(píng)價(jià)集合E={e1,e2,e3 },經(jīng)過(guò)分析e1類標(biāo)記為學(xué)習(xí)積極型,這類學(xué)生在線學(xué)習(xí)的各種學(xué)習(xí)行為參與度都很高,學(xué)生的學(xué)習(xí)成績(jī)都比較好;e2類標(biāo)記為學(xué)習(xí)被動(dòng)型,他們的學(xué)習(xí)行為主要以看視頻、閱讀課程資料等必須完成的學(xué)習(xí)任務(wù)為主,但是需要主動(dòng)參與的行為(例如搜索資料、論壇回帖等)參與度都不高,這類學(xué)生的學(xué)習(xí)成績(jī)處于中游及中游偏下;e3類標(biāo)記為學(xué)習(xí)不認(rèn)真型,這類學(xué)生的只是勉強(qiáng)完成學(xué)習(xí)任務(wù),所有的行為參與度都不高,學(xué)習(xí)成績(jī)都較低。
3 基于HMM的在線學(xué)習(xí)行為評(píng)測(cè)
混合式在線教學(xué)方式中的學(xué)生在線學(xué)習(xí)階段,每個(gè)學(xué)習(xí)單元都安排了在線測(cè)試,每個(gè)單元測(cè)試學(xué)生可以反復(fù)嘗試,系統(tǒng)會(huì)記錄測(cè)試結(jié)果。教師可以觀測(cè)到學(xué)生每次測(cè)試的成績(jī),但是無(wú)法了解學(xué)生對(duì)所學(xué)知識(shí)的掌握程度以及是否有抄襲行為。本文引入HMM模型先對(duì)能正常完成學(xué)習(xí)任務(wù)的e1和e2類學(xué)生的在線測(cè)試成績(jī)數(shù)據(jù)序列進(jìn)行建模,然后再利用訓(xùn)練好的模型評(píng)測(cè)學(xué)生的抄襲及學(xué)習(xí)不認(rèn)真的學(xué)習(xí)行為。在建模前首先將學(xué)生數(shù)據(jù)樣本按照70%和30%比例設(shè)置訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,然后將訓(xùn)練數(shù)據(jù)集部分按照上面K-means聚類的結(jié)果e1、e2、e3劃分集合,定義其中e1和e2為參照集,e3為落后集。再由授課教師將已知有抄襲行為的學(xué)生挑選出來(lái)組成異常集。將參照集中的e1和e2分別隨機(jī)挑選70%用作模型訓(xùn)練,剩下的30%用作標(biāo)準(zhǔn)集。
3.1 建模階段
將70%用作模型訓(xùn)練的e1和e2類學(xué)生的在線測(cè)試成績(jī)數(shù)據(jù)序列,分別建立正常學(xué)習(xí)行為模型,即訓(xùn)練與之對(duì)應(yīng)的λ1和λ2參數(shù),建立2個(gè)正常學(xué)習(xí)行為的HMM模型庫(kù)。
3.1.1 觀測(cè)序列和觀測(cè)符號(hào)數(shù)
學(xué)生選擇在線測(cè)試題進(jìn)行測(cè)試具有隨意和無(wú)序性,但在線測(cè)試嘗試與時(shí)間相關(guān),學(xué)生每次測(cè)試嘗試都可以被認(rèn)為是學(xué)生對(duì)所學(xué)知識(shí)掌握情況的觀測(cè)值,因此以學(xué)生為研究對(duì)象,以時(shí)間先后為次序?qū)W(xué)生的每次測(cè)試成績(jī)結(jié)果組合成觀測(cè)序列O={o1,o2,…o i,… oT },o i∈V,其中V是定義的觀測(cè)符號(hào)集{ V1,V2,V3,V4},對(duì)應(yīng)由測(cè)試成績(jī)轉(zhuǎn)換而來(lái)的4個(gè)等級(jí),具體規(guī)則是:76分至100分為V1,60分至75分為V2,40分至59分為V3,40分以下為V4。
3.1.2 隱狀態(tài)數(shù)
對(duì)于學(xué)生對(duì)所學(xué)知識(shí)的掌握程度以及是否抄襲,教師無(wú)法直接掌握,只能通過(guò)學(xué)生做題反饋的觀測(cè)符號(hào)進(jìn)行觀察。因此根據(jù)學(xué)生對(duì)所學(xué)知識(shí)的掌握情況可以定義狀態(tài)集S= {掌握,基本掌握,不掌握,抄襲}。
3.2 評(píng)測(cè)階段
(1)利用滑動(dòng)窗口前向算法計(jì)算學(xué)生在線測(cè)試序列子序列的概率。由于每個(gè)學(xué)生進(jìn)行在線測(cè)試做題次數(shù)不相同,觀測(cè)序列長(zhǎng)度會(huì)出現(xiàn)差異,因此可以使用滑動(dòng)窗口技術(shù)將原始長(zhǎng)度為T的測(cè)試觀察序列,用長(zhǎng)度為k的滑動(dòng)窗口進(jìn)行分割,將原觀測(cè)序列分割為T-k+1個(gè)子序列,表示為H= hp (1≤p≤T-k+1)。運(yùn)用滑動(dòng)窗口前向算法可以求解出所有子序列的輸出概率Php|λ。具體流程如下:
4 實(shí)驗(yàn)
由定義可知,計(jì)算據(jù)數(shù)據(jù)集中每個(gè)學(xué)生樣本的抄襲度θ1和落后度θ2可以對(duì)每個(gè)學(xué)生樣本進(jìn)行評(píng)價(jià),不同樣本集的檢測(cè)率和誤報(bào)率如表1所示。
5 總結(jié)
本文提出了一種基于大數(shù)據(jù)和HMM模型的學(xué)生在線學(xué)習(xí)行為分析評(píng)測(cè)方法,利用Flume采集學(xué)生的海量在線學(xué)習(xí)行為數(shù)據(jù),再使用K-means聚類將學(xué)生劃分到不同的數(shù)據(jù)集,然后利用HMM建立基于學(xué)生在線測(cè)試觀測(cè)序列的評(píng)測(cè)模型,使用能正常完成學(xué)習(xí)任務(wù)學(xué)生的在線測(cè)試觀測(cè)序列訓(xùn)練模型,將模型應(yīng)用于未知狀態(tài)的學(xué)生測(cè)試觀測(cè)序列的評(píng)測(cè)分析。實(shí)驗(yàn)結(jié)果表明該方法能夠幫助教師有效識(shí)別學(xué)生在線測(cè)試抄襲行為和學(xué)習(xí)不認(rèn)真的異常學(xué)習(xí)行為。
參考文獻(xiàn)
[1]柴艷妹,雷陳芳.基于數(shù)據(jù)挖掘技術(shù)的在線學(xué)習(xí)行為研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2018,(5):1287-1293.
[2]王芳,梁鷹.基于MOOC的大數(shù)據(jù)學(xué)習(xí)預(yù)警模型在混合教學(xué)中的應(yīng)用[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2019,(7):63-71.
[3]Steve Hoffman,Srinath Perera.Flume日志收集與Map Reduce模式[M].北京:機(jī)械工業(yè)出版社,2015.
[4]張響亮,王偉,管曉宏,等.基于隱馬爾可夫模型的程序行為異常檢測(cè)[J].西安交通大學(xué)學(xué)報(bào),2005,39(10):1056-1059.