程紅陽,葉 青
(空軍軍醫(yī)大學,陜西西安 710032)
新型冠狀病毒疫情的蔓延,給人民群眾的生命安全及社會生產均造成了極大的破壞。而線下教育則會使人群聚集,進而帶來病毒傳播的風險。基于此,大規(guī)模的線上教學及在線學習課程在疫情嚴重時期扮演了極為重要的角色。
在線上教學中,在線課程學習是基于網絡視頻流傳輸技術的線上開放課程。該學習過程包括課程視頻的觀看、問題回答、考試與討論等行為[1]。但線上教學存在的主要問題是無法精準地控制教學質量,而通過采集學習者的學習行為數(shù)據(jù)并加以分析處理,即可實現(xiàn)對教學質量和學習效果的評估。
目前,對學習者進行學習效果評估主要是通過對學習特征加以分類,進而實現(xiàn)對其學習行為的分析[2-3],同時也可對學習者后續(xù)的學習進行預測性及推薦性的部署。該文對傳統(tǒng)的評估方法加以改進,從數(shù)據(jù)源的挖掘及評價算法入手,設計出可用于線上教學的學習效果評估算法。
目前,海量的網絡教學平臺豐富了人們的學習方式。用戶基于該平臺進行學習提升時,會產生諸多學習行為。通過對線上多種學習行為進行梳理,可將學習者的在線學習行為變量大致分為四類,具體可概括為視頻學習行為、協(xié)作互動學習行為、作業(yè)學習行為及頁面訪問學習行為[4-6]。在線學習行為變量分類及其子分類如圖1 所示。
圖1 在線學習行為變量分類及其子分類
如圖1 所示,在線學習行為的大分類下包含了具體的學習行為組成。由此可看出該文進行學習效果評估時,選用的數(shù)據(jù)量豐富且全面。相較于傳統(tǒng)的學習效果評估模型僅選取學習者作業(yè)完成度與平時測試成績作為評估標準的方式,該文學習效果評估模型更具有全面性和準確性。
FP-Growth(Frequent Pattern-Growth)是一種可以挖掘頻繁項集的算法。在用戶觀看網課時,會出現(xiàn)大量的學習動作行為,如評論、提問、評價與考試等。該算法可對網課學習中多種復雜行為之間的關聯(lián)規(guī)則進行挖掘[7-10],并將行為數(shù)據(jù)集以樹結構的形式進行存儲,再從結構樹中挖掘關聯(lián)規(guī)則。
FP-Free 的結構如圖2 所示,其通過鏈表連接相似的元素,而FP 算法將數(shù)據(jù)集分配到FP-Free 結構中,該結構的數(shù)據(jù)庫形式會大幅提升數(shù)據(jù)搜索效率。
圖2 FP-Tree示例
構建FP-Free 需遵循一定的規(guī)則:首先構建頻繁項數(shù)據(jù)列表,并對數(shù)據(jù)庫進行掃描,這樣能夠取得數(shù)據(jù)列表中數(shù)據(jù)的頻率,進而篩選出合適的數(shù)據(jù)項,以便得到FP-List;然后創(chuàng)建根節(jié)點,再根據(jù)FP-List 中的排序方式進行節(jié)點插入;最終構成完整的FP-Tree。
FP-Free 創(chuàng)建完成后,通過FP-Growth 函數(shù)完成對數(shù)據(jù)的挖掘。該算法的函數(shù)實現(xiàn)過程如下所示:
1.if樹包含有單獨的路徑path then;
2.for 每個路徑path 中節(jié)點組合m;
3.do
4.取節(jié)點組合m與條件模式基n的共集,也稱為支持度計數(shù)過程,若支持度大于篩選閾值,則輸出;
5.end
6.else
7.for 樹中的頭部鏈表的每個條件模式基n1;
8.do
9.將n1和n的并集結果賦給m;
10.創(chuàng)造m的條件模式基,寫入樹;
11.end
12.end
經過上述步驟,即可完成樹的構建及掃描兩個過程。
FP-Growth 可對頻繁項進行關聯(lián)規(guī)則挖掘,但該算法的特點是當學習者的行為較為頻繁時,需對FP-Tree 不斷地進行遞歸與遍歷,大多時候將會生成近萬個FP-Tree,這將嚴重影響算法的性能。因此,該文使用并行算法對其性能進行提升。
Hadoop 并行系統(tǒng)[11-12]是一種分布式存儲計算系統(tǒng)。該系統(tǒng)由分布式存儲HDFS(Hadoop Distributed File System)與并行計算MapReduce 框架兩個子系統(tǒng)構成。
HDFS 是Hadoop 系統(tǒng)文件存儲管理的客觀體現(xiàn)[13],該存儲管理能夠同本地服務器系統(tǒng)或云端服務器系統(tǒng)集成。整個HDFS 集群由名稱節(jié)點Namenode和數(shù)據(jù)節(jié)點Datanode 組成,其組成形式為主從模式。名稱節(jié)點負責文件命名空間的構建及元數(shù)據(jù)的管理等,數(shù)據(jù)節(jié)點則負責數(shù)據(jù)的存儲與讀寫等工作。HDFS 的系統(tǒng)組成如圖3 所示。
圖3 HDFS系統(tǒng)組成
而Map Reduce 為并行運算函數(shù),分為Map 函數(shù)與Reduce 函數(shù)[14]。其中,Map 函數(shù)可將小數(shù)據(jù)集合進行分片并行計算,而Reduce 函數(shù)能夠將輸入的中間結果進行簡化運算。MapReduce 共有四個部分,具體結構如圖4 所示。
圖4 MapReduce組成
在圖4 所示的結構中,Client 為客戶端,其通過接口將數(shù)據(jù)傳輸至UI,用戶則可利用Client 觀看系統(tǒng)的運行狀態(tài);JobTracker 為資源監(jiān)控及調度資源模塊,其用來監(jiān)控任務的運行狀態(tài),并對計算任務進行綜合分配;TaskTracker 為任務顯示模塊,該模塊會將節(jié)點的使用資源傳輸至JobTracker 模塊中;而TaskScheduler 則為具體的計算任務。
HDFS 系統(tǒng)與MapReduce 系統(tǒng)協(xié)同工作的流程如圖5 所 示[15]。
圖5 協(xié)同工作流程
而該文基于Hadoop 系統(tǒng)構建PFP 算法[16],該算法主要利用了三個MapReduce 塊來實現(xiàn),其主要步驟如下:
1)數(shù)據(jù)輸入
將原始的數(shù)據(jù)集合存入至Hadoop 系統(tǒng)的分布式存儲系統(tǒng),HDFS 分布式存儲系統(tǒng)會將這些數(shù)據(jù)集合進行分片處理。
2)計算支持度
如1.2 節(jié)所示內容,F(xiàn)P-Growth 算法的核心點在于取得FP-Tree 的支持度。因此,第一個Map Reduce模塊便是對其支持度加以計算。計算完畢后,即可結合篩選器對數(shù)據(jù)進行過濾及分組。
3)分組
分組是并行化計算的基礎,PFP 算法根據(jù)Hadoop 計算集群節(jié)點的數(shù)量,并對原始數(shù)據(jù)集進行分組。然后根據(jù)分組結果對組內的相關元素項進行統(tǒng)計和計算。
4)并行計算與數(shù)據(jù)挖掘
第二個MapReduce 模塊用于數(shù)據(jù)的挖掘。每個存儲節(jié)點會根據(jù)上一步驟中的分組結果建立FPTree,同時計算條件模式基,然后再進行遞歸挖掘。
5)數(shù)據(jù)聚合
最后一個MapReduce 模塊用于節(jié)點結果的聚合,最終對整體數(shù)據(jù)進行輸出。
PFP 算法的具體流程如圖6 所示。
圖6 PFP算法流程
為了對線上教學的學習效果進行評估,該文將FP-Growth 算法同Hadoop 系統(tǒng)相結合,最終能夠實現(xiàn)對學習效果的實時評估。所構建的在線學習效果評估系統(tǒng)如圖7 所示。
圖7 系統(tǒng)設計
由圖7 可知,該文總體算法模型由數(shù)據(jù)采集模塊、模型訓練模塊及效果評估模塊三部分組成。其中,數(shù)據(jù)采集模塊用來收集用戶在學習過程中產生的實時行為數(shù)據(jù)并存入數(shù)據(jù)庫中。而模型訓練模塊主要通過Hadoop 集群算法對數(shù)據(jù)進行并行訓練,最終完成數(shù)據(jù)挖掘。而效果評估模塊,則為結果輸出。
該算法在Hadoop 集群系統(tǒng)中完成,共使用四個分布式節(jié)點,實驗環(huán)境配置如表1 所示。實驗所使用的數(shù)據(jù)集為MOOC 平臺的學生行為特征數(shù)據(jù),共有95 萬條,而訓練時最小支持度的值設置為0.3。
表1 環(huán)境配置
實驗使用單次MapReduce 與PFP 算法進行對比,測試內容為算法在不同數(shù)據(jù)集工作的運行時間,單位為s。在四個計算節(jié)點集群環(huán)境下進行運算處理的結果如表2 所示。
表2 多機運算結果
從表中可以看出,PFP 算法和單次MapReduce算法形成的頻繁項數(shù)目是相同的。但在運行時間方面,PFP 算法的平均運行時間更短,說明PFP 能夠增強算法性能,縮短運行時間。同時也可看出,PFP 算法可提升數(shù)據(jù)的存儲容量,因為當數(shù)據(jù)量達到90 萬條時,單次MapReduce 算法已無法處理數(shù)據(jù)。
下文將測試算法的單機性能,分別在10 萬、20萬、40 萬、60 萬及80 萬數(shù)據(jù)集樣本的情況下進行實驗。默認最小的支持度為0.3,測試數(shù)據(jù)指標為算法完成時間。這些樣本在單機測試環(huán)境下,能夠被算法處理。最終的實驗結果如表3 所示。
表3 單機運算運行時間
由單機運算結果可以看出,該文設計算法在單機執(zhí)行效率方面要優(yōu)于對比的單次MapReduce 算法,說明該算法系統(tǒng)性能較優(yōu),計算優(yōu)勢較為顯著。
該文研究了一種基于數(shù)據(jù)挖掘的學習效果評估算法。該算法以數(shù)據(jù)挖掘作為算法的基礎思想,并使用FP-Growth 算法來挖掘頻繁項集,進而發(fā)現(xiàn)用戶復雜行為后的關聯(lián)規(guī)則。同時,在算法部署與運算方面使用了PFP 算法。該算法基于Hadoop 并行計算系統(tǒng)改進而來,進一步克服了FP-Growth 算法運算較慢的缺點。實驗結果表明,所提方法在算法效率及性能方面均優(yōu)于對比算法。