姚家麟 譚召 于松楠 鞠茵茵 劉素娟
摘要:隨著互聯(lián)網(wǎng)技術(shù)在教育領(lǐng)域應(yīng)用得越來越成熟,各類型的網(wǎng)絡(luò)教學(xué)平臺與測試系統(tǒng)層出不窮。無論是各個高校的網(wǎng)絡(luò)授課系統(tǒng),還是包含各類行業(yè)實際案例課程的網(wǎng)課平臺,都為當(dāng)代學(xué)習(xí)者與授課方提供了極大的便利。在各類教學(xué)平臺中,均有大量的數(shù)據(jù)產(chǎn)出,對這些在線學(xué)習(xí)過程中產(chǎn)生的大量數(shù)據(jù)進(jìn)行挖掘,可以有效地對學(xué)習(xí)者的學(xué)習(xí)行為模式提出建議與優(yōu)化,同時,可以給授課方精準(zhǔn)的授課效果分析,幫助授課方改進(jìn)授課方針。在由大量用戶組成的學(xué)習(xí)社區(qū)生態(tài)下,通過多維度數(shù)據(jù)挖掘,可以對不同用戶給出精準(zhǔn)的課業(yè)投放,大大提高用戶的學(xué)習(xí)體驗。
關(guān)鍵詞:學(xué)習(xí)行為分析;K均值聚類;樸素貝葉斯分類器;數(shù)據(jù)挖掘;數(shù)據(jù)可視化;在線學(xué)習(xí)
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)11-0017-03
1 引言
在線學(xué)習(xí)與傳統(tǒng)學(xué)習(xí)方式相比,為學(xué)習(xí)者提供豐富的學(xué)習(xí)資源和書籍無法比擬的信息環(huán)境,能滿足學(xué)習(xí)者個性化學(xué)習(xí)的需求,為學(xué)習(xí)者提供更加自由的學(xué)習(xí)空間,學(xué)習(xí)者可以定制自己的學(xué)習(xí)方式,不斷提高學(xué)習(xí)效率,從而將被動地接受變成主動的學(xué)習(xí)[1-4]。
但是隨著在線教育的不斷發(fā)展,也面臨著巨大的挑戰(zhàn),特別是在學(xué)歷教育或者正式教育方面,主要問題包括:
(1)教學(xué)的質(zhì)量與效果問題;
(2)教學(xué)的個性化調(diào)整與適應(yīng)問題;
(3)對學(xué)習(xí)的監(jiān)控、教育、評價問題。
在大數(shù)據(jù)時代的背景下,各類“互聯(lián)網(wǎng)+”產(chǎn)業(yè)紛紛致力于數(shù)據(jù)挖掘的研發(fā)與應(yīng)用,“云計算”與“人工智能”漸漸成為高頻詞,而“互聯(lián)網(wǎng)+”教育的相關(guān)產(chǎn)業(yè)中,針對上述三個主要問題,數(shù)據(jù)挖掘也同樣值得探索與開發(fā)。對于用戶在學(xué)習(xí)過程中產(chǎn)生的各類數(shù)據(jù),通過科學(xué)的采集分析,能夠劃分學(xué)習(xí)者的類型,學(xué)習(xí)行為模式的類型,乃至學(xué)習(xí)效果的預(yù)測,將此反饋給用戶,能夠給予用戶更好的平臺使用體驗并優(yōu)化改善學(xué)習(xí)方法,提高學(xué)習(xí)效率,同時對于授課方而言,這也是調(diào)節(jié)授課方針的雙向反饋[3-6]。
2 相關(guān)工作
2.1在線學(xué)習(xí)平臺研究現(xiàn)狀
當(dāng)代在線學(xué)習(xí)平臺以及網(wǎng)絡(luò)教學(xué)平臺層出不窮,其中MOOC(massive open online courses)慕課網(wǎng)更是業(yè)內(nèi)典范。將各行各業(yè)的各類課程分布在不同的大類小類之下,以樹狀結(jié)構(gòu)的形式引導(dǎo)用戶選擇想要學(xué)習(xí)的課程。其理念與實踐得到了國內(nèi)外眾多大學(xué)的認(rèn)同,包括哈佛大學(xué)、麻省理工學(xué)院、斯坦福大學(xué)、北京大學(xué)、清華大學(xué)等,他們在慕課網(wǎng)上免費公開自己的課程,供全球?qū)W習(xí)者進(jìn)行在線學(xué)習(xí)訪問,在這種網(wǎng)絡(luò)教學(xué)模式下,全球千萬用戶得以收益[1-2]。并且,其證書體系也在平臺的發(fā)展中日益完備,對于不同課程的考核方針以及考核過程具有不同的處理策略,確保其證書的有效性與真實性。然而,對于網(wǎng)絡(luò)教學(xué)平臺而言,學(xué)習(xí)者的學(xué)習(xí)效果,更多地取決于學(xué)習(xí)者的學(xué)習(xí)動機,并且由于網(wǎng)絡(luò)教學(xué)的模式局限于對于資源的展示與訪問,更需要學(xué)習(xí)者極大的自主學(xué)習(xí)欲望和較為高效的學(xué)習(xí)方法,否則,面對優(yōu)質(zhì)的課程資源,可能最終的學(xué)習(xí)效果難以達(dá)到學(xué)習(xí)者的心理預(yù)期。并且,不僅僅局限于慕課網(wǎng),眾多的網(wǎng)絡(luò)教學(xué)平臺均存在著這個問題,當(dāng)學(xué)習(xí)者的學(xué)習(xí)方法較差或?qū)W習(xí)動機較弱,其學(xué)習(xí)效果相較于傳統(tǒng)課堂教學(xué)并不盡如人意。因此,對于在線學(xué)習(xí)或網(wǎng)絡(luò)教學(xué)平臺而言,通過數(shù)據(jù)挖掘算法合理的定制個性化學(xué)習(xí)方案顯得尤為重要。
2.2 K-means聚類算法
3 學(xué)習(xí)平臺設(shè)計及在線行為分析
3.1學(xué)習(xí)平臺搭建設(shè)計
學(xué)習(xí)平臺采取Web應(yīng)用程序的形式,以Python作為后端語言,包含業(yè)務(wù)邏輯處理和數(shù)據(jù)挖掘部分,使用Django框架搭建,在服務(wù)器端采用Nginx+uWSGI部署,以解決Django框架本身單線程的問題。數(shù)據(jù)庫部分因是測試平臺,采用MySQL數(shù)據(jù)庫進(jìn)行全部數(shù)據(jù)的存儲。
平臺主要業(yè)務(wù)如下:
對于大部分用戶即學(xué)習(xí)者,平臺提供:在線學(xué)習(xí)、在線練習(xí)、在線測試、論壇系統(tǒng)、智能反饋等業(yè)務(wù)。
對于平臺的第二類用戶即教學(xué)者,平臺提供:開設(shè)課程、開設(shè)教學(xué)班、發(fā)布作業(yè)練習(xí)、發(fā)布考試、發(fā)布教學(xué)資源、導(dǎo)入題目、論壇系統(tǒng)、智能反饋等業(yè)務(wù)。
3.2 數(shù)據(jù)采集
在進(jìn)行數(shù)據(jù)挖掘之前,數(shù)據(jù)采集是不可或缺的一步,無論是從關(guān)系型數(shù)據(jù)庫中直接讀取,還是從日志數(shù)據(jù)中篩選過濾,都是為后續(xù)的數(shù)據(jù)處理做準(zhǔn)備。結(jié)合現(xiàn)有文獻(xiàn)及資料,基于測試平臺的構(gòu)建設(shè)計,共收集九類特征數(shù)據(jù)。由于全部數(shù)據(jù)使用MySQL存儲,對于日志數(shù)據(jù)庫的設(shè)計采取分類分表的模式,操作日志、下載日志、搜索日志、錯誤日志分表存儲,包含請求內(nèi)參數(shù)、用戶信息、瀏覽器信息、操作路徑、時間戳等常規(guī)日志字段。
當(dāng)用戶進(jìn)行相關(guān)操作時,請求中包含的參數(shù)信息,在業(yè)務(wù)模塊成功執(zhí)行后,帶著請求信息、參數(shù)信息、時間戳信息共同存儲至對應(yīng)表,如圖1所示,囊括頁面切換、資源訪問、模擬練習(xí)等用戶操作,同時資源下載、站內(nèi)搜索等模塊也會被轉(zhuǎn)儲。平臺共涉及九類特征數(shù)據(jù)的采集,主要方法采用從數(shù)據(jù)庫中篩選調(diào)取后,進(jìn)行一定統(tǒng)計轉(zhuǎn)儲為數(shù)據(jù)模型。
3.3 數(shù)據(jù)預(yù)處理
對于以上九類數(shù)據(jù)模型,首先對缺失值進(jìn)行分析填補,采用均值插補法進(jìn)行填充,確保全部數(shù)據(jù)模型的完整性,其次采取聚類算法將連續(xù)型數(shù)據(jù)離散化,最后將處理完畢的數(shù)據(jù)重新轉(zhuǎn)儲成數(shù)據(jù)模型,以供進(jìn)一步處理。
預(yù)處理方法:
1)均值插補[7]:
由于平臺采集數(shù)據(jù)具有可度量性,因此使用該方法對缺失數(shù)據(jù)進(jìn)行填補,通過計算某缺失值同類元素有效值的均值,將其填補進(jìn)入空缺位置。
2)聚類算法:
算法流程:
(1)擬定K值,即總簇類數(shù)目;
(2)通過均值隨機數(shù)*數(shù)據(jù)樣本容量來擬定K個初始質(zhì)心位置;
(3)設(shè)置最大迭代次數(shù)N;
(4)對于數(shù)據(jù)集中剩余非質(zhì)心元素,測量其到各個質(zhì)心距離,并將其歸到最近質(zhì)心的類;
(5)更新已經(jīng)得到的各個類的質(zhì)心;
(6)迭代(4)(5)兩步直至新的質(zhì)心與原質(zhì)心相等或達(dá)到最大迭代次數(shù);
(7)返回包含簇類劃分的數(shù)據(jù)集。
在采集到的九類數(shù)據(jù)模型中,在線時長信息、論壇信息、資源信息、測評信息、搜索信息、在現(xiàn)時段信息均采用K均值聚類算法進(jìn)行類目劃分,而基礎(chǔ)信息則直接對不同信息進(jìn)行數(shù)字化處理,劃分類目。頁面訪問信息在進(jìn)行歸一化處理后,也使用K均值聚類算法進(jìn)行類目劃分。
3.4 數(shù)據(jù)挖掘?qū)W習(xí)行為分析
平臺采用樸素貝葉斯算法作為數(shù)據(jù)挖掘的主要算法。通過對數(shù)據(jù)預(yù)處理后的九類特征數(shù)據(jù)集進(jìn)行先驗概率與條件概率的計算建模,來進(jìn)行用戶的分類。
在經(jīng)過K均值聚類算法離散化后,原有包含連續(xù)型數(shù)據(jù)的九類特征數(shù)據(jù)模型,全部轉(zhuǎn)化離散型數(shù)據(jù)模型,通過計算每一類特征中每一簇類出現(xiàn)的次數(shù),即可獲得九類特征數(shù)據(jù)的先驗概率,而通過計算在指定用戶類別下的某類特征數(shù)據(jù)中每一簇類的出現(xiàn)次數(shù),即可獲得該類特征數(shù)據(jù)在指定用戶類別下的條件概率。通過對全部特征數(shù)據(jù)集的計算,完成樸素貝葉斯模型的建立。
樸素貝葉斯分類:
(1)設(shè)X={A1,A2,A3,…,Am}為一個待分類項,每個A為X的一個特征;
(2)有類別集合Y={C1,C2,C3,…,Cn};
(3)分別計算P(C1|X),P(C2|X),P(C3|X),…,P(Cn|X);
(4)若P(Ck|X)=max{P(C1|X),P(C2|X),P(C3|X),…,P(Cn|X)},則X∈Ck。
平臺將成績數(shù)據(jù)作為打標(biāo)數(shù)據(jù),通過不同成績區(qū)段,將所有用戶區(qū)分為五類用戶,對于新用戶即新個體而言,在獲得足夠的數(shù)據(jù)以進(jìn)行K均值聚類以后,即可通過其表現(xiàn)出的九類特征數(shù)據(jù)來進(jìn)行用戶類別的預(yù)測評估。
樸素貝葉斯算法中,對于概率的計算存在著獨立事件假設(shè),而在現(xiàn)實生活中往往不是如此。學(xué)生的各類學(xué)習(xí)行為之間往往存在著關(guān)聯(lián)性,同時,各類數(shù)據(jù)對于學(xué)生學(xué)習(xí)效果的影響并不相同,因此,在不對樸素貝葉斯算法進(jìn)行改良的情況下,難以做出最為準(zhǔn)確的評估,并且由于學(xué)生學(xué)習(xí)行為關(guān)聯(lián)性的存在,在數(shù)據(jù)集較小的情況下,難以計算得出最準(zhǔn)確的樸素貝葉斯模型。因此,需要在計算的過程中,對樸素貝葉斯模型進(jìn)行加權(quán)處理,對于不同影響力的特征數(shù)據(jù)賦予不同的權(quán)重值,并且需要進(jìn)行較長時間的樣本訓(xùn)練,才能提高模型的準(zhǔn)確率[12-14]。初始的權(quán)重值采用現(xiàn)有學(xué)習(xí)行為分析研究中的部分結(jié)論,后在真實數(shù)據(jù)的訓(xùn)練過程中,通過用戶反饋及預(yù)測準(zhǔn)確率雙向調(diào)節(jié)各類數(shù)據(jù)權(quán)重值,以提高模型準(zhǔn)確率[1-4]。
4 實驗及分析
在模擬數(shù)據(jù)試驗中,對九類特征數(shù)據(jù),模擬生成共計7380條數(shù)據(jù),通過參考現(xiàn)有文獻(xiàn)及資料,對不同特征采取不同概率分布,見表1。
將模擬數(shù)據(jù)經(jīng)數(shù)據(jù)可視化處理后,見圖2,此為在線時長的柱狀圖,其x軸表示在線時長,y軸表示該單位在線時長的人數(shù),顯而易見其符合N(36000,21000)的概率分布。
在聚類測試中對不同數(shù)據(jù)源采用不同k值選取,經(jīng)手肘法測試后,生成的最佳k值,見表2。
將模擬數(shù)據(jù)經(jīng)數(shù)據(jù)可視化處理后,見圖3,此為在線時長的聚類質(zhì)心分布圖,由于是一維數(shù)據(jù),所以其x軸與y軸均為在線時長,三個質(zhì)心分別落在19000,40000,63000左右的位置,測試用算法并未設(shè)置最大迭代次數(shù),因此此為最佳質(zhì)心位置選取,圖4,此為聚類效果圖,x軸表示劃分類別,分別為0,1,2三類,y軸表示在線時長,結(jié)合圖2在線時長統(tǒng)計圖觀測,其聚類效果良好,每個類目人數(shù)分布合理。
在成績分段上,首先將成績百分化后,低于55分為一類,55-68為一類,68-79為一類,79-88為一類,高于88為一類,共計五類。將九類特征模擬數(shù)據(jù)中的前80%作為訓(xùn)練樣本,剩余20%作為測試樣本,測試樸素貝葉斯分類器準(zhǔn)確率,最終于源數(shù)據(jù)類別相符占62%,即在模擬數(shù)據(jù)實驗中,該分類器能達(dá)到62%的準(zhǔn)確率。
5 結(jié)論及展望
在網(wǎng)絡(luò)教學(xué)平臺中,K均值聚類算法和樸素貝葉斯分類器的使用具有可行性,但由于網(wǎng)絡(luò)教學(xué)平臺中能獲取的特征具有局限性,并且當(dāng)前算法并未對特征重要性進(jìn)行加權(quán)處理,且各特征之間有著不可忽視的關(guān)聯(lián)性,因此在模擬數(shù)據(jù)下,達(dá)到了62%的準(zhǔn)確率足以體現(xiàn)該分類器在實際應(yīng)用中的可行性。當(dāng)從真實網(wǎng)絡(luò)教學(xué)環(huán)境中獲取到大量數(shù)據(jù)后,不僅僅能夠?qū)δP瓦M(jìn)行修正,同樣可以對算法進(jìn)行改良,優(yōu)化,這是為今后探索數(shù)據(jù)挖掘算法在網(wǎng)絡(luò)教學(xué)之中的應(yīng)用做準(zhǔn)備。對于該算法在在線學(xué)習(xí)平臺中的進(jìn)一步開發(fā),可以從對數(shù)據(jù)的加權(quán)處理以及對更科學(xué)的特征值選取兩方面入手。隨著越來越多的用戶群體加入,優(yōu)質(zhì)的網(wǎng)絡(luò)教學(xué)也將被更多人接受認(rèn)可,網(wǎng)絡(luò)教學(xué)的意義與價值都將被放大,成熟的數(shù)據(jù)挖掘體系也將被建立。但在發(fā)展過程中,一定會存在著諸多問題,一步步優(yōu)化改良是作為開發(fā)者不可或缺的素質(zhì)。對于網(wǎng)絡(luò)教學(xué)平臺中用戶行為特征值選取,建立完備的預(yù)測體系與個性化推薦體系,深入了解用戶需求是接下來要面對的問題也是主要研究方向,同時,優(yōu)化“教”與“學(xué)”之間的雙向反饋也是極為重要的研究任務(wù)。
參考文獻(xiàn):
[1]蔣卓軒,張巖,李曉明.基于MOOC數(shù)據(jù)的學(xué)習(xí)行為分析與預(yù)測[J].計算機研究與發(fā)展,2015,52(3):614-628.
[2]李曼麗,徐舜平,孫夢嫽.MOOC學(xué)習(xí)者課程學(xué)習(xí)行為分析——以“電路原理”課程為例[J].開放教育研究,2015,21(2):63-69.
[3]胡藝齡,顧小清,趙春.在線學(xué)習(xí)行為分析建模及挖掘[J].開放教育研究,2014,20(2):102-110.
[4]柴艷妹,雷陳芳.基于數(shù)據(jù)挖掘技術(shù)的在線學(xué)習(xí)行為研究綜述[J].計算機應(yīng)用研究,2018(5).
[5]劉瓊.在線學(xué)習(xí)系統(tǒng)的數(shù)據(jù)挖掘研究[D].武漢理工大學(xué),2010.
[6]徐鵬,王以寧,劉艷華,等.大數(shù)據(jù)視角分析學(xué)習(xí)變革——美國《通過教育數(shù)據(jù)挖掘和學(xué)習(xí)分析促進(jìn)教與學(xué)》報告解讀及啟示[J].遠(yuǎn)程教育雜志,2013(6):11-17.
[7]金勇進(jìn).缺失數(shù)據(jù)的插補調(diào)整[J].數(shù)理統(tǒng)計與管理,2001,20(6):47-53.
[8]袁方,周志勇,宋鑫.初始聚類中心優(yōu)化的k-means算法[J].計算機工程,2007,33(3):65-66.
[9]楊善林,李永森,胡笑旋,等.K-means算法中的k值優(yōu)化問題研究[J].系統(tǒng)工程理論與實踐,2006,26(2):97-101.
[10]袁方,孟增輝,于戈.對k-means聚類算法的改進(jìn)[J].計算機工程與應(yīng)用,2004,40(36):177-178.
[11]Hartigan J A,Wong M A.Algorithm AS 136:A K-Means Clustering Algorithm[J].Journal of the Royal Statistical Society,1979,28(1):100-108.
[12]程克非,張聰.基于特征加權(quán)的樸素貝葉斯分類器[J].計算機仿真,2006,23(10):92-94.
[13]范金金,劉鵬.樸素貝葉斯分類器的獨立性假設(shè)研究[J].計算機工程與應(yīng)用,2008,44(34):139-141.
[14]趙文濤,孟令軍,趙好好,等.樸素貝葉斯算法的改進(jìn)與應(yīng)用[J].測控技術(shù),2016,35(2):143-147.
[15]秦鋒,任詩流,程澤凱,等.基于屬性加權(quán)的樸素貝葉斯分類算法[J].計算機工程與應(yīng)用,2008,44(6):107-109.
[16]余芳,姜云飛.一種基于樸素貝葉斯分類的特征選擇方法[J].中山大學(xué)學(xué)報(自然科學(xué)版),2004,43(5):118-120.
【通聯(lián)編輯:王力】