李 靜 郝耀軍 楊 瑜
(忻州師范學(xué)院計算機系 忻州 034000)
隨著信息化時代教育變革的深化,在線學(xué)習(xí)群體日益增長,面對海量的在線學(xué)習(xí)行為數(shù)據(jù),如何從中挖掘?qū)W習(xí)者的群體學(xué)習(xí)特征,優(yōu)化教師的信息化教學(xué)行為,已成為人們關(guān)注的熱點問題。用戶畫像技術(shù)[1~2]的發(fā)展過程一直與互聯(lián)網(wǎng)環(huán)境下的行為研究關(guān)系密切,因此利用用戶畫像進(jìn)行用戶信息或群體特征的挖掘是實現(xiàn)學(xué)習(xí)者類特征描述的一種有效解決方案。聚類分析是將沒有分類標(biāo)簽的數(shù)據(jù)集,分為若干個簇的過程,是一種無監(jiān)督的分類方法[3],有效表達(dá)了類內(nèi)的相似性與類間的排他性,在學(xué)習(xí)者群體特征描述方面得到了廣泛應(yīng)用。
近年來,在學(xué)習(xí)者群體聚類領(lǐng)域已出現(xiàn)了多種聚類算法,如基于劃分、基于密度和基于層次的聚類等[4~6]?;趧澐值木垲愃惴▽⒕嚯x作為相似性的度量指標(biāo),認(rèn)為簇是由距離相近的對象組成,算法簡捷高效,適合對大規(guī)模數(shù)據(jù)進(jìn)行聚類[7],但存在依賴初始聚類中心、對噪聲樣本點敏感、只能處理數(shù)值型數(shù)據(jù)等問題[8~10]?;诿芏鹊木垲惙椒▽⒏髂繕?biāo)簇定義為基于密度可達(dá)關(guān)系的高密度相連樣本的最大集合,可以識別任意形狀的聚類簇[11]。但在面臨密度不均勻的多密度數(shù)據(jù)集時,聚類質(zhì)量較差?;趯哟蔚木垲愃惴ㄍㄟ^構(gòu)建具有一定親屬關(guān)系的系統(tǒng)樹圖實現(xiàn)聚類,不需要確定初始簇數(shù),可解釋性好[12~13]。但聚類過程中各個步驟聯(lián)系緊密,時間復(fù)雜度較高。之后,隨著智能化技術(shù)的普遍應(yīng)用涌現(xiàn)出一些智能聚類算法,如:人工神經(jīng)網(wǎng)絡(luò)聚類實現(xiàn)了層次化的非線性特征聚類[14~15],基于深度學(xué)習(xí)的深度聚類算法實現(xiàn)了特征學(xué)習(xí)和聚類的聯(lián)合優(yōu)化[16~20],從不同角度提升了聚類算法的性能,但該類算法適合處理大規(guī)模高維非結(jié)構(gòu)化的數(shù)據(jù),確定性先驗信息的缺失是模型存在的問題。隨著教育信息化進(jìn)程的推進(jìn),學(xué)習(xí)空間多元化、學(xué)習(xí)時間多樣化、學(xué)習(xí)環(huán)境無縫化等都為學(xué)習(xí)者的學(xué)習(xí)行為增加了更多不確定的因素,導(dǎo)致上述傳統(tǒng)聚類算法在進(jìn)行學(xué)習(xí)者群體劃分時聚類質(zhì)量會下降,傳統(tǒng)的聚類算法面臨新的挑戰(zhàn)。
針對上述問題,本文提出了一種新的用于解決學(xué)習(xí)者類劃分的S-DBSCAN聚類算法。經(jīng)過充分分析學(xué)習(xí)者的行為特點,利用改進(jìn)的PCA-GRBM算法提取學(xué)習(xí)者數(shù)據(jù)的多維特征,在此基礎(chǔ)上采用基于密度的DBSCAN算法進(jìn)行學(xué)習(xí)者群體特征聚類,并針對誤判的噪聲數(shù)據(jù)引入多重聚類的步驟,使其重新歸入相應(yīng)的簇,實現(xiàn)改進(jìn)的S-DBSCAN聚類算法,以提高聚類質(zhì)量。
為了使得原始的無標(biāo)簽數(shù)據(jù)集具有更明顯的類別特征,本文提出了一種改進(jìn)的PCA-GRBM多維特征提取算法。采用無監(jiān)督學(xué)習(xí)的PCA算法降維提取線性特征;GRBM算法提取非線性特征,并將兩種特征進(jìn)行拼接,形成多維特征。這樣既降低了線性特征的計算復(fù)雜度,又能充分利用神經(jīng)網(wǎng)絡(luò)的非線性逼近能力,最終實現(xiàn)對數(shù)據(jù)集類別特征的有效表達(dá)。多維度特征提取算法PCA-GRBM分為兩個部分:PCA特征轉(zhuǎn)換和GRBM特征學(xué)習(xí),算法描述如下。
算法1基于PCA的線性特征轉(zhuǎn)換
輸入:學(xué)生學(xué)習(xí)行為數(shù)據(jù)集DataFrame(形如d ata={x1,x2,…,xm})
1)數(shù)據(jù)預(yù)處理。對清洗后的各數(shù)據(jù)特征進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化:X←(data-data.mean()/data.std())。
6)計算降維后的數(shù)據(jù)集,即轉(zhuǎn)換得到的新特征。樣本矩陣與投影矩陣相乘得降維后的數(shù)據(jù)集X1'=X·W。其中X為n×m,W為m×d′,d′<m。
算法2基于GRBM的非線性特征學(xué)習(xí)
輸入:學(xué)生學(xué)習(xí)行為數(shù)據(jù)集向量X(形如d ata={x0,x1,x2,…,xi}),可見層神經(jīng)元個數(shù)i,隱藏層神經(jīng)元個數(shù)j,學(xué)習(xí)率ε,訓(xùn)練周期N。
輸出:學(xué)習(xí)到的新特征
1)數(shù)據(jù)預(yù)處理。對數(shù)據(jù)進(jìn)行清洗及標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,假設(shè)初始訓(xùn)練數(shù)據(jù)集X~N(μ,σ2)。
2)模型初始化。可見層神經(jīng)元中輸入樣本數(shù)據(jù)集X,即v0=x0,v1=x1,…,vi=xi;W,b隨機賦為較小的值。
3)訓(xùn)練階段。
f or j=0,1,2,…,j-1#根據(jù)式(1)獲取隱藏層神經(jīng)元的狀態(tài)值
根據(jù)條件分布P(h1j|v1)采樣h1j的二元數(shù)值;
f or i=0,1,2,…,i-1#根據(jù)式(2)獲取可見層神經(jīng)元的狀態(tài)值
其中,N(.|μ,σ2)表示均值為μ,方差為σ2的高斯概率密度函數(shù)。
根據(jù)條件分布P(v2i|h1)采樣v2i的實值數(shù)據(jù);
f or j=0,1,2,…,j-1#根據(jù)式(3)獲取隱藏層神經(jīng)元的狀態(tài)值
根據(jù)條件分布P(h2j|v2)采樣h2j的二元數(shù)值;
根據(jù)對比散度算法,按式(4)更新模型參數(shù)。
4)網(wǎng)絡(luò)穩(wěn)定后,隱層神經(jīng)元的輸出即為學(xué)習(xí)到的新特征X'2。
最后,將PCA算法提取到的線性特征與GRBM算法提取到的非線性特征進(jìn)行橫向拼接,得到數(shù)據(jù)集的多維特征
DBSCAN聚類算法把簇定義為由密度可達(dá)關(guān)系導(dǎo)出的最大密度相連的樣本集合,可以識別任意數(shù)量和形狀的簇,而且聚類過程可以發(fā)現(xiàn)噪聲數(shù)據(jù)。但由于學(xué)習(xí)者數(shù)據(jù)存在多樣性和個性化的特點,導(dǎo)致數(shù)據(jù)集的密度不均勻,傳統(tǒng)的DBSCAN算法聚類得到的噪聲數(shù)據(jù)較多。本文改進(jìn)了傳統(tǒng)的DBSCAN算法,提出一種S-DBSCAN多重聚類算法。首先使用DBSCAN算法初步生成聚類分組和噪聲點,針對誤判的噪聲點,計算其與其他學(xué)習(xí)者多次章節(jié)測試答題情況的斯皮爾曼(spearman)相似度,并以此作為學(xué)習(xí)者間距離的衡量標(biāo)準(zhǔn),進(jìn)而將誤判的噪聲點重新進(jìn)行劃分,實現(xiàn)多重聚類,以提高聚類質(zhì)量。S-DBSCAN多重聚類算法過程如下。
算法3S-DBSCAN多重聚類算法
其中,di分別為噪聲點xi和xm的答題情況向量間的等級差。
7)將xi歸入相似度最大樣本所在的簇,得到新的簇劃分C。
基于PCA-GRBM算法進(jìn)行多維度特征提取后,使用改進(jìn)的S-DBSCAN多重特征聚類算法實現(xiàn)學(xué)習(xí)者類畫像的構(gòu)建,具體步驟如圖1所示。
圖1 學(xué)習(xí)者類畫像構(gòu)建流程
1)對采集到的學(xué)習(xí)者數(shù)據(jù)進(jìn)行預(yù)處理,存儲于CSV文件中,用于特征提取、聚類以及學(xué)習(xí)者類畫像的構(gòu)建。
2)對文件中的學(xué)習(xí)者數(shù)據(jù)使用PCA算法提取線性特征,使用GRBM算法提取非線性特征,將提取到的兩種特征進(jìn)行拼接,生成多維特征矩陣。
3)在特征聚類階段,將步驟2)生成的多維特征矩陣輸入DBSCAN算法中,初步生成聚類分組,提取噪聲數(shù)據(jù),并刪除真實噪聲點。
4)計算誤判的噪聲數(shù)據(jù)與其余樣本點多次章節(jié)測試結(jié)果的答題相似度,并將噪聲數(shù)據(jù)歸入與其相似度最大的樣本點所在的簇,形成新的聚類簇。
5)依據(jù)改進(jìn)的S-DBSCAN多重聚類算法構(gòu)建學(xué)習(xí)者類,分析各類型學(xué)習(xí)者的特點,并進(jìn)行畫像結(jié)果的可視化輸出。
本文采用Python 3.7作為實驗平臺,操作系統(tǒng)為Windows 10,CPU為CoreTM i7-9750H。實驗數(shù)據(jù)來源于超星學(xué)習(xí)通平臺,共收集到《計算機專業(yè)英語》課程兩年四個學(xué)期322名同學(xué)的線上學(xué)習(xí)數(shù)據(jù),分為學(xué)生基本屬性數(shù)據(jù)和學(xué)習(xí)行為數(shù)據(jù)兩部分。其中,基本屬性數(shù)據(jù)包括學(xué)號、入學(xué)年份與性別。學(xué)習(xí)行為數(shù)據(jù)包括任務(wù)點完成比例、課程視頻進(jìn)度、觀看視頻的平均反芻比、章節(jié)測試進(jìn)度、任務(wù)點完成數(shù)、視頻觀看時長、參與討論次數(shù)、章節(jié)學(xué)習(xí)次數(shù)、章節(jié)測試平均成績、綜合成績及成績等級。
1)基于PCA的線性特征轉(zhuǎn)換
結(jié)合采集到的學(xué)習(xí)者數(shù)據(jù),計算各特征維度的累積貢獻(xiàn)率可知,8個主成分即可表達(dá)原始數(shù)據(jù)98%以上的信息,故提取轉(zhuǎn)換后的8個特征作為數(shù)據(jù)集的線性特征,累積分布圖如圖2所示。
圖2 PCA特征累積分布圖
2)基于GRBM的非線性特征學(xué)習(xí)
經(jīng)多次實驗比較,本文選用含20個隱層神經(jīng)元的高斯-伯努利受限玻爾茲曼機進(jìn)行特征學(xué)習(xí),學(xué)習(xí)率為0.1,經(jīng)30次迭代,網(wǎng)絡(luò)收斂,均方誤差為12.37,網(wǎng)絡(luò)訓(xùn)練過程如圖3所示。
圖3 GRBM網(wǎng)絡(luò)訓(xùn)練過程
記錄網(wǎng)絡(luò)輸出結(jié)果,得到GRBM學(xué)習(xí)到的20個新特征,與PCA轉(zhuǎn)換得到的8個線性特征進(jìn)行拼接,產(chǎn)生多維特征提取后的322×28特征矩陣。繪制原始數(shù)據(jù)與PCA-GRBM算法多維特征提取后數(shù)據(jù)的三維散點圖如下所示。
可以看出,由于學(xué)習(xí)者學(xué)習(xí)行為多樣性和個性化的特點,原始數(shù)據(jù)集的類別特征并不明顯,當(dāng)進(jìn)行多維特征提取后,有了較為明顯的類別特征。同時,基于原始數(shù)據(jù)分布特點,很難確定初始聚類中心,不適合采用基于劃分的聚類算法,故本文采用基于密度的聚類算法DBSCAN。
基于經(jīng)典的DBSCAN聚類算法,對多維特征提取后的學(xué)習(xí)者數(shù)據(jù)進(jìn)行初步聚類,Eps鄰域半徑為2,核心點閾值為5,得到4個聚類簇及噪聲數(shù)據(jù)(紫色點),如圖4(b)所示。由圖可知,DBSCAN算法聚類后,得到的噪聲數(shù)據(jù)較多,其中很大一部分是誤判噪聲。故本文提出在初步聚類后,再次進(jìn)行聚類操作,將真實噪聲點刪除,計算誤判噪聲點與其它學(xué)習(xí)者在24次章節(jié)測試答題中的斯皮爾曼相關(guān)系數(shù),作為相似性度量的依據(jù),將誤判噪聲數(shù)據(jù)重新劃歸到與其相似度最高的樣本所在的簇,實現(xiàn)特征的多重聚類。S-DBSCAN算法進(jìn)行多重聚類后的結(jié)果如圖5所示。
圖4 學(xué)習(xí)者數(shù)據(jù)分布圖
圖5 S-DBSCAN聚類結(jié)果
為驗證算法的性能,本文在采集到的學(xué)習(xí)者數(shù)據(jù)集上進(jìn)行了4組實驗,分別是進(jìn)行多維特征提取前直接使用DBSCAN算法進(jìn)行聚類的基線模型;進(jìn)行多維特征提取后,使用Kmeans,DBSCNA及改進(jìn)的S-DBSCAN算法進(jìn)行聚類的后三種模型。在聚類簇數(shù)為4時,對比各種模型的DBI指數(shù),實驗結(jié)果如表1所示。
表1 不同聚類算法DBI指數(shù)比較
戴維森堡丁指數(shù)(DBI)是評估聚類算法優(yōu)劣的一個重要指標(biāo),是指簇內(nèi)所有點到該簇質(zhì)心點的平均距離之和與兩個簇質(zhì)心間距離比值的最大值。DBI值越小,表示類內(nèi)距離越小,類間距離越大,聚類效果越好。從表1可以看出,特征提取前的基線模型DBI指數(shù)最大,聚類效果較差。進(jìn)行多維特征提取后,三種模型的DBI指數(shù)都有所減小,說明PCA-GRBM特征提取算法有效。由于學(xué)習(xí)者行為的個性化與多樣性特點,基于密度的DBSCAN算法比基于劃分的Kmeans算法DBI指數(shù)減小了24.6%。而改進(jìn)的S-DBSCAN算法在經(jīng)典DBSCAN聚類的基礎(chǔ)上,使用相似性度量進(jìn)行了多重聚類,DBI指數(shù)比DBSCAN算法減小了3.5%,實驗取得了較好的效果。
依據(jù)改進(jìn)S-DBSCAN算法產(chǎn)生的聚類結(jié)果,在數(shù)據(jù)集上構(gòu)建4個學(xué)習(xí)者類,每類學(xué)習(xí)者人數(shù)統(tǒng)計如圖6所示。在任務(wù)點完成率、觀看視頻進(jìn)度、觀看視頻平均反芻比等八個特征上各學(xué)習(xí)者類的學(xué)習(xí)行為平均分布情況如圖7所示。
圖6 各學(xué)習(xí)者類人數(shù)統(tǒng)計
圖7 各學(xué)習(xí)者類學(xué)習(xí)行為平均分布情況
可以發(fā)現(xiàn),簇1學(xué)習(xí)者類具有最大的學(xué)習(xí)者比例,占學(xué)習(xí)者總數(shù)的54%。該類學(xué)習(xí)者在任務(wù)點完成、視頻觀看進(jìn)度、章節(jié)測試完成方面表現(xiàn)較好,但完成率并不是最高。觀看視頻反芻比最高,說明在反復(fù)觀看知識重難點。參與線上討論次數(shù)最高,說明學(xué)習(xí)具有積極性和主動性,最終綜合成績是最高的,此類學(xué)習(xí)者可定義為高效學(xué)習(xí)者。
簇0學(xué)習(xí)者類在任務(wù)點完成、視頻觀看進(jìn)度及章節(jié)測試完成方面表現(xiàn)是最好的,章節(jié)測試平均成績也最高。反映出該類學(xué)習(xí)者在課程學(xué)習(xí)上花費時間較多,具有扎實的基礎(chǔ)知識。但視頻觀看反芻比及參與討論次數(shù)略低于簇1類學(xué)習(xí)者,體現(xiàn)其積極思考及主動學(xué)習(xí)能力欠缺,所以綜合成績也低于簇1類學(xué)習(xí)者,將此類學(xué)習(xí)者定義為優(yōu)秀學(xué)習(xí)者。
簇2學(xué)習(xí)者類各項內(nèi)容完成情況最低,但偏好進(jìn)行章節(jié)測試,測試成績也較高,考慮到章節(jié)測試成績會作為課程平時成績的一部分,該類學(xué)習(xí)者在成績驅(qū)動下進(jìn)行學(xué)習(xí),不能充分發(fā)揮主觀能動性,未能很好地掌握知識點并學(xué)以致用,將此類學(xué)習(xí)者定義為低水平學(xué)習(xí)者。
簇3學(xué)習(xí)者類各項任務(wù)完成率并不是最低的,但章節(jié)測試完成情況最差,測試平均分最低,綜合成績最低。該類學(xué)習(xí)者在學(xué)習(xí)過程中存在困難,缺乏針對性練習(xí),是教學(xué)過程應(yīng)重點關(guān)注的人群,將其定義為高風(fēng)險學(xué)習(xí)者。
本文對基于改進(jìn)S-DBSCAN聚類算法的學(xué)習(xí)者類畫像方法進(jìn)行了深入的探討,研究了如何在PCA-GRBM算法提取多維特征的基礎(chǔ)上,使用S-DBSCAN算法進(jìn)行多重聚類,并將其應(yīng)用于學(xué)習(xí)者類構(gòu)建中。在學(xué)習(xí)者數(shù)據(jù)集上實現(xiàn)了準(zhǔn)確的群體劃分,改善了聚類算法的性能。實驗結(jié)果表明,提出的多維特征提取算法更精準(zhǔn)地發(fā)掘了數(shù)據(jù)集的類別特征。而多重聚類算法能充分利用同類學(xué)習(xí)者間的答題相似性,提高聚類的準(zhǔn)確性。相對于經(jīng)典的DBSCAN聚類算法,DBI指數(shù)最低,獲得了很好的性能,充分體現(xiàn)了改進(jìn)算法在學(xué)習(xí)者類別描述過程中的有效性。