郭飛雁
湖南電氣職業(yè)技術(shù)學(xué)院 湖南省 湘潭市 410000
《教育信息化2.0 行動計劃》是加快實現(xiàn)教育現(xiàn)代化的有效途徑,是“教育現(xiàn)代化2035”的重點內(nèi)容和重要標志。教育信息化2.0 行動計劃中明確指出,人工智能、大數(shù)據(jù)、區(qū)塊鏈等技術(shù)迅猛發(fā)展,將深刻改變?nèi)瞬判枨蠛徒逃螒B(tài)。如何利用人工智能提供個性化學(xué)習(xí)環(huán)境及服務(wù)已成為當前教育研究者關(guān)注的焦點[1]。個性化學(xué)習(xí)研究主要集中在根據(jù)學(xué)生不同的學(xué)習(xí)風(fēng)格、認知風(fēng)格等為其提供不同形態(tài)的學(xué)習(xí)資源及個性化的教學(xué)方法。但在實施個性化教學(xué)前對學(xué)生進行個性化分類是我們首先需要解決的一個問題。近年來,隨著各種在線學(xué)習(xí)平臺的層出不窮,越來越多的研究者將研究重點定位到利用在線學(xué)習(xí)平臺上的大量學(xué)習(xí)行為數(shù)據(jù)進行分析,實現(xiàn)基于大數(shù)據(jù)的在線學(xué)習(xí)用戶個性化分類,從而實現(xiàn)個性化學(xué)習(xí)資源推送,達到個性化教學(xué)的目的[2]。
因此,我們基于在線學(xué)習(xí)用戶相關(guān)學(xué)習(xí)數(shù)據(jù),采用KMeans 聚類方法建立在線學(xué)生用戶模型,進行學(xué)生用戶進行個性化分類,對不同的學(xué)生用戶類別進行特征分析,比較不同類學(xué)生用戶特征,對不同類學(xué)生用戶提供個性化服務(wù),制作相應(yīng)學(xué)習(xí)策略,實現(xiàn)精準推薦學(xué)習(xí),因材施教,從而提高在線學(xué)習(xí)用戶參與度,達到在線學(xué)習(xí)效率最大化目標[3]。
明確在線學(xué)習(xí)用戶分類目標為在線學(xué)習(xí)愛好特征分類,識別用戶分類應(yīng)用最廣泛的模型是三個指標(學(xué)習(xí)時間間隔(Interval),學(xué)習(xí)互動頻率(Frequency),學(xué)習(xí)時長(Length),以上指標簡稱IFL 模型,作用是識別不同類型的在線學(xué)習(xí)用戶??紤]到在線學(xué)習(xí)資源類型多樣化,用戶對學(xué)習(xí)資源類型的個性化偏好在一定程度上影響學(xué)習(xí)時長,所以增加指標個性 化 偏好P (Preferences)。同時,在線學(xué)習(xí)用戶訪問學(xué)習(xí)資源類別也代表了用戶的個人喜好,因此再增加指標訪問學(xué)習(xí)資源類型T(Types)。通過學(xué)習(xí)時間間隔(Interval),學(xué)習(xí)互動頻率(Frequency),學(xué)習(xí)時長(Length),個性化偏好P(Preferences)及訪問學(xué)習(xí)資源類型T(Types)以上五個指標,作為在線學(xué)習(xí)用戶分類指標體系,記為IFLPT 模型。
傳統(tǒng)的IFL 模型,依據(jù)三個屬性的平均值進行劃分,但由于細分用戶群太多,在線個性化教學(xué)的成本太高[4]。因此,我們采用聚類法對在線學(xué)習(xí)用戶進行分類,以IFLPT 模型為基礎(chǔ),總體流程如圖1 所示。
圖1 在線學(xué)習(xí)用戶數(shù)據(jù)挖掘建模總體流程
在線學(xué)習(xí)用戶數(shù)據(jù)挖掘建??傮w流程中,我們首先從在線學(xué)習(xí)平臺選擇性抽取已產(chǎn)生數(shù)據(jù),并對新增數(shù)據(jù)進行抽取,形成歷史數(shù)據(jù)和增量數(shù)據(jù)。對歷史數(shù)據(jù)和增量數(shù)據(jù)進行數(shù)據(jù)探索性分析和預(yù)處理,主要對有缺失值與異常值的數(shù)據(jù)進行分析處理,主要操作為屬性規(guī)約、數(shù)據(jù)清洗和數(shù)據(jù)變換。在已處理完畢的規(guī)則化數(shù)據(jù)基礎(chǔ)上,建模數(shù)據(jù),基于IFLPT 模型進行學(xué)生用戶分群,對各個用戶群進行特征分析,從而實施個性化推薦。
通過在線學(xué)習(xí)平臺“超星泛雅”導(dǎo)出《網(wǎng)頁設(shè)計與制作》在線學(xué)習(xí)精品課程相關(guān)數(shù)據(jù),選擇寬度為1 個月的時間段作為觀測窗口,抽取觀測窗口內(nèi)所有在線學(xué)習(xí)用戶的詳細數(shù)據(jù),形成歷史數(shù)據(jù),對于后續(xù)新增的在線學(xué)習(xí)用戶信息,采用目前的時間作為重點,形成新增數(shù)據(jù)。在兩個數(shù)據(jù)基礎(chǔ)上對數(shù)據(jù)進行缺失值和異常值分析,查找每列屬性值中空值的個數(shù)、最大值及最小值,并對數(shù)據(jù)集進行數(shù)據(jù)清洗,丟棄空值、學(xué)習(xí)時長過短或?qū)W習(xí)頻率低的相關(guān)記錄。同時,由于原始數(shù)據(jù)中屬性太多,根據(jù)在線學(xué)習(xí)用戶IFLPT 分類模型,選擇與模型相關(guān)的五個屬性,刪除其他無用屬性[5]。
通過學(xué)習(xí)時間間隔(Interval),學(xué)習(xí)互動頻率(Frequency),學(xué)習(xí)時長(Length),個性化偏好P(Preferences)及訪問學(xué)習(xí)資源類型T(Types)以上五個指標,作為在線學(xué)習(xí)用戶分類指標體系,記為IFLPT 模型。數(shù)據(jù)清洗完畢后采用數(shù)據(jù)變換的方式為方便屬性構(gòu)造和數(shù)據(jù)標準化,將原始數(shù)據(jù)轉(zhuǎn)換成相應(yīng)的格式,構(gòu)造IFLPT 的五個指標如表1 所示。
表1 IFLPT 模型指標說明
采用K-Means 聚類算法對在線學(xué)習(xí)用戶數(shù)據(jù)進行分群,聚成五類,代碼如圖2 所示。
圖2 K-Means 聚類代碼
分類結(jié)果如圖3 所示。用戶群1:red,用戶群2:green,用戶群3:yellow,用戶群4:blue,用戶群5:purple,橫坐標上總共有五個節(jié)點,按順序?qū)?yīng)IFLPT。對應(yīng)節(jié)點上的用戶群的屬性值,代表該客戶群的該屬性的程度。
圖3 在線學(xué)習(xí)用戶分析
我們重點關(guān)注I、F、L 三個屬性,從圖3 中可以看到:紅色線代表的用戶群1 的I 較低,F(xiàn)、L 都很高,表示該類用戶群是學(xué)習(xí)主動的用戶;綠色線代表的用 戶 群2 的I 較 高,F(xiàn)、L 都 很低,表示該類用戶群是懶散型的用戶;黃色線代表的用戶群3的I、F、L 值都居中,表示該類用戶群會經(jīng)常登錄在線學(xué)習(xí)平臺,但學(xué)習(xí)時長居中,屬于普通型;藍色線代表的用戶群4 的I、F、L 值 都 不 高,但P 值 較高,說明該類用戶只對某類學(xué)習(xí)資源感興趣,屬于專業(yè)型;紫色線代表的用戶群5 的I 值低表示會經(jīng)常登錄學(xué)習(xí)平臺,但F、L 各類值都較低,屬于學(xué)習(xí)不主動型。
對于不同類型的學(xué)習(xí)用戶群我們采取不同的策略對用戶進行在線學(xué)習(xí)干預(yù)實施,從而達到最佳的在線學(xué)習(xí)效果[6][7]。如表2 所示。
表2 在線學(xué)習(xí)干預(yù)策略
本文結(jié)合在線學(xué)習(xí)平臺“超星泛雅”中《網(wǎng)頁設(shè)計與制作》在線課程案例,重點介紹了數(shù)據(jù)挖掘算法中K-Means 聚類算法的應(yīng)用。針對傳統(tǒng)IFL模型的不足,結(jié)合在線學(xué)習(xí)案例進行改造,設(shè)定了五個指標的IFLPT 模型。最后通過聚類的結(jié)果,對在線學(xué)習(xí)用戶進行分類,從而制定相應(yīng)的在線學(xué)習(xí)干預(yù)策略,提高在線學(xué)習(xí)效率。