劉維軍 李曉會
摘? 要: 傳統(tǒng)終端在線教育數(shù)據(jù)挖掘技術(shù)的挖掘速度慢,為了解決這一問題,提出基于模型驅(qū)動的終端在線教育數(shù)據(jù)挖掘技術(shù)研究。運用關(guān)聯(lián)分析數(shù)據(jù)轉(zhuǎn)換法轉(zhuǎn)換數(shù)據(jù),再利用模型驅(qū)動的人群行為建模方法,設(shè)計終端在線教育數(shù)據(jù)挖掘任務(wù)流程。完成上述工作后,通過篩選、選擇數(shù)據(jù)子集、編碼、設(shè)定閾值、進(jìn)化步驟,優(yōu)化模型驅(qū)動數(shù)據(jù)挖掘關(guān)鍵技術(shù),實現(xiàn)終端在線教育高效數(shù)據(jù)挖掘。實驗結(jié)果表明,所提技術(shù)使用數(shù)據(jù)集規(guī)模小的挖掘速度相近,在使用數(shù)據(jù)集規(guī)模大時,挖掘速度逐漸增加;而傳統(tǒng)技術(shù)使用數(shù)據(jù)集規(guī)模小的挖掘速度與使用數(shù)據(jù)集規(guī)模大的挖掘速度基本相近。證明所提技術(shù)挖掘速度更快。
關(guān)鍵詞: 在線教育; 數(shù)據(jù)挖掘; 模型驅(qū)動; 數(shù)據(jù)轉(zhuǎn)換; 挖掘流程設(shè)計; 技術(shù)優(yōu)化
Abstract: The terminal on?line education data mining technology based on model driving is proposed to overcome the defect that the mining speed of the traditional terminal online education data mining technology is slow. The correlation analysis method of data conversion is utilized to convert the data, and then the model?driven crowd behavior modeling method is used to design the flow of the terminal online education data mining. After above work is completed, the model?driven data mining key technology is optimized by the steps of screening, selecting data subset, encoding, setting threshold and evolving, so as to realize the high?efficiency data mining of the online education on the terminal. The experimental results show that the mining speeds of the proposed technology are similar as the traditional technology when using small?scale datasets, and the mining speeds of the proposed technology are gradually increased when using large?scale datasets; however, the mining speed of the traditional technology when using small?scale dataset and using large?scale dataset are almost same. It proves the mining speed of the proposed technology is faster.
Keywords: online education; data mining; model driven; data conversion; mining flow design; technology optimization
0? 引? 言
終端在線教育可視化需要完成數(shù)據(jù)挖掘這項任務(wù),相關(guān)學(xué)者曾提出對LDA主題概率模型改進(jìn)的研究,通過單一時間跨度的論壇主題挖掘數(shù)據(jù),但這無法滿足數(shù)據(jù)噴薄而出的趨勢。還有學(xué)者引入時間要素的傳統(tǒng)方式,將終端在線教育數(shù)據(jù)按照時間劃分成獨立的主題集,但區(qū)間內(nèi)部是無序的,無法留存多個獨立主題。為解決上述問題,國外學(xué)者提出使用模型驅(qū)動對結(jié)構(gòu)內(nèi)部之間的關(guān)系建模。模型驅(qū)動是專門用于解決模型建立和模型擴(kuò)展等方面的問題[1]。模型驅(qū)動可以描述其他未來可能出現(xiàn)的XML的建模語言。這種方式可以描述兩種數(shù)據(jù)模型之間的映射規(guī)則,使通用的數(shù)據(jù)模型自由變換[2]。為了解決傳統(tǒng)終端在線教育數(shù)據(jù)挖掘技術(shù)存在的漏洞,提出基于模型驅(qū)動的終端在線教育數(shù)據(jù)挖掘技術(shù)研究。
終端在線教育數(shù)據(jù)龐大,其具有數(shù)據(jù)結(jié)構(gòu)復(fù)雜、規(guī)模大、數(shù)據(jù)量大的特點。為優(yōu)化數(shù)據(jù)挖掘關(guān)鍵技術(shù),使用模型驅(qū)動更改線程結(jié)構(gòu),可挖掘出用戶的潛在信息?;谀P万?qū)動的終端在線教育數(shù)據(jù)挖掘技術(shù)通過處理在線教育數(shù)據(jù),梳理系統(tǒng)開發(fā)的任務(wù)目標(biāo),完成終端在線教育數(shù)據(jù)挖掘任務(wù)流程的設(shè)計,通過優(yōu)化終端在線教育數(shù)據(jù)挖掘關(guān)鍵技術(shù),提高挖掘目標(biāo)精確度。實驗結(jié)果表明,本文所提技術(shù)具有一定的可行性。
1? 終端在線教育數(shù)據(jù)轉(zhuǎn)換
使用關(guān)聯(lián)分析數(shù)據(jù)轉(zhuǎn)換法,將區(qū)間內(nèi)的數(shù)據(jù)映射為相應(yīng)的離散值[3],再根據(jù)相關(guān)算法對數(shù)據(jù)的要求,將數(shù)據(jù)轉(zhuǎn)換成易于存儲的形式,轉(zhuǎn)換好的選定數(shù)據(jù)可存入相應(yīng)的數(shù)據(jù)表,如表1所示。
當(dāng)數(shù)據(jù)轉(zhuǎn)換成功后,即可從表1中的字段查看出學(xué)生在不同階段的學(xué)習(xí)情況。
2? 終端在線教育數(shù)據(jù)挖掘任務(wù)流程設(shè)計
當(dāng)數(shù)據(jù)轉(zhuǎn)換成功后,利用模型驅(qū)動的人群行為建模方法,設(shè)計在線教育數(shù)據(jù)挖掘任務(wù)流程[4]。
先構(gòu)建模型驅(qū)動人群行為模塊,包括數(shù)據(jù)驅(qū)動模塊和模型驅(qū)動模塊,模型驅(qū)動建模方法整體思路如圖1所示。
數(shù)據(jù)驅(qū)動模塊包含視頻采集和人群行為特征信息。模型驅(qū)動模塊由屬性模塊、行為模塊和路徑算法模塊組成[5]。為了過濾無效數(shù)據(jù),運用爬蟲技術(shù)獲取文本流,再進(jìn)行數(shù)據(jù)處理[6]。將轉(zhuǎn)換后的文本作為計算機處理對象。處理過程步驟為:分詞文本、取出停用詞、統(tǒng)計詞頻、文本向量化。完成文本處理后,從數(shù)據(jù)中提取用戶行為數(shù)據(jù),即提取主題相關(guān)數(shù)據(jù)。不同的應(yīng)用場景主體挖掘算法不同,要結(jié)合主題挖掘算法獲取相似主題特征的數(shù)據(jù)集合[7]。若仍無法自動生成主題,模型驅(qū)動會保存底層關(guān)系,采用簡潔的主題描述文檔語料庫。
3? 模型驅(qū)動數(shù)據(jù)挖掘關(guān)鍵技術(shù)優(yōu)化
在主題挖掘的過程中,為完成不同主題集合的任務(wù),采用聚類算法處理[8]。先求出特征空間內(nèi)的特征加權(quán)向量,表達(dá)式為;
式中:[P]表示特征向量;[Tn]表示關(guān)鍵詞屬性;[Wn]表示主題向量;[n]表示聚類目標(biāo)。設(shè)[Tn]與[Wn]有[x]個相同關(guān)鍵詞屬性,則[Tn]與[Wn]的相似度為:
式中:[J]表示相似度;[V]表示增量聚類個數(shù)。應(yīng)用式(2)求出[Tn]與[Wn]的相似度。將[Tn]與[Wn]結(jié)果代入式(3)得到最終的聚類結(jié)果為:
式中:[k]表示聚類個數(shù);[C]表示增量聚類時發(fā)生的變化;[r]表示特征向量屬性。得到最終的聚類結(jié)果,即為任務(wù)目標(biāo)。
在此基礎(chǔ)上,優(yōu)化模型驅(qū)動數(shù)據(jù)挖掘關(guān)鍵技術(shù),得到最優(yōu)特征子集,實現(xiàn)終端在線教育高效數(shù)據(jù)挖掘。優(yōu)化數(shù)據(jù)挖掘關(guān)鍵技術(shù)的目的是從原始特征空間中剔除無效數(shù)據(jù),提高挖掘目標(biāo)精確度。優(yōu)化過程為:
1) 篩選。經(jīng)過篩選后得到最優(yōu)特征子集,篩選流程如圖2所示。
2) 選擇數(shù)據(jù)子集。完成篩選任務(wù)后,要選擇較好的數(shù)據(jù)子集,選擇方式包括過濾式,先考察特征間的關(guān)系,再去除預(yù)測結(jié)果的一部分特征,采用優(yōu)勝劣汰的機制刪除無效的數(shù)據(jù)。每次遞歸都要按照主題特征的參數(shù)求解大小排序,排序靠前的為無噪聲數(shù)據(jù),排序靠后的為無效數(shù)據(jù);也可以將數(shù)據(jù)看作一個最優(yōu)搜索問題,通過搜索和遺傳算法選擇帶有主題特征的數(shù)據(jù)集合。
3) 編碼。為有效地從數(shù)據(jù)挖掘空間中選擇最優(yōu)子集,選用種群個體編碼的方式,模擬原始數(shù)據(jù)的種群個體,種群空間為數(shù)據(jù)挖掘的搜索空間[9]。為簡化計算過程,在初始化種群時,將種群初始化大小設(shè)為20~100之間,其中種群個體代表每一種可能的數(shù)據(jù)集合,采用二進(jìn)制編碼,選擇帶有主題特征的數(shù)據(jù)集合。
4) 設(shè)定閾值。引入方差閾值,將每個主題特征方差值與閾值相對比,若方差值大于設(shè)定閾值,需要過濾原始的數(shù)據(jù)挖掘空間;若小于設(shè)定閾值,可以直接提出變化幅度小的主題特征。經(jīng)過篩選后,可以有效消減數(shù)據(jù)挖掘的范圍,提高算法的迭代速度[10]。
5) 進(jìn)化。算子代表數(shù)據(jù)子集,在算子進(jìn)化的過程中,根據(jù)種群內(nèi)的個體適應(yīng)值進(jìn)行判斷。適應(yīng)值高的可以進(jìn)入下一輪進(jìn)化,適應(yīng)值低的個體可以保留。
由此,完成基于模型驅(qū)動的終端在線教育數(shù)據(jù)挖掘技術(shù)研究。
4? 實驗分析
為驗證基于模型驅(qū)動的終端在線教育數(shù)據(jù)挖掘技術(shù)的有效性,進(jìn)行實驗研究。本次實驗選用的數(shù)據(jù)集是通過使用ERP系統(tǒng)獲取,主要包含用戶行為信息。將原始數(shù)據(jù)集隨機抽樣,擴(kuò)充后的實驗數(shù)據(jù)集為D0,D1,D2,D3,D4。每個數(shù)據(jù)集中都包含68個主題特征,目標(biāo)變量會隨著時間變化。本次實驗利用以上數(shù)據(jù)集,在模型驅(qū)動的框架下,分別測試傳統(tǒng)在線教育數(shù)據(jù)挖掘技術(shù)與所提技術(shù)的挖掘速度。表2為主題特征明細(xì)。
實驗數(shù)據(jù)的目標(biāo)值域是無法確定的,實驗中要使用對數(shù)均方根誤差表示實驗結(jié)果的錯誤率。
實驗結(jié)果利用模型驅(qū)動的線性回歸進(jìn)行預(yù)測,實驗迭代次數(shù)為10次,為方便統(tǒng)計,將本次提出的基于模型驅(qū)動的終端在線教育數(shù)據(jù)挖掘技術(shù)標(biāo)記為L,傳統(tǒng)的終端在線教育數(shù)據(jù)挖掘技術(shù)標(biāo)記為R。兩種技術(shù)的挖掘速度對比結(jié)果如圖3和圖4所示。
從圖3可以看出,所提技術(shù)使用數(shù)據(jù)集規(guī)模小的時候,挖掘速度相近,在使用數(shù)據(jù)集規(guī)模大的時候,挖掘速度逐漸增加,在速度上相比傳統(tǒng)技術(shù)的更快。從圖4可以看出,傳統(tǒng)的技術(shù)使用數(shù)據(jù)集規(guī)模小的時候,挖掘速度相近,但耗時較長,在使用數(shù)據(jù)集規(guī)模大的時候,上漲幅度并不是很大,未超越所提技術(shù)的挖掘速度。由此可知,本次提出的基于模型驅(qū)動的終端在線教育數(shù)據(jù)挖掘技術(shù)更好。
5? 結(jié)? 語
針對傳統(tǒng)終端在線教育數(shù)據(jù)挖掘技術(shù)存在的問題,提出基于模型驅(qū)動的終端在線教育數(shù)據(jù)挖掘技術(shù)研究。將數(shù)據(jù)轉(zhuǎn)換部分字段轉(zhuǎn)換成易于存儲的形式,再利用模型驅(qū)動的人群行為建模方法設(shè)計終端在線教育數(shù)據(jù)挖掘流程,利用聚類算法求出特征空間內(nèi)的特征加權(quán)向量,優(yōu)化模型驅(qū)動數(shù)據(jù)挖掘關(guān)鍵技術(shù)。實驗結(jié)果表明,本文所提技術(shù)的挖掘速度大于傳統(tǒng)技術(shù)的挖掘速度,證明本文所提技術(shù)的效率更高。
參考文獻(xiàn)
[1] 陸鑫赟,王興芬.基于領(lǐng)域關(guān)聯(lián)冗余的教務(wù)數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘[J].計算機科學(xué),2019,46(z1):427?430.
[2] 錢玲,徐輝富,郭偉.美國在線教育:實踐、影響與趨勢:CHLOE3報告的要點與思考[J].開放教育研究,2019,25(3):10?21.
[3] 陳敬德,盛戈皞,吳繼健,等.大數(shù)據(jù)技術(shù)在智能電網(wǎng)中的應(yīng)用現(xiàn)狀及展望[J].高壓電器,2018,54(1):35?43.
[4] 王坤,唐純志,田小婷,等.基于數(shù)據(jù)挖掘技術(shù)探討針灸治療蕁麻疹的選穴規(guī)律及理論依據(jù)[J].針刺研究,2018,43(6):388?393.
[5] 甘璐.基于數(shù)據(jù)挖掘技術(shù)的檔案館信息快速分析算法研究[J].現(xiàn)代電子技術(shù),2019,42(7):32?34.
[6] 張利利,馬艷琴.基于數(shù)據(jù)挖掘技術(shù)的航空客戶流失與細(xì)分研究及R語言程序?qū)崿F(xiàn)[J].數(shù)學(xué)的實踐與認(rèn)識,2019,49(6):134?142.
[7] 張康,黃亦翔,趙帥,等.基于t?SNE數(shù)據(jù)驅(qū)動模型的盾構(gòu)裝備刀盤健康評估[J].機械工程學(xué)報,2019,55(7):19?26.
[8] 王學(xué)男.不同教師群體對教育大數(shù)據(jù)的認(rèn)知及影響因素:基于全國5434名教師的調(diào)查[J].開放教育研究,2019,25(3):81?91.
[9] 李爽,李榮芹,喻忱.基于LMS數(shù)據(jù)的遠(yuǎn)程學(xué)習(xí)者學(xué)習(xí)投入評測模型[J].開放教育研究,2018,24(1):91?102.
[10] 張愛平,馬敏.基于質(zhì)量監(jiān)測的初中學(xué)生數(shù)據(jù)分析發(fā)展?fàn)顩r的調(diào)查研究[J].數(shù)學(xué)教育學(xué)報,2017,26(1):28?31.