胡 悅,羅小楠,王 彬,張 偉
(空軍軍醫(yī)大學(xué)教學(xué)考評中心,陜西西安 710032)
近年來,隨著社會教育水平的不斷提高,繼續(xù)教育的需求逐年增加[1]。利用互聯(lián)網(wǎng)發(fā)展的紅利,實現(xiàn)互聯(lián)網(wǎng)+繼續(xù)教育的模式是繼續(xù)教育行業(yè)的一個新的趨勢[2-3]。為了更優(yōu)地提高繼續(xù)教育的教學(xué)水平,滿足不同人群的需要,面向個性化繼續(xù)教育研究新方法成為一個研究熱點。在個性化推薦方面,關(guān)聯(lián)規(guī)則挖掘算法在諸多領(lǐng)域均得到了應(yīng)用[4-6]。文獻[7]提出利用關(guān)聯(lián)規(guī)則算法,實現(xiàn)高校圖書館書籍個性化推薦。文獻[8]利用學(xué)生信息進行關(guān)聯(lián)規(guī)則挖掘,在教育管理系統(tǒng)上實現(xiàn)了個性化管理。相似的,文獻[9-10]分別利用關(guān)聯(lián)規(guī)則模型建立了銀行產(chǎn)品個性化推薦模型和醫(yī)療用品推薦模型。這些研究和應(yīng)用在一定程度上說明了關(guān)聯(lián)規(guī)則算法可以實現(xiàn)個性化的方案推薦,能夠挖掘數(shù)據(jù)間的關(guān)聯(lián)關(guān)系。
為了進一步提高關(guān)聯(lián)規(guī)則算法的性能,針對算法的改進也得到了廣泛的研究[11-12]。文獻[13]基于MapReduce 計算模型對關(guān)聯(lián)規(guī)則算法改進進行了總結(jié)。針對基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法,文獻[14-15]分別提出利用模糊邏輯規(guī)則和聚類方法提高關(guān)聯(lián)規(guī)則挖掘的算法性能。此類算法改進在較大程度上可以提高關(guān)聯(lián)規(guī)則挖掘的準(zhǔn)確性,為個性化推薦提供依據(jù),但在非確定性屬性關(guān)聯(lián)情況下仍需研究新的方法[16]。
該文面向個性化繼續(xù)教育方案優(yōu)化的需求,研究了關(guān)聯(lián)規(guī)則挖掘算法。在構(gòu)建個性化繼續(xù)教育方案的基礎(chǔ)上,文中利用關(guān)聯(lián)規(guī)則算法,通過建立強關(guān)聯(lián)規(guī)則和頻繁項集,實現(xiàn)數(shù)據(jù)屬性的關(guān)聯(lián)規(guī)則挖掘。為了獲得更準(zhǔn)確的強關(guān)聯(lián)規(guī)則,該文利用DBSCAN 聚類算法進行不確定聚類數(shù)目的自適應(yīng)規(guī)則聚類。通過仿真試驗與數(shù)據(jù)分析,說明所提算法相對于現(xiàn)有算法規(guī)則聚類結(jié)果更加合理,在個性化繼續(xù)教育方案優(yōu)化方面,具有更高的實用性。
繼續(xù)教育個性化是目前的發(fā)展趨勢,為了滿足大規(guī)模用戶人群的個性化繼續(xù)教育的需求,文中提出基于關(guān)聯(lián)規(guī)則挖掘算法的個性化繼續(xù)教育優(yōu)化方案。其可以有效挖掘不同用戶群體的需求與期望,根據(jù)用戶自身情況進行個性化教育優(yōu)化,方案架構(gòu)設(shè)計如圖1 所示。
圖1 個性化繼續(xù)教育方案架構(gòu)
文中設(shè)計的基于關(guān)聯(lián)規(guī)則挖掘的個性化教育方案架構(gòu)主要分為目標(biāo)人群、應(yīng)用方向、教學(xué)環(huán)境和數(shù)據(jù)來源4 部分。
1)目標(biāo)人群。個性化教育方案的目標(biāo)人群主要包括學(xué)習(xí)者、教師和教育管理者3 種,教育管理者與教師根據(jù)個性化數(shù)據(jù)挖掘為學(xué)習(xí)者制定個性化教育方案;
2)應(yīng)用方向。個性化教育主要可以應(yīng)用于教材更新、個性化課程制定推薦和學(xué)生成績預(yù)測等,針對學(xué)生的個人情況和課程匹配程度制定學(xué)習(xí)方案;
3)教學(xué)環(huán)境。除了在傳統(tǒng)課堂教學(xué)環(huán)境上進行應(yīng)用,個性化教育還可以應(yīng)用于線上教育平臺和教育管理系統(tǒng);
4)數(shù)據(jù)來源。進行個性化繼續(xù)教育數(shù)據(jù)挖掘,需要保證數(shù)據(jù)的充分性和多樣性,數(shù)據(jù)來源主要包括課程評價、學(xué)生成績反饋、師生在線互動以及社交媒體上的評價,通過多種渠道確保數(shù)據(jù)的多元性。
文中提出的面向個性化繼續(xù)教育的關(guān)聯(lián)規(guī)則挖掘算法的架構(gòu)如圖2 所示。算法流程分為數(shù)據(jù)庫準(zhǔn)備、數(shù)據(jù)預(yù)處理、關(guān)聯(lián)規(guī)則建立、產(chǎn)生頻繁項集和關(guān)聯(lián)數(shù)據(jù)挖掘5 部分。
圖2 關(guān)聯(lián)規(guī)則挖掘算法架構(gòu)
基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘,首先需要建立挖掘數(shù)據(jù)庫,將需要挖掘的數(shù)據(jù)放入數(shù)據(jù)庫中。在準(zhǔn)備好原始數(shù)據(jù)后,需要進行數(shù)據(jù)預(yù)處理。預(yù)處理內(nèi)部如圖3 所示,數(shù)據(jù)預(yù)處理的效果在較大程度上影響算法的挖掘效果和運行效率。
圖3 數(shù)據(jù)預(yù)處理架構(gòu)
建立關(guān)聯(lián)規(guī)則是算法的核心,在若干可組合規(guī)則中選擇具有最大影響的核心規(guī)則,可保證數(shù)據(jù)挖掘結(jié)果的有效性。與關(guān)聯(lián)規(guī)則有直接關(guān)系的是頻繁項集,兩者是互偶關(guān)系。在若干屬性中確定最頻繁出現(xiàn)和結(jié)果關(guān)系最大的屬性,才能建立正確的關(guān)聯(lián)規(guī)則。確定完兩者后,即可對預(yù)處理后的數(shù)據(jù)進行數(shù)據(jù)挖掘。如圖3 所示,數(shù)據(jù)預(yù)處理架構(gòu)主要包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)規(guī)約4 部分。
面向個性化教育的數(shù)據(jù)挖掘算法設(shè)計,首先需要建立關(guān)聯(lián)規(guī)則。其是指由事件X必然可以導(dǎo)致事件Y的發(fā)生,事件Y是事件X的結(jié)果,事件X是事件Y的原因,即X?Y。
假設(shè)所有預(yù)處理后的數(shù)據(jù)集合為D,事件X?D,事件Y?D,且X?Y=φ。若有X?Y,則事件X與事件Y之間存在關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)規(guī)則可分為強關(guān)聯(lián)規(guī)則和弱關(guān)聯(lián)規(guī)則,根據(jù)規(guī)則的支持度和置信度來進行劃分。關(guān)聯(lián)規(guī)則的支持度是指同時包含集合X和集合Y的事件數(shù)量與數(shù)據(jù)集合中D事件總數(shù)之比:
置信度是指集合中同時包含集合X和集合Y的事件數(shù)量與包含集合X的事件數(shù)量之比:
設(shè)最小支持度與最小置信度為Smin和Cmin,若規(guī)則的支持度與置信度可以同時大于最小支持度和最小置信度,則此規(guī)則為強關(guān)聯(lián)規(guī)則;否則,為弱關(guān)聯(lián)規(guī)則。
為了制定個性化的繼續(xù)教育方案,需要對數(shù)據(jù)進行分類,文中提出基于聚類算法對數(shù)據(jù)間的關(guān)聯(lián)規(guī)則進行分類。數(shù)據(jù)集合中的數(shù)據(jù)由事件、事件子集和關(guān)聯(lián)規(guī)則等元素組成,對數(shù)據(jù)進行聚類,需要計算集合元素間的距離。
設(shè)數(shù)據(jù)庫中任意兩個事件I1和I2,其中I1∈X,I2∈Y,則I1與I2之間的距離定為:
事件之間的距離定為兩個事件同時發(fā)生的次數(shù)占所有包含I1或I2的事件數(shù)目之比,其取值范圍為0~1,即兩個事件總是同時發(fā)生,其距離為0;兩個事件完全無法同時發(fā)生,則其距離為1。
設(shè)事件集合X與Y分別包含m和n個元素,則兩個事件集合的距離定義為集合內(nèi)所有元素的平均距離,即:
事件集合之間的距離范圍為0~1。
關(guān)聯(lián)規(guī)則之間的距離定義較為抽象,設(shè)數(shù)據(jù)庫存在規(guī)則r1和r2,其規(guī)則定義可表示為:
則r1與r2之間的距離可定義為:
其中,α、β和γ是自定義調(diào)節(jié)參數(shù),可根據(jù)實際數(shù)據(jù)情況進行調(diào)節(jié),對參數(shù)進行歸一化處理:
為了簡便分析,一般使自定義調(diào)節(jié)參數(shù)之和為1,α+β+γ=1。
隨著計算機技術(shù)的不斷發(fā)展與完善,計算機病毒問題也變得越來越棘手。計算機病毒的防范是一個綜合的系統(tǒng)工程,它主要包括了對單個計算機系統(tǒng)與整個網(wǎng)絡(luò)的病毒防范過程。如果想要對整個計算機網(wǎng)絡(luò)進行防范就必須要進行統(tǒng)一的管理,首先必須要使用統(tǒng)一的網(wǎng)絡(luò)病毒查找軟件,這個軟件能夠及時準(zhǔn)確地對網(wǎng)絡(luò)中的病毒進行識別并及時的做出相應(yīng)的處理。第二,網(wǎng)絡(luò)殺毒軟件要對整個網(wǎng)絡(luò)進行殺毒處理,這些軟件也要能夠在沒有人工干涉的條件下自動升級,自動對病毒進行深層次的消毒處理,保證網(wǎng)絡(luò)系統(tǒng)的安全性與穩(wěn)定性。
為了實現(xiàn)關(guān)聯(lián)規(guī)則挖掘,文中提出利用DBSCAN 聚類算法進行分類,并使用輪廓系數(shù)來評估聚類算法的性能,輪廓系數(shù)的定義為:
其中,ai表示樣本i到同一規(guī)則集合其他樣本的平均距離,bi表示樣本i到其他任一規(guī)則集合樣本的平均距離。式(8)可以改寫為:
由式(9)可知,輪廓系數(shù)取值范圍為-1~1。輪廓系數(shù)越接近于1,說明該樣本屬于該規(guī)則集合的概率越大;輪廓系數(shù)越接近于-1,說明該樣本屬于該規(guī)則集合的概率越小。當(dāng)輪廓系數(shù)為0 時,該樣本屬于兩個規(guī)則集合的概率相等。
文中提出的DBSCAN 聚類算法流程,如圖4 所示。其中,可達規(guī)則密度是指在規(guī)則可達半徑內(nèi)的樣本數(shù)目。
圖4 DBSCAN聚類算法流程圖
面向個性化繼續(xù)教育的需求,文中設(shè)計了基于DBSCAN 聚類的關(guān)聯(lián)規(guī)則挖掘算法,其步驟如下:
1)輸入:數(shù)據(jù)集合g,最小聚類數(shù)目Nmin,可達密度閾值e;
2)隨機確定聚類中心Ci;
4)將元素i從數(shù)據(jù)集合g中剔除;
5)若N(Ri) 6)計算集合中元素j到聚類中心的距離εij; 7)若εij≥e,則繼續(xù)執(zhí)行步驟8);否則轉(zhuǎn)到步驟9); 8)將元素j加入到關(guān)聯(lián)集合Ri; 9)將元素j從數(shù)據(jù)集合g中剔除; 10)j=j+1; 11)生成若干個數(shù)據(jù)類別集合{Ri}; 12)輸出:數(shù)據(jù)類別集合{Ri}。 為了驗證所提的面向個性化繼續(xù)教育的關(guān)聯(lián)規(guī)則挖掘算法的有效性,文中通過對比現(xiàn)有算法與所提算法的聚類輪廓系數(shù),比較聚類算法的合理性。另外,通過分析對比不同聚類算法下的關(guān)聯(lián)規(guī)則置信度和支持度,說明了所提算法的有效性。 如表1 所示,該文在5 個不同數(shù)據(jù)集上進行關(guān)聯(lián)數(shù)據(jù)挖掘,對比層次聚類算法、K-means 聚類算法和文中所提的DBSCAN 聚類算法的聚類輪廓系數(shù)。整體上看,K-means 聚類算法略優(yōu)于層次聚類算法。但在部分情況下,由于K-means 聚類算法的聚類中心數(shù)目錯誤,導(dǎo)致其性能反而低于層次聚類算法。文中所提算法在不同數(shù)據(jù)集合上的輪廓系數(shù)均高于其他兩種算法,說明聚類結(jié)果更合理。 表1 不同算法聚類輪廓系數(shù)對比 如表2 所示,在同一數(shù)據(jù)集下,該文對比了基于3 種聚類算法的關(guān)聯(lián)規(guī)則挖掘算法的置信度和支持度。文中所提算法的關(guān)聯(lián)規(guī)則置信度與支持度均高于層次聚類算法和K-means 聚類算法,說明文中所挖掘的關(guān)聯(lián)規(guī)則屬于強規(guī)則,利用所挖掘的規(guī)則可以更智能地進行個性化繼續(xù)教育方案優(yōu)化推薦。 表2 不同算法關(guān)聯(lián)規(guī)則置信度和支持度對比 為了滿足個性化繼續(xù)教育方案優(yōu)化的需求,基于關(guān)聯(lián)規(guī)則挖掘算法提出了一種智能的個性化繼續(xù)教育方案制定技術(shù)。利用DBSCAN 聚類算法實現(xiàn)數(shù)據(jù)集內(nèi)聚類中心數(shù)目不確定情況下的自適應(yīng)聚類,并根據(jù)聚類結(jié)果提取核心規(guī)則進行個性化繼續(xù)教育方案優(yōu)化。通過仿真分析證明,所提算法相對于現(xiàn)有聚類算法,聚類結(jié)果更合理,且具有較高的魯棒性,而且該算法可以挖掘的規(guī)則關(guān)聯(lián)性更強,在繼續(xù)教育方案優(yōu)化領(lǐng)域具有良好的實際應(yīng)用價值。4 仿真驗證及數(shù)據(jù)分析
5 結(jié)束語