国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于高校學(xué)生行為數(shù)據(jù)的改進關(guān)聯(lián)算法

2020-02-22 03:35:44孫新杰孫國營管彥允李偉
電腦知識與技術(shù) 2020年36期
關(guān)鍵詞:Apriori算法特征值關(guān)聯(lián)

孫新杰 孫國營 管彥允 李偉

摘要:隨著高校數(shù)字化校園的建立,越來越多的學(xué)生行為數(shù)據(jù)可以通過電子的形式得以存儲,針對這些數(shù)據(jù)提出一些關(guān)注的特征值,并針對這些特征值進行進一步的處理達到一種切合實際的數(shù)據(jù)模型,并針對該模型提出一種改進的Apriori關(guān)聯(lián)算法,通過修改權(quán)重,對原始統(tǒng)計數(shù)據(jù)進行區(qū)間化處理等技巧,實現(xiàn)了W_S_Apriori算法,并通過實驗嚴重了該算法的有效性。

關(guān)鍵詞:數(shù)字化;特征值;關(guān)聯(lián);W_S_Apriori算法

中圖分類號:TP391? ? ? ?文獻標識碼: A

文章編號:1009-3044(2020)36-0024-03

1 引言

隨著互聯(lián)網(wǎng)的高速發(fā)展及越發(fā)強大數(shù)據(jù)收集管理工具的誕生,如何高效找到數(shù)據(jù)之間的關(guān)系顯得至關(guān)重要。關(guān)聯(lián)分析是數(shù)據(jù)挖掘領(lǐng)域一個重要處理數(shù)據(jù)關(guān)系的手段,能夠從大數(shù)據(jù)中找出數(shù)據(jù)之間的關(guān)聯(lián)并進一步挖掘出數(shù)據(jù)之間潛在價值是關(guān)聯(lián)分析的重要使命。

關(guān)聯(lián)分析已經(jīng)應(yīng)用于生活中的很多方面,如購物、交通等。隨著近幾年國家對高等教育的不斷投入,大學(xué)校園基本已經(jīng)建立起了一套完善的數(shù)據(jù)采集與存儲設(shè)備,學(xué)生在校園中使用網(wǎng)絡(luò)留下的數(shù)據(jù)都以不同形式存在于存儲設(shè)置之中。但是近年來對于高校學(xué)生數(shù)據(jù)的研究并沒有進行過多針對性的關(guān)聯(lián)分析算法研究,如何在教育領(lǐng)域,對教育大數(shù)據(jù)進行預(yù)測與關(guān)聯(lián)分析顯得十分有必要。

2 相關(guān)概念及技術(shù)基礎(chǔ)

分析教育大數(shù)據(jù)之間的關(guān)聯(lián)行為,必須首選確定好教育大數(shù)據(jù)的來源。校園一卡通數(shù)據(jù)基本包含了學(xué)生的教育大數(shù)據(jù)的來源,如成績、圖書借閱、寢室門禁、食堂就餐等數(shù)據(jù)。通過針對性的數(shù)據(jù)挖掘技術(shù)從一卡通數(shù)據(jù)中找出未知有價值的信息,從而指導(dǎo)改善學(xué)生在校期間的校園行為,有針對性地提出提高學(xué)科成績模型[3]。

關(guān)聯(lián)分析技術(shù)是一種使用頻繁項目集來尋找數(shù)據(jù)之間的關(guān)聯(lián)性的。下面就常見的關(guān)聯(lián)分析算法的優(yōu)缺點進行簡單的闡述。

Apriori算法是通過首選確立頻繁1項集,然后在該1項集的基礎(chǔ)上進一步尋找頻繁2項集,以此類推直到達到設(shè)定的閾值為止。該算法的優(yōu)缺點都非常的明顯,對整個數(shù)據(jù)源需要多次的訪問,保證了數(shù)據(jù)了完整性,但是也大大削弱了算法的時間效能;該算法的運行特性導(dǎo)致產(chǎn)生大量的候選數(shù)據(jù)項集,浪費運行空間;而且該算法采用的支持度不能發(fā)生變化,導(dǎo)致該算法無法對各個指標進行個性化的考慮使用。

FP-Growth算法采用的不同于Apriori的算法技巧,它使用的是“分治”的方法。該算法是把頻繁項集進行高度的壓縮,然后再把壓縮后的數(shù)據(jù)項集按條件進行拆分,然后分別對拆分后的數(shù)據(jù)庫進行關(guān)聯(lián)分析的挖掘。但是該算法也有它自己的不足之處,比如生成的樹的葉子節(jié)點過多,而且該樹只生成了前綴樹,這樣進一步削弱了算法的效能,由于“分治”的思想實現(xiàn)是采用遞歸的這種思維模式,該模式需要消耗大量的計算內(nèi)存,導(dǎo)致該算法應(yīng)用面縮小。

3 教育大數(shù)據(jù)的預(yù)處理與特征提取

要想對教育大數(shù)據(jù)進行挖掘,同樣需要對這些數(shù)據(jù)進行處理,對數(shù)據(jù)的預(yù)處理的質(zhì)量直接絕對數(shù)據(jù)挖掘的質(zhì)量。本論文主要對學(xué)生行為中的圖書資料借閱信息、一卡通等記錄進行格式化的預(yù)處理。下面分別對這些原始數(shù)據(jù)信息進行預(yù)處理。

3.1 圖書資料借閱信息特征提取

圖書資料借閱信息的提取直接關(guān)系到學(xué)生行為對成績的影響[1],該項權(quán)數(shù)據(jù)意義重大,提取的圖書借閱特征有“圖書借閱學(xué)生學(xué)號”“圖書借閱時間”“圖書借閱ISBN號”“圖書分類識別號”。通過對“圖書借閱學(xué)生學(xué)號”進行統(tǒng)計可以得出該生某段時間內(nèi)的借閱圖書的總次數(shù),以及通過“圖書借閱學(xué)生學(xué)號”和“圖書分類識別號”可以統(tǒng)計出學(xué)生借閱專業(yè)書籍的次數(shù)。通常情況下根據(jù)我校(六盤水師范學(xué)院)實際情況,每到期末考試前的最后2周都是學(xué)生集中借閱專業(yè)資料的黃金時段,該時段的借閱圖書統(tǒng)計科研單獨列出進行數(shù)據(jù)的挖掘,具體提取指標如表1所示。

3.2 自習(xí)時間特征提取

很多自習(xí)室需要使用一卡通進行刷卡才能進入進行學(xué)習(xí)(包括圖書館內(nèi)部的自習(xí)室),這就為數(shù)據(jù)的統(tǒng)計帶來了方便,通過統(tǒng)計學(xué)生自習(xí)室的開放時間以及學(xué)生進入自習(xí)室自習(xí)的時間可以很好地獲取學(xué)生投入到學(xué)習(xí)中的時間占比。這里需要進行一些更加復(fù)雜的時間處理,首先應(yīng)獲取學(xué)生的課表時間,在課表之外的時間進行學(xué)習(xí)占比的統(tǒng)計會更加的客觀,次數(shù)占比是除課表外的不低于1個小時的空閑時間進行時間段的統(tǒng)計,有效時間長度占比以每次自習(xí)時間不低于20分鐘進行占比統(tǒng)計。這里的統(tǒng)計方式與圖書資料借閱基本類似,不再進行詳細的闡述,具體見表2所示。

3.3 食堂就餐特征提取

食堂就餐數(shù)據(jù)的處理相對比較煩瑣,不同地域不同家庭的同學(xué)就餐的樣書及就餐的金額差距都比較大,沒辦法給出一個標準來衡量不同學(xué)生的這些數(shù)據(jù)的優(yōu)劣程度。這里為了公平起見,需要對某些數(shù)據(jù)進行歸一化處理,并且對處理后的數(shù)據(jù)只統(tǒng)計每學(xué)期就餐時間的平均值,分別按早餐、午餐、晚餐三餐時間進行統(tǒng)計[2],并通過拉格朗日填充數(shù)據(jù)的方式對空缺值進行填充處理,詳情如表3所示。

4 實驗分析

在進行關(guān)聯(lián)分析中,支持度是統(tǒng)計頻繁項集在總數(shù)據(jù)中的占比,如公式(1)所示。

置信度是指當某個事件A發(fā)生時,另外一個事件B發(fā)生的概率問題,如公式(2)所示。

提升度是某事件A出現(xiàn)的時候,事件A和B一起出現(xiàn)的概率與事件B獨自出現(xiàn)的概率的比值,如公式(3)所示。

4.1 就餐時間依據(jù)范圍歸一化

采用Apriori算法思想非常的簡單就是不斷地掃描數(shù)據(jù)然后統(tǒng)計K-項集,只要滿足支持度的要求都可以進入下一輪的計算,但是這樣導(dǎo)致有些數(shù)據(jù)出現(xiàn)的頻率不高,但是可能起到十分重要的作用的數(shù)據(jù)不能在該算法中得到有效的利用。特別是就餐時間統(tǒng)計,由于每個人生活習(xí)慣的不同,比如不能簡單地把早上6:30起床吃早飯的同學(xué)認為優(yōu)于喜歡晚吃早飯的同學(xué),這樣就導(dǎo)致在進行數(shù)據(jù)關(guān)聯(lián)時容易出現(xiàn)無效的關(guān)聯(lián)。本文的處理方式是把就餐均值進行范圍式重定義,如早餐時間落在6:30-7:30之間的統(tǒng)一設(shè)定一個時間均值,其他就餐時間依據(jù)一小時為間隔范圍進行重新歸一化處理,認為在該段時間內(nèi)就餐是沒有區(qū)別的,不然根據(jù)Apriori算法思想很難進行進一步的處理。時間處理如公式4所示,T_mixi代表就餐均值時間,Scan{T1|T2|T3……|TN}代表規(guī)定的好的區(qū)間,在不同區(qū)間給出不同的值賦值給Avg_Mixi,Avg_Mixi就代表最終的該項值并參與關(guān)聯(lián)規(guī)則的建立。

4.2 加權(quán)的項集

傳統(tǒng)的Apriori算法對所有的數(shù)據(jù)處理方式都是進行直接計數(shù)的方式,這種方式就是用起來比較簡單,但是容易把一些不是常出現(xiàn),但是可能起到很重要的數(shù)據(jù)過濾掉,本文采用一種加權(quán)的方式對數(shù)據(jù)進行進一步的處理,在關(guān)注的學(xué)生行為數(shù)據(jù)中圖書借閱相關(guān)數(shù)據(jù)首先應(yīng)進行處理,因為學(xué)校對每個學(xué)生的借閱數(shù)量有硬性要求,每個學(xué)期不得少于多少,這樣就導(dǎo)致雖然學(xué)生借閱圖書的數(shù)據(jù)是真實的,但是無意義的數(shù)據(jù)很多,如果進行處理,更多的時候更需要關(guān)注期末階段學(xué)生借閱的圖書數(shù)量及圖書與專業(yè)之間的關(guān)系度,所以依據(jù)上述特征統(tǒng)計到的數(shù)據(jù)應(yīng)該適當降低該項權(quán)重。

對于自習(xí)時間的處理,由于我校(六盤水師范學(xué)院)的自習(xí)室并沒有完全采用電子化的處理方式,很多學(xué)生的自習(xí)得不到有效的統(tǒng)計,只能統(tǒng)計到部分教室的情況,而且有些自習(xí)是學(xué)院內(nèi)部強調(diào)上的,效果也可能大打折扣,所以應(yīng)對該項數(shù)據(jù)首先進行統(tǒng)一上自習(xí)的數(shù)據(jù)的刪除,然后對于其他時間地點統(tǒng)計到的數(shù)據(jù)進行提升權(quán)重的方式來處理,而且也要把自習(xí)時間進行范圍歸一化處理,如有效自習(xí)時間以3次為基準,沒增加3次為該生的自習(xí)進行一個更新。公式如5所示,[Z_countY]代表原始統(tǒng)計的有效自習(xí)次數(shù),[Zcount]代表最終進行處理話之后的自習(xí)次數(shù)統(tǒng)計。

通過對數(shù)據(jù)的分析發(fā)現(xiàn)就餐時間的權(quán)重也應(yīng)進行適當?shù)慕档停蟛糠謱W(xué)生采用外賣的形式就餐,這樣導(dǎo)致很多數(shù)據(jù)的不完整,雖然通過某些數(shù)據(jù)處理技巧進行的簡單的處理,但是該項數(shù)據(jù)實際的完整意義已經(jīng)發(fā)生了改變,所以應(yīng)適當降低該項數(shù)據(jù)的權(quán)重。

4.3 實驗測試

通過對數(shù)據(jù)的預(yù)處理之后發(fā)現(xiàn),要把自習(xí)的數(shù)據(jù)提高5倍以滿足支持度的要求,不然就導(dǎo)致自習(xí)數(shù)據(jù)基本在關(guān)聯(lián)分析中無效。需要對圖書借閱次數(shù)數(shù)據(jù)進行縮小4倍進行處理,這樣才能有效地得出考前兩周內(nèi)的借閱書籍的比例,繼而參與有效關(guān)聯(lián)。同時需要對就餐數(shù)據(jù)降低10倍來進行數(shù)據(jù)的關(guān)聯(lián)分析,不然可能出現(xiàn)就餐數(shù)據(jù)支持度遠遠高于其他兩項。

修改的Apriori算法記為W_S_Apriori。

通過使用W_S_Apriori算法對六盤水師范學(xué)院學(xué)生行為數(shù)據(jù)進行分析可得出支持度計數(shù)如表4所示。

下面分別使用2MB、5MB、10MB、20MB的數(shù)據(jù)量對三種算法對比發(fā)現(xiàn)W_S_Apriori算法在關(guān)聯(lián)預(yù)測方面做得更好。如圖1所示,衡中代表數(shù)據(jù)量的大小,縱軸代表關(guān)聯(lián)準確性。

5 總結(jié)

本文針對學(xué)生行為數(shù)據(jù)進行處理分析,并提出了一種加權(quán)修正區(qū)間值的一種改進Apriori算法W_S_Apriori,該算法相對于傳統(tǒng)的關(guān)聯(lián)算法更能夠準確地進行數(shù)據(jù)的關(guān)聯(lián),大大提高了算法的可靠性,但是由于W_S_Apriori算法本身是基于Apriori的算法的改進,所以大規(guī)模數(shù)據(jù)使用該算法效率會大大降低。

參考文獻:

[1] 戎荷婷,王瑞玲,武晶,等.學(xué)生行為對學(xué)生成績的影響探究[J].現(xiàn)代商貿(mào)工業(yè),2016,37(23):185-186.

[2] 姜楠,許維勝.基于數(shù)據(jù)挖掘技術(shù)的學(xué)生校園消費行為分析[J].大眾科技,2015,17(1):26-28,39.

[3] 馬丹.基于數(shù)據(jù)挖掘技術(shù)的學(xué)生成績分析系統(tǒng)的設(shè)計與實現(xiàn)[D].長春:吉林大學(xué),2015.

[4] 王鳳軍.大學(xué)生行為習(xí)慣養(yǎng)成教育的措施與方法研究[J].當代教育理論與實踐,2014,6(12):129-130.

【通聯(lián)編輯:梁書】

猜你喜歡
Apriori算法特征值關(guān)聯(lián)
一類帶強制位勢的p-Laplace特征值問題
“苦”的關(guān)聯(lián)
當代陜西(2021年17期)2021-11-06 03:21:36
單圈圖關(guān)聯(lián)矩陣的特征值
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
基于Hadoop平臺的并行DHP數(shù)據(jù)分析方法
基于Apriori算法的高校學(xué)生成績數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘分析
基于云平臺MapReduce的Apriori算法研究
關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進
中國市場(2016年36期)2016-10-19 04:10:44
基于商奇異值分解的一類二次特征值反問題
韶山市| 贺兰县| 保德县| 郎溪县| 武安市| 石棉县| 五莲县| 枣强县| 八宿县| 天镇县| 荆州市| 苗栗市| 浦东新区| 文山县| 乌鲁木齐县| 汶川县| 大荔县| 永仁县| 聂荣县| 怀安县| 朔州市| 连山| 宽城| 夏河县| 林芝县| 张家界市| 海口市| 南平市| 阜南县| 涞水县| 吉首市| 呼和浩特市| 科尔| 清远市| 宁城县| 湘潭县| 建水县| 延庆县| 定襄县| 额敏县| 青海省|