国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于頻繁項集的學(xué)生選課行為分析

2018-10-27 11:25:08江君董顯亮王相娥
科技視界 2018年16期
關(guān)鍵詞:行為分析關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘

江君 董顯亮 王相娥

【摘 要】在大數(shù)據(jù)時代,數(shù)據(jù)分析深度融合到各行各業(yè)中,教育作為數(shù)據(jù)挖掘逐步涉及的領(lǐng)域,許多技術(shù)得到了快速的發(fā)展。當(dāng)今大部分高校對學(xué)生行為的分析存在著較大的盲區(qū),本文依據(jù)教育數(shù)據(jù)挖掘技術(shù),通過關(guān)聯(lián)規(guī)則挖掘,對學(xué)生課程選擇的最小關(guān)聯(lián)規(guī)則進行挖掘,以此進行學(xué)生的行為分析?;贏PRIOR算法發(fā)現(xiàn)并生成頻繁項集,從中挖掘出同時滿足最小支持度和最小置信度的強關(guān)聯(lián)規(guī)則,并建立學(xué)生選課關(guān)聯(lián)特征模型,分析其中的特殊聯(lián)系及潛在規(guī)律。最后,通過實驗驗證該算法具有實際意義,對提高學(xué)校的管理和教學(xué)以及對學(xué)生更好的認識自身提供幫助。

【關(guān)鍵詞】數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;行為分析

中圖分類號: G642 文獻標識碼: A 文章編號: 2095-2457(2018)16-0132-002

DOI:10.19694/j.cnki.issn2095-2457.2018.16.060

【Abstract】In the Big data age,the data analysis is deeply integrated into all walks of life,education as data mining gradually involved in the field,many technologies have been rapid development.Nowadays,most colleges and universities have a big blind spot in the analysis of students behavior,based on the education data mining technology, this paper excavates the minimum Association rules of Students course selection by mining the association rules,in order to analyze the students behavior.Based on the Aprior algorithm,the frequent itemsets are discovered and generated,and the strong association rules satisfying the minimum support and the minimum confidence are excavated, and the characteristic model of the students elective course is established,and the special relationship and the potential rules are analyzed.Finally,the experiment verifies that the algorithm has practical significance,and it can help to improve the management and teaching of the school and the students better understanding.

【Key words】Data mining;Association Rules;Behavioral analysis

0 引言

隨著我國信息技術(shù)與教育深度融合工作的全面展開,以及互聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等新一代信息科學(xué)技術(shù)的高速發(fā)展,人們對客觀世界的認識和數(shù)據(jù)管理水平的逐步提高。教育成為數(shù)據(jù)挖掘逐步涉及的領(lǐng)域[1],使得許多技術(shù)得到了快速的發(fā)展(例如關(guān)聯(lián)規(guī)則挖掘,序列模式挖掘等技術(shù)),這也進一步促進了教育數(shù)據(jù)挖掘技術(shù)的發(fā)展。當(dāng)前我國大學(xué)生的教育,存在著較為嚴重的學(xué)生行為分析盲區(qū)。我們需要從這些海量的數(shù)據(jù)資源中去挖掘出更深層次對學(xué)校和教師有意義的信息[2]。通過潛在的學(xué)生行為產(chǎn)生的數(shù)據(jù),對學(xué)生的選課行為做出分析,進而教學(xué)管理者能夠更好的制定管理策略和教學(xué)策略,這對學(xué)校的管理和教學(xué)有著十分重要的意義。同時進一步促進了教育與數(shù)據(jù)挖掘技術(shù)的發(fā)展。

1 APRIOR算法

APRIOR算法作為一種挖掘關(guān)聯(lián)規(guī)則的頻繁項集算法,其基本思想是:首先找出所有的頻集,這些項集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣。然后由頻集產(chǎn)生強關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第一步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項的所有規(guī)則,其中每一條規(guī)則的右部都只有一項。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞歸的方法。該算法已經(jīng)被廣泛的應(yīng)用到商業(yè)、網(wǎng)絡(luò)安全等各個領(lǐng)域。

2 基于APRIOR算法的選課行為分析

2.1 數(shù)據(jù)來源與預(yù)處理

本研究選取由遼寧省某大學(xué)選修教學(xué)課程管理中心提供的2014-2016級學(xué)生選修課學(xué)習(xí)數(shù)據(jù)作為數(shù)據(jù)源,其格式如表1所示:

為了有效的挖掘,需要對以上數(shù)據(jù)表進行數(shù)據(jù)清理,避免出現(xiàn)包含噪聲、不完整、不一致的數(shù)據(jù)。例如采用忽略元組法將未開課程、中停課程的相應(yīng)記錄刪除;個別學(xué)生沒有正確錄入課程的,把課程相應(yīng)數(shù)據(jù)補錄正確。同學(xué)們的ID,姓名,學(xué)號等隱私數(shù)據(jù)通過ExcelAPI中函數(shù)進行了合理的變形從而達到脫敏的效果。通過數(shù)據(jù)清洗和隱私數(shù)據(jù)脫敏處理后,最終采集到25860條有效記錄。

2.2 關(guān)聯(lián)規(guī)則挖掘

2.2.1 生成頻繁1項集

在Python中,集合類型set是可變的,不存在哈希值。而frozenset是凍結(jié)的集合類型,不可變、存在哈希值。因此,使用frozenset類型存儲的頻繁項,可以作為字典的key保存下來,有利于后續(xù)創(chuàng)建頻繁項集集合(key為頻繁項,value為支持度)。由于頻繁項的長度為1,我們可以通過統(tǒng)計data中各個元素出現(xiàn)的頻次,直接生成頻繁1項集。項集使用Python中的字典類型進行存儲,key表示頻繁項,value表示對應(yīng)的支持度。我們將最小支持度設(shè)為15。

2.2.2 生成頻繁k項集

從k>=2開始,根據(jù)得到的頻繁(k-1)項集,生成頻繁k項集。這個過程由函數(shù)getFrequentItemSetWithSupport()負責(zé)(簡稱gFISWS()函數(shù)),返回k頻繁項集。反復(fù)調(diào)用gFISWS()函數(shù), 得到完整的頻繁k項集集合,直到達到停止條件,集頻繁k項集為空。在連接步中,將頻繁(k-1)項集與自身連結(jié),生成k項候選集candidate_items。在剪枝步中,使用先驗性質(zhì)對候選項集進行過濾,減少運算量。這個性質(zhì)就是:頻繁項集的所有非空子集必然是頻繁項集。

2.2.3 生成關(guān)聯(lián)規(guī)則

我們從頻繁項集中抽取關(guān)聯(lián)規(guī)則,形如"如果學(xué)生學(xué)習(xí)過課程A,那么下學(xué)期還會去學(xué)習(xí)課程B"的結(jié)論[3]。我們針對每個頻繁項集,生成關(guān)聯(lián)規(guī)則(包括條件和結(jié)論),并計算出相應(yīng)的置信度。生成頻繁項集之后,可以得到同時滿足最小支持度和最小置信度的強關(guān)聯(lián)規(guī)則。例如,對于頻繁項集{'X','Y'}來說,關(guān)聯(lián)規(guī)則X→Y的置信度如下所示:

對于頻繁k項集中的每個元素value,調(diào)用getAllSubsets()函數(shù)得到value的所有非空子集,對于非空子集中的每個元素condition,找到除去condition的所有剩余元素conclusion_items,根據(jù)置信度公式,計算confidence,將所有滿足條件(>min_conf)的潛在關(guān)聯(lián)規(guī)則[[condition,conclusoin_items],confidence]放入association_rules中.

2.3 規(guī)則與結(jié)果分析

2.3.1 關(guān)聯(lián)規(guī)則轉(zhuǎn)換

data.csv中存儲了課程信息,通過附加ExcelAPI加載項,我們可以獲取課程的具體信息,將關(guān)聯(lián)規(guī)則中的課程ID信息,替換為課程名稱。

2.3.2 關(guān)聯(lián)規(guī)則結(jié)果分析

這一環(huán)節(jié)最終將抽取的關(guān)聯(lián)規(guī)則計算出相應(yīng)的置信度,數(shù)據(jù)結(jié)果如表2所示。從149門課程,9169名學(xué)生中我們用頻繁項關(guān)聯(lián)技術(shù)識別出每位學(xué)生身上最常見的選課行為,由于生成數(shù)據(jù)集的關(guān)聯(lián)規(guī)則較多,為了便于展示截取一部分截圖。在最小支持度為15的情況下,情形一大部分學(xué)生在選擇“中醫(yī)養(yǎng)生與保健1”“應(yīng)聘與口語交際”兩門課的前提下,第三門課程絕大多數(shù)會選擇“易經(jīng)與人生”。情形二大部分學(xué)生在選擇“密碼學(xué)基礎(chǔ)1”,“人際交往心理學(xué)”兩門課的前提下,第三門課程絕大多數(shù)會選擇“影視鑒賞”。以情形一為例,不難得出“中醫(yī)養(yǎng)生與保健1”與“易經(jīng)與人生”這兩門課的相關(guān)度是非常高的,而與之并列出現(xiàn)的“應(yīng)聘與口語交際”課程反而顯得更為有價值。結(jié)合所選高校校內(nèi)規(guī)定課程庫中所有課程分為藝術(shù)類A,素質(zhì)類Q,人文類H,自然科學(xué)類N四大類,學(xué)生四年在校學(xué)習(xí)期間需修滿AQHN四類學(xué)科,絕大部分的學(xué)生同一類的課程只會選一次。因此加上AQHN類型限制條件對數(shù)據(jù)結(jié)果進行重定義分析,數(shù)據(jù)集的結(jié)果變得更為的貼切真實情況。

3 結(jié)論

本文通過數(shù)據(jù)集的挖掘,選擇最小關(guān)聯(lián)規(guī)則以此發(fā)現(xiàn)大學(xué)生選課過程中的特殊聯(lián)系以及潛在相關(guān)度。通過這些潛在信息和關(guān)聯(lián)規(guī)則,管理者可以更好地制定管理策略和教學(xué)策略,這對提高學(xué)校的管理和教學(xué)以及對學(xué)生更好的認識自身都具有著非常重要的意義,也進一步推進了社會對教育類數(shù)據(jù)挖掘分析的進程。

【參考文獻】

[1]孫云帆,齊美玲.數(shù)據(jù)挖掘在教育應(yīng)用中的淺析[J].商場現(xiàn)代化,2012(24):161-162.

[2]劉建煒,張穎.基于學(xué)習(xí)歷程數(shù)據(jù)分析的學(xué)生行為預(yù)測研究[J].阜陽師范學(xué)院學(xué)報(自然科學(xué)版),2016,33(01):68-72.

[3]姜永超.基于數(shù)據(jù)挖掘的學(xué)生選課及學(xué)習(xí)行為分析算法研究[J].現(xiàn)代電子技術(shù),2016,39(13):145-148.

猜你喜歡
行為分析關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
基于北斗衛(wèi)星導(dǎo)航的罪犯行為分析方法
關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
數(shù)據(jù)挖掘在高校課堂教學(xué)質(zhì)量評價體系中的應(yīng)用
物理教師課堂教學(xué)板書與媒體呈現(xiàn)行為的分析與策略
基于行為分析的木馬檢測系統(tǒng)設(shè)計與實現(xiàn)
金融經(jīng)濟中的金融套利行為分析及若干研究
關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進
中國市場(2016年36期)2016-10-19 04:10:44
基于關(guān)聯(lián)規(guī)則的計算機入侵檢測方法
隆子县| 沧州市| 平利县| 黔南| 宣化县| 台南市| 汉阴县| 株洲县| 枣阳市| 饶平县| 蛟河市| 工布江达县| 大竹县| 山西省| 遵义县| 桐柏县| 安顺市| 彭水| 涪陵区| 天台县| 乌鲁木齐市| 白朗县| 遂宁市| 丰顺县| 什邡市| 洱源县| 海南省| 措美县| 封开县| 双牌县| 新化县| 乌拉特后旗| 双辽市| 当雄县| 临桂县| 黑河市| 南昌市| 图们市| 教育| 安化县| 德令哈市|