肖中杰
摘? 要: 在信息技術(shù)與高等教育深度融合的背景下,高校逐漸積累了種類繁多的學(xué)生教育教學(xué)行為大數(shù)據(jù)。針對(duì)數(shù)據(jù)長期閑置,造成數(shù)據(jù)資源浪費(fèi)的問題,文章以學(xué)生圖書館進(jìn)出次數(shù)、圖書借閱情況、綜合測評(píng)成績、獎(jiǎng)助學(xué)金評(píng)定數(shù)據(jù)為依據(jù),基于SPSS Modeler關(guān)聯(lián)規(guī)則挖掘算法,對(duì)數(shù)據(jù)間潛在的關(guān)聯(lián)規(guī)則進(jìn)行研究,得出了數(shù)據(jù)間的系列關(guān)聯(lián)規(guī)則,找出了學(xué)生學(xué)習(xí)行為軌跡中影響學(xué)業(yè)成績的因素。
關(guān)鍵詞: 學(xué)習(xí)行為; 信息化; 大數(shù)據(jù); 數(shù)據(jù)挖掘; 算法
中圖分類號(hào):TP393.04? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2020)10-09-03
Abstract: With the deep integration of information technology and higher education, colleges and universities have gradually accumulated a wide variety of student education and teaching behavior big data. In view of the problem of long-term idle data, resulting in waste of data resources, according to the library access times, book borrowing, comprehensive evaluation results and scholarship evaluation data of student, this paper studies the potential association rules between data with SPSS modeler association rule mining algorithm, to obtain the series of association rules between data and find out the factors that affect the academic achievement in the track of students' learning behavior.
Key words: learning behavior; informatization; big data; data mining; algorithm
0 引言
以數(shù)字化、網(wǎng)絡(luò)化、信息化技術(shù)為主要特征的教育信息化1.0,引領(lǐng)我國教育信息化事業(yè)實(shí)現(xiàn)了前所未有的快速發(fā)展,也取得了全方位、歷史性成就。在教育信息化1.0技術(shù)驅(qū)動(dòng)下,高校教育信息化整體水平得到提升,與此同時(shí)也積累了大量的教學(xué)、科研、管理過程數(shù)據(jù),并進(jìn)一步形成校園特有的教育大數(shù)據(jù)資源。
從學(xué)生角度,這些數(shù)據(jù)包括學(xué)生檔案基本信息,食堂消費(fèi)、公寓出入、超市購物等生活信息;圖書館進(jìn)出及圖書借閱、考勤、選課、成績、獲獎(jiǎng)等學(xué)習(xí)信息;上網(wǎng)情況、參加社團(tuán)、競賽、講座等第二課堂信息。同時(shí)隨著移動(dòng)互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)等新技術(shù)的普及,由學(xué)校師生主動(dòng)產(chǎn)生和由設(shè)備自動(dòng)收集的信息越來越多,如微博、微信等社交信息,各類搜索點(diǎn)擊記錄信息等。
適應(yīng)大數(shù)據(jù)時(shí)代教育信息化新需求,面對(duì)種類繁多、結(jié)構(gòu)復(fù)雜的教育大數(shù)據(jù),如何借助成熟的技術(shù)及算法實(shí)現(xiàn)數(shù)據(jù)深度挖掘并加以利用,促進(jìn)教育信息化向深層發(fā)展,更好的服務(wù)于學(xué)校的教學(xué)、科研、管理及師生日常生活,已成為當(dāng)下智慧校園建設(shè)的重要應(yīng)用之一,也是當(dāng)下高校面臨的重要課題。
SPSS Modeler是一款專門用于數(shù)據(jù)挖掘的工具,通過引入復(fù)雜的統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)技術(shù),形成軟件強(qiáng)大的數(shù)據(jù)挖掘功能,可視化界面允許用戶充分利用統(tǒng)計(jì)和數(shù)據(jù)挖掘算法,而無需編程。Apriori作為SPSS Modeler 數(shù)據(jù)挖掘中簡單關(guān)聯(lián)規(guī)則技術(shù)的核心算法,可以找出數(shù)據(jù)集中有效的關(guān)聯(lián)規(guī)則,進(jìn)而針對(duì)具體數(shù)據(jù)作進(jìn)一步的關(guān)聯(lián)度分析[1]。
1 數(shù)據(jù)挖掘設(shè)計(jì)
1.1 原始樣本數(shù)據(jù)采集
學(xué)生圖書借閱數(shù)據(jù)及圖書館出入數(shù)據(jù),分別從圖書借閱系統(tǒng)和一卡通系統(tǒng)中以.xlsx文件格式導(dǎo)出,根據(jù)需要對(duì)數(shù)據(jù)初步篩選,圖書借閱數(shù)據(jù)保留“學(xué)號(hào)(讀者條碼)、(讀者)姓名、院系、年級(jí)、借閱時(shí)間(操作時(shí)間)、借還情況(操作類型)、圖書名稱(書籍題名)”七個(gè)字段;圖書館出入數(shù)據(jù)保留“學(xué)號(hào)、姓名、院系年級(jí)、出入時(shí)間、進(jìn)出情況”等五個(gè)數(shù)據(jù)項(xiàng)。學(xué)生綜合測評(píng)和獎(jiǎng)助學(xué)金數(shù)據(jù)從學(xué)工系統(tǒng)中導(dǎo)出,主要選取學(xué)號(hào)、姓名、專業(yè)、測評(píng)結(jié)果、獎(jiǎng)助級(jí)別(備注)幾個(gè)字段。本文采集了某學(xué)院某年度183名學(xué)生學(xué)習(xí)行為樣本數(shù)據(jù)。
1.2 原始樣本數(shù)據(jù)預(yù)處理
圖書借閱及圖書館出入數(shù)據(jù)文件中含有冗余數(shù)據(jù),為便于挖掘分析,首先需要按“學(xué)號(hào)”進(jìn)行查詢統(tǒng)計(jì)處理,分別得到學(xué)生借閱圖書次數(shù)和出入館次數(shù)。其次使用VLOOKUP()函數(shù)按照學(xué)號(hào)把學(xué)生綜合測評(píng)結(jié)果、獎(jiǎng)助評(píng)定結(jié)果、圖書借閱次數(shù),以及圖書館出入次數(shù)等數(shù)據(jù)關(guān)聯(lián)到一張表中,最終得到預(yù)處理后的原始數(shù)據(jù)關(guān)聯(lián)表[2],如圖1所示。
最后,對(duì)關(guān)聯(lián)表中數(shù)據(jù)做二值化變量的數(shù)據(jù)處理。主要是通過計(jì)算得到全部樣本圖書借閱次數(shù)和出入圖書館次數(shù)的平均次數(shù),選取中間值為參照標(biāo)準(zhǔn),再將學(xué)生圖書借閱行為和圖書館出入行為分別定義為借閱規(guī)律、出入規(guī)律,并分別用JY、JG表示。二值化的原則是大于等于中間值標(biāo)準(zhǔn)的學(xué)生其值記為“T”,小于中間值標(biāo)準(zhǔn)的學(xué)生其值記為“F”。同樣,學(xué)生綜合測評(píng)規(guī)律和獎(jiǎng)助規(guī)律分別用ZH、JZ表示,對(duì)綜合測評(píng)數(shù)據(jù)按平均成績進(jìn)行二值化,對(duì)獎(jiǎng)助學(xué)金數(shù)據(jù)按“有”和“無”進(jìn)行二值化處理。通過二值化處理后得到一張綜合數(shù)據(jù)表,刪除表中除ZH、JZ、JY、JG四個(gè)數(shù)據(jù)項(xiàng)之處的其他數(shù)據(jù),最終生成一張可用于SPSS算法分析的二值化數(shù)據(jù)表[3,5]。如圖2所示。
至此,四類原始數(shù)據(jù)預(yù)處理環(huán)節(jié)完畢,接下來使用Apriori算法對(duì)二值化數(shù)據(jù)表作進(jìn)一步的關(guān)聯(lián)分析及數(shù)據(jù)潛在含義的挖掘。
2 基于Apriori算法數(shù)據(jù)挖掘
根據(jù)Apriori算法原理,學(xué)生綜合測評(píng)成績排名的高和低、獎(jiǎng)助學(xué)金評(píng)定、出入圖書館、圖書借閱行為都是一種事務(wù)。這里,構(gòu)成事務(wù)的事務(wù)標(biāo)識(shí)為“學(xué)號(hào)”,項(xiàng)目集合(簡稱項(xiàng)集)由ZH、JZ、JG、JY組成;如果用 I 代表包含了k個(gè)項(xiàng)目的總體,即I={i1,i2,…,ik},則事務(wù) T∈I,項(xiàng)集 P∈I,項(xiàng)集 P1和P2的簡單關(guān)聯(lián)規(guī)則可表示為:P1→P2(規(guī)則支持度,規(guī)則置信度),其中P1稱為規(guī)則的前項(xiàng),可以是一個(gè)項(xiàng)目或者項(xiàng)集,也可以是一個(gè)包含邏輯關(guān)系的邏輯表達(dá)式;P2稱為規(guī)則的后項(xiàng),一般為一個(gè)項(xiàng)目,表示某種結(jié)論或事實(shí)。例如:JG(T)∩JY(T)→ZH(T),其前項(xiàng)是一個(gè)包括邏輯“與”的邏輯表達(dá)式,表示兩個(gè)項(xiàng)集(進(jìn)館次數(shù)和借閱次數(shù))之間為并且的關(guān)系,后項(xiàng)是一個(gè)綜合測評(píng)成績的項(xiàng)集,項(xiàng)目為好。結(jié)果表示學(xué)生進(jìn)館次數(shù)和借閱次數(shù)都好的情況下,綜合測評(píng)成績排名也是好的[4]。
基于算法規(guī)則,在SPSS Modeler軟件中首先建立一個(gè)新的數(shù)據(jù)流,默認(rèn)名為“流1”,通過工具面板區(qū)“源”選項(xiàng)卡的“Excel”數(shù)據(jù)源創(chuàng)建一個(gè)節(jié)點(diǎn),使用節(jié)點(diǎn)快捷菜單的“編輯”命令將準(zhǔn)備好的“二值化數(shù)據(jù)表”導(dǎo)入到數(shù)據(jù)流中;然后把“建模”選項(xiàng)卡中的“Apriori”節(jié)點(diǎn)添加到數(shù)據(jù)流中,建立該節(jié)點(diǎn)和Excel數(shù)據(jù)源節(jié)點(diǎn)間的連接;最后通過“Apriori”節(jié)點(diǎn)菜單中的“編輯”選項(xiàng)設(shè)置節(jié)點(diǎn)相關(guān)參數(shù),主要是字段、模型、專家三項(xiàng)。
在“字段”選項(xiàng)中,由于數(shù)據(jù)挖掘過程中是自行指定建模變量,故選擇“使用定制設(shè)置”選項(xiàng),并分別在“后項(xiàng)”和“前項(xiàng)”框中選擇關(guān)聯(lián)規(guī)則的后項(xiàng)和前項(xiàng)變量。
“模型”選項(xiàng)中的“最低條件支持度”描述的是指定前項(xiàng)的最小支持度,系統(tǒng)默認(rèn)值為10%,也就是在進(jìn)行 Apriori 關(guān)聯(lián)規(guī)則分析時(shí),前項(xiàng)的數(shù)據(jù)至少要占總體數(shù)據(jù)的10%,否則,這個(gè)前項(xiàng)的重要程度就很低。
“最小規(guī)則置信度”描述的是指定規(guī)則的最小置信度,默認(rèn)值為80%,即在進(jìn)行 Apriori 關(guān)聯(lián)規(guī)則分析時(shí),在包含前項(xiàng)數(shù)據(jù)的基礎(chǔ)上,又包含的后項(xiàng)數(shù)據(jù)和前項(xiàng)數(shù)據(jù)的比值至少是 80%,否則,生成的關(guān)聯(lián)規(guī)則的可靠性就很低。
“最大前項(xiàng)數(shù)”描述的是系統(tǒng)關(guān)聯(lián)分析時(shí)可以使用的最大前項(xiàng)的項(xiàng)目數(shù)。
“專家”選項(xiàng)卡用于指定關(guān)聯(lián)規(guī)則的評(píng)價(jià)指標(biāo),一般選用“規(guī)則置信度”,即提升度。
實(shí)驗(yàn)中算法“最低條件支持度”設(shè)置為15%,“最小規(guī)則置信度”取默認(rèn)值80%。系統(tǒng)分析關(guān)聯(lián)參數(shù)和評(píng)價(jià)指標(biāo)設(shè)置完成后,通過“Apriori”節(jié)點(diǎn)“預(yù)覽”功能,即可輸出Apriori 關(guān)聯(lián)分析的結(jié)果[6]。
Apriori算法數(shù)據(jù)關(guān)聯(lián)分析模型及二值化數(shù)據(jù)表中四個(gè)數(shù)據(jù)項(xiàng)的關(guān)聯(lián)關(guān)系如圖3所示。
3 實(shí)驗(yàn)結(jié)果分析
數(shù)據(jù)挖掘?qū)嶒?yàn)結(jié)果中共產(chǎn)生 28條關(guān)聯(lián)規(guī)則,其中后項(xiàng)為“綜合測評(píng)”的規(guī)則共有五條,ID號(hào)分別為18、21、11、10、24。分別描述如下:
下面以ID=11的規(guī)則為例進(jìn)行分析。
這條規(guī)則可描述為:借閱圖書次數(shù)多、獲得獎(jiǎng)/助學(xué)金、進(jìn)入圖書館次數(shù)多,則“綜合測評(píng)”成績排名好。此類學(xué)生樣本量為31,即總樣本數(shù)的16.667%。其中有81.231%的學(xué)生綜合測評(píng)成績排名可能是好的,即25個(gè)樣本。這條規(guī)則的支持度為13.7%,即借閱圖書次數(shù)多、獲得獎(jiǎng)/助學(xué)金、進(jìn)入圖書館次數(shù)多且“綜合測評(píng)”成績排名好的學(xué)生占總樣本數(shù)的13.7%。經(jīng)過對(duì)其他規(guī)則做同樣的分析發(fā)現(xiàn),ID=21及ID=24的規(guī)則中,獎(jiǎng)/助學(xué)金情況與綜合測評(píng)成績并不是正相關(guān)關(guān)系,即獲得獎(jiǎng)/助學(xué)金的學(xué)生并非全部都是綜合測評(píng)成績好的,實(shí)際評(píng)定中有一定的均衡因素考慮。此外,進(jìn)入圖書館次數(shù)少、沒有獲得獎(jiǎng)/助學(xué)金二個(gè)因素并不能直接影響綜合測評(píng)成績排名,每個(gè)變量都沒有單獨(dú)導(dǎo)致成績排名好壞。
這條關(guān)聯(lián)規(guī)則的實(shí)用性可通過簡單計(jì)算來驗(yàn)證。經(jīng)過統(tǒng)計(jì),全部樣本中,綜合測評(píng)績排名好的學(xué)生有89 人,占總體樣本的 48.6%。而規(guī)則中成績排名好的學(xué)生比例明顯高于該比例,故此條規(guī)則的關(guān)聯(lián)是正向關(guān)聯(lián)。
從提升度來看,本條規(guī)則中綜合成績排名好的支持度為48.6%,置信度為 81.231%,則提升度為二者的商即1.677。表示在全部樣本中,排名好的樣本概率為48.6%,如果把學(xué)生限定在借閱圖書次數(shù)多、獲得獎(jiǎng)/助學(xué)金、進(jìn)入圖書館次數(shù)多的 31 人中,成績排名好的概率可提高1.677倍。
4 結(jié)束語
通過對(duì)數(shù)據(jù)關(guān)聯(lián)分析模型產(chǎn)生的數(shù)據(jù)關(guān)聯(lián)結(jié)果的研究分析,可以發(fā)現(xiàn)規(guī)則的提升度都很高,關(guān)聯(lián)規(guī)則有效,規(guī)則對(duì)學(xué)生學(xué)習(xí)行為數(shù)據(jù)分析起到了一定的指導(dǎo)作用,對(duì)教育教學(xué)部門工作效率的提升有一定的指導(dǎo)意義,成功挖掘出了數(shù)據(jù)資源中蘊(yùn)藏的價(jià)值。
隨著高校信息化建設(shè)工作的逐步深入,各部門業(yè)務(wù)系統(tǒng)產(chǎn)生了大量可用的教育大數(shù)據(jù),傳統(tǒng)人工數(shù)據(jù)處理方式已經(jīng)遠(yuǎn)遠(yuǎn)無法適應(yīng)大數(shù)據(jù)處理的要求,如何利用成熟的大數(shù)據(jù)處理技術(shù),通過更加廣泛的教育大數(shù)據(jù)關(guān)聯(lián)規(guī)則分析,提升高校數(shù)據(jù)挖掘和應(yīng)用能力,提升數(shù)據(jù)資源的利用率,為學(xué)校教學(xué)、科研、管理工作提供決策支持,已經(jīng)成為大數(shù)據(jù)時(shí)代高校面臨的重要任務(wù)之一。教育大數(shù)據(jù)關(guān)聯(lián)規(guī)則分析對(duì)基于教育大數(shù)據(jù)的智慧校園建設(shè)有重要意義。
參考文獻(xiàn)(References):
[1] 蔣智鋼等.SPSS軟件及應(yīng)用課程教學(xué)體系助學(xué)自訓(xùn)系統(tǒng)設(shè)計(jì)[J].實(shí)驗(yàn)室研究與探索,2019.38(3):199-202
[2] 肖宇.校園一卡通應(yīng)用數(shù)據(jù)分析系統(tǒng)的研究與實(shí)現(xiàn)[D].西南科技大學(xué)碩士學(xué)位論文,2018.
[3] 馬如義.Apriori算法在詞性標(biāo)注規(guī)則獲取中的應(yīng)用[J].計(jì)算機(jī)時(shí)代,2016.10:32-35
[4] 丁雪梅等.SPSS數(shù)據(jù)分析及Excel作圖在畢業(yè)論文中的應(yīng)用[J].實(shí)驗(yàn)室研究與探索,2012.31(3):122-128
[5] 曾馨.基于數(shù)字化校園的一卡通系統(tǒng)設(shè)計(jì)與應(yīng)用[J].電子技術(shù)與軟件工程,2016.6:57
[6] 薛頌.基于校園卡數(shù)據(jù)的學(xué)生成績關(guān)聯(lián)性因素分析[D].內(nèi)蒙古師范大學(xué)碩士學(xué)位論文,2017.