張 曉 李曉戈
(西安郵電大學(xué)計(jì)算機(jī)學(xué)院 西安 710121)
在互聯(lián)網(wǎng)+時(shí)代,我國(guó)高校的辦學(xué)規(guī)模不斷擴(kuò)大[1],高校的信息化建設(shè)也在逐步完善。與此同時(shí)隨著數(shù)據(jù)挖掘技術(shù)的深層次應(yīng)用,數(shù)據(jù)挖掘技術(shù)也逐漸應(yīng)用到高校教學(xué)管理中[2]。高校招生規(guī)模日益擴(kuò)大,傳統(tǒng)教學(xué)管理模式面臨巨大的挑戰(zhàn),在轉(zhuǎn)型高校中的體現(xiàn)愈發(fā)明顯。高校的教學(xué)管理系統(tǒng)在高校的教學(xué)管理中發(fā)揮著越來(lái)越重要的作用[3]。但是目前的教務(wù)管理系統(tǒng)只是實(shí)現(xiàn)了數(shù)據(jù)的存儲(chǔ)、查詢(xún)、統(tǒng)計(jì)等功能[4],沒(méi)有進(jìn)一步挖掘數(shù)據(jù)中有價(jià)值的信息。以我校的學(xué)生成績(jī)管理系統(tǒng)為例,該系統(tǒng)只實(shí)現(xiàn)了對(duì)學(xué)生成績(jī)的簡(jiǎn)單查詢(xún)和數(shù)理統(tǒng)計(jì),利用這種方法得到的數(shù)據(jù)只是計(jì)算機(jī)技術(shù)的簡(jiǎn)單應(yīng)用,無(wú)法發(fā)現(xiàn)影響學(xué)生成績(jī)的具體因素[5],以及各種因素之間的關(guān)系。如何有效地分析以往的學(xué)生成績(jī)數(shù)據(jù),從中挖掘潛在的學(xué)生成績(jī)的影響因素[6],不斷提高高校的教學(xué)質(zhì)量,成為所有高校教學(xué)管理的核心內(nèi)容。
本文首先利用數(shù)據(jù)挖掘軟件Weka[7]對(duì)榆林學(xué)院信息工程學(xué)院2003~2015 學(xué)年計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè)的722 名學(xué)生成績(jī)進(jìn)行關(guān)聯(lián)規(guī)則分析,猜想課程之間是否存在關(guān)聯(lián)性,企圖能找出學(xué)生所學(xué)習(xí)的課程之間存在的一些關(guān)聯(lián)規(guī)則;然后利用數(shù)據(jù)挖掘軟件Wake 對(duì)榆林學(xué)院信息工程學(xué)院2003~2015學(xué)年計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè)的722 名學(xué)生成績(jī)進(jìn)行多元線(xiàn)性回歸分析,猜想基礎(chǔ)課程對(duì)與之相關(guān)的專(zhuān)業(yè)課是否會(huì)產(chǎn)生影響,企圖能找出學(xué)生所學(xué)習(xí)的基礎(chǔ)課程對(duì)與之相關(guān)的專(zhuān)業(yè)課會(huì)產(chǎn)生怎樣的影響。
本文的研究數(shù)據(jù)來(lái)源于榆林學(xué)院教務(wù)管理系統(tǒng),并與學(xué)校管理者簽訂了保密協(xié)議,原始數(shù)據(jù)是榆林學(xué)院信息工程學(xué)院2003~2015 學(xué)年的學(xué)生成績(jī),本次數(shù)據(jù)的預(yù)處理是通過(guò)Microsoft Excel2010除去科目中的公共選修課和某些公共必修課,本次數(shù)據(jù)中未發(fā)現(xiàn)空值。
利用數(shù)據(jù)挖掘軟件Wake對(duì)學(xué)生成績(jī)進(jìn)行關(guān)聯(lián)規(guī)則挖掘和多元線(xiàn)性回歸分析,從原始數(shù)據(jù)中選出計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè)2003~2015 學(xué)年所學(xué)習(xí)的五門(mén)基礎(chǔ)課和七門(mén)專(zhuān)業(yè)課共十二門(mén)課程:五門(mén)基礎(chǔ)課分別是C 語(yǔ)言程序設(shè)計(jì)、大學(xué)英語(yǔ)、高等數(shù)學(xué)、大學(xué)物理和線(xiàn)性代數(shù),并分別用A、B、C、D 和E 表示;七門(mén)專(zhuān)業(yè)課分別是操作系統(tǒng)、匯編語(yǔ)言程序設(shè)計(jì)、計(jì)算機(jī)網(wǎng)絡(luò)、計(jì)算機(jī)組成原理、離散數(shù)學(xué)、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)庫(kù)原理,并分別用F、G、H、I、J、K 和L 表示,在表1中列出。
表1 十二門(mén)課程的學(xué)生成績(jī)
關(guān)聯(lián)規(guī)則挖掘必須要將被研究的數(shù)據(jù)進(jìn)行離散化[8]處理,對(duì)研究數(shù)據(jù)進(jìn)行手動(dòng)離散化和概念分層[9]。首先,將十二門(mén)課程的學(xué)生成績(jī)分成三段,分別是0~60 分,60~80 分,80~100 分,并進(jìn)行分段標(biāo)記。以C 語(yǔ)言程序設(shè)計(jì)為例,C 語(yǔ)言程序設(shè)計(jì)0~60 分,60~80 分,80~100 分分別標(biāo)記為A3,A2,A1。在進(jìn)行手動(dòng)離散化和概念分層之后的數(shù)據(jù),在表2中列出。
表2 對(duì)十二門(mén)課程進(jìn)行離散化和概念分層
利用多元線(xiàn)性回歸分析,挖掘基礎(chǔ)課程對(duì)專(zhuān)業(yè)課程是否會(huì)產(chǎn)生影響。將五門(mén)基礎(chǔ)課與其中一門(mén)專(zhuān)業(yè)課的數(shù)據(jù)多元線(xiàn)性回歸分析,以匯編語(yǔ)言程序設(shè)計(jì)為例,即篩選出C 語(yǔ)言程序設(shè)計(jì)、大學(xué)英語(yǔ)、高等數(shù)學(xué)、大學(xué)物理、線(xiàn)性代數(shù)和匯編語(yǔ)言程序設(shè)計(jì),在表3中列出。
表3 基礎(chǔ)課和匯編語(yǔ)言程序的成績(jī)
2.2.1 關(guān)聯(lián)規(guī)則介紹
關(guān)聯(lián)規(guī)則挖掘是發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣關(guān)聯(lián)或相關(guān)聯(lián)系[10]。實(shí)現(xiàn)關(guān)聯(lián)的技術(shù)主要是統(tǒng)計(jì)學(xué)中的支持度和置信度分析[11],支持度主要用于測(cè)量連接分析中的統(tǒng)計(jì)在數(shù)據(jù)集中的重要性,置信度用于測(cè)量連接分析中的可信度[12]。支持度即在事物集U中不僅出現(xiàn)項(xiàng)集A又出現(xiàn)項(xiàng)集B的事務(wù)為a%,則關(guān)聯(lián)規(guī)則A==>B 的支持度為a%,即表示A和B在事務(wù)U中出現(xiàn)的頻率,式(1)列出
置信度即在事務(wù)U中出現(xiàn)項(xiàng)集A的同時(shí)項(xiàng)集B也出現(xiàn)的概率,表示關(guān)聯(lián)規(guī)則的強(qiáng)度,式(2),式(3)列出
關(guān)聯(lián)規(guī)則的算法有很多,本文主要采用的是關(guān)聯(lián)規(guī)則的經(jīng)典算法Apriori算法[13],該算法使用一種逐層搜索的迭代方法:N 項(xiàng)集用于搜索(N+1)項(xiàng)集。首先,找到頻繁1 項(xiàng)集的集合,記作M1,M1 用于找到頻繁2 項(xiàng)集的M2,而M2 用于找到M3,如此下去,直到不能找到頻繁N 項(xiàng)集,每一次搜索都需要掃描一次數(shù)據(jù)庫(kù),為提高頻繁項(xiàng)集逐層產(chǎn)生的效率,一般作法是利用Apriori 算法的性質(zhì)壓縮收縮空間[13]。Apriori 算法的性質(zhì)是頻繁項(xiàng)集的所有非空子集必須也是頻繁的。
2.2.2 多元線(xiàn)性回歸介紹
回歸分析是從一組數(shù)據(jù)出發(fā)通過(guò)一個(gè)或一些變量的變化解釋另一個(gè)變量的變化[14]。首先根據(jù)對(duì)實(shí)際問(wèn)題的分析判斷,將變量分為解釋變量和非解釋變量;其次,根據(jù)函數(shù)擬合方式,確定合適的數(shù)學(xué)模型來(lái)描述變量間的關(guān)系,再在統(tǒng)計(jì)擬合的準(zhǔn)則下確定模型的參數(shù),建立回歸方程。由于涉及到的變量是不確定的,回歸方程是在樣本數(shù)據(jù)的基礎(chǔ)上得出,必須進(jìn)行回歸模型的統(tǒng)計(jì)檢驗(yàn),經(jīng)統(tǒng)計(jì)檢驗(yàn)后,再根據(jù)回歸模型,進(jìn)行因變量的預(yù)測(cè)。
回歸分析的類(lèi)型分為一元線(xiàn)性回歸和多元線(xiàn)性回歸,本文主要采用的是多元線(xiàn)性回歸。多元線(xiàn)性回歸的基本模型
其中x1,x2,…,xp是自變量,β0,β1,…,βp是未知參數(shù),ε是零均值隨機(jī)變量。
如果對(duì)式(4)兩邊求期望,則有多元線(xiàn)性回歸方程
估計(jì)未知參數(shù)β0,β1,…,βp是多元線(xiàn)性回歸分析的核心任務(wù)之一。由于參數(shù)估計(jì)的工作是基于樣本數(shù)據(jù)的,由此得到的參數(shù)只是參數(shù)真值的估計(jì)值,記為,,…,。最終解得模型(4)的多元經(jīng)驗(yàn)回歸方程
多元回歸模型中的檢驗(yàn)有兩種,一種是回歸系數(shù)的顯著性檢驗(yàn),即是檢驗(yàn)?zāi)硞€(gè)變量xi的系數(shù)是否為零;另一種檢驗(yàn)就是回歸方程的顯著性檢驗(yàn)[15],即是檢驗(yàn)改組數(shù)據(jù)是否使用于線(xiàn)性方程做回歸。
將已經(jīng)過(guò)離散化和概念分層的數(shù)據(jù)在挖掘軟件Wake 使用Apriori 算法進(jìn)行訓(xùn)練,在訓(xùn)練中不斷調(diào)整參數(shù)設(shè)置,其中classIndex 是類(lèi)屬性索引,delta是迭代遞減單位,LowerMinSup 指的是最小支持度下界,MinMetric 指的是度量的最小值,SigLevel 指的是重要程度,進(jìn)行重要性測(cè)試,upperMinSup指的是最小支持度上界,最終參數(shù)修改結(jié)果在表4 中列出。
表4 關(guān)聯(lián)規(guī)則挖掘參數(shù)設(shè)置
最終得到榆林學(xué)院信息工程學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè)所學(xué)課程中的十二門(mén)課程之間的關(guān)聯(lián)規(guī)則,在表5中列出。
表5 關(guān)聯(lián)規(guī)則挖掘結(jié)果
通過(guò)對(duì)十二門(mén)課程進(jìn)行關(guān)聯(lián)規(guī)則挖掘得到的規(guī)則分析有:1)如果大學(xué)英語(yǔ)、大學(xué)物理、線(xiàn)性代數(shù)、計(jì)算機(jī)組成原理、離散數(shù)學(xué)、數(shù)據(jù)結(jié)構(gòu)的成績(jī)均在60~80 分之間,那么數(shù)據(jù)庫(kù)原理的成績(jī)?cè)?0~80分之間有94%的可能性;2)如果高等數(shù)學(xué)、大學(xué)物理、線(xiàn)性代數(shù)、離散數(shù)學(xué)、數(shù)據(jù)結(jié)構(gòu)的成績(jī)均在60-80 分之間,那么數(shù)據(jù)庫(kù)原理的成績(jī)?cè)?0~80 分之間有93%的可能性;3)如果大學(xué)物理、線(xiàn)性代數(shù)、計(jì)算機(jī)網(wǎng)絡(luò)、計(jì)算機(jī)組成原理、離散數(shù)學(xué)、離散數(shù)學(xué)數(shù)據(jù)結(jié)構(gòu)的成績(jī)均在60~80 分之間,那么數(shù)據(jù)庫(kù)原理的成績(jī)?cè)?0~80 分之間有93%的可能性;4)如果高等數(shù)學(xué)、線(xiàn)性代數(shù)、計(jì)算機(jī)組成原理、離散數(shù)學(xué)、數(shù)據(jù)結(jié)構(gòu)的成績(jī)均在60~80 分之間,那么數(shù)據(jù)庫(kù)原理的成績(jī)?cè)?0~80 分之間有92%的可能性;5)如果C 語(yǔ)言程序設(shè)計(jì)、高等數(shù)學(xué)、數(shù)據(jù)結(jié)構(gòu)的成績(jī)均在60~80 分之間,那么大學(xué)英語(yǔ)的成績(jī)?cè)?0~80 分之間有91%的可能性。
綜上所述,數(shù)據(jù)庫(kù)原理的成績(jī)與大學(xué)英語(yǔ)、高等數(shù)學(xué)、大學(xué)物理、線(xiàn)性代數(shù)、計(jì)算機(jī)網(wǎng)絡(luò)、計(jì)算機(jī)組成原理、離散數(shù)學(xué)和數(shù)據(jù)結(jié)構(gòu)的成績(jī)有關(guān)系;大學(xué)英語(yǔ)的成績(jī)與C 語(yǔ)言程序設(shè)計(jì)、大學(xué)英語(yǔ)、高等數(shù)學(xué)、計(jì)算機(jī)網(wǎng)絡(luò)、計(jì)算機(jī)組成原理和數(shù)據(jù)結(jié)構(gòu)的成績(jī)有關(guān)系。
將研究數(shù)據(jù)在Wake 中選擇Linear Regression算法,使用默認(rèn)參數(shù),選擇Cross-validation,設(shè)置Folds 為20,即使用其中的20 條數(shù)據(jù)進(jìn)行交叉驗(yàn)證。并分別對(duì)F列、G列、H列、I列、J列、K列和L列的數(shù)據(jù)進(jìn)行預(yù)測(cè)。
根據(jù)上述對(duì)多元線(xiàn)性回歸建立回歸模型的分析,可對(duì)本次研究的數(shù)據(jù)建立模型:
其中自變量x1、x2、x3、x4和x5分別代表C 語(yǔ)言程序設(shè)計(jì)、大學(xué)英語(yǔ)、高等數(shù)學(xué)、大學(xué)物理和線(xiàn)性代數(shù),因變量y1、y2、y3、y4、y5、y6和y7分別代表操作系統(tǒng)、匯編語(yǔ)言程序設(shè)計(jì)、計(jì)算機(jī)網(wǎng)絡(luò)、計(jì)算機(jī)組成原理、離散數(shù)學(xué)、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)庫(kù)原理。預(yù)測(cè)的多元線(xiàn)性回歸模型在表6中列出。
表6 多元線(xiàn)性回歸模型
回歸模型的好壞由模型評(píng)價(jià)參數(shù)來(lái)說(shuō)明,R、MAE、RMSE、RAE 和RRSE 分別代表的是相關(guān)系數(shù)、平均絕對(duì)誤差、均方根誤差、相對(duì)誤差絕對(duì)值和根相對(duì)誤差,模型評(píng)價(jià)參數(shù)在表7中列出。
表7 回歸模型評(píng)價(jià)參數(shù)
針對(duì)線(xiàn)性回歸模型與回歸模型性能指標(biāo),可得到結(jié)果有:1)匯編語(yǔ)言程序設(shè)計(jì)會(huì)受到基礎(chǔ)課程C語(yǔ)言程序設(shè)計(jì)、線(xiàn)性代數(shù)、大學(xué)英語(yǔ)、大學(xué)物理和高等數(shù)學(xué)的影響,其中對(duì)其影響較大的基礎(chǔ)課程是C語(yǔ)言程序設(shè)計(jì)和線(xiàn)性代數(shù);2)計(jì)算機(jī)網(wǎng)絡(luò)會(huì)受到基礎(chǔ)課程高等數(shù)學(xué)、線(xiàn)性代數(shù)、大學(xué)物理、C 語(yǔ)言程序設(shè)計(jì)、和大學(xué)英語(yǔ)的影響,其中影響較大的基礎(chǔ)課程是高等數(shù)學(xué)和線(xiàn)性代數(shù);3)離散數(shù)學(xué)會(huì)受到基礎(chǔ)高等數(shù)學(xué)、C 語(yǔ)言程序設(shè)計(jì)、線(xiàn)性代數(shù)和大學(xué)英語(yǔ)的影響,其中影響較大的基礎(chǔ)課程是高等數(shù)學(xué)和C語(yǔ)言程序設(shè)計(jì);4)數(shù)據(jù)結(jié)構(gòu)會(huì)受到基礎(chǔ)課程C 語(yǔ)言程序設(shè)計(jì)、大學(xué)物理、大學(xué)英語(yǔ)、線(xiàn)性代數(shù)和高等數(shù)學(xué)的影響,其中影響較大的基礎(chǔ)課程是C 語(yǔ)言程序設(shè)計(jì)和大學(xué)物理;5)數(shù)據(jù)庫(kù)原理會(huì)受到基礎(chǔ)課程大學(xué)英語(yǔ)、高等數(shù)學(xué)、線(xiàn)性代數(shù)和大學(xué)物理,其中影響較大的基礎(chǔ)課程是大學(xué)英語(yǔ)和高等數(shù)學(xué)。
綜上所述,數(shù)學(xué)類(lèi)專(zhuān)業(yè)課受數(shù)學(xué)類(lèi)基礎(chǔ)課的影響較大,比如高等數(shù)學(xué)對(duì)離散數(shù)學(xué)的影響就很大;計(jì)算機(jī)類(lèi)專(zhuān)業(yè)課受計(jì)算機(jī)類(lèi)基礎(chǔ)課的影響較大,比如C 語(yǔ)言程序設(shè)計(jì)對(duì)匯編語(yǔ)言程序設(shè)計(jì)的影響就很大;計(jì)算機(jī)類(lèi)和數(shù)學(xué)類(lèi)相結(jié)合的課程會(huì)同時(shí)受計(jì)算機(jī)類(lèi)和數(shù)學(xué)類(lèi)基礎(chǔ)課的影響,比如C 語(yǔ)言程序設(shè)計(jì)和線(xiàn)性代數(shù)對(duì)操作系統(tǒng)的影響就很大。
本文主要通過(guò)數(shù)據(jù)挖掘軟件Wake對(duì)學(xué)生成績(jī)進(jìn)行了關(guān)聯(lián)規(guī)則挖掘和多元線(xiàn)性回歸建模,并給出了參數(shù)設(shè)置和模型評(píng)價(jià)參數(shù),分別得到了課程與課程之間的關(guān)聯(lián)和基礎(chǔ)課程對(duì)專(zhuān)業(yè)課程的影響?;跀?shù)據(jù)挖掘技術(shù)的學(xué)生成績(jī)分析是一個(gè)比較廣泛的課題,在利用關(guān)聯(lián)規(guī)則挖掘?qū)W生成績(jī)時(shí),只是對(duì)課程之間的相關(guān)性進(jìn)行了分析,沒(méi)有加入一些附加因素,比如,學(xué)生的性別、年齡、年級(jí)和英語(yǔ)等級(jí)考試成績(jī)等學(xué)生基本信息。在利用多元線(xiàn)性回歸對(duì)學(xué)生成績(jī)建立回歸模型時(shí),只是分析了基礎(chǔ)課程對(duì)專(zhuān)業(yè)課程的影響,沒(méi)有建立學(xué)生平時(shí)成績(jī)對(duì)考研成績(jī)的回歸模型。以上這些不足之處將會(huì)在下一步的研究工作中得到完善與優(yōu)化。