白雪峰
(重慶三峽醫(yī)藥高等??茖W(xué)校,萬州 404120)
關(guān)聯(lián)規(guī)則挖掘在教學(xué)質(zhì)量保障方面的應(yīng)用研究
白雪峰
(重慶三峽醫(yī)藥高等專科學(xué)校,萬州 404120)
利用關(guān)聯(lián)規(guī)則挖掘Apriori算法對學(xué)生高考成績及高考志愿與入學(xué)后課程成績之間存在的關(guān)系進(jìn)行數(shù)據(jù)挖掘,通過分析挖掘結(jié)果,期望找出其中存在的關(guān)聯(lián),得到一些對提高教學(xué)質(zhì)量或水平有用的信息。
數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;教學(xué)質(zhì)量
教學(xué)質(zhì)量是人才培養(yǎng)質(zhì)量的關(guān)鍵,是整個教學(xué)活動的出發(fā)點(diǎn)和立足點(diǎn),如何保證教學(xué)質(zhì)量的不斷提高是一個學(xué)校永恒的追求。由于學(xué)校不斷擴(kuò)大招生規(guī)模,使得學(xué)生的入學(xué)基礎(chǔ)存在較大的差異,本文通過分析學(xué)生的入學(xué)基礎(chǔ)以及這種入學(xué)基礎(chǔ)對大學(xué)課程學(xué)習(xí)的影響,提出了分層次教學(xué)等建議,以保證專業(yè)教學(xué)質(zhì)量的穩(wěn)步提高。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中最活躍的研究方向之一,能從大量的數(shù)據(jù)中挖掘出數(shù)據(jù)項(xiàng)間隱藏的相互關(guān)系。采用關(guān)聯(lián)規(guī)則挖掘算法,能夠發(fā)現(xiàn)學(xué)生高考志愿及入學(xué)前高考成績與入學(xué)后各門課程成績之間的關(guān)系,而分析這種關(guān)系有助于我們尋找提高專業(yè)教學(xué)質(zhì)量的途徑和方法。
關(guān)聯(lián)規(guī)則挖掘是研究人員于1993年研究市場購物籃問題時提出的[1],用來發(fā)現(xiàn)數(shù)據(jù)中數(shù)據(jù)項(xiàng)間隱藏的相互依賴的關(guān)系。
先介紹關(guān)聯(lián)規(guī)則的幾個基本概念,具體描述如下[2]:
定義1假設(shè)關(guān)聯(lián)規(guī)則挖掘的事務(wù)數(shù)據(jù)集記為D,其中,D={t1,t2,…,tk,…,tn},tk={i1,i2,…,im,…,ip},那么tk(k=1,2,…,n)稱為事務(wù)(Transaction),im(m=1,2,…,p)稱為項(xiàng)目(Item)。
定義2假設(shè)I={i1,i2,…,im}是由D中所有項(xiàng)目組成的集合,則I的每一個子集X就稱為D的項(xiàng)目集(Itemset)。假設(shè)X、Y都是項(xiàng)目集,且X∩Y=?,則蘊(yùn)含式X?Y稱為關(guān)聯(lián)規(guī)則。
定義3若關(guān)聯(lián)規(guī)則X?Y在事務(wù)集D中成立,那么,關(guān)聯(lián)規(guī)則XY的支持度就是事務(wù)集D中包含X?Y的百分比,關(guān)聯(lián)規(guī)則XY的置信度就是D中包含X的事務(wù)同時也包含Y的百分比。(即support(X?Y)=P(X?Y);confidence(X∪Y)=P(Y|X))
定義4如果項(xiàng)目集X的支持度大于等于事先設(shè)定的最小支持度minsupport,那么就稱X為頻繁項(xiàng)目集。
關(guān)聯(lián)規(guī)則的挖掘過程是先查找符合既定條件的頻繁項(xiàng)集,然后利用頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則。通過對數(shù)據(jù)庫使用關(guān)聯(lián)規(guī)則挖掘,可以得到一些潛在有用的挖掘結(jié)果。將這些結(jié)果同事先設(shè)定的最小支持度minsupport和最小置信度minconfidence進(jìn)行比較,如果其值不小于事先設(shè)定的值,那么就是有趣的規(guī)則。
購物籃分析是關(guān)聯(lián)規(guī)則挖掘最初研究的一個典型例子。它有助于分析顧客的購物習(xí)慣,發(fā)現(xiàn)顧客放入購物籃中的不同商品之間的關(guān)聯(lián)性,幫助商家了解哪些商品頻繁地被顧客同時購買,從而有助于商家靈活地調(diào)整銷售策略,更加合理地安排商品的擺放位置,增加商品銷售量。
隨著社會的發(fā)展,人們越來越發(fā)現(xiàn)數(shù)據(jù)的重要性及其隱藏的價值,使得關(guān)聯(lián)規(guī)則挖掘的應(yīng)用越來越廣泛。其中,在教育教學(xué)方面,關(guān)聯(lián)規(guī)則挖掘也取得了很好的效果[3-5]。
2.1 數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備階段主要是對學(xué)生的入學(xué)成績及入學(xué)后的成績進(jìn)行收集處理。以我校中藥專業(yè)2014級、2015級329名學(xué)生的成績?yōu)槔?,成績主要來源于兩個部門。其中,學(xué)生的高考成績來源于學(xué)校招生處,主要包括考生號、專業(yè)志愿、考試科目及考試成績等;學(xué)生入學(xué)后的課程成績來源于教務(wù)處,選擇的大學(xué)課程主要包括中醫(yī)學(xué)概要、中藥學(xué)、大學(xué)英語、化學(xué)基礎(chǔ)、醫(yī)學(xué)基礎(chǔ)、藥理學(xué)、藥用植物學(xué)、中藥鑒定技術(shù)等。
由于成績屬性是連續(xù)值,不利于進(jìn)行數(shù)據(jù)處理,所以,在進(jìn)行數(shù)據(jù)挖掘前,必須先對學(xué)生的入學(xué)成績及入學(xué)后的成績進(jìn)行轉(zhuǎn)換處理。
因?qū)?粕雽W(xué)時單科成績幾乎全部介于滿分成績的20%到滿分成績的80%之間,因此,我們在對入學(xué)前單科成績處理時,剔除了極個別不合適的數(shù)據(jù),只對滿足該成績段的數(shù)據(jù)進(jìn)行研究。在此基礎(chǔ)上,對入學(xué)前單一科目成績的具體處理方法是:將成績由高到低排序,每20%為一個成績段,即處于前20%的成績記為A,處于前20%-40%的成績記為B,以此類推。
因?qū)W生入學(xué)后單科成績幾乎全部介于40分到100分之間,因此,我們在對入學(xué)后單科成績處理時,剔除了極個別不合適的數(shù)據(jù),只對滿足該成績段的數(shù)據(jù)進(jìn)行研究。在此基礎(chǔ)上,對入學(xué)后單一科目成績的具體處理方法是:將成績由高到低排序,每20%為一個成績段,即處于前20%的成績記為A,處于前20%-40%的成績記為B,以此類推。對于分多個學(xué)期授課的課程,取多個學(xué)期的平均成績。
對于考生的高考志愿,第一志愿記為I,非第一志愿記為J。
進(jìn)行數(shù)據(jù)處理后的數(shù)據(jù)格式如表1所示。
2.2 關(guān)聯(lián)規(guī)則挖掘
Apriori算法是關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法,本文使用Apriori算法進(jìn)行數(shù)據(jù)挖掘,希望找出高考單科成績及高考志愿類別與入學(xué)后課程成績之間存在的普遍性關(guān)系。在本次研究中,我們將最小支持度設(shè)為5%,最小置信度設(shè)為60%。
我們使用Apriori算法對學(xué)生高考單科成績與入學(xué)后課程成績之間存在的關(guān)聯(lián)關(guān)系進(jìn)行數(shù)據(jù)挖掘,最終產(chǎn)生了7條關(guān)聯(lián)規(guī)則,具體結(jié)果見表2。
表2 高考成績與入學(xué)后課程成績之間的關(guān)聯(lián)規(guī)則
分析表2可知,學(xué)生中學(xué)時的英語水平對入學(xué)后英語成績影響很大,高考數(shù)學(xué)成績對化學(xué)基礎(chǔ)的學(xué)習(xí)也有較大影響,但沒有像英語影響大。學(xué)生各科的高考成績對中藥學(xué)、中醫(yī)學(xué)概要等藥學(xué)專業(yè)基礎(chǔ)課程影響較小。針對上述結(jié)果,建議學(xué)校在進(jìn)行英語和化學(xué)基礎(chǔ)課程教學(xué)時,可按照學(xué)生對應(yīng)科目的高考成績進(jìn)行分層教學(xué)。
使用Apriori算法對學(xué)生高考志愿與入學(xué)后課程成績之間存在的關(guān)聯(lián)關(guān)系進(jìn)行數(shù)據(jù)挖掘,最終產(chǎn)生了11條關(guān)聯(lián)規(guī)則,具體結(jié)果見表3。
分析表3可知,學(xué)生的高考志愿對學(xué)生入學(xué)后的英語、化學(xué)基礎(chǔ)等課程的成績影響不大,但對中藥學(xué)、中醫(yī)學(xué)概要等專業(yè)基礎(chǔ)課程有較大的影響。針對這一現(xiàn)象,建議學(xué)校在對非第一志愿考生進(jìn)行教育時,加強(qiáng)對學(xué)生關(guān)于專業(yè)價值和專業(yè)發(fā)展前景的說服性教育,提高學(xué)生的專業(yè)認(rèn)同度,從而促進(jìn)學(xué)生在專業(yè)學(xué)習(xí)時的積極性和主動性。
表1 學(xué)生所有成績進(jìn)行數(shù)據(jù)處理后的數(shù)據(jù)格式
表3 高考志愿與入學(xué)后課程成績之間的關(guān)聯(lián)規(guī)則
筆者介紹了關(guān)聯(lián)規(guī)則挖掘的一些概念,采用關(guān)聯(lián)規(guī)則挖掘Apriori算法對學(xué)生高考單科成績及高考志愿與入學(xué)后課程成績之間存在的關(guān)聯(lián)關(guān)系進(jìn)行數(shù)據(jù)挖掘,最終得到了多條關(guān)聯(lián)規(guī)則。研究結(jié)果表明,高考單科成績與大學(xué)部分基礎(chǔ)課程成績之間有一定聯(lián)系,而高考志愿則與學(xué)生專業(yè)課成績之間存在一定關(guān)聯(lián)。根據(jù)上述研究結(jié)果,學(xué)校在對大學(xué)英語、化學(xué)基礎(chǔ)等課程進(jìn)行教學(xué)時,可以根據(jù)相關(guān)單科成績對學(xué)生進(jìn)行分層次教學(xué);而對非第一志愿考生,則要注意加強(qiáng)教育,提高學(xué)生的專業(yè)認(rèn)同度。
[1]Agrawal R,Imielinski T,Wami A S.Mining Association Rules Between Sets of Items in Large Databases.In:Proc.of the ACM SIGMOD Conference on Management of Data,Washington,D.C.,1993.207-216.
[2]邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國水利水電出版社,2003.
[3]劉英,高鎖軍.數(shù)據(jù)挖掘技術(shù)在高校教學(xué)管理中的應(yīng)用.價值工程,2012,31(34):200-201.
[4]路川,王靜靜,胡欣杰等.數(shù)據(jù)挖掘在高校教學(xué)管理中的應(yīng)用研究[J].電腦開發(fā)與應(yīng)用,2010,17(2):40-41.
[5]李紹中.數(shù)據(jù)挖掘改進(jìn)算法在學(xué)生成績分析中的應(yīng)用[J].科技通報,2012,28(8):208-209,212.
Research on the Application of Association Rules Mining in Teaching Quality Assurance
BAI Xue-feng
(Chongqing Three Gorges College of Medicine,Wanzhou 404120)
Uses the association rules mining Apriori to mine the relationships between students'college entrance examination scores and college course examination scores,and the relationships between different choices and college course examination scores.Through the analysis of mining results,hopes to find out the relationship between them,and gets some information that is useful for improving teaching quantity or level.
Date Mining;Association Rule;Teaching Quality
重慶三峽醫(yī)藥高等??茖W(xué)校2014年科研苗圃工程基金資助項(xiàng)目(No.2014mpxj17)
1007-1423(2016)33-0022-03
10.3969/j.issn.1007-1423.2016.33.005
白雪峰(1980-),男,山西大同人,碩士研究生,講師,研究方向?yàn)閿?shù)據(jù)庫、數(shù)據(jù)挖掘
2016-09-06
2016-11-10