劉昆
摘要:序列模式挖掘表示在序列數(shù)據(jù)庫(kù)匯總找出頻繁子序列使之成為模式的一項(xiàng)知識(shí)發(fā)現(xiàn)的過程。在教學(xué)管理中應(yīng)用序列模式挖掘,根據(jù)一定的序列數(shù)據(jù)模式將學(xué)生成績(jī)樣本實(shí)行建模以及信息挖掘,獲得三條高于65%置信度的時(shí)序關(guān)聯(lián)規(guī)律。經(jīng)過實(shí)驗(yàn)可知,在教學(xué)管理中運(yùn)用序列模式挖掘,挖掘?qū)W生教學(xué)成績(jī)具有一定的可行性,得出的時(shí)序關(guān)聯(lián)規(guī)律可以促進(jìn)教學(xué)管理,促進(jìn)學(xué)生學(xué)業(yè)成績(jī)的提升。
關(guān)鍵詞:序列模式;數(shù)據(jù)挖掘;教學(xué)管理;運(yùn)用
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)13-0189-02
序列模式挖掘是屬于數(shù)據(jù)挖掘范疇內(nèi)的一個(gè)常用的分支,該模式未來的應(yīng)用前景非常廣闊,該模式能夠根據(jù)時(shí)間序列數(shù)據(jù)庫(kù)發(fā)掘先后事件之間存在的關(guān)聯(lián)規(guī)律,序列模式發(fā)掘在教師管理中充分應(yīng)用,能夠發(fā)掘?qū)W習(xí)者在學(xué)習(xí)成績(jī)方面具有前導(dǎo)后續(xù)的時(shí)序關(guān)系規(guī)律,同時(shí)可以得出這一關(guān)聯(lián)規(guī)律在教學(xué)管理應(yīng)用可以幫助進(jìn)行科學(xué)的決策有利于教師做出指導(dǎo)性的建議。
1序列模式挖掘模型
I代表的是項(xiàng)目全集,這一全集指的是論域內(nèi)相關(guān)的獨(dú)立數(shù)據(jù)項(xiàng)構(gòu)成的非空數(shù)集I={i1,i2,…,Im}(k=1,2,…,m)代表的是單獨(dú)的數(shù)據(jù)項(xiàng)。
項(xiàng)集sj=(1,2,…,2m-1),指的是一個(gè)全集 I 若干項(xiàng)目構(gòu)成的集合,可以得出sj?I且 s 存在的數(shù)量2m-1。增加時(shí)間屬性之后集合T為:
T = { 2 學(xué)生成績(jī)序列模式建模 2.1數(shù)據(jù)抽取 從某一教學(xué)管理數(shù)據(jù)庫(kù)中抽取一定的學(xué)生成績(jī)當(dāng)做初識(shí)的數(shù)據(jù)信息,在數(shù)據(jù)庫(kù)中僅僅讀取和成績(jī)相關(guān)的數(shù)據(jù)字段,涉及學(xué)年學(xué)期、課程名稱、學(xué)號(hào)等。 2.2 隱私保護(hù) 抽取的成績(jī)樣本屬于學(xué)生的隱私范疇的內(nèi)容,因此對(duì)所抽取的樣本信息實(shí)施隱私保護(hù)[1]。為了保護(hù)信息,可以歪曲處理相關(guān)初始的一些信息,關(guān)聯(lián)規(guī)律發(fā)掘的對(duì)象是集聚信息的數(shù)據(jù)集并非單獨(dú)的數(shù)據(jù)項(xiàng)目,所以存在足夠數(shù)據(jù)信息的狀況下,可以對(duì)具體的數(shù)據(jù)進(jìn)行歪曲處理,數(shù)據(jù)集設(shè)計(jì)統(tǒng)計(jì)和聚集信息能夠得到準(zhǔn)確的儲(chǔ)存,對(duì)處理之后的信息發(fā)掘關(guān)聯(lián)規(guī)律,一方面可以有效保護(hù)隱私,另一方面可以發(fā)掘數(shù)據(jù)集內(nèi)部存在的關(guān)聯(lián)性[2]。面對(duì)獲得的樣本數(shù)據(jù),在數(shù)據(jù)信息統(tǒng)一的基礎(chǔ)之上,使用隨機(jī)的方法替換學(xué)號(hào),隱蔽實(shí)際的學(xué)號(hào),這是隱私保護(hù)的主要手段 2.3 過濾 獲得成績(jī)信息中總評(píng)成績(jī)字段涉及部分意義不大字段信息,比如,曠考、緩考等信息,對(duì)于這部分信息需要過濾掉[3]。與此同時(shí),為了確保數(shù)據(jù)自身的完善性,假如過濾掉部分信息,那么這一實(shí)體需要?jiǎng)h除全部信息。 2.4 離散化 總評(píng)成績(jī)字段最初信息可以在0 ~100進(jìn)行隨意取值,為方便進(jìn)行分類處理,最為簡(jiǎn)便的方式是設(shè)置一個(gè)合格界限60,離散為是否合格兩種取值形式。 2.5 建立序列數(shù)據(jù)模型 在教學(xué)數(shù)據(jù)庫(kù)中,最初的成績(jī)保存形式是一條記錄儲(chǔ)存一項(xiàng)成績(jī),這屬于時(shí)序數(shù)據(jù)庫(kù)基礎(chǔ)上的事務(wù)模式: M={Tid,Cid,Time,Item_set} 差別非常大,因此必須轉(zhuǎn)變課程信息并建立模型。 1)時(shí)間段劃分 通常來說,學(xué)習(xí)成績(jī)可以根據(jù)學(xué)期將成績(jī)獲取時(shí)間化為8個(gè)時(shí)間段,也就是四個(gè)學(xué)年,每個(gè)學(xué)年存在2個(gè)學(xué)期。但是也可能存在別的狀況,比如,一個(gè)學(xué)年存在三個(gè)學(xué)期,如果是這種情況的話,需要按照實(shí)際的狀況劃分具體的時(shí)間段。 2)代換 為方便對(duì)數(shù)據(jù)進(jìn)行處理,應(yīng)當(dāng)對(duì)課程名稱以及經(jīng)過離散獲得成績(jī)利用符號(hào)的形式進(jìn)行轉(zhuǎn)換。比如,我們單純關(guān)注不合格成績(jī),這樣對(duì)后續(xù)的課程出現(xiàn)的不及格成績(jī)是否會(huì)造成影響,可以將各個(gè)幾個(gè)成績(jī)信息過濾后,使用字母符號(hào)針對(duì)某一課程涉及的不及格數(shù)據(jù)進(jìn)行表示。 3)歸并 在相同的時(shí)間段內(nèi)獲得相同學(xué)生的成績(jī)應(yīng)當(dāng)劃分到一條事務(wù)之中,可以保障數(shù)據(jù)同序列數(shù)據(jù)事務(wù)模式M相符,繼而便于后學(xué)的序列模式發(fā)掘。假定初始成績(jī)?nèi)缤?所示,對(duì)其進(jìn)行離散、按照時(shí)間段進(jìn)行劃分、進(jìn)行一系列的替換以及歸并之后得出的序列數(shù)據(jù)庫(kù)事務(wù)(如表2所示)。 3 GSP 算法 GSP 算法數(shù)據(jù)最具代表性的Apriori 類型的方法,當(dāng)然也有很多需要進(jìn)行掃描的數(shù)據(jù)庫(kù)同時(shí)具有一定的缺陷比如候選集量太大,但是因?yàn)楸敬窝芯啃枰M(jìn)行處理的樣本信息數(shù)量相對(duì)小,因此使用GSP 算法具有一定的可行性[4]。GSP 算法描述如下: 4 序列模式挖掘?qū)嶒?yàn)及結(jié)果 學(xué)生成績(jī)樣本經(jīng)過一定的過濾獲得共計(jì)50000多條信息,在進(jìn)行離散、劃分、替換以及歸并等操作之后,獲得序列模式數(shù)據(jù)庫(kù)D,進(jìn)而使用GSP 算法發(fā)掘序列模式,將最后的發(fā)掘情況進(jìn)行關(guān)聯(lián)規(guī)律的轉(zhuǎn)變,高于65%的置信度的存在三條: 1)Confidence( 高數(shù) 1 不合格→高數(shù) 2 不及格)= 66% ; 2)Confidence( 英語1 不合格∩英語2 不及格→英語 3 不合格) =73%; 3)Confidence( 信息技術(shù) 1 不合格→信息技術(shù) 2不合格) =87%。 其置信度越高就表示假如規(guī)律涉及的條件具備的情況下,這樣規(guī)則情況出現(xiàn)的幾率也就會(huì)更高。規(guī)律3具有87%的置信度,通過一系列的分析,產(chǎn)生這一情況的原因是只有極少數(shù)人的信息技術(shù)1不合格,但是大多數(shù)人的信息技術(shù)2 是不合格的,也就是說信息技術(shù)1沒有過關(guān)的這部分人中,大部分的人他們的信息技術(shù)2是不合格的。這表明各項(xiàng)功課不合格幾率的差異會(huì)在一定程度上影響發(fā)掘的最終結(jié)果。此外,站在規(guī)律推廣立場(chǎng)上講,假如需要采用序列模式發(fā)掘獲得 鼓勵(lì)對(duì)后續(xù)工程不合格的概率進(jìn)行預(yù)測(cè),本質(zhì)上還不存在確切的可以進(jìn)行表述的約束條件,樣本成績(jī)以及需要進(jìn)行預(yù)測(cè)的成績(jī)不合格率應(yīng)當(dāng)基本相當(dāng),不然的話獲得的規(guī)律缺乏較高的有效性。上述獲得三條管理可以指導(dǎo)學(xué)校的教學(xué)管理活動(dòng),也可以指導(dǎo)學(xué)生的學(xué)習(xí)進(jìn)展。具有較高置信度的關(guān)聯(lián)規(guī)則,假如其條件具備,則規(guī)則中涉及的情況出現(xiàn)幾率就會(huì)增加,假如不想出現(xiàn)規(guī)則結(jié)果,可以實(shí)施一定的措施進(jìn)行補(bǔ)救。比如,一個(gè)學(xué)生的英語1、2均不合格,必須提醒他英語3很可能還會(huì)不合格,不合格風(fēng)險(xiǎn)高達(dá)75%,要求該學(xué)生充分重視,學(xué)習(xí)更加努力,另外對(duì)其進(jìn)行針對(duì)性的輔導(dǎo),加快成績(jī)的提升。 5 結(jié)束語 文章中在教學(xué)管理中運(yùn)用序列模式挖掘,充分發(fā)掘?qū)W生成績(jī)樣本數(shù)據(jù),獲得三項(xiàng)較高置信度的時(shí)序關(guān)聯(lián)規(guī)則,所得出的規(guī)律可以有效指導(dǎo)教學(xué)管理工作,教師可以針對(duì)具體規(guī)律中涉及的情況進(jìn)行合理的分析,對(duì)于問題采取積極的措施進(jìn)行規(guī)避,對(duì)于不足進(jìn)行改善,促進(jìn)教學(xué)質(zhì)量和水平的提升,對(duì)于學(xué)生的具體的情況,制定特定的教育方案,提升學(xué)生的學(xué)業(yè)成績(jī)。 參考文獻(xiàn): [1] 侯錕.數(shù)據(jù)挖掘技術(shù)在高校教育教學(xué)中的應(yīng)用[J].吉林省教育學(xué)院學(xué)報(bào):下旬,2012(28):51-52. [2] 王智鋼,王池社,顧云鋒,等.序列模式挖掘在教學(xué)管理上的應(yīng)用[J].計(jì)算機(jī)與現(xiàn)代化,2012(11):22-25. [3] 劉美玲,李熹,李永勝.數(shù)據(jù)挖掘技術(shù)在高校教學(xué)與管理中的應(yīng)用[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2010(31): 1130-1133. [4] 劉雨露.數(shù)據(jù)挖掘在高校學(xué)生管理決策中的應(yīng)用模式分析[J].成都信息工程學(xué)院學(xué)報(bào),2015(3):373-377.