国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘在學(xué)生專業(yè)成績(jī)預(yù)測(cè)上的應(yīng)用

2016-03-08 18:24崔仁桀
軟件 2016年1期
關(guān)鍵詞:計(jì)算機(jī)應(yīng)用數(shù)據(jù)挖掘

崔仁桀

摘要:學(xué)生特征的提取以及學(xué)習(xí)效果預(yù)測(cè)一直是教育數(shù)據(jù)挖掘領(lǐng)域的熱門課題。本文將結(jié)合國(guó)內(nèi)高校教育現(xiàn)狀和現(xiàn)有的教育數(shù)據(jù)挖掘成果,以weka作為實(shí)驗(yàn)平臺(tái),應(yīng)用C4.5算法對(duì)本科生的專業(yè)培養(yǎng)數(shù)據(jù)做建模分析以及成績(jī)預(yù)測(cè),通過采集到的實(shí)際數(shù)據(jù)做實(shí)驗(yàn)驗(yàn)證,找到潛在于成績(jī)信息之中的學(xué)生行為規(guī)律,為提前干預(yù)學(xué)生學(xué)習(xí)行為,優(yōu)化教育決策做出有意義的指引。

關(guān)鍵詞:計(jì)算機(jī)應(yīng)用;數(shù)據(jù)挖掘;weka;學(xué)生成績(jī)預(yù)測(cè)

中圖分類號(hào):TP391

文獻(xiàn)標(biāo)識(shí)碼:A

DOI: 10.3969/j.issn.1003-6970.2016.01.007

0 引言

教育數(shù)據(jù)挖掘領(lǐng)域從2009年興起至今已經(jīng)得到了飛速的發(fā)展。EDM社區(qū)對(duì)教育數(shù)據(jù)挖掘做了如下定義:教育數(shù)據(jù)挖掘是一個(gè)新興學(xué)科,致力于探索特定(來自于教育環(huán)境)數(shù)據(jù)的先進(jìn)方法,并使用這些方法來更好的了解學(xué)生,并將其應(yīng)用到他們的學(xué)習(xí)環(huán)境中。在高校的校園信息化建設(shè)已經(jīng)日臻成熟的大趨勢(shì)下,高校教務(wù)信息管理系統(tǒng)里積存了大量教務(wù)數(shù)據(jù),教育數(shù)據(jù)挖掘領(lǐng)域根植的環(huán)境已經(jīng)具備,本文將以此為背景,利用課程成績(jī)對(duì)學(xué)生的專業(yè)學(xué)習(xí)行為進(jìn)行建模,并對(duì)其未來的學(xué)習(xí)成果做出預(yù)測(cè)。研究過程中將基于weka實(shí)驗(yàn)平臺(tái),應(yīng)用經(jīng)典的C4.5決策樹算法作為模型建立方法展開研究和實(shí)驗(yàn)。

本文的組織結(jié)構(gòu)如下。第一章闡述研究主題內(nèi)容的定義和算法原理簡(jiǎn)述;第二章從數(shù)據(jù)預(yù)處理,算法應(yīng)用和模型評(píng)估三個(gè)方面來分析機(jī)器學(xué)習(xí)方案的創(chuàng)建過程;第三章以實(shí)際數(shù)據(jù)為例執(zhí)行建模實(shí)驗(yàn),分析和討論實(shí)驗(yàn)結(jié)果,得出實(shí)驗(yàn)結(jié)論。第四章對(duì)全文的研究作總結(jié),并對(duì)未來的研究做出展望。

1 研究背景與算法簡(jiǎn)述

1.1 研究背景討論

關(guān)于學(xué)生表現(xiàn)的預(yù)測(cè),有很多專家和學(xué)者做出了嘗試和貢獻(xiàn)。M.Vranic,D.Pintar and Z.Skocir通過應(yīng)用聚類、關(guān)聯(lián)分析和探索性數(shù)據(jù)分析等多重手段,分析了如何用本科生的生源情況,高考成績(jī),以及大一的重點(diǎn)課程“電子工程基礎(chǔ)”的課堂表現(xiàn)情況預(yù)測(cè)出學(xué)生在這門課程的最終表現(xiàn);Judith Zimmermann等學(xué)者從蘇黎世聯(lián)邦理工大學(xué)的一個(gè)專門制定的研究生推免計(jì)劃中獲得學(xué)生本科生和研究生成績(jī)信息,以GGPA代表學(xué)生研究生的評(píng)定等級(jí),應(yīng)用多種預(yù)測(cè)和統(tǒng)計(jì)手段進(jìn)行基于模型的成績(jī)預(yù)測(cè)研究,分析如何用本科成績(jī)單上得到的數(shù)據(jù)來預(yù)測(cè)GGPA,來推斷其在研究生期間的表現(xiàn)。

然而對(duì)于這些跨越了學(xué)歷階段之間的預(yù)測(cè)分析并不適用于國(guó)內(nèi)的教育體制,兩個(gè)問題:1.首先以GGPA評(píng)定整個(gè)學(xué)歷的學(xué)習(xí)行為未免過于粗糙,我們難以察覺出學(xué)生的具體特征;2.對(duì)于特定課程的預(yù)測(cè)需要用與之相關(guān)的解釋變量做模型訓(xùn)練才更有意義,然而如果學(xué)習(xí)階段相差過大,學(xué)習(xí)內(nèi)容和環(huán)境都有很大差別,這樣極大弱化了自變量和目的變量之間的相關(guān)性,使得預(yù)測(cè)結(jié)果的說服力大大降低。

為了克服這兩點(diǎn)矛盾因素,我們將預(yù)測(cè)素材和預(yù)測(cè)目標(biāo)都鎖定在本科教育階段。圖1列出了目前主流的計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)的培養(yǎng)課程體系的主要內(nèi)容。方案的主要思想是將重要的基礎(chǔ)課程放在大一大二兩個(gè)學(xué)年,將較為高階和關(guān)鍵的專業(yè)課放在大三學(xué)年,大四學(xué)年供學(xué)生根據(jù)自己意愿自由選擇更偏向于社會(huì)應(yīng)用課程以及畢業(yè)設(shè)計(jì)。以此為指導(dǎo),我們選用課程體系中的學(xué)科基礎(chǔ)課,專業(yè)基礎(chǔ)課作為解釋變量,來預(yù)測(cè)與之相關(guān)的高階專業(yè)課的學(xué)習(xí)成績(jī),以達(dá)到加深對(duì)于學(xué)生學(xué)習(xí)行為的理解,和提前對(duì)學(xué)生學(xué)習(xí)進(jìn)行干預(yù),幫助其更好的完成專業(yè)培養(yǎng)的目的。

1.2 C4.5決策樹算法原理簡(jiǎn)述

決策樹是一種預(yù)測(cè)模型,它以決策節(jié)點(diǎn)、分支和葉節(jié)點(diǎn)的構(gòu)造形式表示,將實(shí)例通過屬性值逐步判別為某個(gè)類別標(biāo)簽上。我們需要用訓(xùn)練數(shù)據(jù)集來做決策樹模型訓(xùn)練,然后將得到的樹形結(jié)構(gòu)進(jìn)行保存并應(yīng)用到測(cè)試數(shù)據(jù)和實(shí)際數(shù)據(jù)中。

本文將使用最為先進(jìn)的C4.5決策樹算法,它基于從上到下的遞歸分治策略,選擇信息熵增益最大的屬性作為樹的根節(jié)點(diǎn),為每一個(gè)可能的屬性值創(chuàng)建分支,這樣將實(shí)例分成多個(gè)子集。算法將遞歸地執(zhí)行這一步驟直到所有子節(jié)點(diǎn)的所有實(shí)例都屬于同一類別,也就是葉節(jié)點(diǎn)的產(chǎn)生。不過要將決策樹算法應(yīng)用到成績(jī)預(yù)測(cè)問題的最關(guān)鍵部分在于我們要調(diào)整我們的數(shù)據(jù)集。決策樹算法需要應(yīng)用在擁有名稱性類別屬性的數(shù)據(jù)集上,我們需要將我們的目標(biāo)課程成績(jī)離散化后才能使用算法,具體的離散方法會(huì)在第2.1節(jié)講到。在weka中C4.5的實(shí)現(xiàn)是J48算法,我們可以通過調(diào)節(jié)api提供的多種參數(shù)來改變決策樹的生成和修剪過程,使得預(yù)測(cè)模型規(guī)模更加符合我們的預(yù)期,而且也往往伴隨著預(yù)測(cè)效果的提升。

2 決策樹預(yù)測(cè)方案的設(shè)計(jì)

2.1 數(shù)據(jù)預(yù)處理

為了構(gòu)建預(yù)測(cè)模型,我們需要將多門課程的成績(jī)數(shù)據(jù)合并到同一數(shù)據(jù)集下,并指定數(shù)據(jù)的目標(biāo)類別屬性(預(yù)測(cè)的專業(yè)課程)。為了將數(shù)據(jù)構(gòu)建成分類模型,我們需要將預(yù)測(cè)的專業(yè)課程成績(jī)離散化,把數(shù)值型屬性轉(zhuǎn)換成名詞型屬性。成績(jī)的離散化可以通過表1的方式進(jìn)行轉(zhuǎn)化。

由于數(shù)據(jù)收集來源和渠道的多樣化,在數(shù)據(jù)預(yù)處理階段不可避免的遇到缺失值的處理問題。在實(shí)際教育場(chǎng)景中,成績(jī)?nèi)笔У闹饕蚍譃閮煞N:

(1)學(xué)生缺考或者申請(qǐng)緩考,這兩種成績(jī)?nèi)笔怯捎诙喾N客觀因素造成的,然而一般都會(huì)有相應(yīng)的補(bǔ)考數(shù)據(jù)存在。為了正確判斷學(xué)生的學(xué)習(xí)表現(xiàn),我們應(yīng)該用對(duì)應(yīng)的補(bǔ)考成績(jī)替換缺考的缺失值。如果實(shí)在找不到可替代的值,將其置為0或者“未通過”。

(2)學(xué)生流失,原因包括輟學(xué)或者轉(zhuǎn)專業(yè)等。事實(shí)證明,高校專業(yè)范圍內(nèi)每級(jí)的學(xué)生流失率平均要達(dá)到3%到7%左右,這部分學(xué)生未能完成全部專業(yè)培養(yǎng)計(jì)劃,所以他們的數(shù)據(jù)對(duì)于構(gòu)建學(xué)生成績(jī)預(yù)測(cè)模型沒有意義,應(yīng)該被過濾掉。

另外對(duì)于多次補(bǔ)考、重考的數(shù)據(jù)實(shí)例,我們選擇“采用第一次有效成績(jī)作為屬性值”的原則,這樣可以避免補(bǔ)考出現(xiàn)的較高成績(jī)影響我們對(duì)于學(xué)生實(shí)際學(xué)習(xí)行為的判斷,同時(shí)避免了因特殊原因缺考而出現(xiàn)的0分成績(jī)對(duì)于學(xué)生學(xué)習(xí)成果造成的過低估計(jì)。

2.2 剪枝優(yōu)化與模型建立

本文的1.2節(jié)已簡(jiǎn)述了C4.5算法的工作原理,將其應(yīng)用到我們準(zhǔn)備好的數(shù)據(jù)集上就可以得到?jīng)Q策樹模型。然而樹模型在C4.5算法的訓(xùn)練之后完全展開通常會(huì)包含著很多不必要的結(jié)構(gòu),使得樹模型的非常的龐大和繁瑣。所以在應(yīng)用決策樹模型之前最好要進(jìn)行剪枝優(yōu)化。剪枝根據(jù)策略不同分為先剪枝和后剪枝兩類。C4.5算法采用的是后剪枝策略,即在得到?jīng)Q策樹模型以后再反向?qū)ζ湫薷钠浣Y(jié)構(gòu),改變或提升其子樹的位置,使得模型的可信度更高。Weka中為J48算法提供了信心因數(shù)(confidenceFactor)參數(shù)。通過對(duì)信心因數(shù)的調(diào)整,算法會(huì)將具有更高可信度的子樹進(jìn)行提升,從而調(diào)整整個(gè)樹形結(jié)構(gòu)。

2.3 模型評(píng)估

對(duì)于應(yīng)用于分類問題的模型,需要通過準(zhǔn)確率來衡量分類器的性能。模型的建立和評(píng)估往往是一體的,算法需要在訓(xùn)練數(shù)據(jù)集中應(yīng)用,訓(xùn)練出應(yīng)用模型,然后再將模型應(yīng)用到測(cè)試集中得到評(píng)估結(jié)果。測(cè)試集和訓(xùn)練集必須保持獨(dú)立性,才能得到真實(shí)可靠的誤差率,有效的判斷出模型是否存在過度擬合等問題。

一種非常有效的評(píng)估方式是交叉驗(yàn)證法,它不是簡(jiǎn)單的將數(shù)據(jù)集分割成訓(xùn)練集和測(cè)試集,而是對(duì)整體數(shù)據(jù)集分割成多等份,每次選用其中一份作為測(cè)試集,其余數(shù)據(jù)作為訓(xùn)練集。將每一次訓(xùn)練出的模型進(jìn)行測(cè)試并得到結(jié)果,然后將得的預(yù)測(cè)精度取出均值和方差,得到最準(zhǔn)確的評(píng)估反饋。最后,將算法應(yīng)用于整體數(shù)據(jù)集訓(xùn)練出最終的模型結(jié)果。本文采用的是十折交叉驗(yàn)證算法作為模型的評(píng)估手段,即將數(shù)據(jù)集平均分成十份,完成十一次建模過程來得出最終的模型及其性能數(shù)據(jù)。

3 實(shí)驗(yàn)驗(yàn)證與結(jié)果分析

本次研究中我們用收集到的了某高校計(jì)算機(jī)科學(xué)專業(yè)的整級(jí)學(xué)生的專業(yè)課數(shù)據(jù)信息,包括其培養(yǎng)計(jì)劃內(nèi)的專業(yè)基礎(chǔ)課和高階專業(yè)課中的“數(shù)據(jù)庫(kù)系統(tǒng)課程設(shè)計(jì)”共12門課程的等級(jí)成績(jī),通過預(yù)處理篩選無效實(shí)例后,最后得到424個(gè)數(shù)據(jù)實(shí)例。本章通過應(yīng)用第二章闡述的方案設(shè)計(jì)流程,以高階專業(yè)課的等級(jí)作為預(yù)測(cè)的目標(biāo)類別屬性,完成學(xué)生成績(jī)預(yù)測(cè)模型的創(chuàng)建,并從模型結(jié)果中提取出規(guī)則結(jié)論。

3.1 可視化分析與分類基線精準(zhǔn)度

圖2展示了離散化以后weka的數(shù)據(jù)可視化結(jié)果,從圖中可以看到類別屬性“數(shù)據(jù)庫(kù)系統(tǒng)課程設(shè)計(jì)”的等級(jí)成績(jī)的每個(gè)屬性值的分布情況。

另外,在評(píng)估模型性能之前按需要一個(gè)基準(zhǔn)線來對(duì)數(shù)據(jù)的可預(yù)測(cè)性做大致考量。OneR算法是一個(gè)非常簡(jiǎn)單有效的分類算法,它會(huì)尋找出數(shù)據(jù)集中對(duì)于目標(biāo)預(yù)測(cè)的貢獻(xiàn)值最突出的屬性作為唯一的分類依據(jù)。本例中OneR選擇了計(jì)算機(jī)導(dǎo)論的成績(jī),得出本數(shù)據(jù)集的分類基準(zhǔn)線在40.7%。

3.2 決策樹模型分析

我們將數(shù)據(jù)載入weka平臺(tái),并調(diào)用J48算法對(duì)其進(jìn)行建模。并不斷調(diào)整minNumObj參數(shù)以獲得最佳的樹形結(jié)構(gòu),最終結(jié)果如圖3所示。

交叉驗(yàn)證的結(jié)果顯示決策樹模型的預(yù)測(cè)性能為83%,明顯高于基線精準(zhǔn)度。從圖中可以看出,模型以“計(jì)算機(jī)導(dǎo)論”作為模型根節(jié)點(diǎn),可見其是信息熵增益最強(qiáng)的屬性,其次是數(shù)據(jù)結(jié)構(gòu),算法設(shè)計(jì)與分析和離散數(shù)學(xué)等。因此在眾多基礎(chǔ)課程中,“計(jì)算機(jī)導(dǎo)論”與“數(shù)據(jù)結(jié)構(gòu)”對(duì)于預(yù)測(cè)目標(biāo)課程“數(shù)據(jù)庫(kù)系統(tǒng)課程設(shè)計(jì)”的成績(jī)的貢獻(xiàn)度最大,對(duì)于預(yù)測(cè)結(jié)果較差的學(xué)生應(yīng)著重增強(qiáng)對(duì)這兩門成績(jī)的補(bǔ)習(xí)。

從圖4所示的混淆矩陣中我們注意到,決策樹模型對(duì)于成績(jī)較低的“未通過”與“通過”兩個(gè)類別的判斷比較準(zhǔn)確,這意味著這個(gè)模型可以較好的預(yù)測(cè)出有掛科傾向的學(xué)生,模型可以幫助我們有效的避免學(xué)生掛科,及時(shí)進(jìn)行有針對(duì)性的補(bǔ)習(xí),有很高的實(shí)用價(jià)值。

我們可以根據(jù)這些屬性之間的相對(duì)關(guān)系來判斷學(xué)生未來的學(xué)習(xí)趨勢(shì),進(jìn)行提前干預(yù)和矯正,讓其在專業(yè)學(xué)習(xí)上取得更好的成就。這些規(guī)律都會(huì)對(duì)矯正學(xué)生學(xué)習(xí)行為,輔助教育決策的優(yōu)化起到很好的輔助作用。

4 結(jié)論與展望

4.1 結(jié)論

本文結(jié)合教育環(huán)境中的成績(jī)數(shù)據(jù)特點(diǎn),應(yīng)用經(jīng)典的C4.5決策樹算法為本科生的專業(yè)學(xué)習(xí)表現(xiàn)構(gòu)建了完整的預(yù)測(cè)模型方案,包括將數(shù)據(jù)進(jìn)行必要的與處理工作來適應(yīng)建模算法的要求,對(duì)決策樹模型的剪枝優(yōu)化,以及最后用十折交叉驗(yàn)證方法對(duì)模型性能的評(píng)估等。

此外,本文對(duì)采集到的某高校計(jì)算機(jī)科學(xué)技術(shù)專業(yè)424個(gè)實(shí)例構(gòu)成的數(shù)據(jù)集的進(jìn)行了分類建模分析,以“數(shù)據(jù)庫(kù)系統(tǒng)課程設(shè)計(jì)”的成績(jī)預(yù)測(cè)為例,完成了整個(gè)數(shù)據(jù)建模流程,得出了能夠有效識(shí)別學(xué)生學(xué)習(xí)行為并預(yù)測(cè)學(xué)生未來成績(jī)的決策樹模型,并從中推導(dǎo)出了一些有價(jià)值的規(guī)則。

4.2 展望

本次研究有很多環(huán)節(jié)可以做更多補(bǔ)充和完善。首先對(duì)于學(xué)生特征來講除了課程成績(jī)以外,任課教師和出勤率等因素也可能導(dǎo)致對(duì)學(xué)習(xí)造成較大影響。然而由于本次研究所采集的數(shù)據(jù)數(shù)量集較小,無法很好地反映出這種變化幅度較輕的因素帶來的影響。在將來的研究中我們可以擴(kuò)大研究對(duì)象范圍,擴(kuò)展更多屬性作為分析因子,得出更加全面的結(jié)論。

猜你喜歡
計(jì)算機(jī)應(yīng)用數(shù)據(jù)挖掘
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
網(wǎng)絡(luò)信息安全技術(shù)管理背景下計(jì)算機(jī)應(yīng)用研討
詮釋CFC精髓的大數(shù)據(jù)時(shí)代醫(yī)學(xué)案例
關(guān)于應(yīng)用計(jì)算機(jī)輔助藝術(shù)設(shè)計(jì)有關(guān)問題研究
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘的分析與探索
基于GPGPU的離散數(shù)據(jù)挖掘研究