劉靜
(阜陽(yáng)師范學(xué)院 教育科學(xué)學(xué)院,安徽 阜陽(yáng) 236037)
基于決策樹(shù)技術(shù)的CET-4成績(jī)數(shù)據(jù)挖掘研究
劉靜
(阜陽(yáng)師范學(xué)院 教育科學(xué)學(xué)院,安徽 阜陽(yáng) 236037)
本文運(yùn)用決策樹(shù)分類技術(shù)進(jìn)行數(shù)據(jù)挖掘,從中發(fā)現(xiàn)CET-4考試四個(gè)部分對(duì)總成績(jī)的影響程度.其中由決策樹(shù)提取出分類規(guī)則,對(duì)于大學(xué)英語(yǔ)教學(xué)具有一定的指導(dǎo)意義.
數(shù)據(jù)挖掘;決策樹(shù);ID3算法
CET-4考試是國(guó)家教育部組織的標(biāo)準(zhǔn)化英語(yǔ)教學(xué)水平考試,教育管理機(jī)構(gòu)把它當(dāng)作檢查大學(xué)英語(yǔ)教學(xué)效果的一個(gè)有效尺度.每一年學(xué)校的數(shù)據(jù)庫(kù)系統(tǒng)中都存放著海量的CET-4成績(jī)信息,學(xué)校的數(shù)據(jù)庫(kù)能夠?qū)崿F(xiàn)數(shù)據(jù)的快速錄入、查找、計(jì)算等操作,卻無(wú)法發(fā)現(xiàn)成績(jī)數(shù)據(jù)中隱藏的關(guān)系和規(guī)則.本文主要研究的就是如何從海量數(shù)據(jù)中發(fā)現(xiàn)隱藏的關(guān)系和規(guī)則,分析潛在影響學(xué)生成績(jī)的因素,從而為提高教學(xué)質(zhì)量與教育管理提供依據(jù).
數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過(guò)算法發(fā)現(xiàn)隱藏于其中關(guān)系和規(guī)則的過(guò)程.數(shù)據(jù)挖掘有很多領(lǐng)域,分類就是非常重要的一個(gè)分支.決策樹(shù)是一種較為流行的分類技術(shù),采用自頂向下的遞歸方式生成一個(gè)類似于流程圖的樹(shù)型結(jié)構(gòu).
1986年J·Ross Quinlan提出了著名的ID3算法.該算法就是信息增益屬性劃分,找出分裂后信息增益屬性最大的再次劃分.然后繼續(xù)同樣的過(guò)程,直到生成的決策樹(shù)能完美分類訓(xùn)練樣例.
4.1數(shù)據(jù)獲取和數(shù)據(jù)預(yù)處理
4.1.1數(shù)據(jù)的獲取
從教務(wù)處下載了我校普通本科班2012屆學(xué)生某專業(yè)某次四級(jí)成績(jī)匯總表.
圖1 大學(xué)英語(yǔ)四級(jí)成績(jī)?cè)紨?shù)據(jù)
4.1.2數(shù)據(jù)預(yù)處理
去除原有數(shù)據(jù)源EXCEL表格中的不相關(guān)字段,保留CET-4總成績(jī)、聽(tīng)力成績(jī)、閱讀成績(jī)、寫(xiě)作成績(jī)、綜合測(cè)試成績(jī).使用忽略元組的方法將缺考學(xué)生的記錄刪除,共計(jì)175條.經(jīng)過(guò)數(shù)據(jù)預(yù)處理后參加模型構(gòu)建的樣本數(shù)共計(jì)3384條,而預(yù)處理前的樣本總數(shù)是3559條,樣本的有效率達(dá)90.8%.
將樣本數(shù)據(jù)進(jìn)行離散化的處理.CET-4考試的試卷總分?jǐn)?shù)為710分,將425分作為分割點(diǎn),把CET-4成績(jī)字段y離散為“pass”、“nopass”兩個(gè)部分.
聽(tīng)力部分滿分249分,閱讀部分滿分249分,寫(xiě)作和翻譯部分滿分142分,綜合部分滿分70分.分別將聽(tīng)力字段(st)、閱讀字段(sy)、寫(xiě)作和翻譯字段(sx)、綜合字段(sz)的所有記錄按照 st<=125、125<=st<199、st>=199、sy<=125、125<=sy<199、sy>=199、sx<=71、71<=sx<100、st>=100、sz<35、35<=sz<45、sz>=45離散化為“C”、“B”、“A”三段.
4.2決策樹(shù)分類模型的構(gòu)造
根據(jù)ID3算法構(gòu)造決策樹(shù),操作過(guò)程如下:
(1)計(jì)算決策樹(shù)分類屬性的期望信息量
經(jīng)過(guò)數(shù)據(jù)預(yù)處理、離散化操作后,用于構(gòu)造決策樹(shù)的記錄為3384條,其中,“pass”和“nopass”記錄分別為2015條、1359條.由公式定計(jì)算出分類屬性的期望信息量為:
(2)依次算出st、sy、sx、sz 4個(gè)屬性字段的信息量
算出st屬性字段的信息量.st值為“C”的樣本數(shù)707個(gè),記為 (25,682);st值為“B”的樣本數(shù)2580個(gè),記為(1893,687);st值為“A”的樣本數(shù)97個(gè),記為(97,0).
計(jì)算sy的信息量.sy值為“C”的樣本數(shù)468個(gè),記為(7,461);sy值為“B”的樣本數(shù)2747個(gè),記為(1839,908);sy值為“A”的樣本數(shù)169個(gè),記為(169,0).
計(jì)算sz的信息量.sz值為“C”的樣本數(shù)442個(gè),記為(53,389);sz值為“B”的樣本數(shù)2360個(gè),記為(1414,946);sz值為“A”的樣本數(shù)582個(gè),記為(548,34).
計(jì)算sx的信息量.sx值為“C”的樣本數(shù)645個(gè),記為(59,586);sx值為“B”的樣本數(shù)2333個(gè),記為(1560,773);sx值為“A”的樣本數(shù)406個(gè),記為(396,10).
(3)分別計(jì)算st、sy、sx、sz的信息熵
(4)分別計(jì)算出st、sy、sx、sz的信息增益量
比較以上4個(gè)屬性字段的信息增益量,找出信息增益量最大的st字段,把該字段當(dāng)作決策樹(shù)的根節(jié)點(diǎn),計(jì)算st字段的3個(gè)屬性值構(gòu)造出下面的分支.
圖2 CET-4決策樹(shù)
(5)提取分類規(guī)則
研究顯示,在CET-4考試中,對(duì)CET-4分?jǐn)?shù)影響最大的是聽(tīng)力部分,然后是閱讀,接下來(lái)是寫(xiě)作和綜合.下面從決策樹(shù)模型中,根據(jù)分類結(jié)果為“pass”或“nopass”,提取得到了學(xué)生能否能夠通過(guò)CET-4考試的分類規(guī)則.
提取出CET-4考試結(jié)果為“pass”的分類規(guī)則為:
IF“st”=“A”,THEN分類結(jié)果是“pass”;
IF“st”=“B”AND“sy”=“A”,THEN分類結(jié)果是“pass”;
IF“st”=“B”AND“sy”=“B”AND“sx”=“B”,THEN分類結(jié)果是“pass”;
IF“st”=“B”AND“sy”=“B”AND“sx”=“A”,THEN分類結(jié)果是“pass”;
IF“st”=“B”AND“sy”=“B”AND“sx”=“B”AND“sz”=“A”,THEN分類結(jié)果是“pass”;
提取出CET-4考試結(jié)果為“nopass”的規(guī)則為:
IF“st”=“C”,THEN分類結(jié)果是“nopass”;
IF“st”=“B”AND“sy”=“C”,THEN分類結(jié)果是“nopass”;
IF“st”=“B”AND“sy”=“B”AND“sx”=“B”AND“sz”=“C”,THEN分類結(jié)果是“nopass”;
IF“st”=“B”AND“sy”=“B”AND“sx”=“B”AND“sz”=“B”,THEN分類結(jié)果是“nopass”.
由決策樹(shù)提取出來(lái)的分類規(guī)則,可以輔助指導(dǎo)大學(xué)生的英語(yǔ)學(xué)習(xí).CET-4考試中,聽(tīng)力部分對(duì)能否通過(guò)CET-4考試起到了關(guān)鍵性的作用;然后,是閱讀部分,對(duì)CET-4考試影響較大;最后,寫(xiě)作部分和綜合部分對(duì)CET-4考試的影響較小.在英語(yǔ)學(xué)習(xí)中有些學(xué)生認(rèn)為,CET-4考試中,閱讀和寫(xiě)作是決定CET-4成績(jī)高低的關(guān)鍵,這種認(rèn)識(shí)缺少科學(xué)依據(jù),學(xué)生需要扭轉(zhuǎn)觀念,盡早調(diào)整自己的英語(yǔ)學(xué)習(xí)計(jì)劃,將聽(tīng)力部分作為復(fù)習(xí)重點(diǎn)來(lái)強(qiáng)化練習(xí).同學(xué)們?cè)趥淇嫉倪^(guò)程中,可以參考決策樹(shù)模型以及分類規(guī)則的結(jié)果,找出自己英語(yǔ)學(xué)習(xí)中的短板,進(jìn)一步強(qiáng)化自己的長(zhǎng)項(xiàng),制定適合自己的學(xué)習(xí)目標(biāo)和學(xué)習(xí)計(jì)劃,進(jìn)行針對(duì)性的復(fù)習(xí),科學(xué)有效的提高CET-4成績(jī).
〔1〕Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.188-198.
〔2〕王永梅,胡學(xué)鋼.決策樹(shù)中ID3算法的研究[J].安徽大學(xué)學(xué)報(bào)(自然科學(xué)版),2011(3):35-37.
〔3〕劉紅巖,等.數(shù)據(jù)挖掘中的數(shù)據(jù)分類綜述[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2002,42(6):727-730.
〔4〕陳昌川.數(shù)據(jù)挖掘在大學(xué)英語(yǔ)考試中的應(yīng)用研究[D].重慶:重慶大學(xué),2009.
〔5〕韓亞峰.P2P流媒體數(shù)據(jù)調(diào)度策略研究[J].河南科技學(xué)院學(xué)報(bào)(自然科學(xué)版),2013,41(1):86~90.
〔6〕張科星.基于云計(jì)算的數(shù)字資源系統(tǒng)設(shè)計(jì)[J].河南科技學(xué)院學(xué)報(bào)(自然科學(xué)版),2013,41(1):91~94.
TP391
A
1673-260X(2015)12-0018-02