張俊杰,袁 樺,尹 鵬
(1.武漢紡織大學(xué) 數(shù)學(xué)與計算機(jī)學(xué)院,湖北武漢 430074;2.武漢冶金管理干部學(xué)院,湖北武漢 430081)
教育信息化是我國教育發(fā)展的必然趨勢,重視教學(xué)過程的信息分析是實(shí)現(xiàn)教育信息化的基礎(chǔ)和條件。然而隨著教育技術(shù)的不斷發(fā)展,教育信息數(shù)據(jù)的豐富,一方面為我們教學(xué)提供有用的教育信息,另一方面教育信息數(shù)據(jù)的不斷膨脹導(dǎo)致我們面對大量的數(shù)據(jù)無法獲得最想要的信息,這樣教育改革常常不是基于數(shù)據(jù)庫中的有用信息,而是基于決策者的經(jīng)驗(yàn)。這就不可能實(shí)現(xiàn)信息在教育領(lǐng)域中的有效應(yīng)用,從而使得數(shù)字化資源的作用打了折扣。
因此,數(shù)字化資源的利用也是一個非常重要的方面,利用這些數(shù)據(jù)理性地分析學(xué)校教育改革的效果變得十分重要。數(shù)據(jù)挖掘技術(shù)能從大量數(shù)據(jù)中發(fā)現(xiàn)有用的知識,這些知識對高校教育管理的決策支持將是十分有意義的。
武漢紡織大學(xué)線性代數(shù)智能教學(xué)平臺于2006年正式用于教學(xué),全國已有80多所高校使用,注冊用戶達(dá)5萬多人,測試次數(shù)達(dá)100多萬人次,該平臺受到了教師和學(xué)生的一致好評。但是該平臺數(shù)據(jù)庫中積累的大量的數(shù)據(jù),并沒有完全被有效的使用,平臺中的數(shù)據(jù)管理系統(tǒng),只是提供查詢功能,并沒有對數(shù)據(jù)加以分析,所以無法為該課程教學(xué)改革提供依據(jù),本文就是要用數(shù)據(jù)挖掘技術(shù)從大量被忽略的數(shù)據(jù)中發(fā)現(xiàn)有用的知識,為今后教學(xué)改革提供方向。
目前,數(shù)據(jù)挖掘較多地應(yīng)用于零售、電信、金融,特別在零售營銷領(lǐng)域中,用于發(fā)現(xiàn)交易數(shù)據(jù)中不同商品之間的聯(lián)系,從而找出顧客的購買行為模式,如購買了某一商品對其它商品的影響。在已有的數(shù)據(jù)挖掘應(yīng)用中,較少發(fā)現(xiàn)用于教育信息的挖掘,更少看到直接對反映學(xué)生學(xué)習(xí)情況的數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則的挖掘,而事實(shí)上數(shù)據(jù)挖掘技術(shù)同樣可以應(yīng)用于教育領(lǐng)域,為課程教學(xué)改革提供新的方法。
數(shù)據(jù)挖掘技術(shù)在教育中的典型應(yīng)用主要集中在以下幾個方面:
1.師生行為提前干預(yù)
學(xué)校教學(xué)管理數(shù)據(jù)庫中記錄著各屆學(xué)生與教師的學(xué)習(xí)、教學(xué)等情況。利用數(shù)據(jù)挖掘的關(guān)聯(lián)分析等功能,尋找?guī)熒鞣N行為活動之間的內(nèi)在聯(lián)系。
2.課程合理設(shè)置
由于課程之間存在一定的關(guān)聯(lián)和先后順序關(guān)系,學(xué)生在學(xué)習(xí)較高級課程前必須完成先行課程的學(xué)習(xí),如果順序顛倒,勢必影響學(xué)習(xí)效果。
3.學(xué)生學(xué)習(xí)和教師工作評價
利用數(shù)據(jù)挖掘工具,對學(xué)習(xí)成績數(shù)據(jù)庫、教學(xué)運(yùn)行數(shù)據(jù)庫、科研工作數(shù)據(jù)庫等進(jìn)行分析處理,可以及時得到對學(xué)生和教師的評價結(jié)果,達(dá)到促進(jìn)學(xué)習(xí)、教學(xué)水平的不斷提高。
本文數(shù)據(jù)來自線性代數(shù)智能教學(xué)平臺中6個班級,共187位學(xué)生,每位學(xué)生對應(yīng)7份成績:第一章(chapter1)、第二章(chapter2)、第三章(chapter3)、第四章(chapter4)、第五章(chapter5)、綜合測試成績(composite)和卷面成績(paper grade)。通過關(guān)聯(lián)規(guī)則和決策樹方法對這些數(shù)據(jù)進(jìn)行分析,得出一些規(guī)則,指導(dǎo)教師教學(xué)和學(xué)生學(xué)習(xí),提高教育的信息化水平。
本文使用Weka軟件作為此次數(shù)據(jù)挖掘的軟件。Weka是一個功能全面的數(shù)據(jù)挖掘應(yīng)用平臺,Weka通過實(shí)現(xiàn)各種學(xué)習(xí)算法,使用戶能夠很容易地將其應(yīng)用于所要處理的數(shù)據(jù)集中,用戶可以先將一個數(shù)據(jù)集進(jìn)行預(yù)處理,然后置其于一種學(xué)習(xí)方案中,并對所得出的分類器及其性能表現(xiàn)做出分析。
本文中使用到的兩種數(shù)據(jù)挖掘方法介紹:
1.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的挖掘是由R.A-grawal等人提出來的。關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項(xiàng)之間某種潛在關(guān)系的規(guī)則,它已成為數(shù)據(jù)挖掘中非常重要的一個方向。
2.決策樹。決策樹方法主要用于數(shù)據(jù)分類。一般分成兩個階段:樹的構(gòu)造和樹的修剪。首先利用訓(xùn)練數(shù)據(jù)生成一個測試函數(shù),根據(jù)不同取值建立樹的分支;在每個分支子集中重復(fù)建立下層結(jié)點(diǎn)和分支,從而生成一顆決策樹。然后對決策樹進(jìn)行剪枝處理,最后決策樹轉(zhuǎn)化為規(guī)則,利用這些規(guī)則可以對新事例進(jìn)行分類。
在開始數(shù)據(jù)挖掘前,還需要對數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)處理的步驟:(1)數(shù)據(jù)獲取;(2)預(yù)處理;(3)數(shù)據(jù)轉(zhuǎn)換;(4)裝入數(shù)據(jù);(5)過濾屬性;(6)離散化。
根據(jù)以上步驟處理好數(shù)據(jù),然后用關(guān)聯(lián)規(guī)則方法,我們得到以下規(guī)則:
在這10條規(guī)則中,箭頭前面的數(shù)字表示的是箭頭前面的前提條件為真的實(shí)例數(shù),箭頭后面的數(shù)字代表箭頭后面的結(jié)論也為真的實(shí)例數(shù);置信度(括號中的)是二者的比。從上可以看到chapter1、chapter2、chapter3、chapter4 之間的強(qiáng)關(guān)聯(lián),置信度都在91%以上,充分說明了它們之間的緊密聯(lián)系。
規(guī)則1說明,一個學(xué)生的 chapter1、chapter2和chapter4的成績都屬于這個區(qū)間,那么他的chapter3成績有98%的可能性也屬于區(qū)間。規(guī)則7說明,一個學(xué)生 chapter1、chapter2的成績都屬于這個區(qū)間,那么他chapter3的成績92%的可能性也是屬于這個區(qū)間。
下面讓我們來從各章所包含的知識點(diǎn)來佐證我們通過關(guān)聯(lián)得出的規(guī)則,表1是各章節(jié)所包含的知識點(diǎn)及其分?jǐn)?shù)。
表1 知識點(diǎn)分布
從上表我們也可以看到前四章的知識點(diǎn)的關(guān)聯(lián)性要比它們和第五章的關(guān)聯(lián)性要大,這是由于知識點(diǎn)過少,且有些知識點(diǎn)劃分的比較模糊造成的,部分知識點(diǎn)存在交集。如果我們研究的屬性數(shù)目再多一些,而且屬性值之間的交集都是空集,實(shí)例數(shù)再大些的話,得到的規(guī)則就更清晰,更具有說服力。
應(yīng)用到教學(xué),就是在以后的教學(xué)過程中,要把那些分析得到的強(qiáng)關(guān)聯(lián)的知識點(diǎn)或者章節(jié)有意的放到一起或者集中講解。因?yàn)檫@些知識或者章節(jié)的相關(guān)性很強(qiáng),集中講解能夠收到事半功倍的教學(xué)效果。既節(jié)省了教師授課時間,降低了以后再復(fù)習(xí)的難度,也讓學(xué)生在同一時間能夠接受更多的知識,因?yàn)樗鼈兿嚓P(guān),具有一定的相似性,所以理解和掌握起來就會相對容易些。如果摻雜著其他關(guān)聯(lián)性不大的知識點(diǎn)一起講解,那么學(xué)生的接受理解能力可能一時無法達(dá)到理想狀態(tài)。
用決策樹方法我們得到以下結(jié)果,見圖1。
圖1形象直觀的為我們展示了通過分類而得到的決策樹,從決策樹可以看到,如果學(xué)生的chapter4的成績低于46分,chapter5的成績低于44分,不管他的chapter1的成績是多少,那么他的卷面成績都不會太好。這說明chapter4和chapter5對學(xué)生卷面成績的影響是很顯著的。從表1也可以看出chapter4和chapter5包含的知識點(diǎn)主要是最大無關(guān)組、方程組解的結(jié)構(gòu)、過渡矩陣和正交向量組、正交矩陣、二次型,這兩章基本涵蓋了前三章的所以知識點(diǎn),可以說這兩章是前三章的融合和提升。這就可以解釋了為什么不管他第一章的成績?nèi)绾?只要他的chapter4和chapter5成績不理想,那么就決定了他的卷面成績也一定不理想。這就需要學(xué)生和老師在chapter4和chapter5上下足功夫,學(xué)生要好好理解知識點(diǎn),老師要重點(diǎn)講好這兩章。
我們也可以看到有3位學(xué)生的chapter4和composite成績都很不錯,但最終的卷面成績卻在34-67區(qū)間,除了發(fā)揮失誤之外,最大的可能就是平時作業(yè)作弊了。同是chapter4和composite成績都很不錯的29位學(xué)生,他們的卷面成績都在68-max區(qū)間,這樣的結(jié)果才是一個正常的結(jié)果。
圖1 決策樹結(jié)果
對于無法熟悉學(xué)生學(xué)習(xí)情況的教師來說,數(shù)據(jù)挖掘是個好工具,它形象直觀為教師呈現(xiàn)了不同分析方式的結(jié)果,使老師能夠深入了解學(xué)生學(xué)習(xí)情況,以及所任課程的知識點(diǎn)難易程度,為以后的教學(xué)和輔導(dǎo)提供了很強(qiáng)的針對性。
實(shí)踐表明,對大量數(shù)據(jù)進(jìn)行深層次挖掘和分析,得到一些被我們忽視的有價值的信息,對我們研究學(xué)生的成績和提升教師的教學(xué)都有很大幫助。
[1]黃成.教育信息數(shù)據(jù)挖掘初探[J].現(xiàn)代遠(yuǎn)距離教育.2006,(4):64-66.
[2]郭曉磊.數(shù)據(jù)挖掘在教育信息化中的應(yīng)用[J].農(nóng)業(yè)圖書情報學(xué)刊.2007,(5):128-134.
[3]K.P.Soman著,范明,牛常勇譯.數(shù)據(jù)挖掘基礎(chǔ)教程[M].北京:機(jī)械工業(yè)出版社,2009.
[4]高巨山,郭健.數(shù)據(jù)挖掘技術(shù)在教育信息化中的應(yīng)用研究[J].中國教育信息化,2007,(9):75-76.