黃宇達(dá) 侯艷芳 王迤冉
(1.西南科技大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,四川綿陽621010;2.周口職業(yè)技術(shù)學(xué)院信息工程系,河南周口466000;3.周口師范學(xué)院計算機(jī)科學(xué)與技術(shù)學(xué)院,河南周口466001)
摘要:該文首先對決策樹技術(shù)相關(guān)理論和SQL Server 2008 BI平臺作了介紹,然后對用于挖掘分析的數(shù)據(jù)源進(jìn)行了預(yù)處理。利用SQL Server 2008 BI平臺下的決策樹分類技術(shù)和DMX語言即數(shù)據(jù)挖掘擴(kuò)展語言創(chuàng)建了課程成績分析決策樹模型。挖掘提升圖和分類矩陣對該模型的評估結(jié)果表明模型具有較高的可靠性和分類準(zhǔn)確度,同時模型對應(yīng)的一些規(guī)則和模式可作為課程教學(xué)管理及改革的重要參考依據(jù)。
關(guān)鍵詞:決策樹技術(shù);SQL Server 2008 BI平臺;ETL過程;DMX語言;分類矩陣;挖掘提升圖
中圖分類號:TP391文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2012)16-3759-05
Course Achievement Analysis Based on Decision Tree Technology and SQL Server BI Platform
HUANG Yu-da1,2,HOU Yan-fang2,WANG Yi-ran3
(1.College of Computer Science and Technology,Southwest University of Science and Technology,Mianyang 621010,China;2. Informa tion and Engineering Department,Zhoukou Vocational and Technical College,Zhoukou 466000,China;3. College of Computer Science and Technology, Zhoukou Normal University,Zhoukou 466000, China)
Abstract: The paper first introduces basic theory about decision tree technology and SQL Server 2008 BI platform and,and then prepro cessing on data source for mining analysis.Using decision tree classifying technology in SQL Server 2008 BI platform,and DMX language , namely data mining extension language,to create the decision tree model of course score analysis.The evaluation results show that the model has high reliability and classification accuracy by mining enhance figure and classification matrix, meanwhile,these rules corresponding to the model can be used as important reference for management and reform of course teaching.
Key words: decision tree technology;SQL Server 2008 BI platform;ETL process;DMX language; classification matrix; mining enhance figure
目前,對于學(xué)校每一個專業(yè)所開設(shè)的多門課程而言,這些課程在該專業(yè)領(lǐng)域的地位和重要性并非全部相同。同一個專業(yè),不管是專業(yè)基礎(chǔ)課還是專業(yè)課,總有那么幾門課程無論是對學(xué)生的學(xué)期成績還是甚至對將來的就業(yè)、本專業(yè)領(lǐng)域的繼續(xù)深造等具有至關(guān)重要的影響。相對來說,學(xué)校應(yīng)注重并不斷加強(qiáng)對這些骨干課程的教學(xué)及管理力度[1],想法設(shè)法讓學(xué)生能在這些專業(yè)骨干課程方面都取得優(yōu)異成績。因此,采用合理的挖掘技術(shù)對一些專業(yè)骨干課程學(xué)生成績數(shù)據(jù)作進(jìn)一步的深入挖掘分析、找出一些影響課程成績的潛在而有用的模式并將其作為課程教學(xué)改革的參考依據(jù)等諸如此類工作的開展是很有必要而迫切的[2]。
《工程測量》屬于道路橋梁工程技術(shù)專業(yè)的一門重要骨干課程,該課程的教學(xué)及考核分理論及實踐兩個環(huán)節(jié)。該文以筆者所在單位2008級、2009級、2010級學(xué)生該門課程成績相關(guān)數(shù)據(jù)作為挖掘分析對象,利用SQL Server 2008 BI平臺中的Microsoft決策樹技術(shù)對其進(jìn)行挖掘分析,期望能找出一些潛在的與該門課程的考試成績、教師教學(xué)和學(xué)生學(xué)習(xí)等情況切實相符的模式并將其作為教學(xué)管理、改革及決策的重要依據(jù)。
圖6上圖5對應(yīng)的的挖掘圖例
其中,圖5中X軸表示從測試集中抽取的事例數(shù)所占測試集總體事例數(shù)的百分比,Y軸表示從測試集中抽取的事例數(shù)中滿足可預(yù)測列M=“是”條件的事例數(shù)所占測試集總體事例數(shù)中滿足可預(yù)測列M=“是”條件的百分比。
通過圖5和圖6不難發(fā)現(xiàn),生成的模型對應(yīng)的紅色提升曲線軌跡非常接近理想模型下對應(yīng)的綠色提升曲線軌跡,而且從它們分別對應(yīng)的挖掘圖例中不難看出,該模型具有較高的預(yù)測準(zhǔn)確率。
生成的《工程測量》課程成績分析決策樹模型如圖7所示。
另外,考慮到生成的課程成績分析決策樹模型的形狀較大且對應(yīng)的規(guī)則較多,所以這里只從模型中抽取出一些較為典型且具有實際參考意義的規(guī)則并加以分析。其中,表1中的A、B、C、D、E、F、M字母含義分別為:興趣度、教師授課情況、課前預(yù)習(xí)情況、實踐環(huán)節(jié)掌握情況、課堂掌握情況、課后復(fù)習(xí)情況、課程成績是否為“優(yōu)”。該模型對應(yīng)的事例總數(shù)為1411*70%=988。
首先,在對挖掘出的規(guī)則解釋分析之前,需要明確的是:《工程測量》作為道路橋梁工程技術(shù)專業(yè)的一門專業(yè)基礎(chǔ)課程,該課程與數(shù)學(xué)相關(guān)知識有一定聯(lián)系,學(xué)生完全靠自學(xué)有一定難度,而且該課程的考核是理論與實踐環(huán)節(jié)各占成績的60%與40%。
規(guī)則4和規(guī)則9表明:即使學(xué)生在課后不怎么復(fù)習(xí),只要在課前認(rèn)真預(yù)習(xí),找出不懂的地方,然后在課堂上有的放矢的加以聽講,如果教師在課堂上又講得很透徹或者學(xué)生本人課堂上聽得很專心,這樣只要實踐環(huán)節(jié)不為差的情況下該門課程成績基本上都能取得“優(yōu)”。因為學(xué)生錄取類型為高職類型,基礎(chǔ)差、底子薄,而且高中階段數(shù)學(xué)一般都不太好,再加上該門課程與數(shù)學(xué)有一定聯(lián)系,所以課前如果不預(yù)習(xí)則很可能導(dǎo)致課堂上聽不懂以產(chǎn)生惡性循環(huán)。另外,規(guī)則5也說明了課前預(yù)習(xí)的重要性。
規(guī)則1充分說明了課后復(fù)習(xí)、課堂掌握情況、實踐環(huán)節(jié)這三個因素對該門課程成績的重要影響??梢哉f,如果課后及時做好復(fù)習(xí),那么課堂上即使教師教學(xué)效果并不很好,學(xué)生也能把講到的很多知識點理解消化的,這樣在后續(xù)實踐環(huán)節(jié)課上也能輕松應(yīng)對并熟練掌握課堂上涉及到的相關(guān)實踐技能操作,從而導(dǎo)致學(xué)生該門課程成績?yōu)椤皟?yōu)”。規(guī)則6表明在做好課后及時復(fù)習(xí)、課堂上認(rèn)真聽講的情況下,如果學(xué)生本人對該門課程的學(xué)習(xí)有一定的興趣,那么會導(dǎo)致學(xué)生在實踐環(huán)節(jié)上更會有較大的興趣,興趣是最好的老師,從而使得該生具有較好的實踐環(huán)節(jié)成績,這樣也可確保成績?yōu)椤皟?yōu)”。
規(guī)則2和規(guī)則7、規(guī)則10表明了實踐環(huán)節(jié)對該門課程成績的重要影響。對于高職學(xué)生來說,關(guān)鍵在于努力培養(yǎng)好他們的實踐操作技能。應(yīng)本著“理論夠用、重在實踐”的教學(xué)原則給學(xué)生創(chuàng)造更多的實踐機(jī)會,讓學(xué)生在實踐環(huán)節(jié)中不斷激起學(xué)習(xí)興趣的同時也掌握了更多的實踐技能。規(guī)則8表明如果學(xué)生課前不預(yù)習(xí)、課后不復(fù)習(xí)再加上該門課程與數(shù)學(xué)的相關(guān)性即知識點連貫性較強(qiáng),從而導(dǎo)致學(xué)生出現(xiàn)較差的課堂掌握效果,那么即使老師在課堂上講得很生動、翔實,但由于學(xué)生聽不懂仍然不能取得好的成績。
該文利用DMX語言和SQL Server 2008 BI平臺下的Microsoft決策樹技術(shù)創(chuàng)建了一門骨干課程成績分析決策樹模型并利用挖掘提升圖和分類矩陣分別對其準(zhǔn)確性進(jìn)行了評估。評估結(jié)果表明該模型具有較高的魯棒性和準(zhǔn)確性。可讓該模型對應(yīng)的規(guī)則、模式與該門課程的教學(xué)實際情況深入結(jié)合和分析,以便進(jìn)一步提高該門課程的教學(xué)質(zhì)量。另外,在其它專業(yè)及其它骨干課程的成績分析以及生成模型的成績預(yù)測應(yīng)用將是筆者下一步主要研究內(nèi)容之一。