孫玉榮 羅立宇 黃慧華
【摘要】網(wǎng)絡(luò)教學(xué)的一個(gè)關(guān)鍵問題是如何實(shí)現(xiàn)教與學(xué)的有效結(jié)合,通過關(guān)聯(lián)規(guī)則技術(shù)對收集到的學(xué)生網(wǎng)上學(xué)習(xí)歷史數(shù)據(jù)進(jìn)行分析,可以發(fā)現(xiàn)學(xué)習(xí)時(shí)間、學(xué)習(xí)次數(shù)、BBS討論與測試成績之間的關(guān)聯(lián),幫助教師調(diào)整教學(xué)計(jì)劃;通過分類模型挖掘技術(shù),實(shí)現(xiàn)對學(xué)生的網(wǎng)絡(luò)分層教學(xué),提升教學(xué)質(zhì)量。
【關(guān)鍵詞】數(shù)據(jù)挖掘; 網(wǎng)絡(luò)教學(xué);關(guān)聯(lián)規(guī)則;分類模型
【中圖分類號】G420 【文獻(xiàn)標(biāo)識碼】A 【論文編號】1009—8097(2009)06—0104—03
數(shù)據(jù)挖掘技術(shù)可以從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中人們事先不知道的,但又是潛在有用的信息和知識的過程。通過這種技術(shù)把獲取的信息和知識提供給決策支持系統(tǒng)。這種技術(shù)已廣泛地用于各種應(yīng)用,包括商務(wù)管理、生產(chǎn)控制、市場分析、工程設(shè)計(jì)和科學(xué)探索等[1,2,3] ,隨著信息技術(shù)的發(fā)展,數(shù)據(jù)挖掘在網(wǎng)絡(luò)教學(xué)中的應(yīng)用研究也逐漸深入[4,5,6] 。網(wǎng)絡(luò)教學(xué)成為一種新型教學(xué)手段,理論上學(xué)習(xí)者可以在任何時(shí)間、任何地點(diǎn)以任何形式、從任何章節(jié)開始學(xué)習(xí)任何內(nèi)容,實(shí)現(xiàn)個(gè)性化學(xué)習(xí)。但在網(wǎng)絡(luò)教學(xué)實(shí)施過程中,教學(xué)內(nèi)容和組織活動卻不能隨著學(xué)生的學(xué)習(xí)狀況發(fā)生動態(tài)變化,導(dǎo)致了教與學(xué)脫離的現(xiàn)象,教學(xué)效果達(dá)不到預(yù)期效果。因此可以利用該技術(shù)對收集到的與學(xué)生學(xué)習(xí)相關(guān)的歷史數(shù)據(jù)進(jìn)行分析,從而可以為教師深入理解學(xué)生的實(shí)際學(xué)習(xí)情況,制定相關(guān)的教學(xué)目標(biāo)供 其學(xué)習(xí)提供有力的決策支持,是提升教學(xué)效果的有力手段。
一 擬解決的關(guān)鍵問題
本文探討 在現(xiàn)有的網(wǎng)絡(luò)教學(xué)平臺基礎(chǔ)上,以在教學(xué)信息數(shù)據(jù)庫中采集到的學(xué)生學(xué)習(xí)記錄為樣本,應(yīng)用數(shù)據(jù)挖掘技術(shù),挖掘有用的規(guī)則,探討學(xué)生的學(xué)習(xí)習(xí)慣, 學(xué)習(xí)興趣和學(xué)習(xí)成績間的關(guān)系,從而及時(shí)了解學(xué)生對每一章節(jié)知識的掌握程度并根據(jù)每個(gè)學(xué)生的情況制定下一章節(jié)的教學(xué)目標(biāo),為其提供不同的教學(xué)內(nèi)容,從而使教學(xué)更適合學(xué)生
個(gè)性的發(fā)展,實(shí)現(xiàn)網(wǎng)絡(luò)分層教學(xué),最終實(shí)現(xiàn)教學(xué)過程的動態(tài)調(diào)節(jié)。
二 數(shù)據(jù)預(yù)處理
由于人為的原因、設(shè)備的故障及數(shù)據(jù)傳輸中的錯(cuò)誤,導(dǎo)致現(xiàn)實(shí)世界的數(shù)據(jù)含有臟的、不完整的和不一致的數(shù)據(jù)。數(shù)據(jù)預(yù)處理技術(shù)可以檢測數(shù)據(jù)異常,調(diào)整數(shù)據(jù)并歸約待分析的數(shù)據(jù),從而改進(jìn)數(shù)據(jù)的質(zhì)量,提高其后挖掘過程的精度和性能。
本文數(shù)據(jù)源于《數(shù)據(jù)結(jié)構(gòu)》網(wǎng)絡(luò)教學(xué)課程,48節(jié)理論課,24節(jié)實(shí)驗(yàn),4.5個(gè)學(xué)分。學(xué)生111人,其中06級信息與計(jì)算科學(xué)專業(yè)班合計(jì)64人,07級地理信息系統(tǒng)專業(yè)一個(gè)班計(jì)47人。針對1節(jié)提出的問題,本文通過對網(wǎng)絡(luò)教學(xué)平臺教學(xué)信息數(shù)據(jù)庫中的學(xué)生信息表、學(xué)生學(xué)習(xí)進(jìn)度表、測試信息表等進(jìn)行數(shù)據(jù)挖掘,說明其在網(wǎng)絡(luò)教學(xué)中的應(yīng)用。各表結(jié)構(gòu)如表1至表3所示(本文中學(xué)生信息經(jīng)過掩飾處理)。
其中內(nèi)容是指客觀性考題,如單項(xiàng)選擇題等。主觀性考題,如算法設(shè)計(jì)之類考題可以以教師組織的BBS討論為依據(jù)評分,在此以有效討論次數(shù)(有實(shí)質(zhì)性的討論內(nèi)容)計(jì)算。
首先去除數(shù)據(jù)表中的冗余信息,如學(xué)生信息表中除學(xué)號信息以外的各分項(xiàng)信息,每一章節(jié)學(xué)習(xí)進(jìn)度表中的節(jié)、日期信息,每章測試信息表中的題號、內(nèi)容、答案等信息;對某些匯總數(shù)據(jù)項(xiàng)進(jìn)行離散化處理,如將測試信息表中得分匯總后分為(0,59),(60,85),(85,100)等 3個(gè)組并概化為不及格,合格和優(yōu)秀三個(gè)層次;學(xué)習(xí)時(shí)間匯總后分為(0,2),(2,4),(4,6),(6,)等 四個(gè)組,單位:小時(shí);學(xué)習(xí)次數(shù)匯總后分為(0,3),(3,6),(6,)等 三個(gè)組,BBS討論匯總后分為(0,3),(3,6),(6,)并 概化為積極,參與和不積極三個(gè)層次[7];同時(shí)下一章節(jié)的教學(xué)目標(biāo)制定為三個(gè)層次,內(nèi)容呈現(xiàn)分別表示為A類、B類、C類三個(gè)層次的內(nèi)容,提供給學(xué)生學(xué)習(xí)。然后檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對其中的噪音數(shù)據(jù)進(jìn)行處理。經(jīng)過數(shù)據(jù)預(yù)處理工作,得到一張描述學(xué)生學(xué)習(xí)過程信息的數(shù)據(jù)表格,表4是我們整理出的某一章節(jié)的學(xué)生學(xué)習(xí)情況數(shù)據(jù)。
三 數(shù)據(jù)挖掘過程
主要是利用關(guān)聯(lián)分析、序列模式分析、分類分析和聚類分析等分析方法對數(shù)據(jù)庫中的潛在規(guī)則進(jìn)行挖掘。針對1節(jié)中提出的問題,根據(jù)國內(nèi)外對各類模式挖掘算法的研究[8,9],本文采用FP-Tree關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘和用于 分類模型判定樹歸納算法進(jìn)行數(shù)據(jù)挖掘。
1 關(guān)聯(lián)規(guī)則挖掘
關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系,通過這種挖掘技術(shù)對表4進(jìn)行挖掘,可以發(fā)現(xiàn)學(xué)生的學(xué)習(xí)時(shí)間、學(xué)習(xí)次數(shù)及網(wǎng)絡(luò)課堂討論和學(xué)習(xí)效果之間的關(guān)系,使教師了解學(xué)生的網(wǎng)上學(xué)習(xí)行為和目標(biāo)掌握程度,幫助教師調(diào)整教學(xué)計(jì)劃,如設(shè)計(jì)有意義的討論課題提升學(xué)生的學(xué)習(xí)興趣,從而間接增加學(xué)生的學(xué)習(xí)時(shí)間和學(xué)習(xí)次數(shù)。
首先給出關(guān)聯(lián)規(guī)則的形式化描述:設(shè) 是m個(gè)項(xiàng)的集合,D是數(shù)據(jù)庫事務(wù)的集合,每個(gè)事務(wù)有一個(gè)標(biāo)識符。關(guān)聯(lián)規(guī)則就是形如 的蘊(yùn)含式,其中 ,并且 。規(guī)則的支持度記為 ,是事務(wù)D中包含的 事務(wù)數(shù)與所有事務(wù)數(shù)之比,置信度記為 ,是指包含的 事務(wù)數(shù)與包含的 事務(wù)數(shù)之比。
給定事務(wù)數(shù)據(jù)庫D挖掘關(guān)聯(lián)規(guī)則問題就是產(chǎn)生支持度、置信度分別大于用戶給定的最小支持度和最小置信度的關(guān)聯(lián)規(guī)則。
表5是使用FP-Tree算法對學(xué)生學(xué)習(xí)情況表進(jìn)行挖掘得到的一系列關(guān)聯(lián)規(guī)則(因篇幅限制,本文僅列出部分內(nèi)容)。
從上表可以看出,學(xué)習(xí)時(shí)間在6小時(shí)以上并且成績?yōu)閮?yōu)秀的同學(xué)占全班的20.51%,學(xué)習(xí)時(shí)間6小時(shí)以上的同學(xué)中有34.78%的學(xué)生成績?yōu)閮?yōu)秀。學(xué)習(xí)時(shí)間在2小時(shí)以下的并且成績不及格的同學(xué)占全班的7.69%,學(xué)習(xí)時(shí)間2小時(shí)以下的同學(xué)中有75%的學(xué)生成績不及格。學(xué)習(xí)時(shí)間在6小時(shí)以上,學(xué)習(xí)次數(shù)多于6次且成績?yōu)閮?yōu)秀的學(xué)生占全班的7.69%,這部分同學(xué)中有75%也積極參與BBS討論,而學(xué)習(xí)時(shí)間少于2小時(shí),次數(shù)少于3次,基本不參與討論的同學(xué),不及格率為100%,這部分同學(xué)占全班的7.69%。比例明顯偏高,需要調(diào)整教學(xué)的內(nèi)容和設(shè)計(jì)討論問題以提高學(xué)生的興趣。從表中還可以看出,學(xué)習(xí)次數(shù)多于6次的學(xué)生中有92.31%的學(xué)生其學(xué)習(xí)時(shí)間一般也會超過6小時(shí),這部分學(xué)生占全班的61.54%,通過關(guān)聯(lián)規(guī)則的挖掘,可以掌握學(xué)生網(wǎng)上學(xué)習(xí)行為,從而為教師的教學(xué)策略調(diào)整提供依據(jù),可以更好地進(jìn)行學(xué)生的培養(yǎng)。
2 分類模型挖掘
著名的心理學(xué)家、教育學(xué)家布盧姆提出的掌握學(xué)習(xí)理論認(rèn)為:“只要在提供恰當(dāng)?shù)牟牧虾瓦M(jìn)行教學(xué)的同時(shí)給每個(gè)學(xué)生提供適度的幫助和充分的時(shí)間,幾乎所有的學(xué)生都能完成學(xué)習(xí)任務(wù)或達(dá)到規(guī)定的學(xué)習(xí)目標(biāo)”。
通過構(gòu)造判定樹可以建立學(xué)生分層教學(xué)模型,并依據(jù)判定樹為學(xué)生提供不同層次的教學(xué)內(nèi)容而 實(shí)現(xiàn)對學(xué)生的網(wǎng)絡(luò)分層教學(xué)。分類模型判定樹歸納算法主要表述為計(jì)算每個(gè)屬性的信息增益,將具有最高信息增益的屬性選作 給定樣本集合的測試屬性,創(chuàng)建樹的結(jié)點(diǎn),并以該屬性標(biāo)記,對屬性的每個(gè)值創(chuàng)建分支,并據(jù)此劃分樣本。由于樣本數(shù)據(jù)中存在噪聲或孤立點(diǎn),通過樹剪枝去除不合理的分支,以提高在未知數(shù)據(jù)上分類的準(zhǔn)確性。據(jù)此算法構(gòu)造的判定樹如圖1所示。
判定樹的第一層條件為每一章節(jié)的單元測試成績,分別表示為優(yōu)秀、合格和不及格。不及格的同學(xué)下一章節(jié)進(jìn)入C類教學(xué)目標(biāo)學(xué)習(xí),優(yōu)秀的同學(xué)則進(jìn)入A類教學(xué)目標(biāo)學(xué)習(xí),合格的同學(xué)則根據(jù)學(xué)習(xí)的次數(shù)決定下一章節(jié)的教學(xué)目標(biāo)。學(xué)習(xí)次數(shù)為0~2次的同學(xué)進(jìn)入B類教學(xué)目標(biāo)學(xué)習(xí),3~5次的同學(xué)則需要根據(jù)學(xué)習(xí)時(shí)間判定,根據(jù)判定樹可知,所有同學(xué)進(jìn)入B類教學(xué)目標(biāo)學(xué)習(xí),這和我們?nèi)粘5呐袛噙壿嬒喾?,因?yàn)閷W(xué)習(xí)次數(shù)較多,學(xué)習(xí)時(shí)間較長,但成績卻是合格的同學(xué)很有可能是因?yàn)榉椒ú划?dāng)?shù)仍驅(qū)е陆邮苤R能力較差,進(jìn)入A類目標(biāo)學(xué)習(xí)顯然是不合理的。當(dāng)學(xué)習(xí)次數(shù)大于6次時(shí),可以根據(jù)學(xué)生參與BBS討論的次數(shù)決定學(xué)生的下一章節(jié)的學(xué)習(xí)目標(biāo),討論次數(shù)0~2次的同學(xué)其學(xué)習(xí)目標(biāo)定為B類,3次以上的同學(xué)其學(xué)習(xí)目標(biāo)則定為A類,這類學(xué)生表現(xiàn)出對知識的渴求,興趣較濃,理解知識的能力相對較強(qiáng)。
根據(jù)判定樹,可以根據(jù)學(xué)生學(xué)習(xí)本章節(jié)的實(shí)際情況對學(xué)生學(xué)習(xí)下一章節(jié)內(nèi)容的效果進(jìn)行預(yù)測,據(jù)此對學(xué)生進(jìn)行分類,提供不同的教學(xué)內(nèi)容供其學(xué)習(xí),以提高整體教學(xué)質(zhì)量。
參考文獻(xiàn)
[1] 湯小文,蔡慶生. 數(shù)據(jù)挖掘在電信業(yè)中的應(yīng)用[J].計(jì)算機(jī)工程,2004,30(6):36-37,41.
[2] 楊引霞,謝康林,朱揚(yáng)勇等.電子商務(wù)網(wǎng)站推薦系統(tǒng)中關(guān)聯(lián)規(guī)則推薦模型的實(shí)現(xiàn)[J].計(jì)算機(jī)工程, 2004, 30(19):57-59.
[3] 印鑒,陳憶群,張鋼.基于數(shù)據(jù)倉庫的聯(lián)機(jī)分析挖掘系統(tǒng)[J].計(jì)算機(jī)工程,2004,30(19):49-51.
[4] 楊清蓮,周慶敏,常志玲.Web挖掘技術(shù)及其在網(wǎng)絡(luò)教學(xué)評價(jià)中的應(yīng)用[J].南京工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2005, 27(5):100-103.
[5] 劉革平,黃智興,邱玉輝.基于數(shù)據(jù)挖掘的遠(yuǎn)程學(xué)習(xí)過程評價(jià)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].電化教育研究,2005,(7):67-69.
[6] 孫瑩,程華,萬浩.基于數(shù)據(jù)挖掘的遠(yuǎn)程學(xué)習(xí)者網(wǎng)上學(xué)習(xí)行為研究[J].中國遠(yuǎn)程教育,2008,(5):44-47.
[7] 龔志武.關(guān)于成人學(xué)生網(wǎng)上學(xué)習(xí)行為影響因素的實(shí)證研究[J].中國電化教育,2004,(8):32-34.
[8] Sarwar B, Karypis G, Konstan J,et al. Analysis of Recommendation Algorithms for E-commerce [Z]. ACM Conference on Electronic Commerce, 2000.
[9] Tung A K H, Lu Hongjun, Gan Jiawei,et al. Efficient Mining of Interransaction Association Rules [Z]. IEEE Transactions onKnowledge and Data Engineering, 2003, 15(1).
Application of Data Mining in Network Teaching
SUN Yu-rong1LUO Li-yu2HUANG Hui-hua1
(1.College of Science, Central South University of Forestry and Technology, Changsha ,Hunan, 410004, China;2.The Journal Editorial Department, Hunan University of Technology,Zhuzhou, Hunan, 412007,China)
Abstract: A key matter of network teaching is how to realize combining teaching with learning. It is helpful to find out the association of learning hours, times, BBS discussion and test result by analysis the historic data of learning with the technique of association rules. A teacher can revise the teaching plan according to the association. To a teacher, it is also easy to realize a network level teaching, enhance teaching quality with the technique of classification model.
Keywords: Data Mining; Network Teaching; Association Rules; Classification Model