丁國(guó)勇, 錢靜珠
(1.南京師范大學(xué) 教育科學(xué)學(xué)院,南京 210097;2.南京審計(jì)大學(xué) 教務(wù)處,南京 211815; 3.南京工業(yè)大學(xué) 教務(wù)處,南京 211815)
現(xiàn)代社會(huì)爆炸式增長(zhǎng)的數(shù)據(jù)使得我們進(jìn)入了舍恩伯格所說的“大數(shù)據(jù)時(shí)代”。如何從這些海量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息,把這些“死”的數(shù)據(jù)成“活”的知識(shí),催生了數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中挖掘有趣模式和知識(shí)的過程[1]。數(shù)據(jù)挖掘技術(shù)在商業(yè)、生物學(xué)等領(lǐng)域已經(jīng)得到了很好的應(yīng)用,其遷移到教育領(lǐng)域,就產(chǎn)生了教育數(shù)據(jù)挖掘(Educational Data Mining,EDM)這樣一門新興的學(xué)科,通過對(duì)大規(guī)模教育數(shù)據(jù)的挖掘,更好的理解教育,為教育提供有效信息。實(shí)驗(yàn)教學(xué)作為高校教學(xué)的重要組成部分和環(huán)節(jié),在其組織、運(yùn)行、實(shí)施過程中勢(shì)必產(chǎn)生了大量的多種類型的數(shù)據(jù)。本文主要探討教育數(shù)據(jù)挖掘在高校實(shí)驗(yàn)教學(xué)中應(yīng)用的可行性、實(shí)施步驟、可能存在問題以及相關(guān)建議。
由圖1可以看出,計(jì)算機(jī)科學(xué)與教育學(xué)融合產(chǎn)生了信息技術(shù)教育,計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)學(xué)融合產(chǎn)生了機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘,教育學(xué)與統(tǒng)計(jì)學(xué)融合產(chǎn)生了教育測(cè)量(統(tǒng)計(jì)),而教育數(shù)據(jù)挖掘則是由計(jì)算機(jī)科學(xué)、教育學(xué)、統(tǒng)計(jì)學(xué)3種學(xué)科融合而成,屬于一種新興的復(fù)合交叉學(xué)科,不僅繼承了來源學(xué)科的基本特征,還具有自己的獨(dú)特的特性[2]。
圖1教育數(shù)據(jù)挖掘的支撐學(xué)科
教育數(shù)據(jù)挖掘最早起源于上世紀(jì)80年代,數(shù)據(jù)挖掘技術(shù)出現(xiàn)后,部分研究者嘗試將數(shù)據(jù)挖掘技術(shù)應(yīng)用于教育領(lǐng)域,但由于數(shù)據(jù)挖掘技術(shù)處于發(fā)展中,可供挖掘的教育數(shù)據(jù)也有限,一般來源于調(diào)查問卷和管理軟件,使用方法主要是統(tǒng)計(jì)分析的方法,成果相對(duì)較少。進(jìn)入21世紀(jì),特別是2010年以后,隨著互聯(lián)網(wǎng)+教育、Web技術(shù)、網(wǎng)絡(luò)課程、MOOC、在線學(xué)習(xí)平臺(tái)等的廣泛使用,對(duì)學(xué)生的學(xué)習(xí)行為、學(xué)習(xí)過程、學(xué)習(xí)結(jié)果全覆蓋全記錄,形成了海量的多種類型的數(shù)據(jù),使教育數(shù)據(jù)挖掘有了其用武之地。第一個(gè)關(guān)于教育數(shù)據(jù)挖掘的國(guó)際學(xué)術(shù)組織國(guó)際教育數(shù)據(jù)挖掘?qū)W會(huì)(International Educational Data Mining Society,IEDMS)于2011年在美國(guó)馬薩諸塞州成立。從2008年起至今,IEDMS及其前身教育數(shù)據(jù)挖掘國(guó)際工作組已經(jīng)在美國(guó)、加拿大、英國(guó)等國(guó)家舉辦了九屆教育數(shù)據(jù)挖掘國(guó)際會(huì)議,來自不同領(lǐng)域的研究人員對(duì)教育數(shù)據(jù)挖掘的理論、技術(shù)、方法進(jìn)行探討,研究教育數(shù)據(jù)挖掘在改進(jìn)教學(xué)過程、管理中的作用。IEDMS還辦有一份國(guó)際期刊《教育數(shù)據(jù)挖掘》[3]。美國(guó)教育部也在2012年發(fā)布了《通過教育數(shù)據(jù)挖掘和學(xué)習(xí)分析促進(jìn)教與學(xué)》藍(lán)皮書,說明教育數(shù)據(jù)挖掘已經(jīng)受到了高度關(guān)注。近幾年在我國(guó),教育數(shù)據(jù)挖掘也逐漸受到了研究者的關(guān)注[4]。
教育數(shù)據(jù)挖掘的研究范圍,從主體來看包括學(xué)生、教師、管理人員等。對(duì)于學(xué)生,可以進(jìn)行學(xué)習(xí)風(fēng)格分析、評(píng)價(jià)學(xué)習(xí)效率、預(yù)測(cè)學(xué)習(xí)效果、推薦個(gè)性化的學(xué)習(xí)資源;對(duì)于教師,可以了解教學(xué)效率,改進(jìn)教學(xué)材料,預(yù)測(cè)學(xué)生產(chǎn)出;對(duì)于管理人員,可以提供決策支持。從可被挖掘的數(shù)據(jù)來源來看包括常規(guī)課堂教學(xué)、教學(xué)管理系統(tǒng)、Web、在線學(xué)習(xí)平臺(tái)、網(wǎng)上實(shí)驗(yàn)平臺(tái)等。從可供使用的挖掘技術(shù)來看包括聚類(聚類、離群點(diǎn)分析)、預(yù)測(cè)(決策樹、回歸分析、 時(shí)序分析、神經(jīng)網(wǎng)絡(luò))、關(guān)系挖掘(關(guān)聯(lián)規(guī)則挖掘、序列模式挖掘、相關(guān)挖掘)、文本挖掘等[5-7]。
與理論教學(xué)相對(duì)應(yīng),實(shí)驗(yàn)教學(xué)在高校人才培養(yǎng)中占有極其重要的地位。近些年來,國(guó)家、省和高校也都對(duì)實(shí)驗(yàn)教學(xué)有高度的重視,通過國(guó)家、省級(jí)實(shí)驗(yàn)示范教學(xué)中心建設(shè)等措施,有力地提升了高校實(shí)驗(yàn)教學(xué)的質(zhì)量。實(shí)驗(yàn)教學(xué)相關(guān)的教學(xué)管理、虛擬、仿真、模擬等軟件、系統(tǒng)、平臺(tái)紛繁復(fù)雜,以作者所在高校為例,相關(guān)實(shí)驗(yàn)教學(xué)軟件平臺(tái)有數(shù)十種之多,這些軟件、系統(tǒng)、平臺(tái)在使用過程中必然產(chǎn)生了海量的數(shù)據(jù),為教育數(shù)據(jù)挖掘提供了數(shù)據(jù)基礎(chǔ)和可能性。
通過選擇合適的教育數(shù)據(jù)挖掘模式,對(duì)海量的數(shù)據(jù)進(jìn)行深度挖掘,從其中挖掘一些“有趣”的知識(shí),必將從某些方面對(duì)當(dāng)前高校的實(shí)驗(yàn)教學(xué)提供改進(jìn)的措施,主要包括:
(1) 提升教師實(shí)驗(yàn)教學(xué)能力。傳統(tǒng)實(shí)驗(yàn)教學(xué)往往是一套軟件、一個(gè)流程,教師在教學(xué)中不能兼顧學(xué)生的學(xué)習(xí)基礎(chǔ)、學(xué)習(xí)風(fēng)格差異。引入學(xué)生其他方面的數(shù)據(jù)比如生源、績(jī)點(diǎn)、以往實(shí)驗(yàn)課程學(xué)習(xí)成果等等,通過教育數(shù)據(jù)挖掘中相關(guān)技術(shù),對(duì)學(xué)生學(xué)習(xí)風(fēng)格進(jìn)行分類,因材施教,分層次分級(jí)別或者分項(xiàng)目組織教學(xué);預(yù)測(cè)學(xué)生的學(xué)習(xí)產(chǎn)出,對(duì)于個(gè)別學(xué)習(xí)困難的學(xué)生再單獨(dú)提供精準(zhǔn)幫扶。
(2) 改進(jìn)實(shí)驗(yàn)課程軟件設(shè)計(jì)。通過關(guān)聯(lián)規(guī)則挖掘、聚類、分類等技術(shù),對(duì)實(shí)驗(yàn)課程軟件中的學(xué)生使用軌跡、嘗試次數(shù)、持續(xù)時(shí)間、學(xué)習(xí)結(jié)果進(jìn)行分析,幫助實(shí)驗(yàn)課程軟件開發(fā)者優(yōu)化該課程內(nèi)容組織、活動(dòng)安排和鏈接。比如,Deirdre等通過對(duì)學(xué)生學(xué)習(xí)行為的挖掘來改進(jìn)教育視頻游戲的設(shè)計(jì)[8]。
(3) 為學(xué)生提供學(xué)習(xí)支持。對(duì)于學(xué)生而言,教育數(shù)據(jù)挖掘可以從學(xué)生行為角度探索學(xué)習(xí)過程的發(fā)生機(jī)制,并用來優(yōu)化學(xué)習(xí),通過對(duì)學(xué)習(xí)行為數(shù)據(jù)的分析為學(xué)生推薦學(xué)習(xí)軌跡,促進(jìn)適應(yīng)性學(xué)習(xí)、自我導(dǎo)向?qū)W習(xí)[9-11]??梢允褂玫募夹g(shù)包括序列模式挖掘、Web日志挖掘、文本挖掘等等。
國(guó)家、省、高校對(duì)實(shí)驗(yàn)教學(xué)的大規(guī)模持續(xù)的資金投入,必然對(duì)實(shí)驗(yàn)教學(xué)管理工作提出更高的要求,關(guān)鍵因素可以包括實(shí)驗(yàn)教學(xué)質(zhì)量監(jiān)控體系的建立[12]、實(shí)驗(yàn)教學(xué)管理人員能力和素質(zhì)的提升[13]等,當(dāng)然也有優(yōu)化實(shí)驗(yàn)教學(xué)資源配置[14]。通過教育數(shù)據(jù)挖掘,對(duì)實(shí)驗(yàn)室使用數(shù)據(jù)、實(shí)驗(yàn)教學(xué)軟件使用數(shù)據(jù)進(jìn)行分析和評(píng)價(jià),為實(shí)驗(yàn)室開放、實(shí)驗(yàn)教學(xué)軟件配置等提供決策支持。
參考了García等的教育數(shù)據(jù)挖掘流程圖[15],結(jié)合高校實(shí)驗(yàn)教學(xué)的實(shí)際,將教育數(shù)據(jù)挖掘在高校實(shí)驗(yàn)教學(xué)中的應(yīng)用分為六大步驟:數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)挖掘、結(jié)果評(píng)估、知識(shí)發(fā)現(xiàn)和反饋實(shí)驗(yàn)教學(xué),如圖2所示。
圖2教育數(shù)據(jù)挖掘應(yīng)用步驟
數(shù)據(jù)獲取是從實(shí)驗(yàn)教學(xué)環(huán)境中提取數(shù)據(jù)的過程。這是教育數(shù)據(jù)挖掘應(yīng)用的第一步,也是最難以開展的一步,主要解決的問題是哪些數(shù)據(jù)需要被抽取。實(shí)驗(yàn)教學(xué)平臺(tái)、軟件的復(fù)雜性決定了數(shù)據(jù)獲取的復(fù)雜性。數(shù)據(jù)獲取工作應(yīng)該是以問題研究為導(dǎo)向,需要平臺(tái)、軟件的設(shè)計(jì)者、教育數(shù)據(jù)挖掘的實(shí)施者和實(shí)驗(yàn)教學(xué)的研究者共同來完成,確定需要獲得的數(shù)據(jù)的類型、范圍、特征,有些在實(shí)驗(yàn)教學(xué)環(huán)境中無法獲取的數(shù)據(jù)還需要與其他系統(tǒng)平臺(tái)進(jìn)行整合抽取。
數(shù)據(jù)處理是對(duì)上一步獲取的數(shù)據(jù)進(jìn)行規(guī)范化處理的過程。從實(shí)驗(yàn)軟件平臺(tái)或其他系統(tǒng)獲得的數(shù)據(jù),格式往往達(dá)不到可供挖掘的要求,比如有數(shù)據(jù)的缺失,有數(shù)據(jù)的不一致或者是包含一些無用的數(shù)據(jù)。在這一步中,按照數(shù)據(jù)挖掘算法對(duì)數(shù)據(jù)的規(guī)范要求,對(duì)原始數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換。
數(shù)據(jù)挖掘是最核心的步驟。數(shù)據(jù)挖掘的目的是從數(shù)據(jù)中建立模型,主要包括預(yù)測(cè)模型和描述模型。預(yù)測(cè)模型通過已知的數(shù)據(jù)去預(yù)測(cè)未知的數(shù)據(jù),而描述模型則通過分析數(shù)據(jù)發(fā)現(xiàn)新的模式或結(jié)構(gòu)[14]。主要的數(shù)據(jù)挖掘算法包括分類、聚類、關(guān)聯(lián)規(guī)則挖掘等。分類的目的在于為數(shù)據(jù)對(duì)象指定一個(gè)類別,比如根據(jù)學(xué)生的實(shí)驗(yàn)操作行為判斷學(xué)習(xí)風(fēng)格;聚類的目的在于將相似的數(shù)據(jù)對(duì)象歸為同一類別,比如將對(duì)學(xué)生學(xué)習(xí)進(jìn)行聚類評(píng)價(jià)。關(guān)聯(lián)規(guī)則挖掘,其目的在于發(fā)現(xiàn)數(shù)據(jù)對(duì)象之間的關(guān)聯(lián)或關(guān)系,比如發(fā)現(xiàn)學(xué)生實(shí)驗(yàn)課程與理論課程學(xué)習(xí)的關(guān)聯(lián)度。還有其他的許多數(shù)據(jù)挖掘算法,可以根據(jù)數(shù)據(jù)類型、挖掘要求來單獨(dú)或組合選擇。
結(jié)果評(píng)估是對(duì)數(shù)據(jù)挖掘效果的評(píng)價(jià)。主要的評(píng)估指標(biāo)有:準(zhǔn)確率即全部樣本中被正確識(shí)別的比例;召回率即真實(shí)的正樣本中被正確識(shí)別的比例;精度,即識(shí)別為正樣本中真實(shí)的正樣本所占比例。
通過數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)挖掘和結(jié)果評(píng)估后,可能會(huì)形成一系列的關(guān)聯(lián)規(guī)則、決策樹等,這時(shí),需要實(shí)驗(yàn)教學(xué)管理領(lǐng)域?qū)I(yè)人員對(duì)這些生成的規(guī)則進(jìn)行有效性鑒別,發(fā)現(xiàn)其中可能對(duì)改進(jìn)實(shí)驗(yàn)教學(xué)、管理產(chǎn)生作用的規(guī)則。
根據(jù)知識(shí)發(fā)現(xiàn)步驟中生成的規(guī)則,結(jié)合實(shí)際,形成政策、建議或其他相應(yīng)的文檔,并在實(shí)驗(yàn)教學(xué)中進(jìn)行檢驗(yàn)。
教育數(shù)據(jù)挖掘在高校實(shí)驗(yàn)教學(xué)中可以有比較廣泛的應(yīng)用前景,但在實(shí)際實(shí)施過程中,必然也會(huì)遇到一些問題,概括起來就是“挖什么?””怎么挖?”和“誰來挖?”。
高校實(shí)驗(yàn)教學(xué)的特殊性,導(dǎo)致其數(shù)據(jù)來源復(fù)雜且數(shù)據(jù)的結(jié)構(gòu)不統(tǒng)一,不僅包括實(shí)驗(yàn)教學(xué)管理系統(tǒng)的數(shù)據(jù),還可能有網(wǎng)上實(shí)驗(yàn)教學(xué)平臺(tái),單機(jī)版、網(wǎng)絡(luò)版的實(shí)驗(yàn)教學(xué)軟件等等。要對(duì)這些數(shù)據(jù)進(jìn)行挖掘,首先要詳細(xì)分析各種數(shù)據(jù)源的數(shù)據(jù)庫類型、數(shù)據(jù)組織方式以及可用數(shù)據(jù),再按照規(guī)則進(jìn)行數(shù)據(jù)采集、轉(zhuǎn)換、清洗和挖掘,與其他一些通用的網(wǎng)絡(luò)教學(xué)平臺(tái)如Blackboard的挖掘相比,其工作復(fù)雜性會(huì)成倍增加。建議開發(fā)有針對(duì)性的數(shù)據(jù)采集軟件,制定數(shù)據(jù)接口標(biāo)準(zhǔn),方便對(duì)實(shí)驗(yàn)教學(xué)軟件平臺(tái)的數(shù)據(jù)挖掘。
教育數(shù)據(jù)挖掘是一門新興的學(xué)科、一種新的研究范式,從本質(zhì)上來看更是多種技術(shù)和工具的融合。與教育數(shù)據(jù)挖掘相關(guān)的技術(shù)相當(dāng)繁雜,就像上文提到的聚類、分類、文本等,每種類別中還有不同的算法;教育數(shù)據(jù)挖掘可以使用的工具軟件也很多,RapidMiner、Weka、KEEL、KNIME、Orange、SPSS、R語言,在數(shù)據(jù)預(yù)處理步驟中還可能應(yīng)用到數(shù)據(jù)庫工具。因此,如何選擇技術(shù)與工具也會(huì)成為難題。建議借鑒國(guó)內(nèi)外教育數(shù)據(jù)挖掘經(jīng)驗(yàn),設(shè)計(jì)與開發(fā)不同類別的實(shí)驗(yàn)教學(xué)教育數(shù)據(jù)挖掘模式,并建立高校實(shí)驗(yàn)教學(xué)教育數(shù)據(jù)挖掘研究小組和組織,促進(jìn)知識(shí)、經(jīng)驗(yàn)的共享、交流與合作。
教育數(shù)據(jù)挖掘的主體是教師、學(xué)生和管理者。教師和學(xué)生是教學(xué)活動(dòng)的主導(dǎo)者、參與者,是數(shù)據(jù)的生成者,無法掌握全局性的數(shù)據(jù),所以教育數(shù)據(jù)挖掘的主要實(shí)施者應(yīng)該是管理者。通過教育數(shù)據(jù)挖掘的成果,改進(jìn)了教學(xué)、改進(jìn)了管理,教師、學(xué)生和管理者三方都是受益者。但實(shí)施教育數(shù)據(jù)挖掘并不是一件容易的事,對(duì)管理者能力要求較高,不僅要熟悉教育數(shù)據(jù)挖掘的相關(guān)理論、技術(shù)、步驟,還要是本業(yè)務(wù)領(lǐng)域的行家。建議將教育數(shù)據(jù)挖掘納入實(shí)驗(yàn)教學(xué)管理者的能力框架體系,有步驟地進(jìn)行專業(yè)培訓(xùn),提高實(shí)驗(yàn)管理人員的綜合素質(zhì)。
習(xí)近平總書記提出要“以數(shù)據(jù)集中和共享為途徑,建設(shè)全國(guó)一體化的大數(shù)據(jù)中心,推進(jìn)技術(shù)融合、業(yè)務(wù)融合、數(shù)據(jù)融合”[16],大數(shù)據(jù)逐漸上升為國(guó)家戰(zhàn)略,而教育數(shù)據(jù)挖掘充分體現(xiàn)了“大數(shù)據(jù)”的理念,將可能得到更多的政策與資源支持,教師、學(xué)生與管理者也會(huì)逐漸接受、重視教育數(shù)據(jù)挖掘并從中受益。本文僅僅對(duì)教育數(shù)據(jù)挖掘在高校實(shí)驗(yàn)教學(xué)領(lǐng)域中的應(yīng)用進(jìn)行了淺層的研究和初步的探討,可以預(yù)見在實(shí)證研究、應(yīng)用研究等方面應(yīng)該有相當(dāng)多的問題等待我們?nèi)ヌ剿鳌?/p>
參考文獻(xiàn)(References):
[1]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001:4-6.
[2]周慶,牟超,楊丹. 教育數(shù)據(jù)挖掘研究進(jìn)展綜述[J]. 軟件學(xué)報(bào),2015(11):3026-3042.
[3]http://www.educationaldatamining.org/[EB/OL].2016-10-25.
[4]李婷,傅鋼善.國(guó)內(nèi)外教育數(shù)據(jù)挖掘研究現(xiàn)狀及趨勢(shì)分析[J]. 現(xiàn)代教育技術(shù),2010(10):21-25.
[5]葛道凱,張少剛,魏順平.教育數(shù)據(jù)挖掘:方法與應(yīng)用[M].北京: 教育科學(xué)出版社, 2012:14-15.
[6]Romero,etal.Data mining in course management systems: Moodle case study and tutorial[J]. Computers & Education,2005,51(1):368-384.
[7]Cristobal,Etc.Handbook of Educational Data Mining[M].CRC Press.2011:3-4.
[8]Deirdre Kerr. Using data mining results to improve educational video game design[J]. Journal of Educational Data Mining, 2015,7(3):1-17.
[9]魏順平. 學(xué)習(xí)分析技術(shù):挖掘大數(shù)據(jù)時(shí)代下教育數(shù)據(jù)的價(jià)值[J]. 現(xiàn)代教育技術(shù),2013(2):5-11.
[10]熊宏齊. 論高校實(shí)驗(yàn)教學(xué)如何適應(yīng)學(xué)生的自主選擇要求[J]. 實(shí)驗(yàn)技術(shù)與管理,2013(1):1-4,7.
[11]熊文元,譚永宏,包本剛. 地方高校實(shí)驗(yàn)教學(xué)應(yīng)用型人才培養(yǎng)的改革與探索[J]. 實(shí)驗(yàn)技術(shù)與管理,2012(9):120-122.
[12]彭志平,李紹平,柯文德. 高校實(shí)驗(yàn)教學(xué)質(zhì)量監(jiān)控體系的研究與實(shí)踐[J]. 實(shí)驗(yàn)技術(shù)與管理,2012(9):123-125.
[13]王偉,張紅巖,韓拴,等. 高校實(shí)驗(yàn)室技術(shù)人員素質(zhì)教育芻議[J]. 實(shí)驗(yàn)室研究與探索,2014(2):230-233.
[14]鄧廣濤,崔志恒,趙俊偉,等. 改革實(shí)踐教學(xué)管理 培養(yǎng)創(chuàng)新能力[J]. 實(shí)驗(yàn)室研究與探索,2013(6):349-352,423.
[15]García E, Romero C, Ventura S, de Castro C. A collaborative educational association rule mining tool[J]. The Internet and HigherEducation, 2011,14(2):77-88.
[16]習(xí)近平.建設(shè)全國(guó)一體化的國(guó)家大數(shù)據(jù)中心[EB/OL].http://finance.ifeng.com/a/20161010/14924812_0.shtml,2016-10-10/2016-10-31.