董婧
摘要:綜合應(yīng)用教育學(xué)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、信息學(xué)等多學(xué)科理論可以實(shí)現(xiàn)對(duì)高校教育大數(shù)據(jù)的深層次挖掘和應(yīng)用。采用Hadoop大數(shù)據(jù)挖掘云服務(wù),構(gòu)建了高校教育大數(shù)據(jù)挖掘系統(tǒng),應(yīng)用數(shù)據(jù)挖掘技術(shù)和統(tǒng)計(jì)方法處理曲靖師范學(xué)院本科教學(xué)評(píng)估期間收集的海量數(shù)據(jù),可以實(shí)現(xiàn)對(duì)大學(xué)更加精準(zhǔn)高效的管理以及智慧教與學(xué),提高教育教學(xué)質(zhì)量。
關(guān)鍵詞:教育大數(shù)據(jù);數(shù)據(jù)挖掘;云服務(wù);地方高等院校;Hadoop
中圖分類(lèi)號(hào):G642? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? 文章編號(hào):1009-3044(2018)34-0139-02
大數(shù)據(jù)時(shí)代的教育數(shù)據(jù)與傳統(tǒng)教育數(shù)據(jù)相比,具備實(shí)時(shí)性高、顆粒度細(xì)、真實(shí)性和決策性強(qiáng)等特點(diǎn)。教育大數(shù)據(jù)產(chǎn)生在教與學(xué)的各個(gè)環(huán)節(jié)[1],包括了各種類(lèi)型的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的具有大數(shù)據(jù)特征的數(shù)據(jù)集,如教學(xué)數(shù)據(jù)、管理數(shù)據(jù)和科研數(shù)據(jù),通過(guò)數(shù)據(jù)挖掘和分析、云計(jì)算等信息技術(shù)展現(xiàn)教育大數(shù)據(jù)的價(jià)值,各高等院校需要利用有效的信息技術(shù)來(lái)處理海量數(shù)據(jù),挖掘出對(duì)高校教育教學(xué)管理決策有價(jià)值的信息[2]。教育數(shù)據(jù)挖掘主要采用了數(shù)據(jù)挖掘、數(shù)學(xué)統(tǒng)計(jì)和機(jī)器學(xué)習(xí)等技術(shù)對(duì)海量教育數(shù)據(jù)進(jìn)行處理和分析并建立科學(xué)的數(shù)據(jù)模型[3],從中發(fā)現(xiàn)學(xué)習(xí)者學(xué)習(xí)結(jié)果與學(xué)習(xí)內(nèi)容、學(xué)習(xí)資源和教學(xué)行為等一系列變量之間的相關(guān)關(guān)系,挖掘?qū)W生的學(xué)習(xí)習(xí)慣、學(xué)習(xí)興趣和學(xué)習(xí)偏好。
我國(guó)大數(shù)據(jù)在高等教育領(lǐng)域應(yīng)用的原理性研究較少,有些支持理論尚處于初生階段缺乏相關(guān)的資料支持。隨著教育機(jī)構(gòu)的信息化系統(tǒng)中積累的數(shù)據(jù)量日益增多,教育行業(yè)的管理人員在選擇資源時(shí)無(wú)法得到有效、優(yōu)質(zhì)的信息,導(dǎo)致部分有效的信息得不到發(fā)掘利用,出現(xiàn)“信息孤島”的現(xiàn)象[4]。數(shù)據(jù)挖掘技術(shù)可以從教育信息海量數(shù)據(jù)中發(fā)現(xiàn)有用的信息,讓教育系統(tǒng)中的各個(gè)參與者受益,為解決教育領(lǐng)域中存在的半結(jié)構(gòu)化以及非結(jié)構(gòu)化的決策問(wèn)題提供依據(jù)。
1教育大數(shù)據(jù)關(guān)鍵技術(shù)
1.1交叉學(xué)科
利用教育大數(shù)據(jù)實(shí)現(xiàn)對(duì)高校教育大數(shù)據(jù)的深層次挖掘和應(yīng)用,需要綜合應(yīng)用教育學(xué)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、信息學(xué)等多學(xué)科理論。近幾年來(lái),教育領(lǐng)域和信息領(lǐng)域發(fā)生了歷史性的變革,各種在線學(xué)習(xí)平臺(tái)、智能手機(jī)應(yīng)用和社交網(wǎng)絡(luò)為研究者提供了大量的應(yīng)用和海量數(shù)據(jù),但是這些數(shù)據(jù)還沒(méi)有被許多地方高校足夠重視與合理運(yùn)用,利用許多新型的信息技術(shù),如云計(jì)算技術(shù)、物聯(lián)網(wǎng)、移動(dòng)計(jì)算和大數(shù)據(jù)技術(shù),為分析和挖掘教育大數(shù)據(jù)提供了技術(shù)支持,可以將這些閑置數(shù)據(jù)變廢為寶,實(shí)現(xiàn)數(shù)據(jù)技術(shù)的有效處理,挖掘出蘊(yùn)含的隱藏價(jià)值。
云計(jì)算服務(wù)解決了高校信息化建設(shè)中的信息孤島現(xiàn)象[5-6],可以集中整合分散的教育資源,使教師和學(xué)生能夠共享存儲(chǔ)在云服務(wù)端的教育資源,并且與各類(lèi)終端設(shè)備無(wú)縫連接,將云服務(wù)端的各種分散的關(guān)系化、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)利用數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)分析和數(shù)學(xué)統(tǒng)計(jì)等方法進(jìn)行分析和挖掘[7-8],通過(guò)數(shù)據(jù)挖掘技術(shù)得到的信息,可以準(zhǔn)確分析評(píng)價(jià)課堂教學(xué)的質(zhì)量。
1.2數(shù)據(jù)來(lái)源
地方高校目前普遍存在教育經(jīng)費(fèi)使用效率不高,教育投入產(chǎn)出比低;在教學(xué)組織形式方面,沿襲工業(yè)化時(shí)代的標(biāo)準(zhǔn)化教學(xué)內(nèi)容、教學(xué)方法、考試制度、學(xué)科設(shè)置及人才培養(yǎng)模式,忽視學(xué)生的個(gè)性特征和認(rèn)知發(fā)展等問(wèn)題。曲靖師范學(xué)院剛完成普通高等學(xué)校本科教學(xué)工作審核評(píng)估,各個(gè)學(xué)院以及教輔部門(mén)收集整理了各個(gè)方面的資料,如教學(xué)設(shè)施、課程資源、社會(huì)資源、教學(xué)改革、課堂教學(xué)、實(shí)踐教學(xué)、第二課堂、招生及生源情況、學(xué)生指導(dǎo)與服務(wù)、學(xué)風(fēng)與學(xué)習(xí)效果、就業(yè)與發(fā)展、教學(xué)質(zhì)量保障體系、質(zhì)量監(jiān)控、質(zhì)量信息與利用和質(zhì)量改進(jìn)等,涵蓋了學(xué)校教學(xué)與服務(wù)的方方面面,針對(duì)這些海量數(shù)據(jù),如何為我校師生做到精準(zhǔn)的教與學(xué)以及質(zhì)量評(píng)價(jià)是一個(gè)難題。本研究主要以曲靖師范學(xué)院本科教學(xué)評(píng)估期間收集得到的最新教學(xué)狀態(tài)數(shù)據(jù)、學(xué)生網(wǎng)上學(xué)習(xí)的日志數(shù)據(jù)、用戶(hù)產(chǎn)生的UGC數(shù)據(jù),比如微信、微博、論壇等數(shù)據(jù)為主,另外學(xué)校已開(kāi)設(shè)了公共關(guān)系禮儀實(shí)務(wù)等10門(mén)爾雅通識(shí)課、唐詩(shī)宋詞人文解讀等9門(mén)好大學(xué)在線等多達(dá)幾十門(mén)MOOC課程,這些教學(xué)的過(guò)程數(shù)據(jù)可以實(shí)現(xiàn)全程采集,利用這些數(shù)據(jù)來(lái)為我校師生做精準(zhǔn)化分析服務(wù)。
其中,基礎(chǔ)數(shù)據(jù)包括學(xué)生基本信息、招生及生源情況;管理數(shù)據(jù)包括學(xué)風(fēng)與學(xué)習(xí)效果、教學(xué)質(zhì)量保障體系、質(zhì)量監(jiān)控、教學(xué)評(píng)價(jià);教學(xué)數(shù)據(jù)包括教學(xué)設(shè)施、課堂教學(xué)、教學(xué)改革、課程資源、MOOC課程和網(wǎng)絡(luò)課程教學(xué)平臺(tái);科研數(shù)據(jù)包括教師各項(xiàng)科研成果、第二課堂、實(shí)踐教學(xué)、大學(xué)生創(chuàng)新創(chuàng)業(yè)項(xiàng)目;服務(wù)數(shù)據(jù)包括學(xué)生指導(dǎo)與服務(wù)、圖書(shū)檔案服務(wù)、學(xué)生網(wǎng)上學(xué)習(xí)日志數(shù)據(jù);輿情數(shù)據(jù)包括UGC數(shù)據(jù),如微信、微博、論壇等數(shù)據(jù)。
2教育大數(shù)據(jù)挖掘應(yīng)用實(shí)現(xiàn)
2.1教育大數(shù)據(jù)分析系統(tǒng)框架
教育大數(shù)據(jù)分析系統(tǒng)采用Hadoop大數(shù)據(jù)挖掘云服務(wù),它是一個(gè)開(kāi)放的主要面向互聯(lián)網(wǎng)海量非結(jié)構(gòu)化數(shù)據(jù)的分析和挖掘平臺(tái),也支持結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),集成了多種基于Hadoop的并行數(shù)據(jù)預(yù)處理和挖掘算法,如K-means算法,系統(tǒng)框架如圖所示:
2.2數(shù)據(jù)挖掘與數(shù)學(xué)分析
數(shù)據(jù)挖掘是從大量的、有噪聲的、不完備的、隨機(jī)的數(shù)據(jù)中,發(fā)現(xiàn)隱含在其中的、人們事先不知道的、但是是潛在有用的信息和知識(shí)的過(guò)程。原數(shù)據(jù)通常是大量的、真實(shí)有效的、含噪聲的;數(shù)據(jù)挖掘的主要特點(diǎn)是對(duì)數(shù)據(jù)庫(kù)中的大量數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)換、分析以及其它模型化處理,挖掘出用戶(hù)感興趣的以及有助于管理者決策的重要信息。本文以曲靖師范學(xué)院的高校辦學(xué)狀態(tài)等數(shù)據(jù)為原始數(shù)據(jù)源,采用數(shù)據(jù)挖掘技術(shù)中的統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法和仿生物法建立模型,獲取教育大數(shù)據(jù)中隱藏的潛在信息。統(tǒng)計(jì)方法用到了回歸分析、聚類(lèi)分析、主成分分析和關(guān)聯(lián)規(guī)則挖掘,機(jī)器學(xué)習(xí)方法主要用到支持向量機(jī)等相關(guān)算法,仿生物法主要用到神經(jīng)網(wǎng)絡(luò),使用SPSS Clementine數(shù)據(jù)挖掘軟件對(duì)學(xué)生特征行為分析模塊、學(xué)生就業(yè)因素分析模塊、學(xué)習(xí)結(jié)果預(yù)測(cè)模塊、教學(xué)質(zhì)量監(jiān)控評(píng)測(cè)、高校管理發(fā)展影響因素分析模塊等進(jìn)行模型構(gòu)建,進(jìn)行實(shí)例仿真,相關(guān)的教育數(shù)據(jù)挖掘研究結(jié)果如下:
3 結(jié)論
采集高校和各學(xué)院的辦學(xué)狀態(tài)數(shù)據(jù),通過(guò)數(shù)據(jù)挖掘技術(shù),可以消除信息孤島,實(shí)現(xiàn)橫向關(guān)聯(lián)比較,縱向歷史分析,提供精準(zhǔn)服務(wù),支持科學(xué)決策。通過(guò)數(shù)據(jù)挖掘技術(shù)得到的信息,可以準(zhǔn)確分析評(píng)價(jià)課堂教學(xué)的質(zhì)量,實(shí)現(xiàn)對(duì)大學(xué)更加精準(zhǔn)高效的管理,使得教和學(xué)更加智慧,具體來(lái)說(shuō),對(duì)本校各學(xué)院學(xué)生學(xué)習(xí)過(guò)程進(jìn)行跟蹤,實(shí)現(xiàn)興趣、個(gè)性、情感等方面的動(dòng)態(tài)分析與挖掘,兩者結(jié)合起來(lái),建立基于用戶(hù)興趣和個(gè)性的資源推薦,最后實(shí)現(xiàn)個(gè)性化精準(zhǔn)過(guò)濾;同時(shí)對(duì)教師的教學(xué)質(zhì)量和效果可以進(jìn)行綜合、動(dòng)態(tài)和客觀的評(píng)價(jià)。通過(guò)數(shù)據(jù)挖掘、分析、可視化等技術(shù)展現(xiàn)教育大數(shù)據(jù)的價(jià)值,推動(dòng)教育發(fā)展創(chuàng)新,提高教育教學(xué)質(zhì)量。
參考文獻(xiàn):
[1]周慶,牟超,楊丹.教育數(shù)據(jù)挖掘研究進(jìn)展綜述[J]. 軟件學(xué)報(bào), 2015,26(11):3026-3042.
[2]張燕南. 大數(shù)據(jù)的教育領(lǐng)域應(yīng)用之研究——基于美國(guó)的應(yīng)用實(shí)踐[D],華東師范大學(xué), 2016.
[3]馬秀麟,衷克定,劉立超. 從大數(shù)據(jù)挖掘的視角分析學(xué)生評(píng)教的有效性[J].中國(guó)電化教育, 2014(333):78-84.
[4]彭濤,丁凌云.基于教育數(shù)據(jù)挖掘?qū)W生表現(xiàn)預(yù)測(cè)模型構(gòu)建研究[J].黑龍江高教研究, 2015(11):55-58.
[5]崔杰,李陶深,蘭紅星.基于Hadoop的海量數(shù)據(jù)存儲(chǔ)平臺(tái)設(shè)計(jì)與開(kāi)發(fā)[J].計(jì)算機(jī)研究與發(fā)展, 2012(49):12-18.
[6]何清,敖翔,莊福振,羅平.一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用[J].信息通信技術(shù), 2015(6):42-49.
[7] Chen X, Vorvoreanu M, Madhavan KPC. Mining social media data for understanding students learning experiences[C]. IEEE Trans. on Learning Technologies, 2014, 7(3):246?259.
[8] Chang MM, Lin MC. The effect of reflective learning e-journals on reading comprehension and communication in language learning. Computers & Education, 2014(71):124?132.
【通聯(lián)編輯:王力】