金義富,吳 濤,張子石,王偉東
(嶺南師范學(xué)院 廣東高校數(shù)字化學(xué)習(xí)工程技術(shù)開發(fā)中心,廣東 湛江 524037)
大數(shù)據(jù)環(huán)境下學(xué)業(yè)預(yù)警系統(tǒng)設(shè)計(jì)與分析 *
金義富,吳 濤,張子石,王偉東
(嶺南師范學(xué)院 廣東高校數(shù)字化學(xué)習(xí)工程技術(shù)開發(fā)中心,廣東 湛江 524037)
隨著互聯(lián)網(wǎng)+教育的深度融合,教育大數(shù)據(jù)逐漸成為學(xué)習(xí)分析的主要手段。該文討論了構(gòu)成教育大數(shù)據(jù)環(huán)境的數(shù)據(jù)分類、收集與存儲(chǔ)組織,以及教育數(shù)據(jù)挖掘和學(xué)習(xí)分析的一般思路與方法,探討了在大數(shù)據(jù)環(huán)境下的學(xué)業(yè)預(yù)警系統(tǒng)設(shè)計(jì)框架,提出了一種基于離群數(shù)據(jù)挖掘與分析的課程、課堂、課外“三位一體”預(yù)警信息發(fā)現(xiàn)與生成模型LAOMA(Model of Learning Alert Based on Outlier Mining and Analysis),建立了學(xué)業(yè)預(yù)警兩類六級(jí)信號(hào)系統(tǒng)及反饋機(jī)制。最后闡述了包括學(xué)業(yè)預(yù)警在內(nèi)的學(xué)習(xí)分析技術(shù)使個(gè)性化學(xué)習(xí)真正成為可能,但如果應(yīng)用不當(dāng),過分依賴生硬的數(shù)據(jù)也可能與教育的本質(zhì)不相符合。
教育大數(shù)據(jù);學(xué)習(xí)分析;離群挖掘;預(yù)警信號(hào);教育反思
大數(shù)據(jù)可能會(huì)帶來一場(chǎng)全面革命,推動(dòng)社會(huì)全面進(jìn)步,推動(dòng)社會(huì)各行業(yè)根本變革。大數(shù)據(jù)不僅數(shù)據(jù)量巨大,而且涉及的數(shù)據(jù)種類繁多,數(shù)據(jù)價(jià)值密度極低,如何提高大數(shù)據(jù)采集、存儲(chǔ)、處理并發(fā)現(xiàn)知識(shí)的能力已經(jīng)成為國(guó)家戰(zhàn)略,教育也身在其中[1],教育發(fā)展也正面臨大數(shù)據(jù)所帶來的機(jī)遇與挑戰(zhàn)[2]。隨著網(wǎng)絡(luò)學(xué)習(xí)、移動(dòng)學(xué)習(xí)、校園社交以及學(xué)校各種信息系統(tǒng)的廣泛應(yīng)用,每個(gè)教師和學(xué)生每天都在生產(chǎn)大量的數(shù)據(jù),目前各高??倲?shù)據(jù)量都在T級(jí)甚至P級(jí)以上。長(zhǎng)期以來,學(xué)校數(shù)據(jù)大都是沉睡在系統(tǒng)中未能充分利用,甚至一段時(shí)間后被無情地永久刪除。如何利用這些數(shù)據(jù)使之轉(zhuǎn)變?yōu)樾畔ⅰ⒅R(shí),并為教學(xué)決策、學(xué)習(xí)優(yōu)化和學(xué)業(yè)預(yù)警等服務(wù),已成為教育工作者以及學(xué)習(xí)者們所關(guān)注的內(nèi)容[3]。
本文分三個(gè)方面進(jìn)行闡述:第一部分探討教育大數(shù)據(jù)的定義與分類,搭建教育大數(shù)據(jù)支撐環(huán)境;第二部分討論大數(shù)據(jù)環(huán)境下的學(xué)業(yè)預(yù)警系統(tǒng)設(shè)計(jì),提出課程、課堂、課外“三位一體”的預(yù)警信息發(fā)現(xiàn)與生成模型LAOMA(Model of Learning Alert based on Outlier Mining and Analysis),建立學(xué)業(yè)預(yù)警兩類六級(jí)信號(hào)系統(tǒng)及反饋機(jī)制;第三部分反思教育大數(shù)據(jù)、學(xué)習(xí)引導(dǎo)、學(xué)業(yè)預(yù)警等學(xué)習(xí)分析技術(shù)在教育中應(yīng)用所面臨的問題與挑戰(zhàn)。
大數(shù)據(jù)首先是規(guī)模大,隨著信息技術(shù)的廣泛應(yīng)用,各種信息系統(tǒng)、數(shù)據(jù)庫、云存儲(chǔ)、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)以及移動(dòng)智能終端的飛速發(fā)展,特別是近年來社交系統(tǒng)用戶的急劇增加,數(shù)據(jù)的獲取、分享變得十分容易,使數(shù)據(jù)規(guī)模不斷膨脹。同時(shí),大數(shù)據(jù)還具有數(shù)據(jù)結(jié)構(gòu)復(fù)雜多樣、數(shù)據(jù)更新速度越來越快等特點(diǎn)[4],由于量大、復(fù)雜、多變,從這些海量數(shù)據(jù)中獲取隱藏的、有用知識(shí)的難度越來越大,已有數(shù)據(jù)倉庫和數(shù)據(jù)挖掘相關(guān)處理模式已無法滿足大數(shù)據(jù)巨量復(fù)雜數(shù)據(jù)處理要求[5],研究機(jī)構(gòu)Gartner認(rèn)為需要借助于新的處理模式才能從大數(shù)據(jù)中擁有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力。
大數(shù)據(jù)潛在價(jià)值的重要表現(xiàn)是數(shù)據(jù)之間的關(guān)聯(lián)性,一項(xiàng)重要的思維轉(zhuǎn)換就是從傳統(tǒng)的因果分析向相關(guān)性分析轉(zhuǎn)換。越來越多的國(guó)家、政府、行業(yè)、企業(yè)等機(jī)構(gòu)已意識(shí)到大數(shù)據(jù)正在成為組織最重要的資產(chǎn),數(shù)據(jù)分析能力正在成為組織的核心競(jìng)爭(zhēng)力。目前,國(guó)家、政府已經(jīng)把大數(shù)據(jù)應(yīng)用推進(jìn)了人們的生活中, “互聯(lián)網(wǎng)+”已經(jīng)深入到各個(gè)行業(yè)。大數(shù)據(jù)對(duì)教育也形成了顛覆性的影響,已不斷與教育融合并正在促進(jìn)教育模式的變革。
1.教育大數(shù)據(jù)定義
根據(jù)數(shù)據(jù)來源和應(yīng)用領(lǐng)域進(jìn)行界定,可以把教育大數(shù)據(jù)定義為:大數(shù)據(jù)是作用于教育并為教育服務(wù)的技術(shù)與應(yīng)用體系。信息技術(shù)在學(xué)校的應(yīng)用已經(jīng)有相當(dāng)長(zhǎng)的時(shí)間,近年來網(wǎng)絡(luò)的飛速發(fā)展,更是使學(xué)校擁有可用的、高質(zhì)量的海量數(shù)據(jù)逐漸成為現(xiàn)實(shí),大數(shù)據(jù)在教育領(lǐng)域有了越來越廣泛的應(yīng)用。
2.教育大數(shù)據(jù)分類
教育大數(shù)據(jù)按其數(shù)據(jù)結(jié)構(gòu)同樣可分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和無結(jié)構(gòu)的數(shù)據(jù)。學(xué)校應(yīng)用系統(tǒng)如學(xué)籍信息、成績(jī)信息等用二維表結(jié)構(gòu)存儲(chǔ)在關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)一般為結(jié)構(gòu)化數(shù)據(jù),其特點(diǎn)是數(shù)據(jù)列具有原子性和相同的數(shù)據(jù)類型;無結(jié)構(gòu)的數(shù)據(jù)指沒有固定的標(biāo)準(zhǔn)格式,用常規(guī)的方法不易處理,如學(xué)校網(wǎng)頁、課堂視頻數(shù)據(jù)等;在結(jié)構(gòu)化數(shù)據(jù)和無結(jié)構(gòu)的數(shù)據(jù)之間的數(shù)據(jù)即是半結(jié)構(gòu)化數(shù)據(jù),一般為純文本數(shù)據(jù)。
本文按數(shù)據(jù)來源和收集方式可以把教育大數(shù)據(jù)分為三類:顯性數(shù)據(jù)、行為數(shù)據(jù)和系統(tǒng)數(shù)據(jù)(如圖1所示)。顯性數(shù)據(jù)是由終端用戶主動(dòng)輸入或輸出的數(shù)據(jù);行為數(shù)據(jù)也可稱為控制數(shù)據(jù),是為了某種目的由開發(fā)者設(shè)計(jì)記錄用戶操作過程的數(shù)據(jù),一般僅為管理員所見;系統(tǒng)數(shù)據(jù)是由系統(tǒng)自動(dòng)生成的數(shù)據(jù),行為數(shù)據(jù)和系統(tǒng)數(shù)據(jù)均為隱性數(shù)據(jù)。
圖1 教育大數(shù)據(jù)分類
對(duì)同一用戶而言這三類數(shù)據(jù)互不交叉,但同一系統(tǒng)的不同用戶則在顯性數(shù)據(jù)和行為數(shù)據(jù)兩類中有可能重疊。以在線教育為例,學(xué)員視角接觸的課程名稱、作業(yè)、互動(dòng)信息、已學(xué)時(shí)長(zhǎng)、測(cè)試成績(jī)等為顯性數(shù)據(jù),而從教師和管理者視角會(huì)有更多的數(shù)據(jù)出現(xiàn),可以獲得如學(xué)員登錄系統(tǒng)情況、已學(xué)時(shí)長(zhǎng)的構(gòu)成、學(xué)員作業(yè)用去的時(shí)間等行為數(shù)據(jù),那些系統(tǒng)自然生成數(shù)據(jù)可從網(wǎng)絡(luò)與數(shù)據(jù)庫管理員處獲得。
隨著大數(shù)據(jù)規(guī)模的日益巨大、類型的日益多樣、分析的日益復(fù)雜,傳統(tǒng)的數(shù)據(jù)環(huán)境構(gòu)建已經(jīng)不能滿足應(yīng)用的需求。首先,需要有容易普及且經(jīng)濟(jì)實(shí)用的大容量存儲(chǔ)設(shè)備及其高性能I/O方案系統(tǒng);其次,需要有簡(jiǎn)單透明的數(shù)據(jù)保護(hù)、抗干擾和容錯(cuò)能力等等。傳統(tǒng)關(guān)系型數(shù)據(jù)庫系統(tǒng)在大數(shù)據(jù)環(huán)境下因其對(duì)海量數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)處理能力和擴(kuò)展性能較弱,只能作為新部署的大數(shù)據(jù)系統(tǒng)基礎(chǔ)數(shù)據(jù)來源渠道之一。事實(shí)上,數(shù)據(jù)規(guī)模、種類和速度的快速提升,使關(guān)系數(shù)據(jù)庫難以應(yīng)對(duì)和實(shí)時(shí)處理,從而催生新技術(shù)的出現(xiàn)。教育領(lǐng)域的情況亦是如此,目前,基于Hadoop的教育云存儲(chǔ)方案可有效支撐教育大數(shù)據(jù)環(huán)境,該方案可分為四層結(jié)構(gòu):應(yīng)用層、接口層、管理層和存儲(chǔ)層,如表1所示:
表1 教育大數(shù)據(jù)環(huán)境架構(gòu)示意圖
應(yīng)用層根據(jù)學(xué)校不同業(yè)務(wù)可分為多項(xiàng)用戶服務(wù),通過統(tǒng)一身份認(rèn)證在公用API支持下實(shí)現(xiàn)數(shù)據(jù)訪問;存儲(chǔ)層使用虛擬化技術(shù)將各種存儲(chǔ)設(shè)備集中管理,通過HDFS(Hadoop Distributed File System)為上層提供服務(wù)。HDFS在使用方式上與單機(jī)文件系統(tǒng)類似,但可支持海量數(shù)據(jù)的流式訪問,支持?jǐn)?shù)千臺(tái)數(shù)據(jù)服務(wù)器集群,具有高性能的硬件故障檢測(cè)和自動(dòng)快速恢復(fù)能力。云存儲(chǔ)網(wǎng)絡(luò)虛擬化可支持應(yīng)用層訪問數(shù)據(jù)中心外部的各種不同的數(shù)據(jù)源,從而為新增數(shù)據(jù)提供實(shí)時(shí)分析和報(bào)告,具有為大數(shù)據(jù)環(huán)境服務(wù)的可伸縮性、靈活性和可擴(kuò)展性。
普渡大學(xué)的Course Signals系統(tǒng)利用數(shù)據(jù)量化和監(jiān)測(cè)學(xué)生的學(xué)習(xí)狀態(tài),其數(shù)據(jù)來源包括課程考試分?jǐn)?shù)、排名、學(xué)術(shù)經(jīng)歷以及學(xué)生與學(xué)習(xí)管理系統(tǒng)LMS的互動(dòng)情況,預(yù)測(cè)學(xué)生在一門課程學(xué)習(xí)中的表現(xiàn)[6]。本文從課程、課堂、課外三個(gè)角度匯聚不同類型的數(shù)據(jù)來源。
課程數(shù)據(jù)包括主要知識(shí)點(diǎn)、作業(yè)情況、測(cè)驗(yàn)評(píng)分以及與該課程相銜接的先修課程完成情況和成績(jī),以顯性數(shù)據(jù)為主,來源于關(guān)系數(shù)據(jù)庫應(yīng)用系統(tǒng)。
課堂數(shù)據(jù)來源于課堂學(xué)習(xí)行為和過程,包含了豐富的學(xué)習(xí)狀態(tài)信息,需要利用監(jiān)控識(shí)別設(shè)備獲得,除出勤情況、未認(rèn)真聽課時(shí)長(zhǎng)、玩手機(jī)次數(shù)與時(shí)長(zhǎng)等顯性數(shù)據(jù)外,可收集課堂互動(dòng)頻度與效果、實(shí)時(shí)討論參與度、課堂精力集中度,甚至可收集課堂表情數(shù)據(jù)。
課外數(shù)據(jù)則更加豐富多樣,主要由兩方面數(shù)據(jù)構(gòu)成:一是與線上課程資源直接相關(guān)的學(xué)習(xí)數(shù)據(jù),由課程網(wǎng)站或相關(guān)學(xué)習(xí)管理系統(tǒng)收集,這部分行為數(shù)據(jù)可以做到很細(xì)粒度劃分[7],比如在完成課程任務(wù)過程中的鼠標(biāo)點(diǎn)擊、鍵盤操作、所用時(shí)長(zhǎng)、修改次數(shù)、是否跳躍、是否反復(fù)等數(shù)據(jù)都可以自動(dòng)保存;二是與課程學(xué)習(xí)不直接相關(guān)但有影響的數(shù)據(jù),如個(gè)人身體狀況、心理數(shù)據(jù)、社交系統(tǒng)數(shù)據(jù),這部分?jǐn)?shù)據(jù)可能涉及學(xué)校多個(gè)應(yīng)用系統(tǒng)和網(wǎng)絡(luò)中心后臺(tái),只有在大數(shù)據(jù)環(huán)境下才可能匯集。
1.離群挖掘與分析
大數(shù)據(jù)環(huán)境下的學(xué)業(yè)預(yù)警系統(tǒng)整合課程、課堂、課外數(shù)據(jù),運(yùn)用離群數(shù)據(jù)挖掘方法發(fā)現(xiàn)那些遠(yuǎn)離常規(guī)對(duì)象的數(shù)據(jù),并對(duì)發(fā)現(xiàn)的離群數(shù)據(jù)進(jìn)行延伸分析。僅從數(shù)據(jù)本身角度看,離群數(shù)據(jù)是指偏離正常的數(shù)據(jù),可能是在數(shù)據(jù)形成過程中因誤差或錯(cuò)誤而產(chǎn)生的,在早期的數(shù)據(jù)分析中經(jīng)常是直接予以剔除。但是,因數(shù)據(jù)來源于現(xiàn)實(shí),很多離群數(shù)據(jù)其實(shí)不是因?yàn)槌霾铄e(cuò)產(chǎn)生的,而是對(duì)應(yīng)的數(shù)據(jù)源對(duì)象本身確實(shí)具有特殊行為,而且這種行為還可能蘊(yùn)含了相當(dāng)重要的信息,往往預(yù)示著某種新情況的出現(xiàn),需要我們?nèi)ケ嫖鯷8],因此離群數(shù)據(jù)挖掘與分析具有重要的意義。
離群挖掘的一般思路是:在一個(gè)具有n個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)集中,給出或約定一個(gè)期望的離群對(duì)象數(shù)目k(k<<n),挖掘出與數(shù)據(jù)集中其余數(shù)據(jù)對(duì)象顯著不同的前k個(gè)對(duì)象。已有一系列的離群挖掘算法,包括基于統(tǒng)計(jì)的、基于距離的和基于偏差的檢測(cè)算法,以及利用常規(guī)數(shù)據(jù)挖掘算法額外獲得的離群數(shù)據(jù)等等。
金義富等提出了一種離群數(shù)據(jù)集特征描述及延伸知識(shí)發(fā)現(xiàn)的分析框架[9],可以對(duì)離群數(shù)據(jù)對(duì)象來源、含義、分類、行為特征以及離群趨勢(shì)等進(jìn)行較為全面的分析,其主要步驟為:根據(jù)分析問題領(lǐng)域需求建構(gòu)目標(biāo)模型,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,獲得規(guī)范數(shù)據(jù)集Dn×m,其屬性集為Am;選擇與數(shù)據(jù)領(lǐng)域特性及規(guī)模相適應(yīng)的離群挖掘算法作用于全部數(shù)據(jù)集,得到具有k個(gè)對(duì)象的離群集Om;嘗試把同樣的離群挖掘算法作用于全部數(shù)據(jù)對(duì)象但更小的屬性子集Ai(i<m),獲得另一些具有ki個(gè)數(shù)據(jù)對(duì)象的離群集Oi;根據(jù)離群集Oi兩兩相似度與對(duì)應(yīng)的屬性集兩兩相似度關(guān)聯(lián)分析Ai,i=1, 2, ……, m,獲得有關(guān)潛在信息。
2.學(xué)業(yè)預(yù)警模型
根據(jù)以上分析,在教育大數(shù)據(jù)環(huán)境下,基于離群挖掘與分析技術(shù)的課程、課堂、課外數(shù)據(jù)“三位一體”的學(xué)業(yè)預(yù)警系統(tǒng)LAOMA模型可以按如圖2所示進(jìn)行構(gòu)建。
圖2 學(xué)業(yè)預(yù)警LAOMA模型
ETL(Extract-Transform-Load)用于集成分布式異構(gòu)數(shù)據(jù)源的數(shù)據(jù),經(jīng)過數(shù)據(jù)匯總、合并、過濾、轉(zhuǎn)換或格式化,建立統(tǒng)一的關(guān)鍵數(shù)據(jù)及索引數(shù)據(jù)。Hive是在Hadoop環(huán)境下的ETL工具,構(gòu)建于傳統(tǒng)的數(shù)據(jù)庫和數(shù)據(jù)倉庫理念之上,提供用于加載、轉(zhuǎn)換、查詢、分析HDFS中結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。
預(yù)警分析以離群挖掘結(jié)果集Om為基礎(chǔ),設(shè)其中有k個(gè)離群對(duì)象,Om={p1, p2, ……, pk},對(duì)每個(gè)離群數(shù)據(jù)對(duì)象pi,找出其關(guān)鍵屬性子空間kas(pi),這是一個(gè)反復(fù)對(duì)屬性子集進(jìn)行相同離群挖掘的過程。離群對(duì)象的關(guān)鍵屬性子空間是這樣的一個(gè)最小維數(shù)子屬性集,如果不包含這個(gè)子屬性集就不能發(fā)現(xiàn)這個(gè)離群對(duì)象,反之即可理解為關(guān)鍵屬性子空間對(duì)于該數(shù)據(jù)的離群具有關(guān)鍵作用。預(yù)警分析主要包括兩方面內(nèi)容:一方面是對(duì)所有數(shù)據(jù)屬性進(jìn)行分析,搜索導(dǎo)致學(xué)生學(xué)業(yè)出現(xiàn)異常的主要因素,利用關(guān)鍵屬性可以分析獲得相關(guān)信息。計(jì)算屬性集Am中每個(gè)屬性aj在所有k個(gè)離群對(duì)象的關(guān)鍵屬性子空間中出現(xiàn)的次數(shù)cj, j=1, 2, ……, m,顯然,cj值越大說明屬性aj影響的離群數(shù)據(jù)點(diǎn)越多,所對(duì)應(yīng)的因素即是越重要的學(xué)業(yè)影響因素,LAOMA模型用cj/k評(píng)價(jià)屬性aj對(duì)學(xué)業(yè)異常的影響度。特別的,如果aj在所有關(guān)鍵屬性子空間中都未出現(xiàn),即cj=0,說明因素aj對(duì)學(xué)業(yè)異常沒有影響;如果aj被包括在所有關(guān)鍵屬性子空間中,即cj/k=1,說明因素aj對(duì)每個(gè)學(xué)業(yè)異常的對(duì)象都有影響。
另一方面,學(xué)業(yè)預(yù)警是一個(gè)動(dòng)態(tài)的環(huán)境,預(yù)警需要根據(jù)時(shí)序數(shù)據(jù)逐步做出,取數(shù)據(jù)更新后下一個(gè)時(shí)間點(diǎn)數(shù)據(jù)進(jìn)行同樣的離群挖掘和分析,得到另一個(gè)離群結(jié)果數(shù)據(jù)集O'm={p'1, p'2, …, p'k'}以及相應(yīng)的關(guān)鍵屬性子空間kas(p'i)、屬性或因素影響度c'j/k',i=1, 2, ……, k',j=1, 2, ……, m,我們可以分析離群集O'm與Om的相似性,即有多少個(gè)離群對(duì)象是相同的,顯然,如果一個(gè)對(duì)象在兩次檢測(cè)中都是離群的,即異常在持續(xù)出現(xiàn),說明這個(gè)數(shù)據(jù)對(duì)象對(duì)應(yīng)的學(xué)業(yè)可能存在危機(jī)。還可以分析某個(gè)屬性的影響度隨時(shí)序的變化情況,作為輸出結(jié)果提供給師生。
1.兩類六級(jí)信號(hào)
Course Signals系統(tǒng)將學(xué)生按照當(dāng)前狀態(tài)分成綠、黃、紅三組,綠色表示學(xué)生如果繼續(xù)保持當(dāng)前的學(xué)習(xí)狀態(tài)就很可能達(dá)成目標(biāo),黃色表示學(xué)生在該門課程學(xué)習(xí)中存在潛在困難,紅色則表示這個(gè)學(xué)生可能要掛科了,系統(tǒng)通過自動(dòng)生成有關(guān)警示和建議信息并發(fā)送e-Mail給學(xué)生,以便學(xué)生能夠繼續(xù)保持狀態(tài)或做出相應(yīng)改進(jìn)。該系統(tǒng)同時(shí)也反饋數(shù)據(jù)幫助課程老師調(diào)整和調(diào)整改進(jìn)自己的教學(xué)實(shí)踐。
和Course Signals系統(tǒng)比較,本文提出的學(xué)業(yè)預(yù)警LAOMA模型能提供更豐富更精細(xì)的預(yù)警信息,包括兩類六級(jí)信號(hào)及影響因素反饋。離群挖掘結(jié)果集顯示的離群數(shù)據(jù)對(duì)象可能包括學(xué)業(yè)特別優(yōu)秀和特別差勁兩種極端情形,因此總的分析結(jié)果可以用正常與異常兩類來統(tǒng)一進(jìn)行判別,正常類分為一般正常和特別優(yōu)秀兩級(jí),異常類分為四級(jí),按異常程度由輕到重定義為存在問題、較多問題、問題嚴(yán)重和特別異常,借用氣象災(zāi)害預(yù)警信號(hào)表示分別用藍(lán)色、黃色、橙色、紅色進(jìn)行可視化輸出。同時(shí),為了統(tǒng)一,LAOMA系統(tǒng)也將正常類一般正常和特別優(yōu)秀兩級(jí)分別用綠色和紫色表示,這樣,就形成了一套完整的兩類六級(jí)預(yù)警信號(hào)體系。
結(jié)合時(shí)序數(shù)據(jù)離群對(duì)象及其關(guān)鍵屬性子空間構(gòu)成,LAOMA系統(tǒng)根據(jù)不同時(shí)間點(diǎn)檢測(cè)結(jié)果進(jìn)行預(yù)警級(jí)別界定和影響因素反饋。在可自更新的大數(shù)據(jù)環(huán)境中,每隔一定時(shí)間進(jìn)行一次離群挖掘與分析,共進(jìn)行了q次,在所有q次檢測(cè)中數(shù)據(jù)對(duì)象p均為離群,則p為特別離群對(duì)象,根據(jù)其中正向?qū)傩灾凳欠駷檎蛉≈荡_定其為特別優(yōu)秀或是特別異常,從而給出紫色或紅色的可視化輸出,LAOMA系統(tǒng)對(duì)于特別優(yōu)秀的區(qū)分度不進(jìn)行詳細(xì)辨識(shí),認(rèn)為經(jīng)常離群且正向?qū)傩灾禐檎蛉≈档木鶎儆谔貏e優(yōu)秀即用紫色表示。在q次檢測(cè)中p如果只是偶爾很少次認(rèn)定為離群,且在每次檢測(cè)中其關(guān)鍵屬性子空間kas(p)都不一樣,說明使p異常的原因可以由p主動(dòng)消減,即不存在固定的原因使p異常,所以對(duì)p的預(yù)警只是最一般的藍(lán)色。其它各級(jí)采用離群次數(shù)進(jìn)行判別,0次離群的為正常數(shù)據(jù)對(duì)象,如表2所示,因本文討論的異常情況已蘊(yùn)含了其正向?qū)傩灾等≈禐榉聪虻募僭O(shè),故表2中不再另行注明。
表2 兩類六級(jí)學(xué)業(yè)預(yù)警信號(hào)含義及判別標(biāo)準(zhǔn)表
2.異常影響因素反饋
離群對(duì)象p的關(guān)鍵屬性子空間kas(p)即是導(dǎo)致數(shù)據(jù)離群的主要原因,可以精準(zhǔn)地用kas(p)個(gè)性化反饋學(xué)生的學(xué)業(yè)異常影響。LAOMA系統(tǒng)從兩個(gè)方面對(duì)q次檢測(cè)結(jié)果進(jìn)行輸出。
(1)離群對(duì)象的個(gè)性化異常因素分析。設(shè)各次檢測(cè)獲得同一離群對(duì)象p的關(guān)鍵屬性子空間分別為kasi(p),i=1,2,……,q,如果第i次檢測(cè)p是不離群的則kasi(p)為空集,設(shè)p共有q0次離群,屬性aj在所有q0個(gè)kasi(p)出現(xiàn)的次數(shù)cj,顯然,cj值越大說明屬性aj影響p離群的次數(shù)越多,用cj/q0評(píng)價(jià)屬性aj對(duì)p學(xué)業(yè)異常的影響度,可繪制個(gè)性化異常因素影響圖。如在我們每周一次的10次檢測(cè)測(cè)試數(shù)據(jù)中,有一位同學(xué)有7次都被判定為異常,大于10/2,于是給他橙色預(yù)警,其個(gè)性化影響因素及影響度為:每周作業(yè)成績(jī)5/7、上課遲到次數(shù)2/7、上網(wǎng)時(shí)長(zhǎng)4/7、下行流量3、社團(tuán)活動(dòng)時(shí)間3/7、宿舍停留時(shí)間1/7,如圖3所示,用餅圖直觀展示了該同學(xué)的學(xué)業(yè)異常因素構(gòu)成。
圖3 異常因素個(gè)體影響度
(2)因素aj的總體影響度分析。設(shè)各次檢測(cè)獲得aj的異常影響度為cji/ki,i=1,2,……,q,可繪制因素持續(xù)影響圖展示學(xué)業(yè)異常影響因素總體情況。
大數(shù)據(jù)技術(shù)可以收集過去無法獲取的或者獲取代價(jià)很高的數(shù)據(jù),并較為容易地用于教學(xué)過程分析,以充分提升學(xué)業(yè)表現(xiàn)、教學(xué)水平和管理能力,大數(shù)據(jù)技術(shù)將會(huì)在教育領(lǐng)域掀起革命性的巨大影響。然而,教育的目標(biāo)是人的成長(zhǎng),其根本是教化培育使人用一種相對(duì)成熟或理性的思維來認(rèn)知事物,逐漸形成一種相對(duì)完善或理性的自我意識(shí)思維,即使對(duì)于學(xué)校教育教學(xué)活動(dòng),教師有目的、有計(jì)劃、有組織地引導(dǎo)學(xué)生,選定合適的信息內(nèi)容,通過有效的媒介,把信息傳給學(xué)生,這是一個(gè)不僅使學(xué)生得到知識(shí)、技能與方法的傳承與創(chuàng)新過程,而且學(xué)生思維、情感與價(jià)值將會(huì)獲得持續(xù)改善和升華[10][11]。這個(gè)過程是如此復(fù)雜和不可預(yù)測(cè),不管教育大數(shù)據(jù)支撐下的學(xué)習(xí)分析技術(shù)如何精妙與完美[12],終究是用過去的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展,而人的成長(zhǎng)不可能完全由過去生硬的數(shù)字決定。因此,利用大數(shù)據(jù)為教育服務(wù)亦如本文討論的學(xué)業(yè)預(yù)警系統(tǒng)等均是需要在實(shí)際應(yīng)用中謹(jǐn)慎推行。然而,通過大數(shù)據(jù)創(chuàng)建個(gè)性化定制教育實(shí)現(xiàn)學(xué)習(xí)優(yōu)化又是如此具有吸引力和挑戰(zhàn)性,機(jī)遇已經(jīng)來臨,應(yīng)該有更大信心去做出人的發(fā)展與工具軟件指示之間的權(quán)衡。因此,本文下一步工作將繼續(xù)對(duì)提出的LAOMA系統(tǒng)進(jìn)行測(cè)試與改進(jìn),設(shè)計(jì)更加具體和精細(xì)的反饋信息,尋找更有針對(duì)性的干預(yù)措施。
[1] 金陵. 大數(shù)據(jù)與信息化教學(xué)變革[J]. 中國(guó)電化教育, 2013, (10): 8-13.
[2] 祝智庭, 沈德梅. 學(xué)習(xí)分析學(xué):智慧教育的科學(xué)力量[J]. 電化教育研究, 2013, (5): 5-12.
[3] Annika Wolff, Zdenek Zdrahal, Andriy Nikolov, Michal Pantucek.Improving retention: predicting at-risk students by analyzing clicking behavior in a virtual learning environment [EB/OL]. http://oro.open.ac.uk/36936,2015-12-31.
[4]顧小清,張進(jìn)良等. 學(xué)習(xí)分析:正在浮現(xiàn)中的數(shù)據(jù)技術(shù)[DB/OL].http://www.doc88.com/p-0681404625840.html,2015-11-30.
[5] 王華, 劉萍. 改進(jìn)的關(guān)聯(lián)規(guī)則算法在學(xué)生成績(jī)預(yù)警中的應(yīng)用[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2015, 36(3): 679-682.
[6] Kimberly E. Arnold and Matthew D. Pistilli. Course Signals at Purdue:Using learning Analytics to Increase Student Success[EB/OL].http://www.itap.purdue.edu/learning/docs/research/Arnold_Pistilli-Purdue_University_Course_Signals-2012.pdf,2015-12-31.
[7] 葛道凱, 張少剛等. 教育數(shù)據(jù)挖掘:方法與應(yīng)用[M]. 北京: 教育科學(xué)出版社, 2012.
[8] 馬紅亮,袁莉等.反省分析技術(shù)在教育領(lǐng)域中的應(yīng)用[DB/OL].http://www.aiweibang.com/yuedu/45947986.html,2015-11-30.
[9] 金義富, 朱慶生. 一種離群數(shù)據(jù)集延伸知識(shí)發(fā)現(xiàn)框架[J]. 華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2008, 36(9): 31-36.
[10] 胡娟, 唐菁華. 學(xué)業(yè)適應(yīng)不良大學(xué)生非智力因素的診斷和治療初探[J]. 人類工效學(xué), 2011, 17(3): 46-48.
[11] Jo Davies and Martin Graff. Performance in e-learning online participation and student grades[J]. British Journal of Educational Technology, 2005, 36(4): 657-663.
[12] 魏順平. 學(xué)習(xí)分析技術(shù):挖掘大數(shù)據(jù)時(shí)代下教育數(shù)據(jù)的價(jià)值[J]. 現(xiàn)代教育技術(shù), 2013, 23(2): 5-11.
Design and Analysis of Learning Alert System in Big Data Condition
Jin Yifu, Wu Tao, Zhang Zishi, Wang Weidong
(Engineering Technology Development Center in Universities of Guangdong for E-Learning,Lingnan Normal University, Zhanjiang Guangdong 524037)
Following the Internet deeply fusing with education, the educational big data are gradually taken for the principal environment in learning analysis. This paper discusses the classification, collection and storage organization of educational big data, and the general thought and method of educational data mining and learning analysis. A design framework of learning alert system in big data condition is presented in the paper. Further a model of Learning Alert based on Outlier Mining and Analysis (LAOMA) is put forward based on the trinity data of courses, classroom and outside class. And this model is used to discover and generate alert information. The two-type and six-level signal system of learning alert and its feedback mechanism are set up in this paper. Finally, the paper expounds that the individualized instruction can be realized by means of learning analysis technology inclusive learning alert, but inappropriate application of these technology and excessive dependent on rigid data are not likely to suit educational essence.
Educational Big Data; Learning Analysis; Outlier Mining; Alert Signal; Educational Rethinking
G434
:A
金義富:博士,教授,研究方向?yàn)閿?shù)據(jù)庫技術(shù)、知識(shí)工程、教育信息化(yfjin@tom.com)。
吳濤:博士,副教授,研究方向?yàn)閳D像處理、人工智能技術(shù)。
張子石:碩士,高級(jí)實(shí)驗(yàn)師,研究方向?yàn)榻逃畔⒒?、學(xué)習(xí)技術(shù)。
王偉東:碩士,實(shí)驗(yàn)師,研究方向?yàn)橹悄軘?shù)據(jù)處理、教育信息化。
2015年12月25日
責(zé)任編輯:趙興龍
1006—9860(2016)02—0069—05
* 本文系廣東省自然科學(xué)基金項(xiàng)目“基于教育云的學(xué)習(xí)分析與教育大數(shù)據(jù)研究”(項(xiàng)目編號(hào):S2013010016994)研究成果。