張志新,孟 歌,高 凱
(1.首都師范大學 教育學院,北京 100048;2.河北科技大學 信息科學與工程學院,河北 石家莊 050018)
近年來,教育大數(shù)據(jù)的研究與應用已然成為教育事業(yè)發(fā)展的驅(qū)動力。2015年5月,國家開始部署教育大數(shù)據(jù)的相關(guān)工作;2015年8月,國務院頒布《促進大數(shù)據(jù)發(fā)展行動綱要》,明確提出要建設教育大數(shù)據(jù)。各地紛紛響應號召,相繼成立各類教育大數(shù)據(jù)研究院和研究機構(gòu)。2018 年4月,教育部印發(fā)《教育信息化2.0行動計劃》,提出利用大數(shù)據(jù)技術(shù)為學習者提供海量、適切的學習資源服務,深化教育大數(shù)據(jù)應用,助力教育教學、管理和服務的改革發(fā)展。
教育大數(shù)據(jù)通常是指“在整個教育活動過程中所產(chǎn)生的以及根據(jù)教育需要采集到的,一切用于教育發(fā)展并可創(chuàng)造巨大潛在價值的數(shù)據(jù)集合”[1]。目前,在互聯(lián)網(wǎng)技術(shù)與信息技術(shù)支持下,產(chǎn)生多種多樣的教育數(shù)據(jù),全面、協(xié)調(diào)地利用這些數(shù)據(jù)對教育事業(yè)的發(fā)展具有重要意義。然而,相應的技術(shù)、制度、規(guī)范不完善使教育大數(shù)據(jù)在快速發(fā)展中暴露出一些問題。例如,多元化的采集與分析技術(shù)可能會帶來用戶隱私泄露的風險;數(shù)據(jù)管護不規(guī)范導致數(shù)據(jù)質(zhì)量不佳,使分析結(jié)果缺乏可靠性等。因此,提高教育大數(shù)據(jù)的采集、分析及管護技術(shù),完善相關(guān)規(guī)范,是發(fā)展教育大數(shù)據(jù)的基礎(chǔ)性問題。
國內(nèi)學者關(guān)于教育大數(shù)據(jù)的采集、分析、管護技術(shù)及規(guī)范內(nèi)容的研究較為零散,尚不夠系統(tǒng)。在中國期刊全文數(shù)據(jù)庫中,以“教育大數(shù)據(jù)”為主題,檢索時間從2013年國內(nèi)出現(xiàn)的第一篇關(guān)于教育大數(shù)據(jù)的文獻為起點,直到2023年1月,再以“核心期刊”為篩選條件,共篩選論文908篇;在中國知網(wǎng)《中國碩博論文數(shù)據(jù)庫》中,共搜到論文310篇;以“教育大數(shù)據(jù)”為題名在中國國家圖書館官網(wǎng)可以檢索到圖書360本,其中直接相關(guān)的有約140本。本研究將以上文獻作為本研究的中文數(shù)據(jù)主要來源。另外,在web of science數(shù)據(jù)庫以“education big data”與“educational big data”為主題進行檢索,可以搜索到2023年1月之前的期刊論文17 893篇,作為主要的外文文獻數(shù)據(jù)來源。
本研究分別對教育大數(shù)據(jù)的采集、分析、管護技術(shù)及規(guī)范進行綜述,方便研究者了解本領(lǐng)域的概況。在此基礎(chǔ)上,本研究進一步分析我國教育大數(shù)據(jù)發(fā)展亟需解決的問題,并提出相應對策,以期為我國教育大數(shù)據(jù)后續(xù)的研究與實踐提供參考。
“教育大數(shù)據(jù)主要是由人和物產(chǎn)生的,‘人’是指參與教育活動的教師、學生、學校管理者等;‘物’是指在線學習平臺、校園一卡通系統(tǒng)、智慧教室、錄播教室、多媒體計算機等各種教育設施設備”[2]。教育大數(shù)據(jù)常用的采集技術(shù)包括平臺采集、視頻錄制、圖像識別、物聯(lián)感知等。
1.平臺采集
平臺采集技術(shù)是指“通過各種與教育和學習相關(guān)的移動或桌面應用平臺來獲取教育數(shù)據(jù)的技術(shù)”[3]。隨著互聯(lián)網(wǎng)的快速發(fā)展,教育領(lǐng)域出現(xiàn)越來越多的移動或桌面學習平臺,具有代表性的有中國大學MOOC、Coursera、學堂在線、網(wǎng)易云課堂等。這些學習平臺積累了龐大繁雜的教育數(shù)據(jù),主要收集課程信息、學習者學習記錄、學習者的學習狀態(tài)、學習者答題測試數(shù)據(jù)等,為教育研究提供了支持?;谄脚_采集的教育數(shù)據(jù),常用的采集技術(shù)有自動記錄技術(shù)、網(wǎng)絡爬蟲技術(shù)和日志搜索分析技術(shù)。
自動記錄技術(shù)是內(nèi)嵌在平臺里,能夠自動記錄并獲取學習者的在線學習行為數(shù)據(jù)的一種技術(shù)。網(wǎng)絡爬蟲技術(shù)是指“根據(jù)一定準則,借助計算機程序或腳本自動捕獲網(wǎng)頁信息的技術(shù)”[4]。日志搜索分析技術(shù)是指對學習平臺中用戶以及系統(tǒng)的操作信息(如運維工作記錄、學習者練習日志等)進行記錄并分析的技術(shù)。這些技術(shù)可以對在線學習平臺產(chǎn)生的數(shù)據(jù)進行采集,為進一步的分析和教育改革提供基礎(chǔ)。
2.視頻錄制
視頻錄制技術(shù)是指“通過計算機硬件設備對屏幕內(nèi)的內(nèi)容進行錄制的技術(shù)”[5],包括視頻監(jiān)控、智能錄播、情感識別。視頻監(jiān)控是指對指定區(qū)域?qū)崟r展示的現(xiàn)場圖像進行記錄的一種技術(shù),在教育領(lǐng)域可用于長期監(jiān)控校園的運行狀況,采集校園安全數(shù)據(jù),從而發(fā)現(xiàn)校園的異常情況和預測可能發(fā)生危險的地點,保障在校師生的安全。智能錄播技術(shù)是目前教育領(lǐng)域應用最廣泛、最實用的采集技術(shù),通過智能錄播技術(shù)可以錄制課程視頻、進行教學直播,為后續(xù)分析提供大量的、真實的課堂教學數(shù)據(jù),以反映學生的上課情況并對課程進行教學診斷。情感識別技術(shù)是指“通過攝像頭及錄音設備對學習者學習過程中的面部表情、聲音聲調(diào)、語言文字進行獲取和識別,并從中提取和分析學生的情緒狀態(tài)的一種技術(shù)”[6]。該技術(shù)可以判斷學習者的負面情緒如疲勞、倦怠等,進而提供針對性的支持服務。
3.圖像識別
圖像識別技術(shù)是指“對圖形圖像進行監(jiān)測、分類,通過對不同模式的目標和對象進行識別,從中提取重要特征信息的一種技術(shù)”[7](P770-778)。圖像識別在教育領(lǐng)域的應用包括網(wǎng)評網(wǎng)閱技術(shù)、點陣數(shù)碼筆技術(shù)和拍照搜題技術(shù)等。網(wǎng)評網(wǎng)閱技術(shù)用于收集學生的學習成果,如智能閱卷技術(shù)可獲取學生的考試成績數(shù)據(jù)。點陣數(shù)碼筆技術(shù)用于保存學習者的最終書寫結(jié)果,如收集學生的課后作業(yè)及隨堂練習數(shù)據(jù),同時也可以記錄學習者的書寫過程。拍照搜索技術(shù)是指通過拍照自動搜索相關(guān)信息從而為學習者解疑答惑的技術(shù)。既能幫助學生解決問題,也可以通過學生拍照上傳的練習過程及結(jié)果來反饋作業(yè)情況。
4.物聯(lián)感知
物聯(lián)網(wǎng)強調(diào)事物的互聯(lián),是指“通過可互操作的信息傳感設備使各種事物互為連通的網(wǎng)絡”[8]。物聯(lián)網(wǎng)分為感知層、網(wǎng)絡層、應用層三個層次。其中,感知層是物聯(lián)網(wǎng)的核心,相當于物聯(lián)網(wǎng)的五官和皮膚,主要用于識別外界物體和采集信息。物聯(lián)感知是指物聯(lián)網(wǎng)的感知層技術(shù),在教育領(lǐng)域中常用的有校園一卡通技術(shù)。校園一卡通技術(shù)是指“基于智能卡物聯(lián)網(wǎng)技術(shù)、網(wǎng)絡通信技術(shù)、計算機技術(shù)的綜合信息網(wǎng)絡化管理系統(tǒng)”[9],可采集學生的日常消費、圖書借閱、網(wǎng)上選課、日常考勤等海量校園生活信息。
當前,教育大數(shù)據(jù)常用的分析技術(shù)有可視化分析、數(shù)據(jù)挖掘、預測分析、語義分析以及綜合性分析平臺。
1.可視化分析技術(shù)
可視化分析是指“對分析過程以及分析結(jié)果進行展示的技術(shù),用戶能夠通過圖形化手段,清晰、有效地傳達與溝通信息,并通過人機交互界面直觀地了解和掌握數(shù)據(jù)中隱含的規(guī)律,明確所需的分析結(jié)果”[10]。
目前,國內(nèi)外教育領(lǐng)域?qū)梢暬治黾夹g(shù)的應用逐漸增多。一些教育平臺通過可視化分析技術(shù)將學習數(shù)據(jù)以直觀化、易理解的方式呈現(xiàn)給學生、教師和教育管理者,如用柱狀圖、餅狀圖、直方圖、回歸曲線等形式展示數(shù)據(jù)。以南京大學的學生使用Blackboard 平臺學習“雙語學習科學導論”課程為例,教師利用平臺中的“統(tǒng)計評價”功能將學生對知識點的點擊量、討論程度等大量的在線學習行為數(shù)據(jù)自動生成統(tǒng)計圖,從而直觀地掌握學生的學習情況。
2.數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘是指“對模糊的、隨意的、不規(guī)則的數(shù)據(jù)進行處理,借助數(shù)學模型、機器學習算法、專家系統(tǒng)、模式識別等諸多工具和算法,從這些數(shù)據(jù)中發(fā)現(xiàn)有潛在價值的信息和知識,實現(xiàn)數(shù)據(jù)的有效提取”[11]。教育數(shù)據(jù)挖掘是“對教育大數(shù)據(jù)進行處理和分析,通過數(shù)據(jù)建模,發(fā)現(xiàn)學習者學習內(nèi)容與學習結(jié)果、學習資源和教學行為等變量的相關(guān)關(guān)系,從而預測學習者未來的學習趨勢”[12]。數(shù)據(jù)挖掘的分析方法包括:分類與回歸、聚類分析、關(guān)聯(lián)規(guī)則等,近年來在教育領(lǐng)域得到廣泛應用。
分類與回歸的主要目的是對未來的趨勢與規(guī)律進行預測,常用的算法有決策樹、支持向量機、貝葉斯、線性回歸等。有研究者利用支持向量機、鄰近算法對北京某Java培訓公司學習者的學習行為進行研究,通過分析對學習者的學習成果進行預測,并找到影響學習者成績的因素,以此來提高培訓效果。
聚類分析主要用于關(guān)鍵詞聚類分析、學習者分組等,常用的算法為K-means、DBScan等。有研究者對陜西師范大學現(xiàn)代教育技術(shù)專業(yè)學習者的在線學習行為進行聚類分析,通過K-means算法根據(jù)學習者的學習行為特征將學習者分為四類,對不同類型的學習者分別給出網(wǎng)絡學習的建議,從而提高學習效果。
關(guān)聯(lián)規(guī)則的目的在于發(fā)現(xiàn)數(shù)據(jù)之間的相關(guān)性,及時改變數(shù)據(jù)之間的因果關(guān)系,應用于課程推薦、學習者學習行為分析等,常用的算法有Apriori算法、FP—樹頻集算法等。有研究者通過Apriori算法對某師范大學教育技術(shù)學專業(yè)學習者的成績與三學年專業(yè)課時間編排的關(guān)系進行分析,發(fā)現(xiàn)將關(guān)聯(lián)規(guī)則較大的課程編排在同一學期在一定程度上可以幫助學習者提高學習成績。
3.預測分析技術(shù)
在教育領(lǐng)域,預測分析常用于從教育大數(shù)據(jù)中挖掘出學習者的學習行為數(shù)據(jù),包括學習者的學習方式、學習頻率、學習路徑等。通過統(tǒng)計分析和算法可以發(fā)現(xiàn)行為數(shù)據(jù)中所隱含的規(guī)律,從而對學習者的學習進度、學習狀態(tài)、學習效果及分數(shù)進行預測。預測學習者的學習效果是數(shù)據(jù)分析技術(shù)的一個常用應用領(lǐng)域,如基于北京大學在Coursera上開設的6門慕課,挖掘出約8萬余人產(chǎn)生的龐大學習行為數(shù)據(jù)。通過大數(shù)據(jù)分析學習者學習行為與學習效果之間的關(guān)系,從而對學習者能否通過任務和獲取證書進行預測。
4.語義分析技術(shù)
語義分析是指“對信息所包含的語義的識別,并建立一種計算模型,使其能夠像人那樣理解自然語言”[13]。目前,語義分析已經(jīng)在語音識別、圖像識別、自動駕駛等方面取得突破性進展。由于大數(shù)據(jù)的數(shù)據(jù)類型包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),這種多樣性使數(shù)據(jù)分析起來比較困難,需要一套系統(tǒng)的工具去提煉、解析數(shù)據(jù)。語義分析技術(shù)可以幫助研究者智能提取所需數(shù)據(jù),有效過濾圖片、文本、視頻、音頻中與內(nèi)容無關(guān)的數(shù)據(jù)。如北京理工大學張華平等人研發(fā)的NLPIRParser大數(shù)據(jù)語義智能分析平臺就融合文本挖掘、自然語言理解、語義搜索等核心技術(shù),是對語法分析、詞法分析、語境分析等的綜合應用,能夠在分析時過濾掉敏感信息、垃圾信息,從大量的數(shù)據(jù)中識別符合要求的信息。
5.綜合性分析平臺
Hadoop、Spark是教育大數(shù)據(jù)分析系統(tǒng)中較為常見的分析平臺,可用于數(shù)據(jù)挖掘、可視化分析和預測分析等,屬于綜合性的分析處理平臺。Hadoop平臺的使用較早,是一種開源框架,而Spark近幾年的使用率逐漸增高。
Hadoop是在2006 年由Doug Cutting提出的一個平臺,主要語言為Java。Hadoop 的核心框架為HDFS分布式文件系統(tǒng)和Map Reduce引擎,在數(shù)據(jù)處理與分析中有很強的適應性,能夠為海量的數(shù)據(jù)提供存儲與計算,具有可靠性、高擴展性、高效性、成本低等特點。Hadoop平臺進行數(shù)據(jù)挖掘時,常用的分析方法是聚類分析的Kmeans算法,它處理數(shù)據(jù)的效率較高且在教育領(lǐng)域應用相對廣泛。如國內(nèi)某高校通過Hadoop的HDFS框架結(jié)合K-means算法對學生的平時成績和“掛科”率進行分析,預測學生的期末學習成績,并對不同學生提出針對性建議和個性化教學方案。
Spark是由美國加州大學伯克利分校AMP實驗室在Hadoop框架基礎(chǔ)上開發(fā)的一個大數(shù)據(jù)分析平臺,支持Scala、Java、Python等多種語言。Spark與Hadoop相比“迭代運算效率更高、容錯性更高、數(shù)據(jù)處理速度更快,提高了處理數(shù)據(jù)的實時性”[14]。Spark在教育領(lǐng)域的應用可以為校園管理提供依據(jù),如國內(nèi)某高校通過Spark對校園網(wǎng)絡使用者的上網(wǎng)日志數(shù)據(jù)進行分類、聚類分析,并把結(jié)果可視化展示給用戶,以此優(yōu)化校園網(wǎng)絡環(huán)境、加強網(wǎng)絡管理。
數(shù)據(jù)管護是指“在數(shù)據(jù)生命周期,即數(shù)據(jù)的生成、整理、存儲、維護、共享、利用過程中的持續(xù)管護活動”[15]。在教育領(lǐng)域,數(shù)據(jù)管護技術(shù)能夠?qū)A康慕逃龜?shù)據(jù)進行有效處理,使數(shù)據(jù)在后續(xù)研究及重復利用的過程中保持可信性,近年來引起高校、研究機構(gòu)、圖書館的重視。
數(shù)據(jù)管護主要有戰(zhàn)略規(guī)劃、數(shù)據(jù)收集、數(shù)據(jù)處理和數(shù)據(jù)保存4個階段。數(shù)據(jù)管護實施前需要做一些準備工作,可以設立一個數(shù)據(jù)管護團隊。例如,美國佐治亞理工學院圖書館在2008年設立了管護小組,以提供申報、技術(shù)、后臺運營等支持。數(shù)據(jù)管護的關(guān)鍵技術(shù)包括數(shù)據(jù)清洗、數(shù)據(jù)集成等。數(shù)據(jù)清洗是指對重復數(shù)據(jù)、錯誤數(shù)據(jù)、缺失數(shù)據(jù)進行處理,從而提高數(shù)據(jù)的質(zhì)量。數(shù)據(jù)集成是將不同類型的數(shù)據(jù)整合在一起,以擴展數(shù)據(jù)的內(nèi)容,包括模式匹配、實體解析、數(shù)據(jù)整合3個部分。具有代表性的數(shù)據(jù)管護工具有DBWiki、Vizier、Clowder等,利用這些工具可以對數(shù)據(jù)進行清洗、整合和管理。
目前,歐美的一些國家對數(shù)據(jù)管護的研究和實踐已取得一些進展。例如,2004年英國數(shù)字管護中心DCC(Digital Curation Center)成立,提出數(shù)據(jù)管護生命周期模型(Digital Curation Lifecycle Model)。該模型包括鑒定與選擇、采集、獲取與利用、存儲、數(shù)據(jù)描述等管護活動,目的是為英國高校提供管護技術(shù)培訓、專家咨詢等,發(fā)展對數(shù)據(jù)的管護能力。國內(nèi)對數(shù)據(jù)的管護意識逐漸增強,但技術(shù)發(fā)展相較于國外而言還較為滯后。對于學校和教育機構(gòu)來說,想要實現(xiàn)數(shù)據(jù)處理過程中的管護,需要投入大量的人力、物力尤其是技術(shù)人員的培養(yǎng)。目前我國在這些方面投入較少,數(shù)據(jù)管護技術(shù)尚未得到廣泛使用。
1.采集、分析的規(guī)范進展
隨著教育大數(shù)據(jù)采集與分析技術(shù)的使用,數(shù)據(jù)安全、隱私保護、數(shù)據(jù)質(zhì)量等問題逐漸顯現(xiàn)出來。國際上普遍主張在采集和使用大數(shù)據(jù)時要保護用戶權(quán)利,為此出臺許多法律法規(guī)和企業(yè)規(guī)范,其內(nèi)容較為完善且具有實用性。例如,歐盟的《一般數(shù)據(jù)保護條例》規(guī)定了數(shù)據(jù)產(chǎn)生者的知情權(quán)、個人決策權(quán)、訪問權(quán)、反對權(quán)等具體數(shù)據(jù)權(quán)利,還建立了問責機制。美國則采用分散立法模式,在各個層面的不同領(lǐng)域分別制定信息保護制度。
近年來,國內(nèi)對保護用戶權(quán)力、用戶隱私、數(shù)據(jù)安全等越來越重視,專門頒布一些法律法規(guī)約束數(shù)據(jù)的采集與分析。典型的有全國信息安全標準化技術(shù)委員會在2020年3月發(fā)布的一項中國國家標準《信息安全技術(shù)個人信息安全規(guī)范》,對個人信息的采集、使用、保存、共享、披露、刪除等活動的原則和安全要求進行了規(guī)定。2021年8月全國人民代表大會常務委員會頒布的《個人信息保護法》,也規(guī)定了個人敏感信息、個人信息處理等的相關(guān)規(guī)則,旨在保護個人和行業(yè)的數(shù)據(jù)安全。
2.管護的規(guī)范進展
國際上,一些國家科研資助管理機構(gòu)制定了科學數(shù)據(jù)管理政策,如美國聯(lián)邦政府支持的自然科學基金委員會(NSF)頒布的《項目管理指南》規(guī)定所有提交的項目申請中必須有“數(shù)據(jù)管理計劃”,該計劃的內(nèi)容應詳細描述申請者如何管理和使用研究項目所產(chǎn)生的數(shù)據(jù)。另外,許多高??蒲袡C構(gòu)、圖書館系統(tǒng)、教育機構(gòu)在不同領(lǐng)域分別設置數(shù)據(jù)管護制度,旨在規(guī)范數(shù)據(jù)的有效管理。例如英國劍橋大學對數(shù)據(jù)的開放共享制定了“科研數(shù)據(jù)管理措施”,主要規(guī)范數(shù)據(jù)的利用。
近幾年,我國也在加強對數(shù)據(jù)存儲和維護等方面的管理。2015年,國務院印發(fā)的《促進大數(shù)據(jù)發(fā)展行動綱要》明確提出科學數(shù)據(jù)要逐步分層級的有效管理,以便日后實現(xiàn)共享。2018 年,國務院頒布的《科學數(shù)據(jù)管理辦法》要求對數(shù)據(jù)生命周期的步驟進行分層管理,并要求各個領(lǐng)域要明確數(shù)據(jù)管護職責,完善數(shù)據(jù)管護政策,做好數(shù)據(jù)的管理、審查和監(jiān)管工作。
第一,教學過程數(shù)據(jù)采集困難,信息采集不完整。教師在教學過程中利用在線學習平臺進行教學是近年來較流行的一種教學方式,對促進學生的學習效果起著重要作用。但在線學習平臺在設計上往往未考慮數(shù)據(jù)分析的需要,后臺對教與學過程中的行為數(shù)據(jù)記錄和存儲不夠完整。普通教師、學生、學校在采集信息時會出現(xiàn)信息采集不全甚至獲取不到的情況,這對后續(xù)分析和應用都造成了困難。
第二,學習場景多樣,采集過程易受影響。由于數(shù)據(jù)采集場景的多樣性,采集過程中存在許多不確定因素,無法確保獲取持續(xù)的、連貫的教育數(shù)據(jù)。
第三,數(shù)據(jù)類型不一,存儲難度大。結(jié)構(gòu)化數(shù)據(jù)是最常見的數(shù)據(jù)類型,如數(shù)字、符號等,存儲和分析起來較為簡單,但可挖掘價值不高;非結(jié)構(gòu)化數(shù)據(jù)如視頻、語音、圖片等的數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,在存儲、檢索時較為困難;半結(jié)構(gòu)化數(shù)據(jù)介于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間,數(shù)據(jù)的格式和內(nèi)容混在一起,在存儲時需要轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)或者按照非結(jié)構(gòu)化數(shù)據(jù)進行存儲,存儲難度較大。
第一,教育領(lǐng)域中Hadoop等分析平臺應用較少。通過梳理國內(nèi)外大數(shù)據(jù)分析平臺的學術(shù)論文發(fā)現(xiàn),Hadoop、Spark平臺在醫(yī)療、電商等領(lǐng)域應用廣泛,但教育領(lǐng)域的應用相對較少。目前還未形成支撐教育大數(shù)據(jù)平臺開發(fā)的相關(guān)技術(shù)體系,沒有充分發(fā)揮平臺及相關(guān)技術(shù)帶來的便利。
第二,大規(guī)模數(shù)據(jù)處理難,輸出有限。隨著大數(shù)據(jù)技術(shù)的發(fā)展,所生成的數(shù)據(jù)量大幅增加,數(shù)據(jù)規(guī)模持續(xù)增大,這也加大了數(shù)據(jù)存儲、分析的難度。傳統(tǒng)的大規(guī)模數(shù)據(jù)處理方法處理時間較長、數(shù)據(jù)壓縮精度不高,并且由于屏幕空間的限制,數(shù)據(jù)輸出的顯示也有限,對教育大數(shù)據(jù)的發(fā)展帶來了阻礙。
第三,可視化分析技術(shù)滯后,呈現(xiàn)方式單一。目前,數(shù)據(jù)可視化技術(shù)已廣泛應用于醫(yī)學、航空航天等領(lǐng)域。但教育領(lǐng)域的可視化分析技術(shù)研究與應用相對較少且不夠深入,數(shù)據(jù)可視化的呈現(xiàn)方式較為老舊,表達的內(nèi)容深度不夠,難以滿足用戶的需求。
第一,各個層級的數(shù)據(jù)管護意識薄弱。對數(shù)據(jù)管護重要性的認識不足,技術(shù)設施較落后,影響各地區(qū)對國家政策的響應與實施;機構(gòu)和高校圖書館對數(shù)據(jù)管護的認識也不足,對上級政策的落實不到位,直接影響數(shù)據(jù)管護的整體實施。
第二,對數(shù)據(jù)管護的規(guī)定不夠細致具體,缺乏有效的管理體系。我國出臺的法律法規(guī)中有提到要對科學數(shù)據(jù)進行分層管理、按步管護數(shù)據(jù)各個生命周期等,但總體來說政策制定不夠細致具體。如何進行有效管理、怎么實現(xiàn)各環(huán)節(jié)的數(shù)據(jù)管護等內(nèi)容未做詳細制定,且未出臺強制性的管理辦法。因此,我國的科研數(shù)據(jù)大多還處于分散管理、相互封閉、開放共享程度較低的狀況。另外,目前國內(nèi)還沒有建立較為有效的數(shù)據(jù)管理體系,難以在各個層級對數(shù)據(jù)的生命周期管護采取實際性的措施。
第三,專業(yè)技能培訓欠缺,人才質(zhì)量不高、數(shù)量不足。由于國內(nèi)數(shù)據(jù)管護工作剛剛起步,高校和科研機構(gòu)尚未建立起相應的管理部門,也沒有開發(fā)出系統(tǒng)的培訓課程,專業(yè)技能培訓欠缺,導致專業(yè)人才質(zhì)量不高、數(shù)量不足。人才短缺會進一步限制數(shù)據(jù)管護事業(yè)的發(fā)展,因此需要加大數(shù)據(jù)管護技術(shù)的培訓。
第一,缺少統(tǒng)一的標準體系。目前我國教育大數(shù)據(jù)在采集、分析、管護過程中缺乏統(tǒng)一的標準、程序和要求。例如,對數(shù)據(jù)質(zhì)量、數(shù)據(jù)采集與分析流程、數(shù)據(jù)安全等沒有統(tǒng)一規(guī)定,導致獲取的數(shù)據(jù)質(zhì)量不佳、被采集者的基本權(quán)益無法得到有效保障等。另外,許多研究者和從業(yè)者數(shù)據(jù)素養(yǎng)還不夠高,對數(shù)據(jù)進行規(guī)范管理和儲存的意識比較薄弱,將采集到的低質(zhì)量數(shù)據(jù)在未做數(shù)據(jù)清洗的情況下進行分析,影響后續(xù)數(shù)據(jù)分析結(jié)果的可靠性和嚴謹性。
第二,法律法規(guī)制定不完善。目前我國出臺的一些法律法規(guī)有提到數(shù)據(jù)采集、分析時需注意的事項,但制定的內(nèi)容多是框架性的,還不夠詳細,實施起來難度較大。例如,法律法規(guī)缺乏對具體行為的規(guī)范界定和敏感涉密數(shù)據(jù)的規(guī)定。因此,有關(guān)個人信息保護的法律法規(guī)要有清晰的定位和邊界,否則將導致法律法規(guī)的適用模糊化和泛化。
一是建立綜合性采集機制,獲取完整教學過程數(shù)據(jù)。大數(shù)據(jù)技術(shù)與教育的融合為在線學習平臺與智慧校園等的發(fā)展提供了良好的條件,并豐富了教育數(shù)據(jù)的來源。但在教學過程中產(chǎn)生的數(shù)據(jù)往往具有動態(tài)性,因此,在采集連續(xù)不斷的教育數(shù)據(jù)時難度較大。針對這一難題,應構(gòu)建綜合性數(shù)據(jù)采集機制,建立不同數(shù)據(jù)之間的關(guān)聯(lián)。如根據(jù)教師的教學與學生的學習成果、課堂環(huán)境與學生的學習效率之間的關(guān)聯(lián)進行綜合采集,利用二者之間的因果關(guān)系構(gòu)建完整的數(shù)據(jù)集,確保動態(tài)數(shù)據(jù)持續(xù)、完整的獲取和保存。
二是開發(fā)多樣化技術(shù)設施設備,支持不同場景的數(shù)據(jù)采集??紤]到教育場景的多樣性和復雜性,在開展數(shù)據(jù)采集時,要選擇合適的采集技術(shù),以防止數(shù)據(jù)中斷或受損。因此,有必要探索更多專業(yè)化和多樣化的新型技術(shù)設施,為多種場景的信息采集服務,加強數(shù)據(jù)采集的穩(wěn)定性,確保數(shù)據(jù)采集的持續(xù)性。
三是開發(fā)新型數(shù)據(jù)庫技術(shù),存儲不同類型數(shù)據(jù)。對于復雜的分析過程,需找到一種全面的解決方案,不僅要解決圖形、模型等非結(jié)構(gòu)化數(shù)據(jù)的處理,還要將功能擴展到數(shù)據(jù)類型的轉(zhuǎn)化、海量數(shù)據(jù)的存儲、智能數(shù)據(jù)分析等。非結(jié)構(gòu)化數(shù)據(jù)往往需要分布式系統(tǒng)進行存儲,Hadoop 作為分布式開放系統(tǒng),在普通PC 端上也可以進行分布式存儲和處理,且具有良好的可拓展性與容錯性。因此,可利用此類特征開發(fā)新型分布式結(jié)構(gòu)框架來擴展數(shù)據(jù)的存儲容量,以有效解決非結(jié)構(gòu)化數(shù)據(jù)存儲的相關(guān)問題。
一是增加Hadoop等平臺的使用率,掌握平臺相關(guān)的核心技術(shù)。Hadoop、Spark平臺可以實現(xiàn)數(shù)據(jù)的快速處理,并將處理結(jié)果可視化,便于用戶理解和利用。高校和科研機構(gòu)可以根據(jù)自身需求學習和掌握相關(guān)平臺的核心技術(shù),挖掘教育數(shù)據(jù)的潛在價值。利用這些平臺對大規(guī)模用戶的行為特征進行提取,將得到的用戶關(guān)鍵信息進行分析并將結(jié)果可視化,從而對用戶行為進行預測和預警,以提高辦學質(zhì)量、優(yōu)化校園管理。
二是采用多種處理方式,引進專業(yè)化的大規(guī)模數(shù)據(jù)分析技術(shù)。大規(guī)模的數(shù)據(jù)分析對數(shù)據(jù)處理工具的要求較高,想要縮短數(shù)據(jù)處理時間、提高分析效率需要更專業(yè)的處理技術(shù)來實現(xiàn)。因此,高校和教育機構(gòu)可由教育部門牽頭或者委托,尋求外部專業(yè)數(shù)據(jù)處理人才的支持,引進專業(yè)技術(shù)公司的大規(guī)模數(shù)據(jù)處理技術(shù),從而提升研究者自身的專業(yè)技能。近年來,國內(nèi)外對大規(guī)模數(shù)據(jù)可視化的研究逐漸增多,可以解決大規(guī)模數(shù)據(jù)處理時遇到的一些問題,如可以通過并行可視化和原位可視化對大規(guī)模數(shù)據(jù)帶來的難處理、輸出瓶頸等問題進行處理。
三是應用可視化工具,發(fā)展多樣化呈現(xiàn)方式。數(shù)據(jù)可視化在國外的研究較早,有許多較為成熟的可視化工具,如Google Trends(揭示數(shù)據(jù)關(guān)系)、Visual Eyes(在線可視化編輯工具)、Many Eyes(集合可視化工具的在線社區(qū))等。這些工具中有的可以通過挖掘數(shù)據(jù)之間的重要關(guān)聯(lián)及發(fā)展趨勢進行圖形化處理,制作的可視化數(shù)據(jù)動畫能夠生動、準確地傳播信息。國內(nèi)近幾年也有一些新興的可視化工具,如阿里云的DataV 和Quick BI、蛛網(wǎng)時代—云蛛系統(tǒng)的AutoBI和Data View 等。教育領(lǐng)域可以借鑒當前較為流行的可視化工具,挖掘其特點和生動的呈現(xiàn)方式并加以應用,開發(fā)多樣的可視化工具,發(fā)展更多直觀、有趣的呈現(xiàn)方式。
一是提高各個層級的數(shù)據(jù)管護意識。數(shù)據(jù)管護的最終目的是實現(xiàn)數(shù)據(jù)的共享、再利用和增值,只有深刻認識到數(shù)據(jù)管護對國家科研發(fā)展的重要性,才能解決其發(fā)展面臨的其他問題與挑戰(zhàn)。在國家層面,我國應加強同國外教育領(lǐng)域數(shù)據(jù)管護方面的學術(shù)交流,找出國內(nèi)外數(shù)據(jù)管護各方面的差距,引進國外高校圖書館與機構(gòu)的數(shù)據(jù)管護經(jīng)驗,為國內(nèi)數(shù)據(jù)管護的進一步發(fā)展提供有益經(jīng)驗。在學校、機構(gòu)層面,各高校和機構(gòu)要樹立數(shù)據(jù)價值意識,認識到數(shù)據(jù)是能夠通過管理、利用發(fā)揮其最大作用的;并提高專業(yè)人員、從業(yè)者對數(shù)據(jù)管護的專業(yè)意識,對數(shù)字信息進行有效的管理,保證數(shù)據(jù)的長期利用。同時,還應加強政府、學校、圖書館之間的合作與交流,建立數(shù)據(jù)管理平臺或中心,進行多方協(xié)調(diào)共同實施項目,并由專業(yè)人員指導研究者、從業(yè)者進行科學的數(shù)據(jù)管護規(guī)劃,從而實現(xiàn)整體數(shù)據(jù)管護意識的提升。
二是細化數(shù)據(jù)管護政策,建立分級管理體系。我國的數(shù)據(jù)管護政策應細化于數(shù)據(jù)生命周期的每個階段,明確每一個階段的具體流程與操作,切實管護好采集、分析、存儲、分享等階段的數(shù)據(jù),以提高數(shù)據(jù)質(zhì)量,增加數(shù)據(jù)分析結(jié)果的可靠性。此外,我國可以借鑒歐美國家的一些經(jīng)驗,如建立分層管理體系,包括國家層級、地區(qū)層級和機構(gòu)層級。國家層級或地區(qū)層級的管護需要政策上的建議與引導、制定明確的標準、進行多方合作交流、加大重大項目投資等,來促進數(shù)據(jù)管護的發(fā)展。機構(gòu)層級的管護相對簡單些,可以發(fā)展數(shù)據(jù)管護的自動化,減少人力資源的浪費。這樣,各個層級的數(shù)據(jù)管護都有相關(guān)的實施措施,使不同層級的數(shù)據(jù)得到相應的管護。
三是加強數(shù)據(jù)管護技術(shù)培訓,培養(yǎng)更多專業(yè)人才。培訓是提升數(shù)據(jù)管護技能的重要手段,包括職前培訓和職后培訓。
(1)職前培訓是一項長期、系統(tǒng)的全方面提升工作,國家應鼓勵高校加強與專門的情報科研機構(gòu)和大數(shù)據(jù)中心的長期合作,開展以解決問題為導向的項目,培訓教師、學生的數(shù)據(jù)管護技術(shù)。同時,我國高??梢栽O立數(shù)據(jù)管護相關(guān)專業(yè)的課程與圖書情報院,讓在校學生系統(tǒng)、完整地學習數(shù)據(jù)管護技能,培養(yǎng)更多具有專業(yè)技能的學生。科研機構(gòu)與圖書情報學院在科研基金以及協(xié)會的資助下,共同致力于數(shù)據(jù)監(jiān)管專業(yè)人才職業(yè)技能的培養(yǎng)。另外,我國高校開設的數(shù)據(jù)管護專業(yè)相關(guān)課程內(nèi)容應涉及數(shù)據(jù)生命周期的各個階段,國內(nèi)高校可以學習多倫多大學設立數(shù)據(jù)圖書館學,學習內(nèi)容包括數(shù)據(jù)采集、獲取、存儲、管理、分析以及數(shù)據(jù)安全與隱私等方面,貫穿數(shù)據(jù)管護的各個方面。
(2)職后培訓是短期提升管護技術(shù)的一種重要方式。有一定基礎(chǔ)的企業(yè)與機構(gòu)可以成立數(shù)據(jù)管護培訓中心,一方面對從業(yè)者、相關(guān)機構(gòu)人員進行企業(yè)內(nèi)訓,舉辦短期培訓課程,培養(yǎng)內(nèi)部人員的數(shù)據(jù)管護素養(yǎng);另一方面可以對從業(yè)者、相關(guān)機構(gòu)人員進行企業(yè)外訓,提供關(guān)于數(shù)據(jù)管護與共享的討論會,讓企業(yè)和機構(gòu)間的從業(yè)者共同參與培訓和經(jīng)驗交流,從而快速培養(yǎng)大量具有數(shù)據(jù)管護基本知識與技能的人才。
一是建立統(tǒng)一的標準體系,加強落實與監(jiān)督。我國應盡快完善教育大數(shù)據(jù)規(guī)范體系,包括數(shù)據(jù)質(zhì)量標準、數(shù)據(jù)安全標準、數(shù)據(jù)管護規(guī)范等。數(shù)據(jù)質(zhì)量標準可以參考中國科學院計算機網(wǎng)絡信息中心制定的《數(shù)據(jù)質(zhì)量評測方法與指標體系》,包括數(shù)據(jù)的形式質(zhì)量、內(nèi)容質(zhì)量、效用標準。針對數(shù)據(jù)使用可能引起的國家安全、用戶權(quán)益保護等問題,需研究科學數(shù)據(jù)生命周期中數(shù)據(jù)采集、分析、存儲、共享等關(guān)鍵環(huán)節(jié)通用安全技術(shù)標準,制定數(shù)據(jù)存儲安全管理標準、數(shù)據(jù)安全審計要求、數(shù)據(jù)權(quán)益保護標準等。其次,研究者還應加強對數(shù)據(jù)生命周期的監(jiān)管,有效管理和維護數(shù)據(jù)生命周期各個環(huán)節(jié)的數(shù)據(jù),確保數(shù)據(jù)質(zhì)量,提高分析結(jié)果的可靠性。
二是完善法律法規(guī)。法律法規(guī)的制定和實施是保障數(shù)據(jù)安全的重要途徑。法律法規(guī)需建立起清晰的信息處理規(guī)則,明確其內(nèi)涵,構(gòu)建以生命周期為基礎(chǔ)的個人信息采集、存儲、分析、分享和應用等行為的規(guī)范。此外,還應明確界定信息的邊界以及法律的適用范圍,如區(qū)分敏感信息與非敏感信息,明確哪些數(shù)據(jù)是可供采集與使用的;且需制定數(shù)據(jù)存儲、管理與刪除等方面的操作保護措施,提高數(shù)據(jù)的安全性。同時,政府和行業(yè)應加大法律法規(guī)的推廣,切實保障數(shù)據(jù)利益相關(guān)方的權(quán)益,規(guī)范和引領(lǐng)教育大數(shù)據(jù)高質(zhì)量發(fā)展。