羅云芳,唐運樂,閔金花
(1.廣西職業(yè)技術學院,廣西 南寧 530226;2.南寧師范大學師園學院,廣西 南寧 530226)
大數(shù)據(jù)等新一代信息技術已成為推動各領域創(chuàng)新、改革與發(fā)展的新動力。我國的教育大數(shù)據(jù)發(fā)展戰(zhàn)略,目的是通過成立研究機構和設置相關機制,研究和推動大數(shù)據(jù)在教育領域的應用,利用大數(shù)據(jù)為教育的改革與發(fā)展賦能,使大數(shù)據(jù)成為教育改革與發(fā)展的新引擎[1]。隨著校園信息化建設的迅速發(fā)展,教育數(shù)據(jù)大量產(chǎn)生。構建融基礎數(shù)據(jù)采集、存儲計算和數(shù)據(jù)的分析、挖掘、應用于一體的高校教育大數(shù)據(jù)平臺成為了實現(xiàn)業(yè)務系統(tǒng)數(shù)據(jù)融合,消除信息孤島,助推教育創(chuàng)新、改革與發(fā)展的重要保障手段[2]。目前各高校尚未構建能有效驅動教育改革與發(fā)展的完整的大數(shù)據(jù)平臺架構。將教育改革與發(fā)展的關鍵問題與當前前沿的大數(shù)據(jù)技術相結合,在此基礎上研究高校教育大數(shù)據(jù)平臺的構建,進一步完善智慧校園技術體系,具有很好的現(xiàn)實意義。
根據(jù)大數(shù)據(jù)概念,教育大數(shù)據(jù)指的是教育教學過程中產(chǎn)生的結構化和非結構化的,需要借助分布式存儲管理等新處理模式和新技術才能管理、分析和挖掘其價值的高速增長的具有多樣化、低密度價值的數(shù)據(jù)信息[3]。大數(shù)據(jù)新處理模式和新技術主要包括Hadoop分布式集群、HDFS分布式文件系統(tǒng)、HBase分布式數(shù)據(jù)庫、機器學習、認知計算等存儲和分析挖掘算法[4]。對高校而言,高校大數(shù)據(jù)即是高校在教育管理、教學和科研活動中產(chǎn)生的,對推動高校教育教學改革、綜合管理、發(fā)展規(guī)劃和決策等具有巨大價值的信息數(shù)據(jù)。目前高校產(chǎn)生的大數(shù)據(jù)主要包括學生的基本信息(如選課、成績、教材、食堂消費、網(wǎng)絡行為等),教師基本信息、科研基本信息、教學相關信息等,這些數(shù)據(jù)孤立地存儲在各獨立的信息系統(tǒng)中,且呈現(xiàn)出數(shù)據(jù)來源多元化、數(shù)據(jù)類型多樣化、數(shù)據(jù)異構維度高和數(shù)據(jù)整體價值高等特性[5]。要充分挖掘出這些數(shù)據(jù)的潛在價值,新構建的高校教育大數(shù)據(jù)平臺需具備如下功能:一要能對歷史數(shù)據(jù)進行有效的融合存儲,二要能對新產(chǎn)生的數(shù)據(jù)進行規(guī)范統(tǒng)一的整體性存儲。因此,在構建高校教育大數(shù)據(jù)平臺時需重點圍繞“管理+治理+應用”三方面對高校教育大數(shù)據(jù)存在的數(shù)據(jù)標準不統(tǒng)一、數(shù)據(jù)源頭多樣化、數(shù)據(jù)不同步、數(shù)據(jù)存儲分散等問題進行處理,具體的措施有:從信息服務頂層切入,制定數(shù)據(jù)統(tǒng)一標準,對歷史數(shù)據(jù)進行充分地清洗;確定數(shù)據(jù)產(chǎn)生的唯一性歸口和數(shù)據(jù)訪問統(tǒng)一接口;對錯誤和殘缺的數(shù)據(jù)進行解析、關聯(lián)、清洗和交換,提升數(shù)據(jù)質量;構建標準的數(shù)據(jù)交換接口和利用ODI等工具建設數(shù)據(jù)交換平臺中間件,提高數(shù)據(jù)共享水平;對數(shù)據(jù)采集、管理和應用的全過程進行規(guī)范管理,完善數(shù)據(jù)維度,實現(xiàn)數(shù)據(jù)全量融合與綜合分析。
構建高校教育大數(shù)據(jù)平臺可形成統(tǒng)一的中心數(shù)據(jù)庫,通過有效的數(shù)據(jù)挖掘,可為高校學生的個人學習與發(fā)展,教師的教學、科研與職業(yè)發(fā)展,學校的教育教學管理(如網(wǎng)絡教學管理、專業(yè)診斷改進和規(guī)劃建設等)提供強大的數(shù)據(jù)支持。高校教育大數(shù)據(jù)平臺應具有如下功能:(1)提供連接各應用系統(tǒng)數(shù)據(jù)的采集接口,實現(xiàn)結構化、非結構化和實時行為數(shù)據(jù)的采集、存儲和融合;(2)綜合利用HDFS、HBase等分布式存儲系統(tǒng),實現(xiàn)各類型、各形式數(shù)據(jù)的存儲,并提供高容錯和高吞吐的管理與快速查詢功能;(3)根據(jù)上層分析、挖掘和應用的需要,提供并行計算、實時計算和圖式計算等算法,實現(xiàn)海量數(shù)據(jù)的分析、挖掘、計算和應用;(4)根據(jù)高校教育教學管理、規(guī)劃發(fā)展和決策需要,提供分析、挖掘模型和算法。高校教育大數(shù)據(jù)平臺應覆蓋從數(shù)據(jù)采集、存儲計算、分析挖掘到具體應用的全過程,其構建總體架構如圖1所示。
圖1 高校教育大數(shù)據(jù)平臺總體架構
高校教育數(shù)據(jù)包括三類。第一類是以結構化形式存儲于教務管理系統(tǒng)、科研管理系統(tǒng)、教學診斷與改進管理系統(tǒng)、一卡通系統(tǒng)、實踐教學管理系統(tǒng)和就業(yè)管理系統(tǒng)等各類業(yè)務管理系統(tǒng)中的數(shù)據(jù);第二類是在教育教學過程中產(chǎn)生的圖形、音頻、視頻和文檔等非結構化數(shù)據(jù),如音視頻素材文件、Excel文件、PPT文件、PDF文件等;第三類是智慧教室等系統(tǒng)采集的實時行為數(shù)據(jù),如教學過程中產(chǎn)生的演示和指導等行為數(shù)據(jù),學習過程中產(chǎn)生的答題和在課堂中討論等行為數(shù)據(jù)。
高校教育大數(shù)據(jù)平臺數(shù)據(jù)的采集主要包括對原來各業(yè)務管理系統(tǒng)中數(shù)據(jù)的采集和對實時產(chǎn)生的數(shù)據(jù)的采集兩種:對原來業(yè)務管理系統(tǒng)中數(shù)據(jù)的采集一般通過直接讀取數(shù)據(jù)庫記錄、公開接口處理或批量導入等方式實現(xiàn);教學等實時數(shù)據(jù)的采集則通過Agent技術來實現(xiàn);對于非數(shù)字化數(shù)據(jù)可采用圖像識別等技術來實現(xiàn)采集。
數(shù)據(jù)存儲層是以Hadoop技術為基礎,利用Hadoop分布式計算框架和服務器硬件構建起來的能提供HBase、Hive等標準大數(shù)據(jù)服務,能完成高可靠、高容錯和高吞吐的復雜分析挖掘任務的具有高可靠性和高可擴展性的并行分布式系統(tǒng),可實現(xiàn)和滿足不同數(shù)據(jù)結構和不同存儲方式的高校教育大數(shù)據(jù)的匯集和海量存儲需求,為數(shù)據(jù)挖掘層提供有效的數(shù)據(jù)存儲服務。
高校大數(shù)據(jù)的分析、挖掘和應用主要包括教學和管理兩大方面,具體涉及教學分析、學習分析、專業(yè)診斷分析、科研分析、學生行為分析和規(guī)劃決策分析等內容,主要涉及兩個大方向的技術。一是根據(jù)數(shù)據(jù)挖掘的新需求,設計新的挖掘模型;二是通過數(shù)據(jù)挖掘,解決當前教育大數(shù)據(jù)在應
用中存在的核心問題,涉及的技術主要包括關聯(lián)、聚類、時序、回歸、語義等。
數(shù)據(jù)挖掘的目的是找出其中的價值,而價值則體現(xiàn)在具體應用之中。如針對學生數(shù)據(jù)的挖掘,通過對學生的學習規(guī)律、生活規(guī)律、心理、知識技能和素質等數(shù)據(jù)進行深入挖掘,可形成學生在未來學習表現(xiàn)、心理問題、在校成長軌跡和就業(yè)崗位匹配等方面的精準畫像;對教師數(shù)據(jù)的挖掘,可形成教師在教學、科研等方面的精準畫像,幫助教師改進教學方式方法,發(fā)現(xiàn)科研中存在的問題,助力教師提升科研能力,做好項目研究工作等。對專業(yè)發(fā)展的診斷分析,可以找出制約專業(yè)改革與發(fā)展的核心問題,形成專業(yè)改進方案,促進專業(yè)改革與發(fā)展,此外,還可對學校均衡發(fā)展等問題進行分析、挖掘與預測。
平臺數(shù)據(jù)的采集主要通過兩種渠道實現(xiàn)。一是對接原有各業(yè)務管理系統(tǒng),將各業(yè)務管理系統(tǒng)數(shù)據(jù)統(tǒng)一存儲到大數(shù)據(jù)中心倉庫,可在制定數(shù)據(jù)存取標準的基礎上,通過直接讀取業(yè)務管理系統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)處理接口API對接等方式實現(xiàn);二是直接采集存儲于數(shù)據(jù)中心倉庫的行為數(shù)據(jù),本大數(shù)據(jù)平臺采用Flume技術實現(xiàn)對行為數(shù)據(jù)的采集。利用Flume實現(xiàn)行為數(shù)據(jù)采集的處理過程如圖2所示。采集具體過程是行為對象觸發(fā)產(chǎn)生事件對象對行為根據(jù)的采集。事件監(jiān)聽器監(jiān)聽到事件后,對應事件處理器就會采集行為對象的數(shù)據(jù),匯聚采集的數(shù)據(jù)后推送給服務器接收組件,服務器接收組件處理后將數(shù)據(jù)存入到數(shù)據(jù)緩存組件中,然后通過數(shù)據(jù)分發(fā)組件將存儲于緩存組件中的數(shù)據(jù)發(fā)送到Kafka消息隊列中。
圖2 行為數(shù)據(jù)采集處理過程
歷史數(shù)據(jù)都分布存儲于各業(yè)務管理系統(tǒng)中,在對歷史數(shù)據(jù)進行采集抽取、清洗過濾、數(shù)據(jù)轉換、關聯(lián)分析、知識點獲取和構建數(shù)據(jù)倉庫后將其存儲到大數(shù)據(jù)倉庫中。結合數(shù)據(jù)顆粒度原理,按學生、教師、專業(yè)等不同應用主題和行為分析需求進行數(shù)據(jù)組織,本研究設計的高校教育大數(shù)據(jù)平臺數(shù)據(jù)存儲倉庫設計結構如圖3所示。
高校教育大數(shù)據(jù)涉及到結構化、非結構化數(shù)據(jù)和流式數(shù)據(jù),其數(shù)據(jù)來源和體量都已超越小規(guī)模數(shù)據(jù)范疇[6]。對于教育大數(shù)據(jù)的存儲和管理,利用Hadoop技術構建分布式集群和分布式存儲,并實現(xiàn)存儲和計算一體化。在數(shù)據(jù)存儲方面,利用HDFS存儲非結構化數(shù)據(jù),利用HBase和Hive存儲結構化數(shù)據(jù),利用Kafka和Redis緩存經(jīng)常處理和需要快速響應的數(shù)據(jù)。在并行計算方面,利用MapReduce進行大規(guī)模數(shù)據(jù)集計算,利用Spark技術實現(xiàn)流式數(shù)據(jù)處理和內存計算,以滿足實時性數(shù)據(jù)處理要求和高速統(tǒng)計分析,利用Graph圖計算技術,滿足知識結構圖譜的計算處理需求。
3.4.1 數(shù)據(jù)變換與擴充處理采集的數(shù)據(jù)中,有些數(shù)據(jù)往往包含大量信息,如學生身份證號碼包含了省份信息,隱含了飲食習慣差異、語言差異、氣候差異、人均GDP差異等對學生心理產(chǎn)生影響的重要信息,因此要對身份證信息數(shù)據(jù)進行變換與擴充處理。
3.4.2 數(shù)據(jù)缺失值處理
針對采集到的數(shù)據(jù)存在的數(shù)據(jù)值缺失情況,需要通過相關技術手段進行補全處理。如采集的“父母受教育水平”數(shù)據(jù)就可能出現(xiàn)數(shù)據(jù)值缺失的情況,可以使用均值方式填補缺失值,采集的“家庭月收入”數(shù)據(jù)也可能出現(xiàn)數(shù)據(jù)值缺失的情況,可以使用聚類填充方式進行處理。
3.4.3 歸一化與標準化處理
在建立模型進行數(shù)據(jù)分析之前,需要將不同規(guī)格的數(shù)據(jù)轉換為同一規(guī)格,這種需求被稱為將數(shù)據(jù)“無量綱化”。線性的無量綱化包括中心化處理和縮放處理,中心化和縮放是實現(xiàn)線性無量綱化的兩種形式。中心化是將所有記錄減去一個固定值,使原數(shù)據(jù)處理成統(tǒng)一規(guī)格;縮放是將原數(shù)據(jù)除以一個固定的數(shù),將樣本縮放到固定的范圍中。歸一化和標準化處理實現(xiàn)方法如表1所示。
建設高校教育大數(shù)據(jù)平臺的目的就是對數(shù)據(jù)進行分析和挖掘,充分實現(xiàn)數(shù)據(jù)的價值。在對數(shù)據(jù)進行過濾、清洗、擴充、轉換和關聯(lián)等處理后,利用機器學習、神經(jīng)網(wǎng)絡和概率等算法構建模型,分析、挖掘出數(shù)據(jù)所蘊含的價值。本研究所設計的高校教育大數(shù)據(jù)平臺利用關聯(lián)規(guī)則挖掘學生數(shù)據(jù),可發(fā)現(xiàn)學生的選課規(guī)律和優(yōu)異學生的學習習慣,在此基礎上構建反映知識點關聯(lián)的概念圖[7];還可利用手勢、神態(tài)識別、心理表現(xiàn)建模、學生行為特征抽取等技術,通過多功能攝像頭,捕捉學生的學習動態(tài)特征行為,如神態(tài)、表情、手勢等多模態(tài)數(shù)據(jù),綜合分析學生的學習動態(tài)行為[8]。本文主要介紹箱式圖、概率和神經(jīng)網(wǎng)絡分析算法三種分析挖掘技術。
3.5.1 箱式圖單維度離群值分析
利用箱式圖進行單維度離群值分析的步驟是:將數(shù)據(jù)按升序排序,如果是奇數(shù)個數(shù)值則取最中間一個值作為中位數(shù),之后最中間的值在計算1/4分位點Q1和3/4分位點Q3時不再使用;如果是偶數(shù)個數(shù)值,中位數(shù)則是最中間兩個數(shù)的平均值,這兩個數(shù)在計算Q1和Q3時繼續(xù)使用。Q1:以中位數(shù)為分界點,數(shù)值中最小值到分界點的數(shù)據(jù)再按中位數(shù)取法求得Q1;Q3:同Q1取法,取分界點到最大值的中位數(shù),計算IQR(四分位數(shù)間距),即IQR=Q3-Q1,所有不在(Q1-1.5IQR,Q3+1.5IQR)區(qū)間內的數(shù)為離群值,根據(jù)不同的應用情況,有的只取離群大值,有的取離群小值。
3.5.2 概率模型單維度離群值分析
使用onehot編碼或者其他方式模擬分布概率,如學生就餐分析,將學生就餐時間分為三個時間段,分別為早餐、午餐、晚餐。在每個就餐時間段中再進行分段,每個就餐時間對應一個onehot值,并用多日數(shù)據(jù)求出向量均值,此向量即為在此時間段就餐的概率分布,具體分析過程如圖4所示。同理,求出全校學生就餐時間對應的概率分布,以學校的數(shù)據(jù)為標準,對比學生數(shù)據(jù),概率分布差異越大代表就餐時間越不規(guī)律。利用此方法還可找到出入宿舍時間分布,出入校門時間分布,活動軌跡分布等學生在校的多維分析。
表1 歸一化和標準化處理實現(xiàn)方法
圖4 概率模型分析學生用餐時間過程
3.5.3 利用神經(jīng)網(wǎng)絡進行多尺度回歸預測
學生發(fā)展預測是一個多維度指標體系,是一個各個指標之間既相對獨立,但又存在聯(lián)系的多屬性訓練集,屬于多個具有相關性的任務在同一訓練集的同時學習問題,可利用神經(jīng)網(wǎng)絡結合多尺度回歸法進行預測,形成學生發(fā)展預測畫像。如利用如下方式(見圖5)建模,并利用三層神經(jīng)網(wǎng)絡算法對學生的發(fā)展進行多尺度回歸預測(如圖5所示)。
圖5 三層神經(jīng)網(wǎng)絡多回歸預測學生發(fā)展
構建高校大數(shù)據(jù)平臺,對教育數(shù)據(jù)進行挖掘具有重要現(xiàn)實意義,一可為高校培養(yǎng)大數(shù)據(jù)技術相關專業(yè)人才提供真實的教學資源和實訓條件;二可為高校的教育、教學和科研的改革與決策發(fā)展賦能。本研究重點闡述了高校教育大數(shù)據(jù)平臺的構建和涉及的相關技術,但對專業(yè)診斷與改進方面如何進行數(shù)據(jù)挖掘還沒有具體的闡述,今后的研究將在這方面進行拓展,為高校的改革與發(fā)展提供更優(yōu)質的參考。