袁黎暉
摘 要:隨著數字化校園的建設熱潮,很多高校已搭建起數字化校園系統(tǒng)。同時,隨著統(tǒng)一身份認證系統(tǒng)、公共數據庫和數據交換系統(tǒng)的建立,實現(xiàn)了這些應用系統(tǒng)之間數據交換和共享。高校大數據平采集各業(yè)務系統(tǒng)中需要分析利用的業(yè)務數據,對數據進行清洗和轉換,構建有效的數據分析指標體系,為學校整體了解、改進各方面工作提供動態(tài)、真實、可靠的依據,促進學校各部門協(xié)調運作,提高學校管理水平,幫助學校管理部門建立先進的管理模式。
關鍵詞:高校;數字校園;大數據
數字校園建設是高?;A設施建設的重要組成部分,通過建設數字校園將相對獨立分散的業(yè)務系統(tǒng)進行整合和有效的集成,提高信息化水平。數字校園的建設可以提升高校整體的管理水平和綜合實力,消除信息孤島和應用孤島、建立校級統(tǒng)一信息系統(tǒng);可以實現(xiàn)部門間流程通暢,規(guī)范業(yè)務流程;可以提高工作效率,管理效率,促進高校各項事業(yè)的全面協(xié)調發(fā)展。
高校中不同程度的存在著數據整合問題,這是高校數字化校園建設需要解決的問題之一,建設高校共享數據中心平臺是解決方案的重要組成部分。大數據作為信息技術發(fā)展的新趨勢,已逐漸滲透到各行各業(yè),成為驅動生產業(yè)務發(fā)展的重要因素。教育部高校“十三五”規(guī)劃明確提出要建設“智慧校園”,而這些都離不開數據及大數據相關技術,只有數據的量越大、維度越多,我們才能夠分析出精準的信息。
一、現(xiàn)狀
高校經過信息化系統(tǒng)的建設,將大部份管理流程均從線下轉到了線上,從紙質流程變成了電子流程,從手工記錄變成了自動記錄,提升了管理效率,并使得高校的管理活動更加規(guī)范和科學。從教和學的角度來看,網絡和應用系統(tǒng)的建設改善了教學條件,豐富了教學手段,擴展了教學的時間和空間。國內高校數字校園架構通常包括三個部分。
1.網絡接入部分。高校通過電信、移動、網通及其他運營商接入互聯(lián)網及教育專網,在校內部署核心交換機、防火墻、IPS、WAF等網絡互聯(lián)及安防監(jiān)控設備,網內用戶可使用有線或無線方式經過身份認證和計費系統(tǒng)接入到校園網,訪問網內外資源。
2.各類應用系統(tǒng)。高校內的應用系統(tǒng)主要包括有教務、學工、招生就業(yè)、科研、OA、人力、資產及一卡通等系統(tǒng),這些系統(tǒng)對應校內各個職能部門的工作職責。
3.數據中心基礎。數據中心包括為全校提供信息化服務的軟硬件設施,主要包括服務器、存儲設備和虛擬化軟件、云平臺、中間件和數據庫等。
為了實現(xiàn)各個系統(tǒng)之間的數據同步和流轉,有部分高校建設了“數據中心平臺”,即“公共數據中心”、“統(tǒng)一信息門戶”和“統(tǒng)一身份認證”,這些平臺將下層的業(yè)務管理系統(tǒng)的公共數據部分,如學生數據、人事數據、身份信息等統(tǒng)一抽取出來,建立了中心信息庫,成為各個業(yè)務系統(tǒng)同步的一致性基準。
但是,隨著校園規(guī)模的擴大和業(yè)務的日益繁雜,高校管理人員和系統(tǒng)開發(fā)人員發(fā)現(xiàn)普遍存在的嚴重弊端:這些信息系統(tǒng)都是按照不同的業(yè)務線縱向建設的,各個系統(tǒng)的功能不同,數據分散,基礎數據、公共數據難以同步和共享,對于數據的來源和用途也缺乏規(guī)劃,難以集中進行關聯(lián)、融合的分析應用,不能滿足高校對數據分析決策的要求。
二、高校的數字校園建設普遍具備下列問題。
1.高校底層應用的“數據孤島”現(xiàn)象嚴重,各系統(tǒng)之間的數據尚未進行標準化和歸一化,導致數據同步和交換存在困難,業(yè)務難以實現(xiàn)充分整合。
2.各個業(yè)務系統(tǒng)和“三大平臺”支撐的主要都是事務型應用,但是如果要完成數據綜合統(tǒng)計、信息挖掘、相關性分析等工作,現(xiàn)有的數據由于標準不統(tǒng)一,分離在各個業(yè)務系統(tǒng)中難以整合,因而難以支持上述分析方面的需求。
3.絕大部分應用系統(tǒng)的底層數據形態(tài)都是結構化數據,其生成的數據也是結構化數據,但也存在有大量的非結構化數據(如各種機器設備產生的日志信息)和互聯(lián)網上的數據,由于現(xiàn)有軟件體系無法對這些數據有效存儲、組織、管理和分析,無法有效利用。
4.絕大部分應用系統(tǒng),其數據層架構都是關系型數據管理系統(tǒng)(RDBMS),其運行模式只會保留當前狀態(tài)數據和結果數據,大量的歷史數據、過程數據都被丟棄,但這些歷史數據和過程數據恰恰是進行綜合統(tǒng)計分析所需要的最重要的素材。
5.由于數據難以跨部門調動和流轉,導致各個職能部門進行業(yè)務分析時,只能利用本部門內部的數據進行單個維度分析,難以實現(xiàn)跨維度、跨部門、橫向關聯(lián)的復雜建模和分析。
6.各個職能部門主管,以及校級領導希望了解各種綜合信息時,只能通過逐級上報的報表了解過往信息和局部的、細節(jié)性的信息,且時效性較差,難以通過綜合數據分析獲得快速的、總體的綜合信息,難以形成有效決策輔助。
三、 大數據平臺的設計
隨著移動互聯(lián)網的不斷發(fā)展以及傳感設備在校園內的普及,不僅僅是各個業(yè)務系統(tǒng)的數據需要對接,各種半結構化數據(設備產生的日志)和非結構化數據(監(jiān)控的視頻、照片以及各種文本數據)也在大量產生,這些是傳統(tǒng)的業(yè)務系統(tǒng)所處理和承載不了的數據,但是對于信息化服務而言又是非常有價值的。如何有效整合當前這些業(yè)務系統(tǒng)的數據、日志數據、流式數據,成為各個高校從信息化向智慧化邁進所需要面對的首要問題。
基于這樣的應用背景,有必要在高校建立基于大數據技術的數據整合、交換、分析平臺,不改變現(xiàn)有校園信息系統(tǒng)建設模式,并最大限度利用現(xiàn)有信息系統(tǒng)等基礎設施,支持校園的智慧化運營,為校園的教育、教學創(chuàng)新提供海量數據分析支持,推動學校信息化由傳統(tǒng)“運營管理型”向“意識服務型”轉化,由傳統(tǒng)的“信息化系統(tǒng)”向“智慧型服務”邁進。
大數據平臺體系結構如圖1所示。
各類管理信息系統(tǒng)中的結構化數據、各類IT設備產生的運行過程數據以及來自于互聯(lián)網的信息,在被加載到數據平臺之前,需要經過數據清洗。數據清洗的主要功能包括數據標準管理、元數據管理、數據質量管理、數據資產管理、數據安全管理,目的是將這些數據組合成邏輯上相互關聯(lián)的、形態(tài)和意義一致的數據集。數據平臺是一個以Hadoop分布式存儲和計算體系為核心的數據存儲和處理平臺,利用HDFS、MapReduce、HBase、Spark、Storm、Elastic、Mahout等Hadoop生態(tài)體系中的各種工具實現(xiàn)高效的、分布式的數據存儲和計算處理,從而實現(xiàn)對數據的存儲、分析、挖掘所需要的算法過程。在數據平臺之上,將平臺內部的數據結構、存儲體系、算法模塊進行封裝,屏蔽各種底層細節(jié)和差異,將數據按照各個主題進行重新分類,并隨同分析挖掘算法、高性能分布式計算體系以標準API接口的方式向上面的應用層軟件提供服務。而數據管理和數據維護是為了對數據標準的討論和指定,業(yè)務流程、數據模型和元數據的梳理,數據質量的檢查分析,錯誤和重復數據的修正,數據同步過程和結果的監(jiān)測。在數據服務的上層,是最終實現(xiàn)分析和挖掘目標,并進行前端展示的應用層軟件,這些軟件針對特定的主題和目標進行設計,體現(xiàn)用戶希望達成的分析目標,包括可視化應用、統(tǒng)計分析類應用、學生綜合管理、圖書館應用、個人數據服務類,例如學生綜合管理、科研情況分析、綜合校情展示等等。
四、大數據平臺的實現(xiàn)
如前所述,高校各種業(yè)務應用是以管理和服務流程為導向進行開發(fā)的。業(yè)務流程的運轉使得高校沉淀下來大量的業(yè)務數據,這些數據反映了各個部門的各種業(yè)務過程的詳細信息,特征鮮明,結構穩(wěn)定,信息結構化程度較高,是目前高校的核心數據資產,也是大數據分析的重要基礎。
這類業(yè)務數據的存儲普遍采用傳統(tǒng)的關系型數據庫,比如Oracle、SqlServer等,以單個應用為主題進行設計,比如一卡通、教務、門禁等系統(tǒng)。這些系統(tǒng)中有很多都是關于同一對象的不同活動過程的記錄,例如,各個業(yè)務系統(tǒng)都記錄了學生相關的數據。一卡通記錄的學生的消費過程、身份認證記錄,教務系統(tǒng)記錄的是學生的選課記錄、考試成績、學分情況等,財務系統(tǒng)記錄了學生的繳費情況、補助發(fā)放金額等。在不同的系統(tǒng)中記錄的維度不一樣。我們可以從單個系統(tǒng)中看到某個對象在某個領域域的活動細節(jié)。而大數據項目的目標,則是要將這些數據綜合利用起來,從單維數據變?yōu)槎嗑S數據,以支持復雜的數據分析與調取。
除了各個管理業(yè)務系統(tǒng)中包含的數據,還有很多數據也包含了其他維度的信息,例如,某學生通過校園網連接到互聯(lián)網時產生的上網數據,該學生使用手機連接到學校的WIFI時在無線網絡中留下的連接數據等等?;ヂ?lián)網中也有大量的相關數據,如招生信息、招聘信息、輿論信息等等,都與學校的活動息息相關,因此也需要引入這些數據幫助高校進行綜合的數據分析。
為了盤活學?,F(xiàn)有的數據源,同時打通、引進入和開發(fā)新的數據源,我們需要構建一個綜合的大數據平臺,能夠承載這些數據,同時能夠高效、安全、穩(wěn)定、可靠的對外提供服務。
大數據平臺在技術層面采用自頂向下分層架構設計,共分為四層:數據應用層、數據能力供給層、數據存儲與計算層、數據獲取層,滿足未來需要具備的完整功能體系,如圖2所示。
1.數據應用層,具有直接與用戶交互的所有功能,是系統(tǒng)的使用界面和視圖,可快速靈活定制,滿足各種校園使用場景和人員的需要,并具備統(tǒng)一門戶和綜合展示功能。
2.數據能力供給層,具有豐富的原子能力和組裝能力,供場景/應用層靈活調用,是大數據基礎平臺的核心的業(yè)務數據處理模塊。
3.數據存儲和計算層,實現(xiàn)海量業(yè)務數據的集中清洗、存儲、管理,支撐決策層集中掌握校園整體運行情況。
4.數據采集層:具備多業(yè)務、多技術接口的數據采集和轉換能力,具備按照應用場景進行業(yè)務數據采集,互聯(lián)網數據抓取,機器數據采集能力,可分布式部署,具備靈活的擴展能力,是大數據平臺的基礎。
五、 結語
高校信息化被迫要求扮演更加多元的角色,這也為高校的信息化建設提出了更高的挑戰(zhàn)和要求。大數據平臺可以獨立支撐各種校園的智慧化運營應用,為校園的教育、教學創(chuàng)新提供海量數據分析支持,推動學校信息化由傳統(tǒng)運營管理型向服務型轉化。
參考文獻:
[1]郭寶軍.高校教育大數據的分析挖掘與利用[J].電子技術與軟件工程,2018.18.
[2]李娟.基于大數據的高校智慧校園建設研究[J].信息與電腦,2018.19.
[3]張書華,楊卓.大數據對高等教育教學的影響[J].綠色科技,2018.17.
[4]李冰.數據挖掘技術在智慧校園的應用分析[J].信息與電腦,2018.17.
[5]謝慧.基于大數據技術的數字化校園建設應用[J].中國建材科技,2018.09.