魏祥麗
(北華航天工業(yè)學(xué)院圖書館,廊坊 065000)
國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)2018年6月7日發(fā)布的國(guó)家標(biāo)準(zhǔn)《智慧校園總體框架》(GB/T 36342-2018)指出,智慧校園是數(shù)字校園的進(jìn)一步發(fā)展和提升,實(shí)現(xiàn)校園物理空間和信息空間的有機(jī)銜接,保證校園范圍內(nèi)的所有人隨時(shí)隨地都能方便快捷地獲取資源和服務(wù)。這就需要校園數(shù)據(jù)開放共享。智慧校園總體框架分為基礎(chǔ)設(shè)施層、支撐平臺(tái)層、應(yīng)用平臺(tái)層、應(yīng)用終端和信息安全體系等,其中容納數(shù)據(jù)交換、數(shù)據(jù)處理、數(shù)據(jù)服務(wù)和統(tǒng)一接口等功能的支撐平臺(tái)層,是智慧校園大數(shù)據(jù)計(jì)算及服務(wù)的核心層,保障智慧校園的各類應(yīng)用正常持續(xù)運(yùn)行。數(shù)據(jù)中臺(tái)可以從數(shù)據(jù)層面打破“煙囪式”的系統(tǒng)建設(shè),規(guī)范數(shù)據(jù)的存儲(chǔ)、轉(zhuǎn)換、分析和應(yīng)用,最大化數(shù)據(jù)的價(jià)值,實(shí)現(xiàn)數(shù)據(jù)的業(yè)務(wù)化。因此,數(shù)據(jù)中臺(tái)在智慧校園總體架構(gòu)中能夠起到支撐作用。
校園在信息化發(fā)展的過程中建設(shè)了多個(gè)信息系統(tǒng),比如統(tǒng)一校園門戶、教務(wù)系統(tǒng)、人事系統(tǒng)、學(xué)工系統(tǒng)等,這些系統(tǒng)獨(dú)立運(yùn)行,造成了以下問題:①校園內(nèi)各項(xiàng)垂直業(yè)務(wù)各自為營(yíng),各類應(yīng)用系統(tǒng)煙囪式建立,缺少互聯(lián)互通接口;②各系統(tǒng)的底層存儲(chǔ)介質(zhì)沒有統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),缺乏數(shù)據(jù)共享接口,導(dǎo)致數(shù)據(jù)孤島現(xiàn)象;③存在數(shù)據(jù)不全、冗余、錯(cuò)誤等數(shù)據(jù)質(zhì)量問題。以上問題導(dǎo)致各應(yīng)用之間數(shù)據(jù)共享程度低、數(shù)據(jù)獲取難、數(shù)據(jù)不好用,嚴(yán)重制約了智慧校園的建設(shè)。
因此,為了解決上述問題,亟需依托大數(shù)據(jù)技術(shù)構(gòu)建校園數(shù)據(jù)中臺(tái),實(shí)現(xiàn)從數(shù)據(jù)接入到數(shù)據(jù)服務(wù)的全生命周期數(shù)據(jù)處理方法,為智慧校園建設(shè)提供數(shù)據(jù)和服務(wù)支撐。數(shù)據(jù)中臺(tái)在智慧校園的建設(shè)中有以下幾點(diǎn)意義:①數(shù)據(jù)中臺(tái)的核心是讓數(shù)據(jù)用起來,盤活校園全域數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)統(tǒng)一采集、集中管理、整合分析,實(shí)現(xiàn)數(shù)據(jù)共享,做到數(shù)據(jù)處處可見、人人可用;②數(shù)據(jù)中臺(tái)將穩(wěn)定、通用的業(yè)務(wù)能力下沉到中臺(tái)層,簡(jiǎn)化前臺(tái)以提升前臺(tái)的響應(yīng)能力,能夠?yàn)轭I(lǐng)導(dǎo)決策、部門賦能和師生個(gè)人業(yè)務(wù)提供快速準(zhǔn)確的數(shù)據(jù)服務(wù);③實(shí)現(xiàn)服務(wù)的可重用性,通用性強(qiáng)的基礎(chǔ)服務(wù)通過抽取和封裝直接供外部調(diào)用,可以大大降低開發(fā)成本。
數(shù)據(jù)中臺(tái)將全校數(shù)據(jù)進(jìn)行資產(chǎn)化管理,具備數(shù)據(jù)采集匯聚、數(shù)據(jù)開發(fā)分析、數(shù)據(jù)服務(wù)可視化、數(shù)據(jù)賦能應(yīng)用四大核心能力,以數(shù)據(jù)驅(qū)動(dòng)校園管理決策,促進(jìn)校園從功能提供向數(shù)據(jù)服務(wù)轉(zhuǎn)變,提升校園智慧化服務(wù)水平。
數(shù)據(jù)中臺(tái)讓數(shù)據(jù)充分發(fā)揮其隱藏的價(jià)值,實(shí)現(xiàn)業(yè)務(wù)數(shù)據(jù)化、數(shù)據(jù)資產(chǎn)化、資產(chǎn)平臺(tái)化、平臺(tái)服務(wù)化,當(dāng)需要構(gòu)建新的業(yè)務(wù)應(yīng)用時(shí),通過提供的服務(wù)接口迅速實(shí)現(xiàn)業(yè)務(wù),即服務(wù)業(yè)務(wù)化,形成數(shù)據(jù)與業(yè)務(wù)的閉環(huán),如圖1所示。
圖1 數(shù)據(jù)與業(yè)務(wù)閉環(huán)
本文在立足智慧校園的建設(shè)目標(biāo)之上,結(jié)合其他領(lǐng)域比較成熟的數(shù)據(jù)中臺(tái)技術(shù)路徑,給出了智慧校園數(shù)據(jù)中臺(tái)架構(gòu),如圖2所示。
圖2 智慧校園數(shù)據(jù)中臺(tái)架構(gòu)
數(shù)據(jù)中臺(tái)將多源異構(gòu)數(shù)據(jù)進(jìn)行采集、清洗、存儲(chǔ)、分析,形成一個(gè)可靠的、穩(wěn)定的大數(shù)據(jù)資產(chǎn)層,并以接口和組件的形式與各業(yè)務(wù)單元共享,從而打通前臺(tái)需求和后臺(tái)資源,在滿足數(shù)據(jù)分析需求的同時(shí),為業(yè)務(wù)創(chuàng)新提供依據(jù)。
數(shù)據(jù)源指的是校園全域數(shù)據(jù),根據(jù)校園數(shù)據(jù)的來源分為內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),根據(jù)數(shù)據(jù)的存儲(chǔ)形式分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
數(shù)據(jù)采集是數(shù)據(jù)中臺(tái)接入數(shù)據(jù)的入口,數(shù)據(jù)采集的主要工作是實(shí)現(xiàn)數(shù)據(jù)同步,將來自異構(gòu)數(shù)據(jù)源、異構(gòu)網(wǎng)絡(luò)的校園原始數(shù)據(jù),通過標(biāo)準(zhǔn)手段統(tǒng)一采集、匯集形成校園“數(shù)據(jù)湖”,為數(shù)據(jù)中臺(tái)的后續(xù)工作做準(zhǔn)備。
校園數(shù)據(jù)經(jīng)過數(shù)據(jù)采集層存儲(chǔ)到各種介質(zhì)中,數(shù)據(jù)流進(jìn)入數(shù)據(jù)開發(fā)層,首先進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)的建設(shè),然后利用大數(shù)據(jù)處理技術(shù)對(duì)數(shù)據(jù)進(jìn)行挖掘、分析,生成數(shù)據(jù)資產(chǎn),為用戶提供前端可視化頁(yè)面查看、使用數(shù)據(jù)。其中,數(shù)據(jù)倉(cāng)庫(kù)有兩種,分別是離線數(shù)倉(cāng)和實(shí)時(shí)數(shù)倉(cāng),兩者的主要區(qū)別在于時(shí)效性、存儲(chǔ)介質(zhì)和處理組件。實(shí)時(shí)數(shù)倉(cāng)時(shí)效性要求高,一般為分鐘級(jí)別甚至秒級(jí)別,而離線數(shù)倉(cāng)對(duì)時(shí)效性要求一般為T+1天。對(duì)于存儲(chǔ)介質(zhì),實(shí)時(shí)數(shù)據(jù)采集之后一般存儲(chǔ)到Clickhouse、ES等中,離線數(shù)據(jù)可以存儲(chǔ)在Hive、HDFS 等中。對(duì)于處理組件,借助目前主流的引擎spark、Flink 等實(shí)現(xiàn)實(shí)時(shí)開發(fā)平臺(tái),實(shí)時(shí)數(shù)據(jù)要求強(qiáng)大的計(jì)算能力實(shí)時(shí)處理采集來的數(shù)據(jù),針對(duì)離線數(shù)據(jù),基于離線數(shù)倉(cāng)建模理論、結(jié)合業(yè)務(wù)場(chǎng)景,抽取出一個(gè)離線開發(fā)平臺(tái)。實(shí)時(shí)開發(fā)平臺(tái)和離線開發(fā)平臺(tái)可以為智能運(yùn)維賦能。
數(shù)據(jù)服務(wù)層對(duì)外提供數(shù)據(jù)服務(wù),實(shí)現(xiàn)數(shù)據(jù)中臺(tái)的核心能力——數(shù)據(jù)轉(zhuǎn)化為服務(wù)。數(shù)據(jù)服務(wù)層依據(jù)中臺(tái)的方法論OneData、OneService,提供統(tǒng)一的服務(wù)接口用來被調(diào)用,為數(shù)據(jù)應(yīng)用層賦能。
數(shù)據(jù)中臺(tái)的數(shù)據(jù)流向從數(shù)據(jù)源到數(shù)據(jù)采集至存儲(chǔ)介質(zhì),然后進(jìn)行數(shù)據(jù)開發(fā)實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)化,再通過數(shù)據(jù)服務(wù)暴露給各種業(yè)務(wù)應(yīng)用賦能,在整個(gè)過程中有兩個(gè)重要的平臺(tái),一個(gè)是運(yùn)維管理,一個(gè)是數(shù)據(jù)治理平臺(tái)。
數(shù)據(jù)治理平臺(tái)包括元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)血緣管理、數(shù)據(jù)標(biāo)準(zhǔn)管理等,其中數(shù)據(jù)血緣管理用來幫助追蹤問題數(shù)據(jù),當(dāng)數(shù)據(jù)分析出現(xiàn)問題時(shí)追溯問題數(shù)據(jù)從哪來,一步步追溯問題環(huán)節(jié)。數(shù)據(jù)標(biāo)準(zhǔn)管理為校園數(shù)據(jù)提供一套統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),保障智慧校園數(shù)據(jù)中臺(tái)數(shù)據(jù)的規(guī)范性和有效性。數(shù)據(jù)治理得好,才能提高數(shù)據(jù)質(zhì)量,讓數(shù)據(jù)更好地為業(yè)務(wù)應(yīng)用賦能。
運(yùn)維管理平臺(tái)是數(shù)據(jù)中臺(tái)持續(xù)運(yùn)營(yíng)的重要保障,主要包括監(jiān)控告警、部署管理、故障診斷、任務(wù)調(diào)度、日志審計(jì)等,對(duì)異常情況進(jìn)行及時(shí)處理,確保數(shù)據(jù)的準(zhǔn)確性、完整性。
綜上,運(yùn)維管理和數(shù)據(jù)治理這兩個(gè)平臺(tái)能夠保證數(shù)據(jù)中臺(tái)正常持續(xù)運(yùn)轉(zhuǎn)。
智慧校園應(yīng)用層通過調(diào)用數(shù)據(jù)中臺(tái)服務(wù)層API接口實(shí)現(xiàn)校園智慧服務(wù)。包括教務(wù)科研應(yīng)用(如科研管理、教學(xué)資源、在線學(xué)習(xí)等)、學(xué)生服務(wù)(如招生管理、就業(yè)服務(wù)等)、后勤服務(wù)(公寓管理、安保管理、車輛調(diào)度等)、管理決策(領(lǐng)導(dǎo)決策、個(gè)人畫像、專業(yè)評(píng)估等)等。數(shù)據(jù)中臺(tái)能夠?yàn)樾@業(yè)務(wù)應(yīng)用提供多方位的分析機(jī)制,為智慧校園的運(yùn)行提供高效支撐。
數(shù)據(jù)中臺(tái)的核心是讓數(shù)據(jù)產(chǎn)生價(jià)值,為了實(shí)現(xiàn)這一目標(biāo),需要三個(gè)關(guān)鍵步驟:①盡可能地收集數(shù)據(jù);②更好地整理數(shù)據(jù);③挖掘數(shù)據(jù)潛藏的價(jià)值。
為了盡可能全面地獲取校園數(shù)據(jù),需要利用多種手段將校園全域數(shù)據(jù)采集到數(shù)據(jù)中臺(tái)的大數(shù)據(jù)平臺(tái)中。數(shù)據(jù)采集主要包括結(jié)構(gòu)化數(shù)據(jù)采集和非結(jié)構(gòu)化數(shù)據(jù)采集,對(duì)于結(jié)構(gòu)化業(yè)務(wù)系統(tǒng)數(shù)據(jù),通過sqoop 腳本進(jìn)行采集,寫入到大數(shù)據(jù)平臺(tái)的Hive 中。對(duì)于非結(jié)構(gòu)化數(shù)據(jù),比如業(yè)務(wù)系統(tǒng)產(chǎn)生的日志數(shù)據(jù),則利用Kafka 進(jìn)行采集,形成一個(gè)個(gè)消息,再通過Spark Streaming對(duì)產(chǎn)生的消息進(jìn)行批量采集。
數(shù)據(jù)采集之后進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的建設(shè),根據(jù)數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)思路,原始數(shù)據(jù)采集過來之后經(jīng)過ETL 過程進(jìn)行清洗、轉(zhuǎn)換、集成,形成ODS,然后對(duì)數(shù)據(jù)進(jìn)行輕度綜合形成數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)底層采用大數(shù)據(jù)技術(shù)Spark、Hive、SparkSQL來操作整個(gè)處理過程。
ETL 的關(guān)鍵操作是T(數(shù)據(jù)轉(zhuǎn)換),數(shù)據(jù)轉(zhuǎn)換包括表粒度數(shù)據(jù)同步、多表同步、數(shù)據(jù)庫(kù)整庫(kù)同步。單表來說,直接把數(shù)據(jù)原封不動(dòng)搬過去,但是對(duì)于異構(gòu)數(shù)據(jù)源,不同數(shù)據(jù)庫(kù)字段表達(dá)方式可能不一樣,數(shù)據(jù)無法在數(shù)據(jù)中臺(tái)中流通。為了打通數(shù)據(jù),解決數(shù)據(jù)孤島的問題,需要制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),把不同數(shù)據(jù)庫(kù)的字段映射成統(tǒng)一的表達(dá)形式。教育部2021 年3 月26 日發(fā)布《高等學(xué)校數(shù)字校園建設(shè)規(guī)范(試行)》,指出高校數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)應(yīng)符合GB/T 29808的要求。本文結(jié)合教育部要求制定校園數(shù)據(jù)標(biāo)準(zhǔn),完成異構(gòu)數(shù)據(jù)源之間字段、數(shù)據(jù)類型等的映射,實(shí)現(xiàn)數(shù)據(jù)統(tǒng)一管理、統(tǒng)一定義。
數(shù)據(jù)采集、整理之后形成數(shù)據(jù)倉(cāng)庫(kù),通過大數(shù)據(jù)手段挖掘數(shù)據(jù)價(jià)值。利用數(shù)據(jù)挖掘算法發(fā)現(xiàn)數(shù)據(jù)的底層規(guī)律,通過機(jī)器學(xué)習(xí)建立數(shù)據(jù)模型,進(jìn)而去開展人工智能。
數(shù)據(jù)的挖掘分析方式有三種,分別是在線分析、近線分析和離線分析。在線分析將業(yè)務(wù)數(shù)據(jù)實(shí)時(shí)寫入關(guān)系型數(shù)據(jù)庫(kù)中,通過前端可視化頁(yè)面,利用SQL 語(yǔ)句進(jìn)行查詢、分析展現(xiàn)數(shù)據(jù),這種方式對(duì)數(shù)據(jù)的分析時(shí)效性高,數(shù)據(jù)有變化,能立即反映在前端。但是隨著數(shù)據(jù)量的增長(zhǎng),關(guān)系型數(shù)據(jù)庫(kù)的壓力增大,造成系統(tǒng)性能降低,因此出現(xiàn)了近線分析。相較于在線分析,這種方式的分析結(jié)果有一定的延時(shí),幾分鐘或幾小時(shí),但是能提高系統(tǒng)性能,實(shí)現(xiàn)時(shí)效換性能。這兩種方式適合簡(jiǎn)單業(yè)務(wù),對(duì)于復(fù)雜的、實(shí)時(shí)性要求不高的業(yè)務(wù)數(shù)據(jù)分析,采用離線分析方式,通常延時(shí)一天,每天晚上對(duì)當(dāng)天的數(shù)據(jù)進(jìn)行采集分析處理,第二天展示分析結(jié)果。
根據(jù)分析的業(yè)務(wù),抽取數(shù)據(jù)倉(cāng)庫(kù)中的一部分?jǐn)?shù)據(jù)建立數(shù)據(jù)集市(DM),在DM 基礎(chǔ)上進(jìn)行數(shù)據(jù)標(biāo)簽建設(shè)。利用Kylin 對(duì)數(shù)據(jù)進(jìn)行多維分析,利用SparkML 進(jìn)行數(shù)據(jù)挖掘,利用Elastic-Search 建立數(shù)據(jù)索引,實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的秒級(jí)查詢。最后利用eCharts、VUE 等可視化工具將數(shù)據(jù)分析結(jié)果以前端應(yīng)用的形式展示給用戶。
有了以上基礎(chǔ),就可以進(jìn)行各種各樣的智慧校園應(yīng)用,比如教學(xué)科研、學(xué)生服務(wù)、決策支持、師生畫像等各種智能應(yīng)用。
數(shù)據(jù)中臺(tái)的應(yīng)用領(lǐng)域越來越廣泛,其主要原因是數(shù)據(jù)中臺(tái)的核心是讓數(shù)據(jù)用起來,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)可視化,使得數(shù)據(jù)看得見、可以用、容易用。數(shù)據(jù)資源是智慧校園的“軟財(cái)富”,通過構(gòu)建數(shù)據(jù)中臺(tái)可以盤活校園全量數(shù)據(jù),通過可視化界面,校園內(nèi)人員可以隨時(shí)隨地查看權(quán)限范圍內(nèi)的數(shù)據(jù),方便快捷使用數(shù)據(jù)服務(wù),提高校園決策、精細(xì)化管理水平,打造健康、持續(xù)運(yùn)行的智慧校園。