文/趙佳釤 李坤倫 徐江 李院春
高校早期信息化的過程中長期存在“數(shù)據(jù)孤島”的現(xiàn)象,校屬各部門只針對自身的業(yè)務(wù)需求建設(shè)信息系統(tǒng),缺乏統(tǒng)一的信息標(biāo)準(zhǔn)和規(guī)范,導(dǎo)致各業(yè)務(wù)系統(tǒng)之間數(shù)據(jù)標(biāo)準(zhǔn)不一致、產(chǎn)生和沉淀的大量數(shù)據(jù)難以共享。構(gòu)建公共數(shù)據(jù)庫,被認(rèn)為是當(dāng)前解決“數(shù)據(jù)孤島”問題最為有效的方法。校園公共數(shù)據(jù)庫匯集了各個業(yè)務(wù)系統(tǒng)沉淀的有效數(shù)據(jù),并向所需業(yè)務(wù)系統(tǒng)共享數(shù)據(jù)。然而,傳統(tǒng)公共數(shù)據(jù)庫的構(gòu)建,只處理個人信息、成績信息、消費數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù),對半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)無能為力。
為此,研究人員提出構(gòu)建高校大數(shù)據(jù)平臺的概念,用以采集、清洗、存儲高校中的多源異構(gòu)數(shù)據(jù),并通過大數(shù)據(jù)分析方法,為高校的教學(xué)、科研、管理提供幫助。李蘭友等提出了一種基于ODI的數(shù)字校園數(shù)據(jù)集成模式,吳振濤等提出了一種在數(shù)字化校園中基于數(shù)據(jù)倉庫技術(shù)的數(shù)據(jù)集成應(yīng)用。這兩種架構(gòu)均是基于傳統(tǒng)的數(shù)據(jù)集成架構(gòu),在數(shù)據(jù)量較大時性能較差,更是難以應(yīng)對日志、輿情等大規(guī)模的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的處理分析。鄧涵元等提出了一種基于MPP-Hadoop混合架構(gòu)高校數(shù)據(jù)集成系統(tǒng),解決處理大數(shù)據(jù)、擴展性及非結(jié)構(gòu)化數(shù)據(jù)等方面的問題。然而,這種架構(gòu)忽略了核心數(shù)據(jù)的管理和共享功能。高校大數(shù)據(jù)平臺最主要的功能應(yīng)該是按需為其他業(yè)務(wù)系統(tǒng)共享核心數(shù)據(jù)。這些核心數(shù)據(jù)的數(shù)據(jù)量不大,但應(yīng)該便于管理、追溯,同時對數(shù)據(jù)同步的實時性要求很高,尤其是涉及學(xué)籍、財務(wù)等方面的數(shù)據(jù)。
圖1:系統(tǒng)架構(gòu)圖
圖2:數(shù)據(jù)平臺的物理架構(gòu)圖
本文提出了一種基于混合架構(gòu)的多源異構(gòu)數(shù)據(jù)集成平臺。平臺融合了OldSQL傳統(tǒng)關(guān)系型數(shù)據(jù)庫、NewSQL新型分布式數(shù)據(jù)庫和Hadoop開源生態(tài)系統(tǒng),可適應(yīng)多種業(yè)務(wù)場景模式。其中,OldSQL平臺用于存儲學(xué)校的核心業(yè)務(wù)數(shù)據(jù),如教師數(shù)據(jù)、學(xué)生數(shù)據(jù)等,這部分?jǐn)?shù)據(jù)的關(guān)聯(lián)關(guān)系復(fù)雜、對高并發(fā)、低延時的需求較高。NewSQL平臺作為數(shù)據(jù)倉庫匯總各業(yè)務(wù)系統(tǒng)的全量數(shù)據(jù)、過程數(shù)據(jù)、歷史歸檔數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù),這部分?jǐn)?shù)據(jù)主要作為校內(nèi)的數(shù)據(jù)資產(chǎn)而存儲,并支撐平臺之上的數(shù)據(jù)關(guān)聯(lián)分析應(yīng)用。Hadoop平臺用以提供批量數(shù)據(jù)計算,存儲半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),如網(wǎng)絡(luò)日志數(shù)據(jù)、數(shù)據(jù)中心日志數(shù)據(jù)、學(xué)校輿情數(shù)據(jù)等。
教育行業(yè)信息化過程中產(chǎn)生積累的數(shù)據(jù)相對龐大復(fù)雜,即有人員、成績信息等結(jié)構(gòu)化數(shù)據(jù),也有日志、輿情數(shù)據(jù)等半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)?,F(xiàn)有的高校大數(shù)據(jù)平臺并不能同時滿足海量異構(gòu)數(shù)據(jù)的實時共享、處理、分析及存儲需求。
為解決高校數(shù)據(jù)共享難、分析難、不完整的問題,本文從數(shù)據(jù)源出發(fā),將高校數(shù)據(jù)資產(chǎn)分為三類。第一類是高校的核心業(yè)務(wù)數(shù)據(jù),第二類是全量結(jié)構(gòu)化數(shù)據(jù),第三類是日志、輿情數(shù)據(jù)等半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。各類數(shù)據(jù)的數(shù)據(jù)總量和特點不同,上層業(yè)務(wù)應(yīng)用對不同種類數(shù)據(jù)的需求也不同。核心業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)量不大且相對穩(wěn)定,但關(guān)聯(lián)關(guān)系復(fù)雜,對高并發(fā)、低時延的要求高,上游數(shù)據(jù)源數(shù)據(jù)做出更改時要求下游業(yè)務(wù)系統(tǒng)同步修改。全量結(jié)構(gòu)化數(shù)據(jù)主要是作為全量數(shù)據(jù)資產(chǎn)而存儲,便于回溯數(shù)據(jù)、支撐上層數(shù)據(jù)分析類應(yīng)用。這類數(shù)據(jù)的關(guān)聯(lián)關(guān)系復(fù)雜,數(shù)據(jù)量逐年增加,且增長較快,對數(shù)據(jù)的實時性有一定的要求。日志、輿情等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)主要用以支撐上層的數(shù)據(jù)挖掘應(yīng)用,相比于前兩類數(shù)據(jù),這類數(shù)據(jù)的數(shù)據(jù)量龐大且增長快速。
表1:物理平臺的節(jié)點配置
本文提出的基于OldSQL-NewSQLHadoop的大數(shù)據(jù)共享分析平臺,既能滿足當(dāng)前業(yè)務(wù)的數(shù)據(jù)需求,又符合行業(yè)未來的數(shù)據(jù)發(fā)展規(guī)劃。其中,傳統(tǒng)關(guān)系型數(shù)據(jù)庫OldSQL存儲高校的核心業(yè)務(wù)數(shù)據(jù),可消除長期信息化過程中的數(shù)據(jù)孤島現(xiàn)象,確保數(shù)據(jù)的權(quán)威性、有效性、實時性。NewSQL技術(shù)作為高校的數(shù)據(jù)倉庫存儲全量的結(jié)構(gòu)化數(shù)據(jù),如全量業(yè)務(wù)數(shù)據(jù)、過程數(shù)據(jù)等,確保數(shù)據(jù)的完整性。Hadoop平臺用以存儲和處理日志、輿情等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),為高校的數(shù)據(jù)挖掘、政策制定提供數(shù)據(jù)支撐。如圖1所示,根據(jù)數(shù)據(jù)來源及應(yīng)用情況,大數(shù)據(jù)共享分析平臺的系統(tǒng)總體架構(gòu)可分為四層,即數(shù)據(jù)源層、數(shù)據(jù)處理層、數(shù)據(jù)存儲層和業(yè)務(wù)應(yīng)用層。
高校的信息化的程度相對完善,諸如教務(wù)系統(tǒng),學(xué)工系統(tǒng)、OA系統(tǒng)、科研系統(tǒng)、人事系統(tǒng)等,每天都會積累大量的數(shù)據(jù)。同時,很多重要數(shù)據(jù)仍游離于信息系統(tǒng)之外,以文本的形式保存。這部分?jǐn)?shù)據(jù)作為學(xué)校隱形的數(shù)據(jù)資產(chǎn),其重要性不言而喻。除結(jié)構(gòu)化數(shù)據(jù)之外,校內(nèi)師生每天還會產(chǎn)生大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),如URL日志、認(rèn)證日志以及校園輿情數(shù)據(jù)等。這些數(shù)據(jù)在研究學(xué)生日常行為和數(shù)據(jù)中心安全上有極大的價值。本文提出的數(shù)據(jù)集成系統(tǒng)中,數(shù)據(jù)源層包括高校的各個業(yè)務(wù)系統(tǒng)、線下文本數(shù)據(jù)、日志數(shù)據(jù)及輿情數(shù)據(jù)。
在獲取到數(shù)據(jù)源后,數(shù)據(jù)處理的第一步便是制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),并梳理數(shù)據(jù)源、清洗數(shù)據(jù)源的數(shù)據(jù)質(zhì)量。其中,ETL數(shù)據(jù)預(yù)處理完成數(shù)據(jù)的抽取、轉(zhuǎn)換、加載。數(shù)據(jù)抽取是針對不同業(yè)務(wù)系統(tǒng)數(shù)據(jù)進行全量或者增量的數(shù)據(jù)抽取。抽取完成后,需要對抽取的數(shù)據(jù)進行過濾清洗,并根據(jù)制定的數(shù)據(jù)標(biāo)準(zhǔn)轉(zhuǎn)換數(shù)據(jù)格式,生成新的數(shù)據(jù),加載到目標(biāo)數(shù)據(jù)庫。對于未采用信息化手段,以紙質(zhì)形式或電子文檔存儲的數(shù)據(jù),需要采用手工錄入或工具導(dǎo)入的方式清洗并加載到目標(biāo)數(shù)據(jù)庫。在處理大量的日志和輿情數(shù)據(jù)時,預(yù)處理階段利用Hadoop平臺進行對數(shù)據(jù)進行簡單的清洗分類,將數(shù)據(jù)分析價值較高的數(shù)據(jù)留存在HDFS。
在數(shù)據(jù)存儲層,本文將高校的數(shù)據(jù)分成了三大類,即核心業(yè)務(wù)數(shù)據(jù)、全量結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),并根據(jù)各類數(shù)據(jù)的特征和用途采用不同的數(shù)據(jù)存儲技術(shù)。數(shù)據(jù)在經(jīng)過采集、預(yù)處理、分類存儲后,提供給上層業(yè)務(wù)應(yīng)用展現(xiàn)才能發(fā)揮其最大價值。業(yè)務(wù)應(yīng)用層可分為三類應(yīng)用。第一類是數(shù)據(jù)共享類應(yīng)用,主要負(fù)責(zé)數(shù)據(jù)的可視化管理和核心業(yè)務(wù)數(shù)據(jù)的共享。第二類是數(shù)據(jù)分析類應(yīng)用,這類應(yīng)用以三類數(shù)據(jù)為支撐,將校園大數(shù)據(jù)以不同維度的可視化方式展現(xiàn)出來。第三類是數(shù)據(jù)挖掘類應(yīng)用,主要利用Hadoop平臺的大數(shù)據(jù)分析處理工具,挖掘半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的潛在價值。
系統(tǒng)在建設(shè)過程中,面臨的主要的問題是數(shù)據(jù)標(biāo)準(zhǔn)的制定。高校的信息化起步早,校內(nèi)各部門信息化的進程不同,這直接導(dǎo)致了各個系統(tǒng)之間的數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,進而促使校內(nèi)各系統(tǒng)直接的數(shù)據(jù)共享困難。因此,構(gòu)建校內(nèi)大數(shù)據(jù)平臺最重要的一環(huán)便是制定統(tǒng)一的校內(nèi)數(shù)據(jù)標(biāo)準(zhǔn),規(guī)范各類數(shù)據(jù)元素。數(shù)據(jù)標(biāo)準(zhǔn)的制定不僅要大而全,涵蓋學(xué)校當(dāng)前的數(shù)據(jù)治理目標(biāo)和對未來的數(shù)據(jù)規(guī)劃,而且要盡可能向國家標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn)靠攏。于此同時,要從規(guī)章制度上規(guī)范各業(yè)務(wù)部門的數(shù)據(jù)格式,保障數(shù)據(jù)質(zhì)量。
核心業(yè)務(wù)數(shù)據(jù)的關(guān)聯(lián)關(guān)系復(fù)雜、對高并發(fā)、低延時的要求較高,因此本文選取穩(wěn)定性、性能更優(yōu)的Oracle數(shù)據(jù)庫來存儲。同時,采用Oracle RAC做雙機的負(fù)載均衡架構(gòu),避免單點故障。核心業(yè)務(wù)數(shù)據(jù)庫的后臺存儲采用全閃存集中式雙活存儲,以保障數(shù)據(jù)的高可用性。對于要求次之,數(shù)據(jù)量增長較快的NewSQL數(shù)據(jù)庫,本文采用開源的CockRoach數(shù)據(jù)庫,目前配置了3個節(jié)點的集群,每個節(jié)點服務(wù)器均配置2塊600GB的SAS硬盤,3塊240GB的SSD。Hadoop平臺采用6個節(jié)點規(guī)模的集群,每個節(jié)點服務(wù)器均配置2塊600GB的SAS硬盤和6塊6TB的SATA硬盤。平臺的物理架構(gòu)如圖2所示。節(jié)點的具體配置如表1所示。
業(yè)務(wù)應(yīng)用以學(xué)生預(yù)警系統(tǒng)為例,學(xué)生預(yù)警本身包含兩方面,一方面是學(xué)業(yè)預(yù)警,另一方面是行為預(yù)警。涉及到的數(shù)據(jù)包括學(xué)生的成績信息、上課點名信息和學(xué)生上網(wǎng)日志,這三種數(shù)據(jù)分別存儲于核心業(yè)務(wù)數(shù)據(jù)平臺、全量結(jié)構(gòu)化數(shù)據(jù)平臺和Hadoop平臺之上。其中,學(xué)生成績信息用于分析學(xué)生的學(xué)業(yè)完成情況。上課點名信息用于刻畫學(xué)生的課程出勤情況,對學(xué)生有一定的警示作用。通過對上網(wǎng)行為日志的挖掘,并綜合考慮目標(biāo)網(wǎng)站的性質(zhì),可科學(xué)分析學(xué)生在思想、行為上是否異常,如是否牽涉校園貸等。學(xué)生預(yù)警系統(tǒng)面向的用戶主要分兩類,一類是學(xué)生,另一類是教學(xué)管理人員。對學(xué)業(yè)完成度較差或課堂出勤率較低學(xué)生,可利用短信、微信等信息接收終端向?qū)W生和輔導(dǎo)員自動推送警示信息。學(xué)生行為預(yù)警則主要面向教學(xué)管理群體,在保證學(xué)生基本隱私的前提下,向少數(shù)管理人員推送學(xué)生的網(wǎng)絡(luò)行為異常情況。
在構(gòu)建校園大數(shù)據(jù)平臺的過程中,首先要根據(jù)不同業(yè)務(wù)和數(shù)據(jù)使用情況,劃分校內(nèi)的數(shù)據(jù)資產(chǎn)。每種類型的數(shù)據(jù)特點各有不同,上層業(yè)務(wù)系統(tǒng)對各種類數(shù)據(jù)的需求也不同。因此需要根據(jù)每種類型數(shù)據(jù)的特點,采用不同的技術(shù)架構(gòu),對數(shù)據(jù)進行清洗存儲。本文結(jié)合OldSQL、NewSQL和Hadoop技術(shù),采用一種基于混合架構(gòu)的高校多源異構(gòu)數(shù)據(jù)集成方案。從而消除了數(shù)據(jù)孤島,實現(xiàn)校內(nèi)核心數(shù)據(jù)的實時共享,完善數(shù)據(jù)資產(chǎn)的整治,解決海量異構(gòu)數(shù)據(jù)的分析難題。