王冬梅
摘要:高校業(yè)務(wù)系統(tǒng)數(shù)據(jù)資源的結(jié)構(gòu)、內(nèi)容以及數(shù)據(jù)利用價(jià)值還不夠清晰,尚未真正發(fā)揮應(yīng)有作用。以筆者所在高校為例,本文介紹基于Hadoop的“智慧校園大數(shù)據(jù)平臺(tái)”的數(shù)據(jù)建設(shè)方案。文章根據(jù)學(xué)?,F(xiàn)狀提出適合高校信息化建設(shè)的數(shù)據(jù)治理方案,主要通過(guò)Hadoop分布式系統(tǒng)架構(gòu)為大數(shù)據(jù)存儲(chǔ)提供底層支撐,通過(guò)共享數(shù)據(jù)中心存儲(chǔ)權(quán)威數(shù)據(jù),通過(guò)智慧校園大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)數(shù)據(jù)流調(diào)用和共享,為大數(shù)據(jù)分析和決策提供依據(jù)。
關(guān)鍵詞:Hadoop集群;智慧校園;共享數(shù)據(jù)中心;大數(shù)據(jù)平臺(tái)
引言
高校業(yè)務(wù)系統(tǒng)與校園信息系統(tǒng)緊密結(jié)合,形成了海量數(shù)據(jù)資源,但這些數(shù)據(jù)資源的結(jié)構(gòu)、內(nèi)容以及數(shù)據(jù)利用價(jià)值還不夠清晰,對(duì)信息共享、處理涉及多個(gè)系統(tǒng)之間的協(xié)調(diào)時(shí),需要整合多個(gè)系統(tǒng)的數(shù)據(jù)、資源,處理跨數(shù)據(jù)庫(kù)、跨平臺(tái)等多方面的工作,數(shù)據(jù)流程容易產(chǎn)生混亂,尚未真正發(fā)揮應(yīng)有作用。需要形成統(tǒng)一的數(shù)據(jù)服務(wù)鏈,構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),提高數(shù)據(jù)可視化監(jiān)控能力,為上層應(yīng)用提供數(shù)據(jù)服務(wù)[1]。同時(shí),在高校信息化建設(shè)的過(guò)程中,學(xué)校各業(yè)務(wù)系統(tǒng)所產(chǎn)生的數(shù)據(jù)都是以結(jié)構(gòu)化數(shù)據(jù)為主,但在教學(xué)過(guò)程中產(chǎn)生大量的非結(jié)構(gòu)化數(shù)據(jù),如在線課程資源、學(xué)習(xí)行為軌跡數(shù)據(jù)、上網(wǎng)行為數(shù)據(jù)等。為探索有效解決以上問(wèn)題,實(shí)現(xiàn)智能預(yù)測(cè)、智能輔助決策與管理的高校智慧校園,以筆者所在高校為例,本文引入高校“智慧校園大數(shù)據(jù)平臺(tái)”的概念,平臺(tái)充分兼顧各種數(shù)據(jù)源類(lèi)型的集成、治理和可視化要求,提供統(tǒng)一集成和共享服務(wù)。
1. 高校大數(shù)據(jù)治理與建設(shè)目標(biāo)
平臺(tái)架構(gòu)的設(shè)計(jì)需要充分考慮其先進(jìn)性并且可以落地實(shí)施,能為學(xué)校下階段的發(fā)展提供有力支撐,建立數(shù)據(jù)生產(chǎn)、數(shù)據(jù)治理、數(shù)據(jù)開(kāi)發(fā)以及數(shù)據(jù)應(yīng)用的閉環(huán)數(shù)據(jù)生態(tài),建設(shè)高校權(quán)威數(shù)據(jù)中心,明確數(shù)據(jù)利用價(jià)值,為大數(shù)據(jù)分析提供基礎(chǔ)。建立數(shù)據(jù)收集、存儲(chǔ)、處理、分析和使用等方面的規(guī)范,包括數(shù)據(jù)訪問(wèn)權(quán)限、數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)備份和恢復(fù)等措施。
高校數(shù)據(jù)治理與建設(shè)的一般目標(biāo)如下:
(1)統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),沉淀公共數(shù)據(jù)。智慧校園大數(shù)據(jù)平臺(tái)可以將散亂的數(shù)據(jù)整合起來(lái)進(jìn)行統(tǒng)一管理,使得數(shù)據(jù)更加全面、準(zhǔn)確、可靠。這有助于提高數(shù)據(jù)質(zhì)量和可信度,從而為大數(shù)據(jù)分析應(yīng)用打下更加穩(wěn)定、精準(zhǔn)的數(shù)據(jù)基礎(chǔ)。
(2)實(shí)現(xiàn)快速數(shù)據(jù)處理。智慧校園大數(shù)據(jù)平臺(tái)可以利用分布式計(jì)算技術(shù)和并行處理技術(shù),加快數(shù)據(jù)處理速度,這對(duì)于需要快速響應(yīng)的大數(shù)據(jù)分析應(yīng)用非常重要,可以大大提高數(shù)據(jù)處理效率和分析速度。
(3)保障數(shù)據(jù)安全。治理后建設(shè)的智慧校園大數(shù)據(jù)平臺(tái)可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的安全保護(hù),包括數(shù)據(jù)權(quán)限管理、數(shù)據(jù)備份與恢復(fù)、數(shù)據(jù)加密等功能,可以有效地防范數(shù)據(jù)泄露和數(shù)據(jù)損失風(fēng)險(xiǎn)。
(4)實(shí)現(xiàn)數(shù)據(jù)共享與協(xié)作。智慧校園大數(shù)據(jù)平臺(tái)可以建設(shè)共享數(shù)據(jù)中心,通過(guò)共享數(shù)據(jù)中心、角色授權(quán)、API接口等提供多用戶協(xié)同工作環(huán)境,支持不同用戶之間的數(shù)據(jù)共享和協(xié)作,這對(duì)于開(kāi)展大規(guī)??鐚W(xué)科、跨部門(mén)合作研究非常有益,可以加速知識(shí)創(chuàng)新和科學(xué)進(jìn)步。
(5)探索數(shù)據(jù)挖掘與分析。可以集成各種數(shù)據(jù)挖掘和分析工具,如機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化等,幫助用戶更加深入地挖掘數(shù)據(jù)的內(nèi)在規(guī)律和價(jià)值,發(fā)現(xiàn)新的知識(shí)和洞見(jiàn),從而為科學(xué)研究和教育教學(xué)服務(wù)。
2. 基于Hadoop的校園大數(shù)據(jù)平臺(tái)整體架構(gòu)設(shè)計(jì)
以筆者所在高校為例,介紹本校“智慧校園大數(shù)據(jù)平臺(tái)”的核心架構(gòu)?;贖adoop 生態(tài)集群以構(gòu)建底層服務(wù)支撐,以各種可視化圖形的方式呈現(xiàn)給各類(lèi)業(yè)務(wù)人員,滿足不同角色用戶的需求,實(shí)現(xiàn)數(shù)據(jù)價(jià)值。
2.1 整體架構(gòu)
整體架構(gòu)設(shè)計(jì)需要充分考慮其先進(jìn)性并且可以落地實(shí)施,能為學(xué)校未來(lái)五年的發(fā)展提供有力支撐。基于共享數(shù)據(jù)中心建設(shè)的大數(shù)據(jù)生態(tài)鏈,以現(xiàn)有各類(lèi)業(yè)務(wù)的數(shù)據(jù)為底層支撐,將智慧校園相關(guān)數(shù)據(jù)采集到Hadoop集群中進(jìn)行分布式文件存儲(chǔ),具體如圖1所示。通過(guò)建設(shè)共享數(shù)據(jù)中心,構(gòu)建大數(shù)據(jù)生態(tài)鏈,對(duì)資源進(jìn)行整合和業(yè)務(wù)流程優(yōu)化,通過(guò)分布式文件系統(tǒng) Hdfs對(duì)多維數(shù)據(jù)進(jìn)行關(guān)聯(lián)、分類(lèi)、降維、聚類(lèi)分析與可視化呈現(xiàn)。
2.2 數(shù)據(jù)源層
當(dāng)前高校信息化建設(shè)中,各應(yīng)用系統(tǒng)建設(shè)以業(yè)務(wù)需求為導(dǎo)向獨(dú)立運(yùn)行,同時(shí)安防監(jiān)控、在線課程資源、上網(wǎng)行為等非結(jié)構(gòu)化數(shù)據(jù)資源在智慧校園建設(shè)中的作用已經(jīng)體現(xiàn)。為實(shí)現(xiàn)智能預(yù)測(cè)、智能輔助決策與管理的高校智慧校園,建設(shè)權(quán)威的數(shù)據(jù)管理平臺(tái)須首先確定數(shù)據(jù)來(lái)源,形成有效的數(shù)據(jù)資源,為各類(lèi)業(yè)務(wù)或決策系統(tǒng)服務(wù)。數(shù)據(jù)來(lái)源應(yīng)包括現(xiàn)有業(yè)務(wù)系統(tǒng)的數(shù)據(jù)(如教務(wù)、科研、人事等)、職能部門(mén)數(shù)據(jù)、師生用戶行為軌跡數(shù)據(jù)、日志數(shù)據(jù)等。數(shù)據(jù)源層集成新的本地?cái)?shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù),開(kāi)發(fā)智能填報(bào)系統(tǒng)采集臨時(shí)、零散數(shù)據(jù),完善信息標(biāo)準(zhǔn)、深入數(shù)據(jù)治理、提高數(shù)據(jù)質(zhì)量及數(shù)據(jù)安全、為建設(shè)校級(jí)全量數(shù)據(jù)中心打好基礎(chǔ)。同時(shí)在數(shù)據(jù)處理過(guò)程中須結(jié)合教育部標(biāo)準(zhǔn),制定規(guī)范,設(shè)計(jì)校級(jí)的數(shù)據(jù)標(biāo)準(zhǔn),對(duì)結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、流數(shù)據(jù)須進(jìn)行標(biāo)準(zhǔn)化轉(zhuǎn)換,分類(lèi)管理。
2.3 數(shù)據(jù)存儲(chǔ)模塊
運(yùn)用云計(jì)算技術(shù),采用 MapReduce算法和HDFS分布式文件系統(tǒng),建立分布式數(shù)據(jù)庫(kù) Hadoop集群系統(tǒng),為師生提供在線的數(shù)據(jù)存儲(chǔ)服務(wù),采用 hdfs、hbase 和 sqoop 對(duì)數(shù)據(jù)進(jìn)行存取,其中hdfs已成為大數(shù)據(jù)磁盤(pán)存儲(chǔ)的事實(shí)標(biāo)準(zhǔn),主要應(yīng)用于海量日志類(lèi)大文件的在線存儲(chǔ)。 數(shù)據(jù)存儲(chǔ)層借助于Hadoop的MapReduce模塊將數(shù)據(jù)批量寫(xiě)入HBase分布式數(shù)據(jù)庫(kù)中,Hadoop計(jì)算機(jī)集群的架構(gòu)為主/從部署架構(gòu),也就是Master/Slave部署架構(gòu)[2],使用一個(gè)管理節(jié)點(diǎn)、多個(gè)子節(jié)點(diǎn)的方式,保證數(shù)據(jù)的安全性和可靠性,實(shí)現(xiàn)數(shù)據(jù)的冗余存儲(chǔ)。各業(yè)務(wù)數(shù)據(jù)經(jīng)采集、清洗后存儲(chǔ)于共享數(shù)據(jù)中心,形成權(quán)威的數(shù)據(jù)存儲(chǔ)倉(cāng)庫(kù)。共享數(shù)據(jù)中心采用數(shù)據(jù)分區(qū)設(shè)計(jì),如緩沖區(qū)、核心區(qū)、主題區(qū)等。一方面,對(duì)不同類(lèi)型數(shù)據(jù)進(jìn)行區(qū)分,保障數(shù)據(jù)體系的劃分清晰和區(qū)域內(nèi)部的靈活擴(kuò)展;另一方面,根據(jù)不同的數(shù)據(jù)分區(qū)內(nèi)數(shù)據(jù)特性的不同,可以設(shè)置不同的安全和訪問(wèn)策略。
2.4 數(shù)據(jù)接口模塊
數(shù)據(jù)接口模塊承擔(dān)連接不同源頭和目標(biāo)業(yè)務(wù)數(shù)據(jù)的任務(wù),并將其以一種可接受的格式傳遞到目標(biāo)位置。該模塊還負(fù)責(zé)數(shù)據(jù)清洗、轉(zhuǎn)換和處理等任務(wù),確保數(shù)據(jù)的準(zhǔn)確性和一致性。常用的數(shù)據(jù)交換技術(shù)有ETL、ELT和Data Virtualization。ETL技術(shù)將數(shù)據(jù)從源系統(tǒng)中提取出來(lái),經(jīng)過(guò)轉(zhuǎn)換之后再加載到目標(biāo)系統(tǒng)中;ELT是在將數(shù)據(jù)加載到目標(biāo)系統(tǒng)之后再進(jìn)行轉(zhuǎn)換;Data Virtualization技術(shù)允許用戶在不將數(shù)據(jù)物理移動(dòng)的情況下,通過(guò)虛擬視圖訪問(wèn)分散的數(shù)據(jù)源,允許用戶對(duì)多個(gè)數(shù)據(jù)源進(jìn)行聯(lián)合查詢,并將結(jié)果組合成一個(gè)單一的虛擬表。該模塊支持為場(chǎng)景化應(yīng)用開(kāi)發(fā)提供基于HTTP的API數(shù)據(jù)服務(wù)接口,并提供各個(gè)API開(kāi)發(fā)規(guī)范文檔,便于用戶或開(kāi)發(fā)商基于API接口數(shù)據(jù)場(chǎng)景應(yīng)用,在具體的模塊功能設(shè)計(jì)中,數(shù)據(jù)接口模塊的設(shè)計(jì)還應(yīng)考慮支持腳本化開(kāi)發(fā)、勾選式開(kāi)發(fā)、服務(wù)化開(kāi)發(fā)等功能。
2.5 大數(shù)據(jù)分析模塊
大數(shù)據(jù)分析層在Hadoop的Map Reduce編程模型上,構(gòu)建各類(lèi)數(shù)據(jù)分析包,對(duì)提交的學(xué)生大數(shù)據(jù)進(jìn)行分析。例如,筆者所在學(xué)校在大數(shù)據(jù)共享與分析的基礎(chǔ)上實(shí)現(xiàn)了基于人臉識(shí)別的晚歸預(yù)警提醒、陌生人員入侵校園提醒、可疑人員行為軌跡查詢,提前對(duì)學(xué)生的學(xué)業(yè)和狀態(tài)進(jìn)行有效干預(yù),防止意外發(fā)生[3]?;贖adoop構(gòu)建的大數(shù)據(jù)共享服務(wù),實(shí)現(xiàn)了教師工作量基礎(chǔ)數(shù)據(jù)的采集,從人事、教務(wù)、學(xué)籍等各個(gè)業(yè)務(wù)系統(tǒng)中抽取、清洗獲得有效數(shù)據(jù),進(jìn)行分析、轉(zhuǎn)換,為教師工作量計(jì)算和考核提供了智能化的服務(wù),真正意義上做到了讓數(shù)據(jù)跑起來(lái)、用起來(lái),方便了學(xué)校的管理。
2.6 數(shù)據(jù)流向服務(wù)設(shè)計(jì)
從數(shù)據(jù)流的應(yīng)用設(shè)計(jì)來(lái)看,共享數(shù)據(jù)中心主要以業(yè)務(wù)系統(tǒng)應(yīng)用為主,供業(yè)務(wù)人員使用,而各業(yè)務(wù)系統(tǒng)又可以提供基礎(chǔ)數(shù)據(jù)、輔助數(shù)據(jù)和中間件服務(wù),各業(yè)務(wù)系統(tǒng)通過(guò)數(shù)據(jù)交換中間件服務(wù)實(shí)現(xiàn)了與共享數(shù)據(jù)中心平臺(tái)之間的信息共享和交換。此外,各業(yè)務(wù)系統(tǒng)數(shù)據(jù)又可以下行至共享數(shù)據(jù)中心,與其他業(yè)務(wù)系統(tǒng)共享數(shù)據(jù)。業(yè)務(wù)子系統(tǒng)既是數(shù)據(jù)的提供者,也是共享數(shù)據(jù)的受益者。相關(guān)業(yè)務(wù)系統(tǒng)可以把數(shù)據(jù)提供給共享庫(kù),如迎新工作可以提供學(xué)生信息,其他業(yè)務(wù)系統(tǒng)可以通過(guò)共享庫(kù)獲取數(shù)據(jù)。
3. 技術(shù)架構(gòu)設(shè)計(jì)
3.1 數(shù)據(jù)訪問(wèn)接口API設(shè)計(jì)
智慧校園大數(shù)據(jù)平臺(tái)通過(guò)數(shù)據(jù)訪問(wèn)接口API訪問(wèn)共享數(shù)據(jù)中心,為用戶和不同業(yè)務(wù)提供數(shù)據(jù)共享服務(wù),可提供多用戶協(xié)同工作環(huán)境,支持不同用戶、不同業(yè)務(wù)之間的數(shù)據(jù)共享和協(xié)作。筆者所在高校共享數(shù)據(jù)中心設(shè)計(jì)通過(guò)API來(lái)提供數(shù)據(jù)服務(wù),方便校內(nèi)各業(yè)務(wù)快速獲取所需數(shù)據(jù),同時(shí)也增加數(shù)據(jù)中心的曝光度和影響力。在設(shè)計(jì)API之前,可按以下步驟進(jìn)行:(1)明確API的需求和范圍、涉及功能,明確目標(biāo)用戶以及需要共享與保護(hù)的數(shù)據(jù)范圍;(2)根據(jù)需求和范圍設(shè)計(jì)API的調(diào)用方式、返回?cái)?shù)據(jù)格式等;(3)設(shè)計(jì)API的架構(gòu)和協(xié)議,同時(shí)考慮安全性、可擴(kuò)展性、易用性等因素。例如,選擇RESTful API架構(gòu),并采用HTTPS協(xié)議進(jìn)行通信,可以提高API的安全性。
3.2 Hadoop集群部署
Hadoop集群是一個(gè)分布式的計(jì)算平臺(tái),可提供海量數(shù)據(jù)的分布式存儲(chǔ)、分布式計(jì)算和分布式管理功能。Hadoop集群基于 MapReduce開(kāi)發(fā)框架,集群的數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、資源管理和任務(wù)調(diào)度等功能于一體,把任務(wù)劃分成多個(gè)小任務(wù),將這些任務(wù)通過(guò) MapReduce計(jì)算框架中的 map函數(shù)將數(shù)據(jù)分割成小塊后寫(xiě)入磁盤(pán)或文件系統(tǒng)中,并使用 HDFS對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)和管理。Hadoop集群可運(yùn)行在多個(gè)計(jì)算機(jī)上,包括 PC機(jī)、服務(wù)器和移動(dòng)終端。分布式計(jì)算能降低系統(tǒng)總體擁有成本,同時(shí)還能保證數(shù)據(jù)的完整性和一致性。
Hadoop集群具體來(lái)說(shuō)包含兩個(gè)集群:HDFS集群和YARN集群,兩者邏輯上分離,但物理上常在一起。HDFS集群負(fù)責(zé)海量數(shù)據(jù)的存儲(chǔ),集群中的角色主要有:NameNode、DataNode、SecondaryNameNode。YARN集群負(fù)責(zé)海量數(shù)據(jù)運(yùn)算時(shí)的資源調(diào)度,集群中的角色主要有ResourceManager、NodeManager。
智慧校園大數(shù)據(jù)平臺(tái)采用Hadoop作為數(shù)據(jù)處理框架,HDFS作為分布式文件系統(tǒng)。本文大數(shù)據(jù)平臺(tái)采用Cluster mode(群集模式)-單節(jié)點(diǎn)模式-高可用HA模式部署,該集群模式主要用于生產(chǎn)環(huán)境部署[4],會(huì)使用N臺(tái)主機(jī)組成一個(gè)Hadoop集群。這種部署模式下,主節(jié)點(diǎn)和從節(jié)點(diǎn)會(huì)分開(kāi)部署在不同的機(jī)器上,由多個(gè)節(jié)點(diǎn)構(gòu)成,具體可視高校所要處理的數(shù)量大小以及及時(shí)性要求所定,1臺(tái)作為Namenode主節(jié)點(diǎn),N臺(tái)作為Datanode從節(jié)點(diǎn)。
結(jié)語(yǔ)
借助大數(shù)據(jù)分析與挖掘技術(shù)實(shí)現(xiàn)輔助教育教學(xué)管理、輔助智能決策,優(yōu)化改革創(chuàng)新,必須從數(shù)據(jù)治理抓起,對(duì)當(dāng)前系統(tǒng)進(jìn)行有效整合,提高數(shù)據(jù)共享,建設(shè)校情分析、跨部門(mén)數(shù)據(jù)共享查詢、狀態(tài)數(shù)據(jù)采集等數(shù)據(jù)應(yīng)用,提供能自主設(shè)計(jì)、管理數(shù)據(jù)應(yīng)用場(chǎng)景的工具,形成校級(jí)數(shù)據(jù)應(yīng)用市場(chǎng),完善從需求到服務(wù)的數(shù)據(jù)生態(tài)鏈,實(shí)現(xiàn)全生命周期管理。逐步清晰數(shù)據(jù)的利用價(jià)值,基于數(shù)據(jù)生態(tài)鏈實(shí)現(xiàn)信息與業(yè)務(wù)的相互融合,進(jìn)一步實(shí)現(xiàn)大數(shù)據(jù)分析展示與智能決策需求。
以筆者所在學(xué)校為例,隨著數(shù)據(jù)治理的進(jìn)行,共享數(shù)據(jù)中心逐步投入信息使用中,對(duì)學(xué)校的數(shù)字化校園建設(shè)與學(xué)校教育教學(xué)管理起到重要的作用,真正意義上做到了讓數(shù)據(jù)跑起來(lái)、用起來(lái)。利用Hadoop框架分布式文件系統(tǒng)Hdfs和MapReduce,將多維數(shù)據(jù)進(jìn)行關(guān)聯(lián)、分類(lèi)、降維等分析與可視化呈現(xiàn),開(kāi)創(chuàng)了智慧校園教育管理決策科學(xué)化、管理智能化、監(jiān)督過(guò)程化的新模式,為教育改革和創(chuàng)新提供支持和指導(dǎo)。
參考文獻(xiàn):
[1]萬(wàn)中鈺.基于hadoop平臺(tái)下的數(shù)據(jù)治理系統(tǒng)的實(shí)踐及應(yīng)用[J].長(zhǎng)江信息通信, 2021,(11):163-165,169.
[2]胡榮星.高職院校共享數(shù)據(jù)庫(kù)平臺(tái)設(shè)計(jì)——以南京城市職業(yè)學(xué)院為例[J].信息與電腦(理論版),2019,(7):240-242.
[3]楊嵐.基于Hadoop平臺(tái)的交通管理數(shù)據(jù)存儲(chǔ)系統(tǒng)設(shè)計(jì)分析[J].九江學(xué)院學(xué)報(bào)(自然科學(xué)版),2022,(4):59-64.
[4]夏曼.基于云計(jì)算的農(nóng)產(chǎn)品電子商務(wù)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D].南寧:廣西大學(xué),2015.
作者簡(jiǎn)介:王冬梅,碩士,高級(jí)工程師,研究方向:大數(shù)據(jù)分析。
基金項(xiàng)目:南京城市職業(yè)學(xué)院2020-2023年度校級(jí)課題——高校智慧校園大數(shù)據(jù)采集與分析研究(編號(hào):KY202016)。
互聯(lián)網(wǎng)周刊2023年14期