王立友
(淮南聯(lián)合大學(xué) 計(jì)算機(jī)系, 安徽 淮南 232001)
高校現(xiàn)有系統(tǒng)主要應(yīng)用于師生管理。隨著高校信息化建設(shè)的逐步完善和深入應(yīng)用,高校正處在信息化建設(shè)的快速發(fā)展期[1]。高?,F(xiàn)有管理系統(tǒng)內(nèi)蘊(yùn)含的巨量數(shù)據(jù)(數(shù)據(jù)量以TB計(jì)),為高校師生的學(xué)習(xí)、生活、教學(xué)、教科研、管理諸多方面提供了豐富的數(shù)據(jù)信息資源支撐。目前,高校通過自主研發(fā)或招標(biāo)購買等形式,已有校園網(wǎng)、教務(wù)教學(xué)、人事管理、科研等多個(gè)管理系統(tǒng)。由于系統(tǒng)間相互獨(dú)立,設(shè)計(jì)架構(gòu)多元化、數(shù)據(jù)不同步、數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、系統(tǒng)間關(guān)聯(lián)性不大,數(shù)據(jù)不同步、處理效率低、不同部門間無法協(xié)同工作,難以有效整合及共享數(shù)據(jù)資源。導(dǎo)致高?,F(xiàn)有管理平臺(tái)中大量數(shù)據(jù)資源無法有效整合優(yōu)化及繼承管理。
智慧校園大數(shù)據(jù)平臺(tái)依托于高?,F(xiàn)有信息管理系統(tǒng),旨在深度挖掘高校管理系統(tǒng)內(nèi)的海量數(shù)據(jù)資源,對(duì)其優(yōu)化整合。以人為本,讓高校數(shù)據(jù)信息處理過程變得更加簡(jiǎn)單明了,使校園信息化進(jìn)程得以延展。其核心是數(shù)據(jù)處理標(biāo)準(zhǔn)化、智能化。在大數(shù)據(jù)時(shí)代背景下,迫切需要更為精準(zhǔn)、嚴(yán)謹(jǐn)可靠的數(shù)據(jù)處理技術(shù)。如何快速精準(zhǔn)地處理高校信息系統(tǒng)內(nèi)相關(guān)數(shù)據(jù)資源,成為高校當(dāng)下迫切需要解決的問題。因此,探討高校智慧校園大數(shù)據(jù)平臺(tái)的建設(shè)具有實(shí)質(zhì)性意義。近年來,高校業(yè)已初步積累了大量的學(xué)校相關(guān)業(yè)務(wù)數(shù)據(jù),Hadoop大數(shù)據(jù)技術(shù)可以對(duì)其中的數(shù)據(jù)進(jìn)行有效的組織及處理,整合海量的非同源異構(gòu)數(shù)據(jù),促使高校的服務(wù)成效、管理模塊、用戶屬性及行為數(shù)據(jù)化。能夠?qū)崿F(xiàn)高校網(wǎng)絡(luò)資源管理、師生學(xué)習(xí)及生活服務(wù)、學(xué)校職能管理、公共數(shù)據(jù)共享等功能的一體化。本文將利用hadoop大數(shù)據(jù)技術(shù),搭建高校智慧校園大數(shù)據(jù)平臺(tái)框架,為構(gòu)建高校智慧校園大數(shù)據(jù)平臺(tái)提供參考依據(jù)[2]。
Hadoop采用Java語言開發(fā),是對(duì)Google的MapReduce、GFS(Google File System)和Bigtable等核心技術(shù)的開源實(shí)現(xiàn)。由Apache公司開發(fā),以分布式文件系統(tǒng)HDFS( Hadoop Distributed File System)和MapReduce計(jì)算框架為核心,以及一些支持Hadoop的其他子項(xiàng)目的通用工具組成的分布式計(jì)算系統(tǒng)。主要用于海量數(shù)據(jù)(大于1TB)的高效存儲(chǔ)、管理和分析。在現(xiàn)代社會(huì)中,只要和海量數(shù)據(jù)有關(guān)的應(yīng)用領(lǐng)域都會(huì)出現(xiàn)Hadoop的身影。
HDFS是典型的主從架構(gòu),由一個(gè)主節(jié)點(diǎn)(NameNode)、多個(gè)從節(jié)點(diǎn)(datanode)組成。主節(jié)點(diǎn)用于管理系統(tǒng)命名空間(NameSpace)、調(diào)度客戶端(client)文件操作及存儲(chǔ)任務(wù)管理,多個(gè)從節(jié)點(diǎn)提供真實(shí)文件數(shù)據(jù)的物理支持[3]??蛻舳送ㄟ^主節(jié)點(diǎn)Namenode從多個(gè)datanode數(shù)據(jù)節(jié)點(diǎn)中獲取數(shù)據(jù)塊(block),datanode數(shù)據(jù)節(jié)點(diǎn)則自發(fā)提交獲取到的文件的Namenode信息,用于存儲(chǔ)文件的基本信息。Namenode對(duì)datanode的write、read等操作一律通過元數(shù)據(jù)信息實(shí)現(xiàn)查找。為防止Namenode數(shù)據(jù)缺失、無效,HDFS提供了Namenode的備份節(jié)點(diǎn)即SecondaryNameNode,類似于Namenode的克隆,以備不時(shí)之需。數(shù)據(jù)以數(shù)據(jù)塊的形式進(jìn)行存儲(chǔ),每個(gè)數(shù)據(jù)塊可以在多個(gè)DataNode上存儲(chǔ)多個(gè)副本,以提高數(shù)據(jù)安全性。
簡(jiǎn)而言之,MapReduce是一種思想,或編程模型。主要包括Mapper和Reducer兩個(gè)抽象類,是一個(gè)基于開源的并行計(jì)算框架。Mapper用于將切分為塊的原始數(shù)據(jù)進(jìn)行處理;Reducer用于匯總歸約Mapper處理結(jié)果,并輸出終值。MapReduce計(jì)算框架中Mapper可以處理<key,value>格式的數(shù)據(jù)流,形成一系列的<key,value>形式的輸出,這些輸出經(jīng)過相應(yīng)處理,形成<key,{value list}>形式的中間結(jié)果;再將中間結(jié)果作為Reducer的輸入,Reducer將key值相等的數(shù)據(jù)作進(jìn)一步處理,最終形成<key,value>形式的結(jié)果數(shù)據(jù),將結(jié)果數(shù)據(jù)寫入HDFS中(處理過程如圖1所示)。
圖1 MapReduce模型數(shù)據(jù)處理過程
平臺(tái)設(shè)計(jì)使用C/S結(jié)構(gòu),由一臺(tái)主機(jī) (Host) 和3臺(tái)從機(jī)(Slave) 構(gòu)成,主機(jī)負(fù)責(zé)管理Hadoop集群中的Namenode節(jié)點(diǎn),主要用于操作元數(shù)據(jù),從機(jī)作為Datanode數(shù)據(jù)節(jié)點(diǎn)用于存儲(chǔ)各類校園用戶產(chǎn)生的數(shù)據(jù),通過交換機(jī)實(shí)現(xiàn)互訪。具體硬件配置環(huán)境為CPU:酷睿雙核2.6GHz; 內(nèi)存:8GB; 固態(tài)硬盤256G+1TB;網(wǎng)絡(luò)帶寬: 1Gbps。對(duì)應(yīng)軟件環(huán)境配置如表1所示。
表1 智慧校園大數(shù)據(jù)平臺(tái)集群軟件環(huán)境配置
智慧校園大數(shù)據(jù)平臺(tái)采用Hadoop作為數(shù)據(jù)處理框架;Zookeeper 作為資源協(xié)調(diào)管理器;HDFS作為分布式文件系統(tǒng);HBase作為分布式非關(guān)系型數(shù)據(jù)庫。本文大數(shù)據(jù)平臺(tái)由4個(gè)節(jié)點(diǎn)構(gòu)成: 1臺(tái)作為Namenode主節(jié)點(diǎn),3臺(tái)作為Datanode從節(jié)點(diǎn)。集群搭建順序如下:
(1) 安裝CentOS操作系統(tǒng)。
(2) 安裝Java運(yùn)行環(huán)境JDK。
(3) ssh免密登錄。
(4) 安裝Zookeeper集群。
(5) 安裝Hadoop搭建完全分布式環(huán)境。
(6) Hbase 安裝部署。
啟動(dòng)Hadoop集群,運(yùn)行主界面如圖2所示。
圖2 集群?jiǎn)?dòng)界面
依托現(xiàn)有高校信息系統(tǒng),設(shè)計(jì)基于Hadoop智慧校園大數(shù)據(jù)平臺(tái)系統(tǒng)的技術(shù)架構(gòu)。整個(gè)架構(gòu)由數(shù)據(jù)源、數(shù)據(jù)采集清洗整合、分布式數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析&可視化等模塊組成[4]。模塊間通過元數(shù)據(jù)的共享交互,用以實(shí)現(xiàn)海量多源異構(gòu)數(shù)據(jù)的實(shí)時(shí)采集、存取及計(jì)算、離線批處理和流式計(jì)算等功能(技術(shù)架構(gòu)如圖3所示)。
3.3.1 數(shù)據(jù)源
目前,高校數(shù)據(jù)分為校園內(nèi)部數(shù)據(jù)和第三方數(shù)據(jù)。 校園內(nèi)部數(shù)據(jù)可以通過現(xiàn)有高校管理系統(tǒng)平臺(tái)、網(wǎng)絡(luò)監(jiān)控等途徑獲取,這類數(shù)據(jù)大多屬于結(jié)構(gòu)化數(shù)據(jù);第三方數(shù)據(jù)可以通過Internent(網(wǎng)絡(luò)日志)等途徑獲取,這部分?jǐn)?shù)據(jù)中存在非結(jié)構(gòu)化數(shù)據(jù)。高校數(shù)據(jù)的采集量非常之大,這些海量的數(shù)據(jù)中包含了大量具有實(shí)用價(jià)值的信息[5]。大型關(guān)系數(shù)據(jù)庫用于采集結(jié)構(gòu)化數(shù)據(jù),如Oracle;其他非結(jié)構(gòu)化數(shù)據(jù)則使用爬蟲、ETL、HBase等工具進(jìn)行采集。
圖 3 平臺(tái)技術(shù)架構(gòu)
3.3.2 數(shù)據(jù)采集清洗整合
在數(shù)據(jù)挖掘之前,ETL( 抽取、轉(zhuǎn)換、加載) 尤為重要,是指在數(shù)據(jù)預(yù)處理階段對(duì)前期采集到的原始數(shù)據(jù)在導(dǎo)入 HDFS 之前進(jìn)行一系列的清洗與轉(zhuǎn)換[6]。高校產(chǎn)生的數(shù)據(jù)絕大部分均為未整合數(shù)據(jù),經(jīng)常出現(xiàn)數(shù)據(jù)異步、缺失、或重復(fù)無效,無法直接參與計(jì)算,都需要對(duì)數(shù)據(jù)進(jìn)行分析和預(yù)處理以提高高校數(shù)據(jù)質(zhì)量。
3.3.3 分布式數(shù)據(jù)存儲(chǔ)
數(shù)據(jù)分布式存儲(chǔ)主要利用HDFS系統(tǒng)及MapReduce框架將數(shù)據(jù)存放到Hadoop集群中的多個(gè)計(jì)算節(jié)點(diǎn)上,當(dāng)客戶端存儲(chǔ)數(shù)據(jù)時(shí),需要訪問Namenode主節(jié)點(diǎn),然后由Namenode主節(jié)點(diǎn)分配一組地址信息給客戶端,客戶端根據(jù)地址信息向Datanode中存儲(chǔ)數(shù)據(jù)信息;當(dāng)客戶端需要提取其中的某個(gè)數(shù)據(jù)資源時(shí),詢問Namenode文件所在位置,然后直接獲取資源。分布式數(shù)據(jù)存儲(chǔ)是整個(gè)平臺(tái)的核心層,用戶既可針對(duì)不同的數(shù)據(jù)集在算法列表中選擇對(duì)應(yīng)算法,亦可上傳自定義算法進(jìn)行運(yùn)算,算法運(yùn)行完成后,將運(yùn)行結(jié)果及說明性文檔存儲(chǔ)至 HDFS或關(guān)系型數(shù)據(jù)庫,進(jìn)而實(shí)現(xiàn)了數(shù)據(jù)的大規(guī)模處理、
3.3.4 數(shù)據(jù)分析&可視化
高校產(chǎn)生海量的數(shù)據(jù)背后蘊(yùn)藏著非常大的應(yīng)用價(jià)值,若無法解析這些數(shù)據(jù)真正含義,再多的大數(shù)據(jù)分析方案都是無用的。本文利用SPSS、SAS等專業(yè)可視化工具建立校園用戶行為大數(shù)據(jù)可視化模型,對(duì)高校管理系統(tǒng)中用戶數(shù)據(jù)進(jìn)行分析及可視化,使系統(tǒng)管理人員更為便捷地洞悉用戶數(shù)據(jù)結(jié)構(gòu)關(guān)系。大數(shù)據(jù)可視化模型能夠?qū)崟r(shí)分析用戶行為數(shù)據(jù),實(shí)現(xiàn)相似行為特征值數(shù)據(jù)聚類分析。對(duì)用戶進(jìn)行分類,生成相對(duì)應(yīng)大數(shù)據(jù)分析模塊。
智慧校園大數(shù)據(jù)平臺(tái)通過hadoop數(shù)據(jù)引擎,利用大數(shù)據(jù)處理技術(shù)進(jìn)行信息的挖掘、整理、分析,進(jìn)而發(fā)現(xiàn)數(shù)據(jù)背后所隱藏的價(jià)值,為高校的教育教學(xué)管理發(fā)展提供決策支持,優(yōu)化業(yè)務(wù)流程、促進(jìn)業(yè)務(wù)融合、提高辦事效率、分析校情、輔助決策的基礎(chǔ),為科研和創(chuàng)新活動(dòng)提供核心支持;理解老師和學(xué)生的潛在需求,實(shí)現(xiàn)更加智能化、精細(xì)化、個(gè)性化的服務(wù)。實(shí)時(shí)分析師生個(gè)人學(xué)習(xí)、閱讀、消費(fèi)相關(guān)業(yè)務(wù)管理數(shù)據(jù),并推送各類學(xué)習(xí)報(bào)告、閱讀報(bào)告、消費(fèi)報(bào)告給校內(nèi)師生用戶,使之更加全面細(xì)致的掌握個(gè)人相關(guān)行為。同時(shí),在統(tǒng)計(jì)數(shù)據(jù)分析和挖掘的基礎(chǔ)上形成的領(lǐng)導(dǎo)管理報(bào)告,可以更有效地協(xié)助學(xué)校各級(jí)領(lǐng)導(dǎo)進(jìn)行研究和決策,最終實(shí)現(xiàn)學(xué)校信息綜合服務(wù)能力的提升。
4.1.1 多系統(tǒng)單點(diǎn)登陸為全校師生提供智慧型的一站式校園數(shù)據(jù)服務(wù)管理
智慧校園大數(shù)據(jù)平臺(tái)給每個(gè)用戶提供單一的賬號(hào)及密碼。具有統(tǒng)一的初始化登陸界面,使分散的系統(tǒng)業(yè)務(wù)平臺(tái)集成一體化。用戶使用單一賬號(hào)登錄后,可實(shí)現(xiàn)各平臺(tái)系統(tǒng)業(yè)務(wù)不同模塊間的自動(dòng)切換,大數(shù)據(jù)平臺(tái)系統(tǒng)可以自動(dòng)識(shí)別用戶身份及賦予不同用戶擁有不同的操作權(quán)限,用戶類型主要有學(xué)生、教師、院系處辦公人員、校領(lǐng)導(dǎo)和游客五種類型,能依據(jù)學(xué)校的實(shí)際需求添加其他用戶類型。
智慧校園大數(shù)據(jù)平臺(tái)實(shí)際上是學(xué)校信息化達(dá)到一定程度的內(nèi)需,平臺(tái)將Hadoop大數(shù)據(jù)處理技術(shù)與教育教學(xué)有機(jī)融為一體,搭建學(xué)校師生日常生活、教學(xué)、管理、科研及學(xué)生行為預(yù)警等功能的智慧型平臺(tái)框架。 將學(xué)?,F(xiàn)有的管理系統(tǒng)中的歷史數(shù)據(jù)移植到智慧校園大數(shù)據(jù)平臺(tái)上,通過服務(wù)器虛擬化和大數(shù)據(jù)技術(shù)建立完善的數(shù)據(jù)中心,采集學(xué)校現(xiàn)有管理系統(tǒng)中數(shù)據(jù),完成數(shù)據(jù)的無縫移植對(duì)接及優(yōu)化整合,共享Hadoop集群數(shù)據(jù)資源,實(shí)現(xiàn)校園數(shù)據(jù)的一站式管理。
4.1.2 消除信息孤島
學(xué)?,F(xiàn)有管理系統(tǒng)間架構(gòu)多樣化, 所產(chǎn)生的歷史數(shù)據(jù)存儲(chǔ)在自身的服務(wù)器主機(jī)上,數(shù)據(jù)相對(duì)孤立和封閉,這些信息孤島消耗大量的軟硬件資源,學(xué)校系統(tǒng)運(yùn)維、管理成本居高不下。智慧校園大數(shù)據(jù)平臺(tái)搭建了集中的數(shù)據(jù)資源管控平臺(tái),實(shí)現(xiàn)數(shù)據(jù)訪問及交換、統(tǒng)一數(shù)據(jù)格式,消除上述的系統(tǒng)間信息孤島問題[7]。
4.1.3 教學(xué)智能化、多元化
打破傳統(tǒng)的老師教、學(xué)生學(xué)的教學(xué)模式,智慧校園大數(shù)據(jù)平臺(tái)的教學(xué)板塊蘊(yùn)含了豐富的學(xué)習(xí)資源、技術(shù)支持及服務(wù)教學(xué)。平臺(tái)可以依據(jù)學(xué)生的個(gè)人喜好,推送個(gè)性化學(xué)習(xí)資料及學(xué)習(xí)方案[8]。通過多元化學(xué)習(xí)途徑激發(fā)學(xué)生的學(xué)習(xí)興趣,形成學(xué)習(xí)資源共享與教學(xué)交互的良好學(xué)習(xí)環(huán)境[9]。結(jié)合學(xué)生個(gè)人職業(yè)生涯規(guī)劃、學(xué)習(xí)計(jì)劃,依托智能教室以及大數(shù)據(jù)平臺(tái),建立以學(xué)生為主體、以教師為主導(dǎo)的多元化學(xué)習(xí)與創(chuàng)新模式, 智能分析學(xué)生的特長(zhǎng)愛好以及教師的研究方向,為師生的教與學(xué)提供有力保障,促進(jìn)師生專業(yè)知識(shí)素養(yǎng)水平的提升。
4.2.1 平臺(tái)功能架構(gòu)
智慧校園大數(shù)據(jù)平臺(tái)主要實(shí)現(xiàn)了用戶賬戶單點(diǎn)登錄、異常行為預(yù)警、貧困助學(xué)認(rèn)定、師生行為畫像等功能(平臺(tái)功能架構(gòu)如圖4所示)。
4.2.2 平臺(tái)功能演示
學(xué)生在校求學(xué)期間,如果學(xué)生自身家庭經(jīng)濟(jì)狀況非常差,學(xué)生可以向?qū)W校申請(qǐng)國(guó)家助學(xué)金用以資助學(xué)生完成在校期間的學(xué)業(yè),解決學(xué)生的經(jīng)濟(jì)困難。但現(xiàn)有的貧困助學(xué)金申請(qǐng)過程過于依賴紙質(zhì)的證明文件及學(xué)生自身對(duì)家庭的經(jīng)濟(jì)狀況的闡述,缺乏客觀性、公正性。平臺(tái)中的貧困助學(xué)認(rèn)定模塊,可以依據(jù)學(xué)生一卡通流水來采集學(xué)生在校期間的食堂、超市、用水等多種消費(fèi)數(shù)據(jù),并利用SPSS等輔助軟件對(duì)學(xué)生的消費(fèi)行為進(jìn)行聚類分析,得出學(xué)生自身的消費(fèi)水平,客觀公正地判定該生獲取國(guó)家助學(xué)金的合理性,優(yōu)化貧困助學(xué)認(rèn)定工作。由于平臺(tái)功能眾多,本文僅就貧困助學(xué)輔助認(rèn)定功能進(jìn)行演示(如圖5所示)。
圖4 平臺(tái)功能架構(gòu)
圖5 貧困助學(xué)輔助功能測(cè)試
闡述了Hadoop大數(shù)據(jù)技術(shù)在高校管理系統(tǒng)領(lǐng)域中的相關(guān)應(yīng)用,構(gòu)建了高校智慧校園大數(shù)據(jù)平臺(tái)的技術(shù)架構(gòu)、功能架構(gòu)。測(cè)試了智慧校園大數(shù)據(jù)平臺(tái)的部分功能,用以證實(shí)智慧校園大數(shù)據(jù)平臺(tái)的技術(shù)架構(gòu)、功能架構(gòu)的可行性。希望利用大數(shù)據(jù)技術(shù),對(duì)校園數(shù)據(jù)進(jìn)行優(yōu)化及整合,為本校師生提供更為優(yōu)質(zhì)的系統(tǒng)服務(wù)。