黃少聰
(福建工業(yè)學(xué)校 信息教學(xué)部,福建 福州 350001)
當(dāng)前,隨著校園信息化的建設(shè)的快速發(fā)展,傳統(tǒng)的管理方法逐漸不能滿足日益增長的數(shù)據(jù)積累和管理需求。各個時期不同的信息系統(tǒng)形成的“數(shù)據(jù)孤島”,數(shù)據(jù)資源無法共享;高校每年成千上萬名新生入學(xué),積累了大量的數(shù)據(jù),這些數(shù)據(jù)不僅數(shù)量級大,數(shù)據(jù)結(jié)構(gòu)也多樣。各類校園數(shù)據(jù)規(guī)模日益龐大,數(shù)據(jù)利用不充分,缺少穩(wěn)定高效的大數(shù)據(jù)環(huán)境,這些都對高校校園數(shù)據(jù)的研究提出了挑戰(zhàn)。針對以上問題,基于大數(shù)據(jù)核心技術(shù)Hadoop構(gòu)建校園大數(shù)據(jù)平臺,對海量校園數(shù)據(jù)進行采集、存儲,分析和應(yīng)用,實現(xiàn)大數(shù)據(jù)匯聚整合,可以實現(xiàn)校園中信息的互聯(lián)互通,體現(xiàn)了校園數(shù)據(jù)的實時性和價值性,能夠?qū)熒M行個性化服務(wù),提高工作效率,為高校建設(shè)以及科學(xué)管理提供重要的依據(jù)。
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,隨之迎來大數(shù)據(jù)時代的來臨,需要對日益增長的數(shù)據(jù)資源進行存儲、處理與分析,并從中發(fā)現(xiàn)有價值的信息,需要先進的分析技術(shù)作支撐。Hadoop是Apache的一個用Java語言實現(xiàn)的開源軟件框架,能夠?qū)崿F(xiàn)在集群中對海量數(shù)據(jù)的分布式處理和分析。Hadoop具有高可靠性、高擴展性、高效性和低成本的優(yōu)點,用戶可以輕松架構(gòu)和開發(fā)分布式程序,應(yīng)用研究主要涉及大數(shù)據(jù)存儲、日志處理、ETL、機器學(xué)習(xí)、搜索引擎、數(shù)據(jù)分析與挖掘等領(lǐng)域[1]。
經(jīng)過多年的發(fā)展,Hadoop核心功能在不斷完善的同時,也衍生出多個功能組件,共同構(gòu)成了Hadoop生態(tài)系統(tǒng),成為大數(shù)據(jù)處理的業(yè)內(nèi)事實標(biāo)準(zhǔn)。近年來,國內(nèi)應(yīng)用和研究Hadoop的企業(yè)越來越多,主要以互聯(lián)網(wǎng)行業(yè)為主,包括百度、阿里巴巴、騰訊、360、中國移動等。
同樣的,很多高校也投入到Hadoop的應(yīng)用和研究中,目前各高校都在尋找符合自身特點的大數(shù)據(jù)應(yīng)用開發(fā)模式,通過對遍布教、學(xué)、研多層面的數(shù)據(jù)進行整合,并結(jié)合對大數(shù)據(jù)技術(shù)的有效利用,可以從根本上給教學(xué)、科研、就業(yè)等帶來全方位的提升,培養(yǎng)大數(shù)據(jù)人才,深化管理促進高校的改革發(fā)展。例如:清華大學(xué)的大數(shù)據(jù)研究平臺,湖南大學(xué)的國云大數(shù)據(jù)云分析平臺。
本文基于Hadoop生態(tài)集群,以構(gòu)建基礎(chǔ)工具層為底層支撐,將智慧校園相關(guān)的人、財、物、網(wǎng)絡(luò)等結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)[2],采集到Hadoop集群中進行分布式文件存儲,通過Hive和HBase構(gòu)建共享數(shù)據(jù)中心,采用 Storm、Spark、MapReduce等分析方法,以各種可視化圖形的方式,將結(jié)果展示給用戶,滿足業(yè)務(wù)需求,體現(xiàn)數(shù)據(jù)價值。平臺架構(gòu)如圖1所示,主要包括五層:基礎(chǔ)工具層、數(shù)據(jù)源層、數(shù)據(jù)采集層、數(shù)據(jù)分析層、數(shù)據(jù)應(yīng)用展示層[3]。
圖1 高校大數(shù)據(jù)平臺架構(gòu)
基礎(chǔ)工具層以現(xiàn)有的信息化硬件為底層基礎(chǔ),包括網(wǎng)絡(luò)資源、云服務(wù)平臺、機房物理設(shè)備等,通過基礎(chǔ)支撐層為大數(shù)據(jù)平臺提供統(tǒng)一認(rèn)證、統(tǒng)一授權(quán)、日志管理、系統(tǒng)監(jiān)控、運維管理等基礎(chǔ)性服務(wù)。
數(shù)據(jù)源層包含有來自各個異構(gòu)系統(tǒng)的數(shù)據(jù),大致包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)三塊[4],為大數(shù)據(jù)的分析提供支撐。一是來自傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),主要包括各信息系統(tǒng)中數(shù)據(jù),一般以關(guān)系型數(shù)據(jù)庫進行存儲;二是來自海量半結(jié)構(gòu)化數(shù)據(jù),包括上網(wǎng)日志、微博、微信等;三是非結(jié)構(gòu)化數(shù)據(jù),主要包括校園監(jiān)控、樓宇門禁等實時流數(shù)據(jù)[5]。
數(shù)據(jù)集成層包括數(shù)據(jù)的采集和存儲。該層通過靈活的對接適配,與校內(nèi)各信息系統(tǒng)對接,采集數(shù)據(jù)源層提供的異構(gòu)數(shù)據(jù),并為數(shù)據(jù)提供清洗、轉(zhuǎn)換、整合、存儲等基本管理功能。結(jié)構(gòu)化數(shù)據(jù)采集可以采用Sqoop將關(guān)系型數(shù)據(jù)庫(如Oracle、MySQL等)中的數(shù)據(jù)導(dǎo)入Hadoop的HDFS、Hive或者h(yuǎn)base表中[5]。對于非結(jié)構(gòu)化數(shù)據(jù),可以采用基于分布式處理Flume技術(shù),快速有效采集服務(wù)器上的日志數(shù)據(jù),最終發(fā)送到HDFS中進行存儲。數(shù)據(jù)采集將數(shù)據(jù)整理后可靠的遷移到Hadoop系統(tǒng)中,確保數(shù)據(jù)的一致性和資源的有效利用。
大數(shù)據(jù)分析層使用數(shù)據(jù)操作系統(tǒng)Yarn來對平臺中的資源進行統(tǒng)一管理和調(diào)度,從全新的視角輔助學(xué)校各項業(yè)務(wù)的開展與決策。平臺可以根據(jù)不同的應(yīng)用場景,選擇合適的數(shù)據(jù)處理框架對數(shù)據(jù)進行處理。常用的有內(nèi)存計算框架Spark和并行計算框架MapReduce。Spark適合應(yīng)用在對實時性要求較高的大數(shù)據(jù)場景,例如:使用Spark SQL進行分布式數(shù)據(jù)快速查詢和實時推薦;使用Spark Streaming可以實現(xiàn)高吞吐的,具備容錯機制的海量流數(shù)據(jù)的處理;使用Spark GraphX進行高效的圖計算[6]。而MapReduce適合進行批量海量數(shù)據(jù)的離線處理,例如:ETL,日志處理場景,數(shù)據(jù)挖掘與統(tǒng)計機器學(xué)習(xí)應(yīng)用場景,數(shù)據(jù)采集與處理場景等。
數(shù)據(jù)應(yīng)用展示層為不同的主體展示數(shù)據(jù)分析,根據(jù)需求制定針對性的數(shù)據(jù)報表,為用戶推送信息,為師生用戶的相關(guān)活動提供數(shù)據(jù)依據(jù),用戶可以查詢分析結(jié)果,掌握對各項教學(xué)和管理工作的分析和判斷,從而提高工作學(xué)習(xí)效率。針對數(shù)據(jù)分析和挖掘成果形成應(yīng)用場景,建立個性化數(shù)據(jù)門戶,通過建立校園大數(shù)據(jù)平臺得到有價值的信息并以可視化方式展現(xiàn)給用戶[5]。
Hadoop是運行在Linux,雖然借助工具也可以運行在Windows上,但是建議還是運行在Linux系統(tǒng)上。關(guān)于Hadoop平臺的搭建,有多種模式可以進行安裝架構(gòu),主要的安裝模式有單機模式,偽分布式和完全分布式三種。本文采取虛擬機安裝Hadoop完全分布式集群模式搭建。
1.配置實驗環(huán)境
搭建形成完全分布式Hadoop集群,在服務(wù)器上做實驗,通過VMwareWorkstation虛擬機架設(shè)四臺服務(wù)器,均安裝CentOS6.4X64bit,一臺做NameNode,Job-Tracker,服務(wù)器名為 master。另外 3臺做DataNode,Task-Tracker,服務(wù)器名分別為 slavel,slave2,slave3。配置靜態(tài) IP地址,修改文件vim/etc/hosts添加集群中所有機器的IP與主機名,使master和所有slave能夠通信,并關(guān)閉防火墻和selinux,完成master和slave之間雙向SSH無密碼登錄[7]。
2.實驗中安裝的軟件版本
使用默認(rèn)的root用戶,將需要的軟件全部安裝在root用戶下,并完成Hadoop文件的配置,將配置好的文件拷貝到其他3臺slave機器上。這樣基本搭建已經(jīng)完成,形成節(jié)點之間的連接。
3.測試Hadoop集群
對于Hadoop集群的測試,在用start-all.sh啟動集群后,可以用jps命令和實例進行驗證集群是否安裝配置成功。另外也可以通過用hadoop-examples-3.30.jar中自帶的wordcount程序進行測試,該程序的作用是統(tǒng)計單詞的個數(shù)。當(dāng)HDFS啟動完畢后,可以訪問http://localhost:50070進入HDFS的可視化管理界面,在此頁面中可以對整個HDFS集群進行監(jiān)控以及文件的上傳和下載。
表1 軟件環(huán)境
由于校園大數(shù)據(jù)平臺中很大一部分?jǐn)?shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù),來源于各個階段開發(fā)的各類信息系統(tǒng),比如 Oracle、MySQL、SQL Server、DB2 等關(guān)系型數(shù)據(jù)庫,下面介紹一下Sqoop工具,用來在Hadoop(Hive)和關(guān)系型數(shù)據(jù)庫之間傳輸數(shù)據(jù)。
1.MySQL數(shù)據(jù)導(dǎo)入到HDFS。
首先,在完成Sqoop的安裝后,需要加載mysql驅(qū)動包到sqoop/lib目錄下,然后可以這樣測試sqoop是否可以連接到mysql:
如果能夠顯示數(shù)據(jù)庫的庫名說明連接mysql數(shù)據(jù)庫ok。使用如下步驟和命令完成mysql數(shù)據(jù)的導(dǎo)入。
(1)列出 MySQL數(shù)據(jù)有哪些數(shù)據(jù)庫:sqoop list-databases
(2)列出MySQL中的某個數(shù)據(jù)庫有哪些數(shù)據(jù)表:sqoop list-tables
(3)創(chuàng)建一個具有相同名字和相同表結(jié)構(gòu)的表:sqoop create-hive-table
(4)sqoop導(dǎo)入:sqoop import——hive-import
2.sqoop導(dǎo)出數(shù)據(jù)到Mysql數(shù)據(jù)庫
同樣的,SQLserver、Oracle及其他使用jdbc連接的關(guān)系型數(shù)據(jù)庫也可以在Hadoop中導(dǎo)入和導(dǎo)出。
Hadoop分布式架構(gòu)平臺在大數(shù)據(jù)的處理和分析上有著巨大的優(yōu)勢,極大程度解決了與日俱增的海量數(shù)據(jù)處理問題,并且在其快速普及的同時,也有極強的發(fā)展前景。本文結(jié)合高校實際,設(shè)計基于Hadoop技術(shù)的大數(shù)據(jù)平臺,研究了Hadoop技術(shù)在教育信息化領(lǐng)域的應(yīng)用,對其功能、架構(gòu)及搭建過程做了介紹,模擬搭建集群環(huán)境,經(jīng)過數(shù)據(jù)交互測試,驗證平臺搭建成功,為后續(xù)工作打下堅實基礎(chǔ)。下一步的工作是在大數(shù)據(jù)平臺下進行有關(guān)算法研究,例如基于校園一卡通數(shù)據(jù),對學(xué)生在校行為數(shù)據(jù)進行挖掘研究[7],構(gòu)建學(xué)生行為分析系統(tǒng),引導(dǎo)學(xué)生健康發(fā)展。