基于Hadoop的高校校園大數(shù)據(jù)平臺構(gòu)建

2021-03-16 01:29黃少聰

安徽電子信息職業(yè)技術(shù)學(xué)院學(xué)報 2021年1期

黃少聰

（福建工業(yè)學(xué)校信息教學(xué)部，福建福州 350001）

當(dāng)前，隨著校園信息化的建設(shè)的快速發(fā)展，傳統(tǒng)的管理方法逐漸不能滿足日益增長的數(shù)據(jù)積累和管理需求。各個時期不同的信息系統(tǒng)形成的“數(shù)據(jù)孤島”，數(shù)據(jù)資源無法共享；高校每年成千上萬名新生入學(xué)，積累了大量的數(shù)據(jù)，這些數(shù)據(jù)不僅數(shù)量級大，數(shù)據(jù)結(jié)構(gòu)也多樣。各類校園數(shù)據(jù)規(guī)模日益龐大，數(shù)據(jù)利用不充分，缺少穩(wěn)定高效的大數(shù)據(jù)環(huán)境，這些都對高校校園數(shù)據(jù)的研究提出了挑戰(zhàn)。針對以上問題，基于大數(shù)據(jù)核心技術(shù)Hadoop構(gòu)建校園大數(shù)據(jù)平臺，對海量校園數(shù)據(jù)進行采集、存儲，分析和應(yīng)用，實現(xiàn)大數(shù)據(jù)匯聚整合，可以實現(xiàn)校園中信息的互聯(lián)互通，體現(xiàn)了校園數(shù)據(jù)的實時性和價值性，能夠?qū)熒M行個性化服務(wù)，提高工作效率，為高校建設(shè)以及科學(xué)管理提供重要的依據(jù)。

一、Hadoop大數(shù)據(jù)處理的意義

隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展，隨之迎來大數(shù)據(jù)時代的來臨，需要對日益增長的數(shù)據(jù)資源進行存儲、處理與分析，并從中發(fā)現(xiàn)有價值的信息，需要先進的分析技術(shù)作支撐。Hadoop是Apache的一個用Java語言實現(xiàn)的開源軟件框架，能夠?qū)崿F(xiàn)在集群中對海量數(shù)據(jù)的分布式處理和分析。Hadoop具有高可靠性、高擴展性、高效性和低成本的優(yōu)點，用戶可以輕松架構(gòu)和開發(fā)分布式程序，應(yīng)用研究主要涉及大數(shù)據(jù)存儲、日志處理、ETL、機器學(xué)習(xí)、搜索引擎、數(shù)據(jù)分析與挖掘等領(lǐng)域[1]。

經(jīng)過多年的發(fā)展，Hadoop核心功能在不斷完善的同時，也衍生出多個功能組件，共同構(gòu)成了Hadoop生態(tài)系統(tǒng)，成為大數(shù)據(jù)處理的業(yè)內(nèi)事實標(biāo)準(zhǔn)。近年來，國內(nèi)應(yīng)用和研究Hadoop的企業(yè)越來越多，主要以互聯(lián)網(wǎng)行業(yè)為主，包括百度、阿里巴巴、騰訊、360、中國移動等。

同樣的，很多高校也投入到Hadoop的應(yīng)用和研究中，目前各高校都在尋找符合自身特點的大數(shù)據(jù)應(yīng)用開發(fā)模式，通過對遍布教、學(xué)、研多層面的數(shù)據(jù)進行整合，并結(jié)合對大數(shù)據(jù)技術(shù)的有效利用，可以從根本上給教學(xué)、科研、就業(yè)等帶來全方位的提升，培養(yǎng)大數(shù)據(jù)人才，深化管理促進高校的改革發(fā)展。例如：清華大學(xué)的大數(shù)據(jù)研究平臺，湖南大學(xué)的國云大數(shù)據(jù)云分析平臺。

二、基于Hadoop的校園大數(shù)據(jù)平臺架構(gòu)

本文基于Hadoop生態(tài)集群，以構(gòu)建基礎(chǔ)工具層為底層支撐，將智慧校園相關(guān)的人、財、物、網(wǎng)絡(luò)等結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)[2]，采集到Hadoop集群中進行分布式文件存儲，通過Hive和HBase構(gòu)建共享數(shù)據(jù)中心，采用 Storm、Spark、MapReduce等分析方法，以各種可視化圖形的方式，將結(jié)果展示給用戶，滿足業(yè)務(wù)需求，體現(xiàn)數(shù)據(jù)價值。平臺架構(gòu)如圖1所示，主要包括五層：基礎(chǔ)工具層、數(shù)據(jù)源層、數(shù)據(jù)采集層、數(shù)據(jù)分析層、數(shù)據(jù)應(yīng)用展示層[3]。

圖1 高校大數(shù)據(jù)平臺架構(gòu)

基礎(chǔ)工具層以現(xiàn)有的信息化硬件為底層基礎(chǔ)，包括網(wǎng)絡(luò)資源、云服務(wù)平臺、機房物理設(shè)備等，通過基礎(chǔ)支撐層為大數(shù)據(jù)平臺提供統(tǒng)一認(rèn)證、統(tǒng)一授權(quán)、日志管理、系統(tǒng)監(jiān)控、運維管理等基礎(chǔ)性服務(wù)。

數(shù)據(jù)源層包含有來自各個異構(gòu)系統(tǒng)的數(shù)據(jù)，大致包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)三塊[4]，為大數(shù)據(jù)的分析提供支撐。一是來自傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)，主要包括各信息系統(tǒng)中數(shù)據(jù)，一般以關(guān)系型數(shù)據(jù)庫進行存儲；二是來自海量半結(jié)構(gòu)化數(shù)據(jù)，包括上網(wǎng)日志、微博、微信等；三是非結(jié)構(gòu)化數(shù)據(jù)，主要包括校園監(jiān)控、樓宇門禁等實時流數(shù)據(jù)[5]。

數(shù)據(jù)集成層包括數(shù)據(jù)的采集和存儲。該層通過靈活的對接適配，與校內(nèi)各信息系統(tǒng)對接，采集數(shù)據(jù)源層提供的異構(gòu)數(shù)據(jù)，并為數(shù)據(jù)提供清洗、轉(zhuǎn)換、整合、存儲等基本管理功能。結(jié)構(gòu)化數(shù)據(jù)采集可以采用Sqoop將關(guān)系型數(shù)據(jù)庫（如Oracle、MySQL等）中的數(shù)據(jù)導(dǎo)入Hadoop的HDFS、Hive或者h(yuǎn)base表中[5]。對于非結(jié)構(gòu)化數(shù)據(jù)，可以采用基于分布式處理Flume技術(shù)，快速有效采集服務(wù)器上的日志數(shù)據(jù)，最終發(fā)送到HDFS中進行存儲。數(shù)據(jù)采集將數(shù)據(jù)整理后可靠的遷移到Hadoop系統(tǒng)中，確保數(shù)據(jù)的一致性和資源的有效利用。

大數(shù)據(jù)分析層使用數(shù)據(jù)操作系統(tǒng)Yarn來對平臺中的資源進行統(tǒng)一管理和調(diào)度，從全新的視角輔助學(xué)校各項業(yè)務(wù)的開展與決策。平臺可以根據(jù)不同的應(yīng)用場景，選擇合適的數(shù)據(jù)處理框架對數(shù)據(jù)進行處理。常用的有內(nèi)存計算框架Spark和并行計算框架MapReduce。Spark適合應(yīng)用在對實時性要求較高的大數(shù)據(jù)場景，例如：使用Spark SQL進行分布式數(shù)據(jù)快速查詢和實時推薦；使用Spark Streaming可以實現(xiàn)高吞吐的，具備容錯機制的海量流數(shù)據(jù)的處理；使用Spark GraphX進行高效的圖計算[6]。而MapReduce適合進行批量海量數(shù)據(jù)的離線處理，例如：ETL，日志處理場景，數(shù)據(jù)挖掘與統(tǒng)計機器學(xué)習(xí)應(yīng)用場景，數(shù)據(jù)采集與處理場景等。

數(shù)據(jù)應(yīng)用展示層為不同的主體展示數(shù)據(jù)分析，根據(jù)需求制定針對性的數(shù)據(jù)報表，為用戶推送信息，為師生用戶的相關(guān)活動提供數(shù)據(jù)依據(jù)，用戶可以查詢分析結(jié)果，掌握對各項教學(xué)和管理工作的分析和判斷，從而提高工作學(xué)習(xí)效率。針對數(shù)據(jù)分析和挖掘成果形成應(yīng)用場景，建立個性化數(shù)據(jù)門戶，通過建立校園大數(shù)據(jù)平臺得到有價值的信息并以可視化方式展現(xiàn)給用戶[5]。

三、系統(tǒng)實現(xiàn)

（一）Hadoop平臺的搭建

Hadoop是運行在Linux，雖然借助工具也可以運行在Windows上，但是建議還是運行在Linux系統(tǒng)上。關(guān)于Hadoop平臺的搭建，有多種模式可以進行安裝架構(gòu)，主要的安裝模式有單機模式，偽分布式和完全分布式三種。本文采取虛擬機安裝Hadoop完全分布式集群模式搭建。

1.配置實驗環(huán)境

搭建形成完全分布式Hadoop集群，在服務(wù)器上做實驗，通過VMwareWorkstation虛擬機架設(shè)四臺服務(wù)器，均安裝CentOS6.4X64bit，一臺做NameNode，Job-Tracker，服務(wù)器名為 master。另外 3臺做DataNode,Task-Tracker，服務(wù)器名分別為 slavel，slave2，slave3。配置靜態(tài) IP地址，修改文件vim/etc/hosts添加集群中所有機器的IP與主機名，使master和所有slave能夠通信，并關(guān)閉防火墻和selinux，完成master和slave之間雙向SSH無密碼登錄[7]。

2.實驗中安裝的軟件版本

使用默認(rèn)的root用戶，將需要的軟件全部安裝在root用戶下，并完成Hadoop文件的配置，將配置好的文件拷貝到其他3臺slave機器上。這樣基本搭建已經(jīng)完成，形成節(jié)點之間的連接。

3.測試Hadoop集群

對于Hadoop集群的測試,在用start-all.sh啟動集群后，可以用jps命令和實例進行驗證集群是否安裝配置成功。另外也可以通過用hadoop-examples-3.30.jar中自帶的wordcount程序進行測試，該程序的作用是統(tǒng)計單詞的個數(shù)。當(dāng)HDFS啟動完畢后，可以訪問http://localhost:50070進入HDFS的可視化管理界面，在此頁面中可以對整個HDFS集群進行監(jiān)控以及文件的上傳和下載。

表1 軟件環(huán)境

（二）數(shù)據(jù)導(dǎo)入HDFS

由于校園大數(shù)據(jù)平臺中很大一部分?jǐn)?shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)，來源于各個階段開發(fā)的各類信息系統(tǒng)，比如 Oracle、MySQL、SQL Server、DB2 等關(guān)系型數(shù)據(jù)庫，下面介紹一下Sqoop工具，用來在Hadoop（Hive）和關(guān)系型數(shù)據(jù)庫之間傳輸數(shù)據(jù)。

1.MySQL數(shù)據(jù)導(dǎo)入到HDFS。

首先，在完成Sqoop的安裝后，需要加載mysql驅(qū)動包到sqoop/lib目錄下，然后可以這樣測試sqoop是否可以連接到mysql：

如果能夠顯示數(shù)據(jù)庫的庫名說明連接mysql數(shù)據(jù)庫ok。使用如下步驟和命令完成mysql數(shù)據(jù)的導(dǎo)入。

（1）列出 MySQL數(shù)據(jù)有哪些數(shù)據(jù)庫：sqoop list-databases

（2）列出MySQL中的某個數(shù)據(jù)庫有哪些數(shù)據(jù)表：sqoop list-tables

（3）創(chuàng)建一個具有相同名字和相同表結(jié)構(gòu)的表：sqoop create-hive-table

（4）sqoop導(dǎo)入：sqoop import——hive-import

2.sqoop導(dǎo)出數(shù)據(jù)到Mysql數(shù)據(jù)庫

同樣的，SQLserver、Oracle及其他使用jdbc連接的關(guān)系型數(shù)據(jù)庫也可以在Hadoop中導(dǎo)入和導(dǎo)出。

四、結(jié)語

Hadoop分布式架構(gòu)平臺在大數(shù)據(jù)的處理和分析上有著巨大的優(yōu)勢，極大程度解決了與日俱增的海量數(shù)據(jù)處理問題，并且在其快速普及的同時，也有極強的發(fā)展前景。本文結(jié)合高校實際，設(shè)計基于Hadoop技術(shù)的大數(shù)據(jù)平臺，研究了Hadoop技術(shù)在教育信息化領(lǐng)域的應(yīng)用，對其功能、架構(gòu)及搭建過程做了介紹，模擬搭建集群環(huán)境，經(jīng)過數(shù)據(jù)交互測試，驗證平臺搭建成功，為后續(xù)工作打下堅實基礎(chǔ)。下一步的工作是在大數(shù)據(jù)平臺下進行有關(guān)算法研究，例如基于校園一卡通數(shù)據(jù)，對學(xué)生在校行為數(shù)據(jù)進行挖掘研究[7]，構(gòu)建學(xué)生行為分析系統(tǒng)，引導(dǎo)學(xué)生健康發(fā)展。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡