国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于MPP-Hadoop混合架構(gòu)高校數(shù)據(jù)集成系統(tǒng)研究

2018-08-21 01:59:56鄧涵元
計算機技術(shù)與發(fā)展 2018年8期
關(guān)鍵詞:數(shù)據(jù)倉庫結(jié)構(gòu)化軌跡

鄧涵元,盧 山,程 光

(1.武漢郵電科學研究院,湖北 武漢 430074;2.南京烽火軟件科技有限公司,江蘇 南京 210019;3.東南大學,江蘇 南京 210019)

0 引 言

高校信息化從20世紀80年代開始,在21世紀引入了數(shù)字化校園的概念。數(shù)字化校園是構(gòu)建一個包括教學、科研、管理、服務于一體的數(shù)字環(huán)境,能夠提升傳統(tǒng)校園的工作效率,實現(xiàn)教學科研的全面信息化,提高教師的教學質(zhì)量,提升學校對于各個機構(gòu)和系統(tǒng)的管理水平[1]。隨著數(shù)字化校園的建設(shè)[2],在高校的各個系統(tǒng)中均積累了大量的數(shù)據(jù)。由于各個異構(gòu)系統(tǒng)的建設(shè)時期不同,采用的標準規(guī)范、技術(shù)路線編程語言等也不同,因而形成了一個個的“數(shù)據(jù)孤島”。這些“數(shù)據(jù)孤島”造成了高校資源分散、存儲冗余、管理成本高、決策支持弱、各職能部門無法進行協(xié)同工作。

于是將各信息系統(tǒng)的數(shù)據(jù)整合、匯聚到數(shù)據(jù)集成系統(tǒng)上就顯得尤為重要,這有利于從不同的角度來分析學生的生活、學習、心理等各方面的成長情況,有利于學校各個職能部門的管理和協(xié)調(diào)。據(jù)調(diào)研,目前,某高校每年均有約2萬名學生入學,積累了大量的數(shù)據(jù);這些數(shù)據(jù)不僅數(shù)量級大,數(shù)據(jù)結(jié)構(gòu)也多樣,既有學生的基本信息、成績信息、校園卡消費記錄等結(jié)構(gòu)化數(shù)據(jù),也有上網(wǎng)記錄等非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。

傳統(tǒng)的數(shù)據(jù)集成大多只是簡單地以集成后能夠查詢使用為目的進行數(shù)據(jù)集成。當前研究者對校園數(shù)據(jù)集成和分析做了多方面的研究。吳振濤[3]提出了基于數(shù)據(jù)倉庫的通用的校園數(shù)據(jù)集成框架,為高校的數(shù)據(jù)倉庫建設(shè)提供了一個整體框架和模型;王晶春[4]對高校數(shù)據(jù)集成廣泛應用的幾類框架進行綜合的比較,提出集線器總體架構(gòu)模式;李蘭友等[5]提出了基于ODI技術(shù)的高校數(shù)據(jù)流轉(zhuǎn)運中心架構(gòu)模式。然而,這些研究都是基于傳統(tǒng)的數(shù)據(jù)集成技術(shù),大多是主機加集中存儲的架構(gòu)。軟件方面則主要選擇Oracle相關(guān)數(shù)據(jù)庫產(chǎn)品來搭建數(shù)據(jù)倉庫。而隨著數(shù)據(jù)的迅猛增長以及數(shù)據(jù)類型復雜程度的增加,傳統(tǒng)的數(shù)據(jù)倉庫產(chǎn)品的不足也逐漸凸現(xiàn)出來:處理數(shù)據(jù)量小,投資成本高,擴展性差,數(shù)據(jù)加載和查詢效率低,針對非結(jié)構(gòu)化數(shù)據(jù)的特征提取、多數(shù)據(jù)融合分析遇到困難。

針對以上問題,結(jié)合Hadoop和MPP技術(shù),文中設(shè)計并實現(xiàn)了一個基于MPP-Hadoop混合框架的高校異構(gòu)數(shù)據(jù)集成系統(tǒng),將數(shù)據(jù)融合、匯總、分析,提高數(shù)據(jù)查詢和加載的效率,提高擴展性,并通過實驗驗證該系統(tǒng)的有效性。

1 相關(guān)技術(shù)

1.1 Hadoop

Hadoop[6]是一個分布式的系統(tǒng)基礎(chǔ)架構(gòu),能夠充分利用集群進行高速運算和存儲。Hadoop有高可靠性[7]、高效性、可擴展性、高容錯性等優(yōu)勢[8]。

1.2 MPP數(shù)據(jù)庫

Hadoop的優(yōu)勢在于能十分高效地處理大量的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。但與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫相比,在處理復雜的多表關(guān)聯(lián)分析、數(shù)據(jù)分析挖掘以及易操作性方面還存在差距。

MPP(massive parallel processing)[9]數(shù)據(jù)庫本質(zhì)上仍然是一個關(guān)系型數(shù)據(jù)庫。它可以將任務并行地分散到多個工作節(jié)點上,磁盤存儲系統(tǒng)和內(nèi)存系統(tǒng)均為每個節(jié)點獨有,不與其他節(jié)點共享,是share-nothing[10]模式,各個節(jié)點之間通過網(wǎng)絡互相連接,彼此協(xié)同計算,將各自的結(jié)果匯總到一起得到最終結(jié)果。與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫相比,MPP數(shù)據(jù)庫在數(shù)據(jù)處理方面,具有采用分布式架構(gòu)[11]、處理數(shù)據(jù)量大、更大的I/O能力、擴展能力好、采用列式存儲[12]、節(jié)約存儲空間等優(yōu)勢。

2 系統(tǒng)設(shè)計與實現(xiàn)

2.1 系統(tǒng)框架設(shè)計

該面向高校的異構(gòu)數(shù)據(jù)集成系統(tǒng)結(jié)合Hadoop和MPP兩種技術(shù)的優(yōu)勢,架構(gòu)設(shè)計如圖1所示,總體上分為數(shù)據(jù)層、應用層和數(shù)據(jù)源層。

(1)數(shù)據(jù)源即包含來自各個異構(gòu)系統(tǒng)的數(shù)據(jù),大致可以分為兩塊,一是來自傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),二是來自海量非結(jié)構(gòu)化或者半結(jié)構(gòu)化的大數(shù)據(jù)(如上網(wǎng)日志數(shù)據(jù))等。

(2)數(shù)據(jù)層包括數(shù)據(jù)存儲平臺和ETL數(shù)據(jù)預處理平臺兩部分ETL數(shù)據(jù)預處理平臺從本地FTP服務器中抽取相關(guān)基礎(chǔ)數(shù)據(jù),抽取方式分為全量抽取和增量抽取兩種。全量抽取將所有的初始數(shù)據(jù)抽取到目標數(shù)據(jù)庫中,增量抽取針對新增數(shù)據(jù),時間間隔為24小時自動抽取。抽取后的數(shù)據(jù)需要進行清洗、轉(zhuǎn)換和加載,去除噪聲數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)格式、生成新的數(shù)據(jù)等。處理后的數(shù)據(jù)一部分進入傳統(tǒng)的數(shù)據(jù)庫中,一部分存儲到Hadoop的HDFS中,再將兩部分的數(shù)據(jù)整合、匯聚到MPP數(shù)據(jù)倉庫中,完成數(shù)據(jù)的基本存儲功能。

(3)在大數(shù)據(jù)背景下,簡單地將異構(gòu)的數(shù)據(jù)源集成起來實現(xiàn)查詢已經(jīng)不能滿足現(xiàn)實要求,應用層的功能除了查詢和展示結(jié)果外,還有分析和挖掘、生成報表等。在高校應用場景下,主體主要是教師、學生以及職工,應用層將以不同的主體,不同的數(shù)據(jù)分析需求實現(xiàn)不同的功能。

(4)元數(shù)據(jù)管理對各個來源的數(shù)據(jù)進行集中管理,構(gòu)建元數(shù)據(jù)模型,能夠更加有效地對數(shù)據(jù)質(zhì)量進行把控,更高效地進行數(shù)據(jù)集成分析和挖掘。

2.2 系統(tǒng)實現(xiàn)

傳統(tǒng)的數(shù)據(jù)倉庫基本上都基于Oracle產(chǎn)品[13],數(shù)據(jù)加載速度、數(shù)據(jù)查詢效率在海量大數(shù)據(jù)情況下變慢甚至無法加載或者查詢。GreenPlum是EMC推出的大規(guī)模并行處理(MPP)的數(shù)據(jù)庫軟件,是一個基于PostgreSQL的開源分布式數(shù)據(jù)引擎,是目前業(yè)界研究和應用比較廣泛的數(shù)據(jù)倉庫引擎之一。它具有高并發(fā)支持、良好的線性擴展能力、高性價比、高可用性等優(yōu)勢。結(jié)合學生行為軌跡數(shù)據(jù)的特點,選用GreenPlum作為數(shù)據(jù)倉庫來搭建面向?qū)W生行為軌跡數(shù)據(jù)分析的數(shù)據(jù)集成系統(tǒng),并與傳統(tǒng)數(shù)據(jù)倉庫Oracle產(chǎn)品搭建的數(shù)據(jù)集成系統(tǒng)進行對比。

在x86平臺上分別搭建Hadoop集群平臺和MPP數(shù)據(jù)庫平臺。Hadoop集群由1臺控制節(jié)點和3臺數(shù)據(jù)處理節(jié)點組成,操作系統(tǒng)采用Linux5.5,Java環(huán)境的JDK版本為jdk-1.7。MPP分布式環(huán)境由一個Master(主節(jié)點)和多個Segment(數(shù)據(jù)節(jié)點)組成,每個節(jié)點配置2個CPU內(nèi)核、8 GB內(nèi)存,節(jié)點之間使用千兆網(wǎng)絡連接。操作系統(tǒng)為Linux5.5,選擇的MPP數(shù)據(jù)庫版本為Greenplum-db-4.1.1.3,將具有高并發(fā)性、高可用性優(yōu)勢的MPP數(shù)據(jù)庫作為數(shù)據(jù)倉庫對海量數(shù)據(jù)進行集中的管理和存儲,結(jié)合Hadoop集群的高速存儲和運算的特點,搭建系統(tǒng)的物理組網(wǎng)架構(gòu),如圖2所示。

圖2 物理組網(wǎng)架構(gòu)

3 學生行為軌跡數(shù)據(jù)應用分析

大學生群體作為一個特定的、龐大的社會群體,其軌跡行為具有很強的規(guī)律性。對于個體而言,掌握其行為軌跡規(guī)律對于掌握其學習、生活的規(guī)律和習慣有一定的幫助,對于出現(xiàn)的異常能夠起到一定的指導作用。而對于群體而言,了解校園熱點地區(qū)分布[14],對學校的后勤工作有一定的指導作用。對學生軌跡的相似度進行分析,對于了解學生的線下社交[15]、好友發(fā)現(xiàn)、排除孤獨癥患者等有一定的意義,為學生心理健康的管理工作提供一定的依據(jù)。據(jù)了解,某高校有在校本科生2萬余名,每名學生每天均產(chǎn)生大量的軌跡數(shù)據(jù),在數(shù)據(jù)加載和查詢方面進行對比評測。

3.1 數(shù)據(jù)源選擇

目前,某高校宿舍、圖書館、體育館均設(shè)有門禁設(shè)備,但是某些區(qū)域如教學樓沒有門禁,而且門禁可能存在代刷、漏刷的現(xiàn)象,所以,單以門禁記錄來研究學生的軌跡不夠準確。通過調(diào)查發(fā)現(xiàn),該高校教學區(qū)、宿舍、食堂、休閑區(qū)域均有wifi部署,隨著校園移動設(shè)備用戶的爆炸式増長,產(chǎn)生了大量的wifi位置記錄數(shù)據(jù)。而且,wifi數(shù)據(jù)對研究學生的校園行為的位置,具有覆蓋范圍廣、定位精度高、成本低等特點。但是,單以wifi數(shù)據(jù)來研究學生的軌跡數(shù)據(jù),則可能存在學生進入某區(qū)域未使用wifi連接網(wǎng)絡造成軌跡數(shù)據(jù)缺失的情況。故結(jié)合校園卡門禁刷卡數(shù)據(jù)和wifi上下線信息,能夠比較真實地反映學生的軌跡信息。

該實驗選取的數(shù)據(jù)來自某高校大一學生2016年一學期即4個月的wifi上下線日志數(shù)據(jù),約1 500萬條,以及學生校園卡刷卡記錄,約600萬條,總量大小為65.4 GB。

3.2 數(shù)據(jù)清洗及預處理

由于獲取的校園學生wifi登錄數(shù)據(jù)信息量大且復雜,包含字段較多,而真正有價值的只有幾個字段,因此首先需要對原始數(shù)據(jù)進行過濾和篩選。為獲取學生行為軌跡數(shù)據(jù),主要有用的字段是學生學號、wifi登錄時間、校園位置Id、刷卡時間、刷卡位置Id。

(1)對獲取到的原始數(shù)據(jù)進行統(tǒng)計分析,系統(tǒng)中存在一定時間內(nèi)反復刷卡或者反復登錄的情況,設(shè)置時間閾值Δt=1 min,過濾掉連續(xù)刷卡以及在某個時間反復連接wifi的數(shù)據(jù)。

(2)根據(jù)用戶名過濾到教職工以及其他賬號信息,只保留學生的數(shù)據(jù)。

(3)門禁刷卡記錄的原始數(shù)據(jù)中記錄了用戶登錄時所在校園位置的ID號;wifi上下線日志數(shù)據(jù)中存儲的位置信息用經(jīng)度(longtitude)和緯度(latitude)字段表示,結(jié)合百度地圖API[16]和文獻[14]提出的基于校園環(huán)境的逆地址解析算法進行校園位置的轉(zhuǎn)換。

經(jīng)過清洗后存儲到數(shù)據(jù)庫中的變量名及變量的含義如表1所示。

表1 變量名及含義

3.3 性能對比評測

3.3.1 數(shù)據(jù)加載

將預處理后的數(shù)據(jù)采用外部表的方式分別加載到原系統(tǒng)和現(xiàn)系統(tǒng)中,加載速度對比如表2所示。

表2 數(shù)據(jù)加載速度對比

3.3.2 數(shù)據(jù)查詢

(1)在硬件配置相同的情況下,該系統(tǒng)采用4個節(jié)點與現(xiàn)有系統(tǒng)進行查詢復雜度對性能影響的比較,在查詢復雜度Q3>Q2>Q1的情況下,查詢效率對比如圖3所示。

圖3 數(shù)據(jù)查詢效率與復雜度的關(guān)系

(2)將同樣的數(shù)據(jù)分別加載到現(xiàn)有系統(tǒng)和文中系統(tǒng)后,測試對比多表連接查詢語句(join)的查詢性能,如表3所示。

表3 查詢效率對比

從實驗結(jié)果來看,與傳統(tǒng)數(shù)據(jù)庫的處理方式相比,文中系統(tǒng)在數(shù)據(jù)加載和查詢效率上有明顯的提升,并且具有良好的擴展性,查詢效率隨著數(shù)據(jù)節(jié)點的增加近乎呈線性增長的趨勢。但是在數(shù)據(jù)量不大的情況下,現(xiàn)有系統(tǒng)查詢處理效率不比文中系統(tǒng)低,在海量數(shù)據(jù)處理的情況下,文中系統(tǒng)能夠體現(xiàn)出強大的處理能力。故搭建的異構(gòu)數(shù)據(jù)集成系統(tǒng)在高校的海量數(shù)據(jù)環(huán)境下在數(shù)據(jù)處理和分析上具有明顯的優(yōu)勢。

3.4 學生行為軌跡數(shù)據(jù)分析

為了分析學生軌跡變化,引入統(tǒng)計學中相似度的概念。相似度使用以度量兩組數(shù)據(jù)變化趨勢相似程度的一個數(shù)值亮度,其取值范圍為[-1,1]。相似度的計算方法基于統(tǒng)計學中相關(guān)系數(shù)的概念。

另外,結(jié)合可視化技術(shù)比較不同學生的行為軌跡數(shù)據(jù),構(gòu)建班級社交網(wǎng)絡,發(fā)現(xiàn)學生的社交關(guān)系,避免大量的問卷以及人工調(diào)查的繁瑣工作,分析出學生的社交情況,便于對社交能力弱的學生提供幫助,結(jié)合心理資源庫中的測評結(jié)果,篩選較為孤僻的學生,能夠為高校中的學生心理健康教育工作提供指導。

4 結(jié)束語

結(jié)合MPP和Hadoop技術(shù),將數(shù)據(jù)從業(yè)務系統(tǒng)中抽離出來,提出一種基于MPP-Hadoop混合架構(gòu)的高校數(shù)據(jù)集成的系統(tǒng)框架,實現(xiàn)業(yè)務系統(tǒng)間的數(shù)據(jù)共享,充分發(fā)揮數(shù)字化校園的整體協(xié)同功能,解決了傳統(tǒng)數(shù)據(jù)庫在海量數(shù)據(jù)情況下數(shù)據(jù)加載慢、數(shù)據(jù)查詢效率低、難以融合多種異構(gòu)數(shù)據(jù)源進行分析等問題。并以學生行為軌跡數(shù)據(jù)的分析為例,驗證了系統(tǒng)的有效性,為學生的管理工作提供支持。

猜你喜歡
數(shù)據(jù)倉庫結(jié)構(gòu)化軌跡
促進知識結(jié)構(gòu)化的主題式復習初探
軌跡
軌跡
結(jié)構(gòu)化面試方法在研究生復試中的應用
計算機教育(2020年5期)2020-07-24 08:53:00
基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
軌跡
進化的軌跡(一)——進化,無盡的適應
中國三峽(2017年2期)2017-06-09 08:15:29
分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計
電子制作(2016年15期)2017-01-15 13:39:15
探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應用
基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實踐
会同县| 甘泉县| 衢州市| 五指山市| 汉中市| 田阳县| 芜湖市| 囊谦县| 天门市| 北京市| 耒阳市| 苏尼特左旗| 永安市| 龙川县| 宣汉县| 肇源县| 江门市| 沐川县| 富顺县| 威信县| 庆阳市| 隆化县| 镇雄县| 湘潭县| 余干县| 新密市| 合肥市| 乌拉特前旗| 当雄县| 纳雍县| 石台县| 秀山| 丰城市| 陆良县| 鱼台县| 赤峰市| 郧西县| 罗定市| 湛江市| 武夷山市| 蓬安县|