耿興隆,王麗(河北軟件職業(yè)技術(shù)學(xué)院,河北保定071000)
?
基于Hadoop的交通流量統(tǒng)計(jì)分析系統(tǒng)的應(yīng)用研究
耿興隆,王麗
(河北軟件職業(yè)技術(shù)學(xué)院,河北保定071000)
摘要:隨著信息技術(shù)和物聯(lián)網(wǎng)技術(shù)在城市交通領(lǐng)域的廣泛應(yīng)用,城市交通流量數(shù)據(jù)已經(jīng)呈現(xiàn)出大數(shù)據(jù)的諸多特征。采用傳統(tǒng)的信息處理技術(shù)對(duì)交通大數(shù)據(jù)進(jìn)行分析時(shí)不可避免地遇到了性能瓶頸?;贖adoop的交通流量統(tǒng)計(jì)分析系統(tǒng)可以很好地統(tǒng)計(jì)和分析這些數(shù)據(jù)。通過基于Hadoop的平臺(tái)對(duì)交通流量信息的處理方法展開研究,設(shè)計(jì)了交通流量統(tǒng)計(jì)分析系統(tǒng),并給出相應(yīng)研究數(shù)據(jù),最后對(duì)系統(tǒng)進(jìn)行仿真并驗(yàn)證系統(tǒng)的可行性與有效性。
關(guān)鍵詞:智能交通;大數(shù)據(jù);Hadoop;MapReduce
云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,引領(lǐng)著智能交通相關(guān)應(yīng)用技術(shù)的快速發(fā)展,信息技術(shù)越來越廣泛并深入地應(yīng)用于智能交通中。在人們生活條件不斷提高的前提下,汽車走進(jìn)了千家萬戶,城市交通擁堵,引起了國(guó)家和社會(huì)的廣泛關(guān)注,智能交通就顯得尤為迫切,而智能交通越來越依賴于信息處理技術(shù)。
Hadoop是針對(duì)互聯(lián)網(wǎng)應(yīng)用而提出的一種被廣泛認(rèn)可的、面向大數(shù)據(jù)計(jì)算的、開源的大數(shù)據(jù)計(jì)算系統(tǒng)開發(fā)框架,其以HDFS和MapReduce編程模型為核心,在大數(shù)據(jù)計(jì)算方面表現(xiàn)出優(yōu)越的運(yùn)算效率。隨著在網(wǎng)絡(luò)搜索、數(shù)據(jù)挖掘和用戶行為分析等眾多的互聯(lián)網(wǎng)領(lǐng)域的大量成功應(yīng)用,基于Hadoop的行業(yè)應(yīng)用研究已經(jīng)成為計(jì)算機(jī)領(lǐng)域的研究熱點(diǎn)。Hadoop是一個(gè)分布式體系結(jié)構(gòu),它是由Apache基金會(huì)負(fù)責(zé)研究和開發(fā)的,用戶不需要透徹地了解位于該體系非常底層的實(shí)現(xiàn)過程,就能夠用常用的編程語(yǔ)言編寫出相應(yīng)的應(yīng)用程序。運(yùn)用集群來進(jìn)行快速運(yùn)算和儲(chǔ)存。Hadoop的一個(gè)重要組成部分是分布式文件系統(tǒng)(System File Distribute Hadoop),簡(jiǎn)稱為HDFS。HDFS的一個(gè)優(yōu)點(diǎn)是它的高容錯(cuò)性,對(duì)硬件的要求非常低,并且它具備對(duì)應(yīng)用程序數(shù)據(jù)的高數(shù)據(jù)速率,適用于超大數(shù)據(jù)集的應(yīng)用。HDFS對(duì)POSIX的要求比較寬,在文件系統(tǒng)中對(duì)數(shù)據(jù)的讀取操作是通過流的方式進(jìn)行的。
在城市中,每天都產(chǎn)生大量的交通信息,Hadoop HDFS的出現(xiàn)可以很好地利用這些信息數(shù)據(jù),對(duì)城市交通進(jìn)行合理的引導(dǎo),從而緩解城市交通擁堵的壓力,為人們的日常生活和工作提供便利。
本課題組首先對(duì)Hadoop中的HDFS和MapReduce編程模型進(jìn)行了深入研究,并對(duì)目前常見的幾種大數(shù)據(jù)計(jì)算平臺(tái)進(jìn)行了分析比較;然后,在實(shí)際布署的Hadoop集群環(huán)境中,設(shè)計(jì)并實(shí)現(xiàn)了一種分布式引導(dǎo)交通流分配方法,該方法在已知城市路網(wǎng)數(shù)據(jù)集的條件下可以兼顧交通引導(dǎo)和優(yōu)化交通流分配,同時(shí)也提出了一種獲取城市路網(wǎng)數(shù)據(jù)集的搜索算法。圍繞上述方法設(shè)計(jì)并實(shí)現(xiàn)了一種基于Hadoop的交通信息服務(wù)系統(tǒng),能夠根據(jù)實(shí)際出行需求,兼顧優(yōu)化城市路網(wǎng)交通流分配的目標(biāo),向用戶提供分布式交通引導(dǎo)服務(wù)。通過構(gòu)建中間層實(shí)現(xiàn)了根據(jù)接入的用戶請(qǐng)求,自動(dòng)觸發(fā)Hadoop計(jì)算任務(wù)的功能,解決了Hadoop原有的離線式批處理工作方式不適合實(shí)時(shí)在線信息服務(wù)的問題。
以深入理解Hadoop系統(tǒng)結(jié)構(gòu)為前提,在實(shí)驗(yàn)環(huán)境下對(duì)三個(gè)節(jié)點(diǎn)的Hadoop集群進(jìn)行了完全分布式部署,并分析了怎樣在該集群上進(jìn)行相應(yīng)的MapReduce程序編寫。
通過統(tǒng)計(jì)數(shù)據(jù)分析了交通信息服務(wù)系統(tǒng)的需求,對(duì)交通信息服務(wù)系統(tǒng)做了基于Hadoop的MapReduce模式的設(shè)計(jì)和實(shí)現(xiàn),并對(duì)交通信息服務(wù)系統(tǒng)進(jìn)行了測(cè)試。
通過采集系統(tǒng)獲得了交通流量方面的海量數(shù)據(jù),需要搭建計(jì)算能力超強(qiáng)的數(shù)據(jù)運(yùn)算平臺(tái)(數(shù)據(jù)的冗余度高),研發(fā)該系統(tǒng)的主要目標(biāo)為:(1)代替?zhèn)鹘y(tǒng)數(shù)據(jù)并行處理方法,以減小編程工作量;(2)充分利用資源,提高應(yīng)用效率;(3)高效管理數(shù)據(jù),及時(shí)反饋處理結(jié)果;(4)擴(kuò)展系統(tǒng)靈活性,增強(qiáng)系統(tǒng)可用性。
系統(tǒng)設(shè)計(jì)的原則有兩個(gè)。第一,經(jīng)濟(jì)原則。在搭建基礎(chǔ)設(shè)施時(shí)充分利用了當(dāng)前資源。第二,高效原則。系統(tǒng)以大數(shù)據(jù)作為技術(shù)依托,根據(jù)平臺(tái)的典型特征,可以很好地分配現(xiàn)有的資源,極大地提高了資源利用率,并且對(duì)系統(tǒng)構(gòu)架進(jìn)行合理的調(diào)整,最終實(shí)現(xiàn)了大規(guī)模數(shù)據(jù)的高效處理。
4.1系統(tǒng)模型體系結(jié)構(gòu)設(shè)計(jì)
基于Hadoop的交通信息服務(wù)系統(tǒng)模型如圖1所示,系統(tǒng)包括三層,分別為服務(wù)器、中間件以及底層。
圖1 系統(tǒng)結(jié)構(gòu)圖
4.2功能子模塊設(shè)計(jì)
系統(tǒng)功能如圖2所示。整個(gè)系統(tǒng)管理層包括六大功能模塊:
(1)客戶端通信模塊:負(fù)責(zé)發(fā)送請(qǐng)求和接收結(jié)果。
(2)結(jié)果顯示模塊:負(fù)責(zé)將服務(wù)器發(fā)送的結(jié)果,通過Google Maps繪制并顯示在客戶端。
(3)數(shù)據(jù)預(yù)處理模塊:負(fù)責(zé)將交通道路網(wǎng)中的所有連通的路徑進(jìn)行處理,得到任意兩個(gè)節(jié)點(diǎn)間的最短路徑集合。
(4)服務(wù)器通信模塊:負(fù)責(zé)監(jiān)聽客戶端的請(qǐng)求,并把請(qǐng)求傳遞給中間層去處理,并在處理結(jié)束后把結(jié)果發(fā)送給客戶端。
(5)中間層模塊:負(fù)責(zé)銜接通信模塊和底層基礎(chǔ)設(shè)施模塊,負(fù)責(zé)用程序?qū)崿F(xiàn)Linux命令行操作等。
(6)底層基礎(chǔ)設(shè)施層:即Hadoop集群,主要負(fù)責(zé)后臺(tái)運(yùn)算。
圖2 系統(tǒng)功能模塊圖
4.3 MapReduce實(shí)現(xiàn)統(tǒng)計(jì)分析算法
根據(jù)交通道路網(wǎng)的所有路徑集合得出最短路徑集合關(guān)鍵代碼如下。
Reduce過程實(shí)現(xiàn)的是key值相同的value進(jìn)行權(quán)值計(jì)算,最小值為最短路徑,并把所有的最短路徑輸出,輸出的格式是鍵值對(duì)
根據(jù)交通道路網(wǎng)的路徑請(qǐng)求統(tǒng)計(jì)各個(gè)OD對(duì)出現(xiàn)的次數(shù)程序。
Reduce過程實(shí)現(xiàn)的是將所有key相同的數(shù)據(jù)都進(jìn)行相加,得到一個(gè)新的數(shù)據(jù),輸出的格式是
根據(jù)最短路徑集合和各個(gè)OD對(duì)出現(xiàn)的次數(shù),給出推薦路徑程序。
Map過程實(shí)現(xiàn)的是對(duì)讀取的每一行字符串進(jìn)行分割,把前三個(gè)字符作為key,把后面的字符作為value。
Reduce過程實(shí)現(xiàn)的是對(duì)key值相同的value進(jìn)行處理,根據(jù)字符串中是否包含”=”來判斷是請(qǐng)求次數(shù)還是最短路徑。輸出的結(jié)果即為對(duì)于各個(gè)路徑請(qǐng)求給出推薦路徑。
在對(duì)Hadoop體系結(jié)構(gòu)和城市交通路徑導(dǎo)航有了較為深刻的理解的基礎(chǔ)上,在實(shí)驗(yàn)室內(nèi)利用普通臺(tái)式機(jī)構(gòu)建了Hadoop集群,并在集群上進(jìn)行城市交通信息服務(wù)系統(tǒng)的開發(fā)和測(cè)試。
當(dāng)然,Hadoop并不是萬能的解決方案,Hadoop適合于海量數(shù)據(jù)的計(jì)算處理等應(yīng)用場(chǎng)合,而且Hadoop目前的版本還不夠完善,有的功能特性還沒有實(shí)現(xiàn),如果Hadoop能支持更多的數(shù)據(jù)類型,并且能使數(shù)據(jù)關(guān)聯(lián)更加容易,則會(huì)使Hadoop適應(yīng)更多的領(lǐng)域。
參考文獻(xiàn):
[1]劉鵬.云計(jì)算[M].北京:電子工業(yè)出版社,2010.
[2]王鵬.云計(jì)算的關(guān)鍵技術(shù)與應(yīng)用實(shí)例[M].北京:人民郵電出版社,2010.
[3]Tom White.Hadoop:The Definitive Guide[M].O’Reilly-Media,Inc.,2012.
[4]MapReduceTutorial[EB/OL].(2015-10-15)[2011-08-19].http://hadoop.apache.org/common/docs/current /mapred_tutorial.html.
The Application of Traffic Statistical Analysis System Based on Hadoop
GENG Xing-long,WANG Li
(Hebei Software Institute,Hebei Baoding 071000,China)
Abstract:With the wide application of information technology and Internet of things technology in urban transportation,urban traffic flow data have been presented with many features of large data.The bottleneck of the traffic data is analyzed with the traditional information processing technology.Hadoop based traffic flow statistics analysis system can be very good for the statistics and analysis of these data.Based on the Hadoop platform,this paper studies the processing method of traffic flow information,designs the corresponding traffic flow statistic analysis system,gives the corresponding research data,and finally,simulates and validates the system.
Key words:intelligent transportation;big Data;Hadoop;MapReduce
作者簡(jiǎn)介:耿興?。?982-),男,河北衡水人,講師,碩士,主要研究方向?yàn)檐浖夹g(shù)開發(fā)與應(yīng)用;王麗(1982-),女,河北衡水人,講師,主要研究方向?yàn)闀?huì)計(jì)、統(tǒng)計(jì)分析等。
基金項(xiàng)目:2014年河北省統(tǒng)計(jì)科研計(jì)劃項(xiàng)目“基于Hadoop的城市交通流量統(tǒng)計(jì)分析平臺(tái)的設(shè)計(jì)與研究”(2014HY19)
收稿日期:2015-10-16
文章編號(hào):1673-2022(2016)01-0044-04
中圖分類號(hào):TP311.03
文獻(xiàn)標(biāo)志碼:A
河北軟件職業(yè)技術(shù)學(xué)院學(xué)報(bào)2016年1期