国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于交通行業(yè)的大數(shù)據(jù)處理平臺(tái)應(yīng)用

2016-10-17 02:42:55曹星艷
關(guān)鍵詞:弧段數(shù)據(jù)處理站點(diǎn)

曹星艷

(北京全路通信信號(hào)研究設(shè)計(jì)院集團(tuán)有限公司,北京 100070)

?

基于交通行業(yè)的大數(shù)據(jù)處理平臺(tái)應(yīng)用

曹星艷

(北京全路通信信號(hào)研究設(shè)計(jì)院集團(tuán)有限公司,北京 100070)

對(duì)交通大數(shù)據(jù)平臺(tái)架構(gòu)進(jìn)行研究搭建,可支撐PB級(jí)的異構(gòu)數(shù)據(jù)管理及復(fù)雜交通業(yè)務(wù)處理,平臺(tái)提供開發(fā)API,實(shí)現(xiàn)對(duì)數(shù)據(jù)的存儲(chǔ)、查詢、計(jì)算分析;提供類SQL查詢功能,能夠?qū)A繑?shù)據(jù)進(jìn)行方便的查詢;通過虛擬化資源管理和Hadoop分布式并行計(jì)算,實(shí)現(xiàn)基于Hadoop進(jìn)行原型搭建的交通大數(shù)據(jù)處理平臺(tái)。

交通;大數(shù)據(jù)平臺(tái);系統(tǒng)構(gòu)架;技術(shù)實(shí)現(xiàn)

1 大數(shù)據(jù)處理平臺(tái)系統(tǒng)架構(gòu)

交通大數(shù)據(jù)處理平臺(tái)將基于Hadoop進(jìn)行基礎(chǔ)建模,虛擬化技術(shù)和Hadoop分布式并行計(jì)算是該平臺(tái)構(gòu)建的兩大核心。

虛擬化資源管理平臺(tái)是基于XEN虛擬化技術(shù)開發(fā)的一個(gè)平臺(tái),該平臺(tái)主要包括系統(tǒng)管理、資源管理、安全機(jī)制、智能調(diào)度、日志查看等幾個(gè)核心模塊。系統(tǒng)管理包括虛擬機(jī)模板管理性能監(jiān)控和遠(yuǎn)程接入管理。虛擬機(jī)模板管理主要用于快速定制和安裝業(yè)務(wù)系統(tǒng),即通過現(xiàn)有物理機(jī)或虛擬機(jī)中存在的生產(chǎn)環(huán)境或試驗(yàn)環(huán)境進(jìn)行智能化的模板備份;資源管理包括虛擬機(jī)生命周期管理、物理機(jī)生命周期管理和云存儲(chǔ)管理等基礎(chǔ)模塊;安全管理包括用戶角色管理、統(tǒng)一授權(quán)管理和安全審計(jì)管理;智能調(diào)度則包含資源均衡遷移、省電模式遷移和彈性擴(kuò)充3個(gè)模塊。

Hadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會(huì)開發(fā),用戶可以在不了解分布式底層細(xì)節(jié)的情況下開發(fā)分布式程序,充分利用集群的威力高速運(yùn)算和存儲(chǔ)Hadoop,包括多個(gè)子項(xiàng)目,但主要由分布式存儲(chǔ)HDFS、分布式計(jì)算MapReduce兩個(gè)基礎(chǔ)部分組成。其典型基本部署架構(gòu)如圖1所示。

交通行業(yè)數(shù)據(jù)的功能主要是完成數(shù)據(jù)多元化存儲(chǔ)、可視化管理和運(yùn)行監(jiān)測(cè)、對(duì)海量數(shù)據(jù)的處理、快速實(shí)現(xiàn)數(shù)據(jù)接入和共享交換的需求以及數(shù)據(jù)安全。

2 大數(shù)據(jù)處理平臺(tái)系統(tǒng)功能

2.1數(shù)據(jù)存儲(chǔ)

分布式存儲(chǔ)是目前大數(shù)據(jù)存儲(chǔ)的主流方式,多采用普通硬件設(shè)備作為基礎(chǔ),主要解決數(shù)據(jù)的可擴(kuò)展性、數(shù)據(jù)的一致性、全局命名空間、緩存等技術(shù)問題。分為C/S架構(gòu)和P2P架構(gòu)。海量數(shù)據(jù)分布式存儲(chǔ)可存儲(chǔ)多源異構(gòu)的交通數(shù)據(jù)(包括結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)),支持PB級(jí)數(shù)據(jù)規(guī)模,通過簡(jiǎn)單增加硬件的條件實(shí)現(xiàn)存儲(chǔ)容量的擴(kuò)展,能方便的刪除、遷移歷史數(shù)據(jù),針對(duì)大量小文件例如海量圖片提供優(yōu)化的存儲(chǔ),能夠?qū)崿F(xiàn)數(shù)據(jù)按照某分類標(biāo)準(zhǔn)進(jìn)行方便的分類存儲(chǔ),能夠?qū)崿F(xiàn)數(shù)據(jù)的快速查詢讀取,單個(gè)小文件定位應(yīng)在ms級(jí)別,讀取在s級(jí)。

2.1.1Hadoop 框架

Hadoop是由HDFS、Mapreduce、Hbase、Hive和Zookeeper等組成。其中,核心組成部分是HDFS和Mapreduce。一個(gè)是分布式文件系統(tǒng),一個(gè)是分布式處理模式和執(zhí)行環(huán)境。其余的是數(shù)據(jù)庫以及數(shù)據(jù)倉庫等。

2.1.2HDFS分布式文件系統(tǒng)

HDFS( Hadoop Distributed File System),是一個(gè)高度容錯(cuò)的分布式系統(tǒng),適合大文件的存儲(chǔ),交通行業(yè)有很多歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù),這個(gè)分布系統(tǒng)可以滿足PB級(jí)的大文件。系統(tǒng)架構(gòu)采用Master/Slave,其中NameNode對(duì)內(nèi)可以維護(hù)元數(shù)據(jù),對(duì)外可實(shí)現(xiàn)創(chuàng)建、打開、刪除和重命名功能,DateNote可存儲(chǔ)數(shù)據(jù)并負(fù)責(zé)數(shù)據(jù)的讀寫和處理請(qǐng)求。

2.1.3MapReduce

MapReduce是一種軟件架構(gòu)及框架計(jì)算,Map主要完成對(duì)數(shù)據(jù)的打散,Reduce完成對(duì)數(shù)據(jù)的聚集。對(duì)交通行業(yè)的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和應(yīng)用分析,用戶只需要實(shí)現(xiàn)Map和Reduce兩個(gè)接口,即可實(shí)現(xiàn)TB級(jí)數(shù)據(jù)的計(jì)算。這種架構(gòu)會(huì)把輸入的數(shù)據(jù)集切分成若干獨(dú)立的數(shù)據(jù)塊,用并行的方式完成處理,對(duì)輸出的先后進(jìn)行排序,并完成結(jié)果的輸入。

2.1.4去重

DEDUPE技術(shù)大量用于數(shù)據(jù)備份系統(tǒng)中,有離線和在線兩種。離線在數(shù)據(jù)的上傳過程中,直接寫到存儲(chǔ)設(shè)備中,當(dāng)用戶數(shù)據(jù)上傳結(jié)束后,再進(jìn)行去重處理,這樣對(duì)存儲(chǔ)容量需求沒有進(jìn)行改進(jìn)。在線用戶數(shù)據(jù)上傳到備份系統(tǒng)時(shí),數(shù)據(jù)去重就會(huì)發(fā)生,用戶的系統(tǒng)會(huì)被分成不同部分,每個(gè)部分被視為一個(gè)塊,每個(gè)塊都會(huì)保留成一個(gè)相應(yīng)的指紋,然后通過指紋去查找相應(yīng)塊的存在可能性。

2.1.5分層存儲(chǔ)

分層存儲(chǔ)能更好發(fā)揮新的存儲(chǔ)介質(zhì)在讀、寫性能上的優(yōu)勢(shì)。分層存儲(chǔ)是集成硬盤和SSD于一體,利用分析訪問數(shù)據(jù)的頻度和智能監(jiān)控,將不同頻度的數(shù)據(jù)靈活實(shí)時(shí)的在不同層級(jí)存儲(chǔ)介質(zhì)中,進(jìn)行自動(dòng)或手動(dòng)數(shù)據(jù)遷移。使用頻度高的交通數(shù)據(jù)被遷移到讀、寫性能優(yōu)良的SSD卡上,頻度低的數(shù)據(jù)放在價(jià)格低廉的硬盤矩陣上。

2.2數(shù)據(jù)交換

實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)和關(guān)系數(shù)據(jù)庫之間的數(shù)據(jù)交換、多種數(shù)據(jù)來源導(dǎo)入到大數(shù)據(jù)平臺(tái)中,包含且不限于以下種類:本地文件到大數(shù)據(jù)平臺(tái)、FTP文件到大數(shù)據(jù)平臺(tái)、Oracle數(shù)據(jù)庫到大數(shù)據(jù)平臺(tái)。針對(duì)不同導(dǎo)入需求通過配置或者少量開發(fā)可以靈活實(shí)現(xiàn),具有定時(shí)任務(wù)的功能,能夠滿足各種定時(shí)導(dǎo)入數(shù)據(jù)的要求,導(dǎo)入過程保證了數(shù)據(jù)的一致性、完整性,對(duì)導(dǎo)入失敗的數(shù)據(jù)能夠進(jìn)行方便的重處理。數(shù)據(jù)交換技術(shù)如圖2所示。

2.2.1數(shù)據(jù)交換流程

數(shù)據(jù)交換服務(wù)是本平臺(tái)的核心業(yè)務(wù),系統(tǒng)管理模塊的一切功能都是為數(shù)據(jù)交換服務(wù)的,數(shù)據(jù)交換服務(wù)長(zhǎng)期駐留內(nèi)存并運(yùn)行,實(shí)時(shí)完成網(wǎng)絡(luò)內(nèi)各用戶、各系統(tǒng)之間的信息交換與共享。

數(shù)據(jù)交換指共享方與訂閱方之間的信息互通和數(shù)據(jù)交換。一個(gè)訂閱方可以訂閱多個(gè)共享方的共享數(shù)據(jù),同理一個(gè)共享方也會(huì)受理多個(gè)訂閱方的訂閱請(qǐng)求。實(shí)際上產(chǎn)生數(shù)據(jù)交換的過程就是共享方向訂閱方發(fā)送數(shù)據(jù)的過程。

數(shù)據(jù)交換流程如圖3所示,當(dāng)訂閱方訂閱了信息后,共享方輪詢讀取數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行封裝,然后發(fā)送給訂閱方,訂閱方接到數(shù)據(jù)后,首先對(duì)數(shù)據(jù)進(jìn)行驗(yàn)證、解析、整編,最后將合法數(shù)據(jù)保存(如果驗(yàn)證數(shù)據(jù)不合法,則丟棄并發(fā)送錯(cuò)誤信息給共享方,要求重新發(fā)送),并封裝確認(rèn)信息返回給共享方。共享方在接到回復(fù)后,記錄訂閱概要信息(或重新讀取數(shù)據(jù)進(jìn)行發(fā)送),完成數(shù)據(jù)交換過程。

2.2.2數(shù)據(jù)交換內(nèi)容

消息管理。本平臺(tái)提供消息管理機(jī)制,統(tǒng)一管理經(jīng)過平臺(tái)的一切消息。平臺(tái)采用特征驗(yàn)證碼的方式為每條消息加注特征碼,同時(shí)總結(jié)各用戶端傳送消息的特性,分析消息的歸屬類別,根據(jù)消息的特點(diǎn)對(duì)消息進(jìn)行分類(如發(fā)送、請(qǐng)求、回復(fù)、接收、報(bào)錯(cuò)等)、整理、預(yù)排序,準(zhǔn)備使用各自的通道進(jìn)行傳輸,避免消息混亂的狀態(tài)發(fā)生。消息的歸類規(guī)則及特征碼信息可以在目錄服務(wù)中進(jìn)行維護(hù)。

隊(duì)列管理。當(dāng)通過本平臺(tái)的請(qǐng)求較多時(shí),如果不對(duì)各類消息加以控制會(huì)產(chǎn)生資源爭(zhēng)用或并發(fā)沖突的現(xiàn)象,并且可能會(huì)出現(xiàn)優(yōu)先級(jí)較高的請(qǐng)求反而等待時(shí)間過長(zhǎng)現(xiàn)象。因此本平臺(tái)采用有效的隊(duì)列管理手段,根據(jù)消息本身的特性優(yōu)先級(jí)等信息調(diào)動(dòng)、排列各進(jìn)程,使所有請(qǐng)求有序高效的得以執(zhí)行,從而最大程度的優(yōu)化系統(tǒng)。

發(fā)送管理。本交換平臺(tái)在處理各類數(shù)據(jù)交換與共享請(qǐng)求時(shí),會(huì)產(chǎn)生各種信息及數(shù)據(jù)的發(fā)送操作,平臺(tái)依據(jù)發(fā)送數(shù)據(jù)包的特征標(biāo)識(shí)找到接收方,并首先探測(cè)網(wǎng)絡(luò)狀況,許可時(shí)即進(jìn)行發(fā)送操作,并自動(dòng)記錄發(fā)送日志(根據(jù)日志記錄設(shè)置情況而定)。

接收管理。與發(fā)送管理相對(duì)應(yīng),本平臺(tái)在接收各用戶傳送過來的信息時(shí),首先驗(yàn)證數(shù)據(jù)包的有效性,有效則接收下來進(jìn)入下一步處理;否則,丟棄此包同時(shí)發(fā)送錯(cuò)誤信息給發(fā)送方,并記錄相關(guān)日志(根據(jù)日志定制部分的設(shè)置而定)。

封裝解析。封裝是指數(shù)據(jù)在發(fā)送之前進(jìn)行的加密、壓縮、封裝過程。平臺(tái)對(duì)準(zhǔn)備發(fā)送的數(shù)據(jù)按一定規(guī)則加密壓縮后,進(jìn)行封裝,并且一個(gè)數(shù)據(jù)包的大小是固定的(參見其他參數(shù)設(shè)置部分)。當(dāng)欲傳送數(shù)據(jù)大于規(guī)定包的大小時(shí),系統(tǒng)自動(dòng)將數(shù)據(jù)分成多個(gè)包進(jìn)行傳送,并記錄各個(gè)包之間的先后關(guān)系,同時(shí)在包中加入明顯的可供驗(yàn)證的標(biāo)記。

解析即是接收方在接收到對(duì)方傳來的數(shù)據(jù)包后,對(duì)數(shù)據(jù)包進(jìn)行規(guī)則解密,驗(yàn)證數(shù)據(jù)的有效性,通過后即可整編保存數(shù)據(jù)。

2.2.3數(shù)據(jù)整編

數(shù)據(jù)接收并經(jīng)解析后,要根據(jù)數(shù)據(jù)特性標(biāo)識(shí)進(jìn)行整編、再分析、歸類、關(guān)聯(lián)計(jì)算及相關(guān)轉(zhuǎn)換處理,然后準(zhǔn)備保存。數(shù)據(jù)整編主要指對(duì)經(jīng)過解析檢驗(yàn)的數(shù)據(jù)進(jìn)行歸類、按數(shù)據(jù)類型對(duì)應(yīng)關(guān)系進(jìn)行轉(zhuǎn)換處理的過程。

2.2.4數(shù)據(jù)保存

整編無誤的數(shù)據(jù)即可以保存到目的數(shù)據(jù)庫的相關(guān)表內(nèi),完成數(shù)據(jù)交換的整個(gè)流程,并記錄相關(guān)日志(依據(jù)日志設(shè)置而定)。數(shù)據(jù)保存處理流程如圖4所示。

2.3 數(shù)據(jù)查詢

基于海量數(shù)據(jù)存儲(chǔ)模型,進(jìn)行二級(jí)索引優(yōu)化查詢速度,提供類SQL、API兩種查詢方式,API應(yīng)具有更高的效率、類SQL應(yīng)具有更強(qiáng)的易用性,對(duì)類SQL查詢支持對(duì)分布式存儲(chǔ)的文件,按照索引鍵值進(jìn)行查詢。

2.4數(shù)據(jù)計(jì)算

數(shù)據(jù)計(jì)算完成平臺(tái)提供的各種并行處理能力,實(shí)現(xiàn)對(duì)海量交通數(shù)據(jù)、多種計(jì)算模型的分析統(tǒng)計(jì)。2.4.1 MapReduce模式

MapReduce的計(jì)算模式主要有兩個(gè)階段,Map階段和Reduce階段,并定義了相應(yīng)的函數(shù)來處理大數(shù)據(jù)集,這個(gè)計(jì)算過程就是將大數(shù)據(jù)集分解成若干個(gè)小數(shù)據(jù)集,每個(gè)數(shù)據(jù)集分別由集群中的一個(gè)節(jié)點(diǎn)進(jìn)行處理并生成中間結(jié)果,中間結(jié)果又有大量的結(jié)點(diǎn)進(jìn)行合并,形成最終結(jié)果。并行編寫定制數(shù)據(jù)處理功能中的很多問題,如分布式存儲(chǔ)、工作調(diào)度、負(fù)載平衡、網(wǎng)絡(luò)通信等都由MapReduce負(fù)責(zé)處理,非常智能和靈活。

多個(gè)Reduce任務(wù)的MapReduc數(shù)據(jù)流程如圖5所示。

計(jì)算模型的核心是Map和Reduce兩個(gè)函數(shù),由程序員負(fù)責(zé)實(shí)現(xiàn),按照一定的影射規(guī)則,將輸入的<key,value>對(duì)轉(zhuǎn)換成另一個(gè)<key,value>對(duì)輸出。

2.4.2MapReduce的總體執(zhí)行流程分析

MapReduce的系統(tǒng)執(zhí)行流程,依次為分割文件、指派任務(wù)、用戶調(diào)用MapReduce的執(zhí)、讀取、本地寫入、遠(yuǎn)程讀寫、寫到輸出文件、返回,如圖6所示。

3 交通大數(shù)據(jù)處理平臺(tái)

數(shù)據(jù)預(yù)處理是通過交通大數(shù)據(jù)處理平臺(tái)從大量的數(shù)據(jù)中提取出對(duì)目標(biāo)有重要影響的數(shù)據(jù)以免產(chǎn)生原始數(shù)據(jù)的冗余,或是處理一些無效數(shù)據(jù),從而改善數(shù)據(jù)質(zhì)量和提高數(shù)據(jù)分析的速度,數(shù)據(jù)預(yù)處理的內(nèi)容包括數(shù)據(jù)篩選、數(shù)據(jù)變換和數(shù)據(jù)歸約等,且數(shù)據(jù)預(yù)處理的結(jié)果是由數(shù)據(jù)分析目的決定的。

數(shù)據(jù)集成主要是通過交通大數(shù)據(jù)處理平臺(tái)將多文件或多數(shù)據(jù)庫運(yùn)行環(huán)境中的異構(gòu)數(shù)據(jù)進(jìn)行合并處理。該環(huán)節(jié)主要包括數(shù)據(jù)的選擇、數(shù)據(jù)的沖突問題以及數(shù)據(jù)不一致的處理。由于數(shù)據(jù)可能來自多個(gè)系統(tǒng),所以存在異構(gòu)數(shù)據(jù)的轉(zhuǎn)換問題;另外,多個(gè)數(shù)據(jù)源的數(shù)據(jù)之間,還存在許多的不一致,如命名、結(jié)構(gòu)、單位、含義等。因此,數(shù)據(jù)集成并非是簡(jiǎn)單的數(shù)據(jù)合并,而是把數(shù)據(jù)進(jìn)行統(tǒng)一化和規(guī)范化處理的復(fù)雜過程。它需要統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,如字段的同名異義、異名同義、單位不統(tǒng)一、字長(zhǎng)不一致等,從而把原始數(shù)據(jù)在最低層次上加以轉(zhuǎn)換、提煉和聚集,形成最初始的挖掘數(shù)據(jù)。

3.1交通行業(yè)數(shù)據(jù)處理的主要功能

對(duì)交通大數(shù)據(jù)處理平臺(tái)進(jìn)行架構(gòu),可支撐PB級(jí)的異構(gòu)數(shù)據(jù)管理及復(fù)雜交通業(yè)務(wù)處理,平臺(tái)提供開發(fā)API,實(shí)現(xiàn)對(duì)數(shù)據(jù)的存儲(chǔ)、查詢、計(jì)算分析;提供類SQL查詢功能,能夠?qū)A繑?shù)據(jù)進(jìn)行方便的查詢;通過靈活配置等能夠?qū)崿F(xiàn)不同查詢需求最優(yōu)的查詢速度,精確查詢可達(dá)到ms、s級(jí)別。模糊查詢、多條件查詢根據(jù)數(shù)據(jù)量大小、集群規(guī)模等不同,可以達(dá)到s級(jí)、min級(jí)響應(yīng),大規(guī)模數(shù)據(jù)分析、復(fù)雜模型算法等可以允許更長(zhǎng)的響應(yīng)時(shí)間。

提供對(duì)集群最基本的狀態(tài)監(jiān)控功能,能夠滿足日常維護(hù)需求。監(jiān)控內(nèi)容應(yīng)至少包含:整體狀態(tài)、總體數(shù)據(jù)量、存儲(chǔ)空間使用情況、數(shù)據(jù)分布情況、動(dòng)態(tài)的資源使用情況。

為保證系統(tǒng)的高可靠性,對(duì)平臺(tái)中的關(guān)鍵節(jié)點(diǎn)提供HA方案,故障切換時(shí)間要控制在min級(jí)別,10 min以內(nèi)。自動(dòng)監(jiān)控故障發(fā)生,切換過程要自動(dòng)完成,不需要人工干預(yù)。

交通行業(yè)數(shù)據(jù)的處理可以解決跨越行政區(qū)域的限制、智能的配置交通資源、提高交通運(yùn)行速率、提高交通預(yù)測(cè)水平、提高環(huán)境監(jiān)測(cè)水平等。

3.2公交線網(wǎng)基礎(chǔ)數(shù)據(jù)準(zhǔn)備

公交站點(diǎn)聚合與線路匹配。把相同站名的站點(diǎn)位置坐標(biāo)統(tǒng)一,每個(gè)獨(dú)立站點(diǎn)單方向有且僅有唯一的坐標(biāo)位置;基于A*搜索算法,檢索公交行駛路徑;對(duì)每條公交運(yùn)行線路進(jìn)行校核,以線路實(shí)際運(yùn)行的路徑為參照,確保線路運(yùn)行軌跡正確,運(yùn)行弧段號(hào)正確并且連貫,保證線路的完整性;并根據(jù)線路的站點(diǎn)位置與線路運(yùn)行信息,計(jì)算線路相鄰站點(diǎn)間的距離。

3.3公交定位數(shù)據(jù)預(yù)處理

1)按照車輛編號(hào)、時(shí)間順序提取定位數(shù)據(jù)文件。

2)車輛定位數(shù)據(jù)轉(zhuǎn)換與坐標(biāo)偏移。將原始定位數(shù)據(jù)的時(shí)間格式由格林威治時(shí)間轉(zhuǎn)換為北京時(shí)間、經(jīng)緯度轉(zhuǎn)換為WGS-84,再將經(jīng)緯度由WGS-84偏移匹配為公用地圖坐標(biāo)。

3)地圖匹配,并判斷定位數(shù)據(jù)GPS坐標(biāo)是否合法。按照線路、車輛分組,生成每車輛GPS文件,結(jié)合坐標(biāo)位置信息,逐一匹配到地圖,并判斷GPS坐標(biāo)是否合法。

4)按照GPS坐標(biāo)搜索“最短距離”,定位車輛所在弧段具體位置。假定車輛行駛方向?yàn)?(環(huán)路不需要假定,僅一個(gè)方向),匹配該點(diǎn)所在線路的弧段編號(hào)和弧段位置, 按照指定線路方向進(jìn)行全弧段序列匹配,弧段垂直距離最小者為該點(diǎn)所在弧段,如果最小值大于設(shè)定的閾值,則認(rèn)為該數(shù)據(jù)為無效數(shù)據(jù)。

5)計(jì)算公交車定位數(shù)據(jù)與弧段起始點(diǎn)的距離,計(jì)算位于弧段的百分比位置車輛行駛軌跡。在最小垂直距離的基礎(chǔ)上計(jì)算出公交車定位數(shù)據(jù)與弧段起始點(diǎn)的距離,以及位于弧段的百分比位置,從而將公交車定位數(shù)據(jù)匹配到相應(yīng)弧段上,確定車輛行駛軌跡。如果GPS位置無法匹配成功某個(gè)弧段,則將該點(diǎn)記錄匹配不成功弧段列表,對(duì)于非環(huán)路線路,連續(xù)匹配不成功GPS點(diǎn)數(shù)量大于4時(shí),則調(diào)換線路方向,重新匹配所有GPS點(diǎn)序列,以適應(yīng)線路雙向異路的情況。

6)根據(jù)線路的方向1路徑走向,判斷所經(jīng)過弧段是否連續(xù),進(jìn)行弧段彌補(bǔ)。

由于公交車運(yùn)行在城市中,而城市高樓的遮擋和反射是造成測(cè)量誤差的重要原因之一。同時(shí),在林蔭路、隧道及立交橋下行駛時(shí),很容易發(fā)生數(shù)據(jù)丟失的情況。此外,公交定位數(shù)據(jù)每隔30 s回傳一次,由于采樣頻率設(shè)定的間隔較大,也會(huì)發(fā)生匹配弧段不連續(xù)情況。

因此,如果兩點(diǎn)所在弧段不連續(xù),則進(jìn)行彌補(bǔ),計(jì)算兩點(diǎn)間線路距離,弧段上如有站點(diǎn),則認(rèn)為車輛行駛過一站點(diǎn),確認(rèn)該弧段為站點(diǎn)弧段,并根據(jù)站點(diǎn)位置計(jì)算到站時(shí)間,弧段上沒有站點(diǎn),則計(jì)算進(jìn)入弧段時(shí)間。滿足以下兩個(gè)條件的數(shù)據(jù),不進(jìn)行弧段彌補(bǔ):

兩點(diǎn)時(shí)間間隔如果超出設(shè)定的閾值,則廢棄該點(diǎn)前所有數(shù)據(jù)。

計(jì)算兩點(diǎn)間直線距離,如果兩點(diǎn)直線距離行駛速度大于等于設(shè)定的速度值,則廢棄該點(diǎn)數(shù)據(jù),認(rèn)為該點(diǎn)偏移較大,為飛點(diǎn)。

7)判斷該GPS點(diǎn)所在弧段是否站點(diǎn)弧段。對(duì)于首站的GPS點(diǎn)如果離開站點(diǎn)在一定距離內(nèi)時(shí),則認(rèn)為該點(diǎn)弧段仍為首站站點(diǎn)弧段,該點(diǎn)時(shí)間為到站時(shí)間。對(duì)于中途的GPS點(diǎn)只有該點(diǎn)在弧段的位置比例大于等于站點(diǎn)位置比例,方可認(rèn)定該點(diǎn)弧段為站點(diǎn)弧段,并根據(jù)線路距離計(jì)算到站時(shí)間。

8)基于所駛過站點(diǎn)進(jìn)行車輛行駛方向判別,確定是公交行駛方向。若公交車定位數(shù)據(jù)已經(jīng)經(jīng)過的兩個(gè)站點(diǎn)的站點(diǎn)編號(hào)是順序排列的,則計(jì)算的公交行駛方向正確;若站點(diǎn)編號(hào)是倒序,則公交行駛方向錯(cuò)誤。需要改變匹配線路方向,按照之前的方法重新計(jì)算所有公交車定位數(shù)據(jù),重新進(jìn)行定位,以確定正確的方向。

9)公交定位數(shù)據(jù)預(yù)處理結(jié)果輸出。以兩相鄰公交站點(diǎn)間路徑為基本處理單位,通過數(shù)據(jù)的預(yù)處理,計(jì)算得到各車輛每個(gè)站點(diǎn)的到站時(shí)間,即每個(gè)站點(diǎn)區(qū)間的起始時(shí)間和結(jié)束時(shí)間,以數(shù)據(jù)表的形式輸出,再導(dǎo)入到數(shù)據(jù)庫中,作為公交運(yùn)送速度計(jì)算或與其他類別公共交通數(shù)據(jù)匹配的基礎(chǔ)。

4 結(jié)束語

基于交通行業(yè)的大數(shù)據(jù)處理平臺(tái)通過Hadoop基礎(chǔ)架構(gòu),利用交通大數(shù)據(jù)處理驗(yàn)證平臺(tái),實(shí)現(xiàn)交通行業(yè)的數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)交換、數(shù)據(jù)查詢和數(shù)據(jù)計(jì)算的功能。

[1]周寶曜,劉偉,范承工.大數(shù)據(jù)[M].北京:電子工業(yè)出版社,2013.

[2]楊正洪.智慧城市—大數(shù)據(jù)、物聯(lián)網(wǎng)和云計(jì)算之應(yīng)用[M].北京:清華大學(xué)出版社,2014.

The paper introduces how to build a big data platform architecture for traffic industry. The platform can support the PB-level heterogeneous data management and complex transportation business processing, provide API development, and can fulfi ll data storage, query, calculation and analysis. It also can provide SQL-like query function for conveniently query mass data. The Hadoop-based big data processing platform is built through the virtual resource management and Hadoop distributed parallel computing. Keywords: traffi c; big data platform; system architecture; technology

10.3969/j.issn.1673-4440.2016.02.020

2014-06-11)

猜你喜歡
弧段數(shù)據(jù)處理站點(diǎn)
一種航天測(cè)控冗余跟蹤弧段處理方法
上海航天(2024年1期)2024-03-08 02:52:28
基于改進(jìn)弧段切點(diǎn)弦的多橢圓檢測(cè)
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
面向工業(yè)復(fù)雜場(chǎng)景的合作靶標(biāo)橢圓特征快速魯棒檢測(cè)
ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
基于Web站點(diǎn)的SQL注入分析與防范
電子制作(2019年14期)2019-08-20 05:43:42
2017~2018年冬季西北地區(qū)某站點(diǎn)流感流行特征分析
首屆歐洲自行車共享站點(diǎn)協(xié)商會(huì)召開
中國自行車(2017年1期)2017-04-16 02:53:52
怕被人認(rèn)出
基于希爾伯特- 黃變換的去噪法在外測(cè)數(shù)據(jù)處理中的應(yīng)用
永吉县| 通州市| 汝阳县| 怀宁县| 佛教| 湾仔区| 湖州市| 林芝县| 临沭县| 揭东县| 肃宁县| 东明县| 安顺市| 石嘴山市| 岫岩| 沽源县| 正定县| 突泉县| 鸡东县| 新晃| 永福县| 宜章县| 鄂伦春自治旗| 阳城县| 色达县| 临安市| 甘泉县| 江陵县| 建瓯市| 乌苏市| 岱山县| 凤山县| 屏边| 无棣县| 温泉县| 慈溪市| 永康市| 孟州市| 桑植县| 涟水县| 怀安县|