国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

綜合交通多源異構(gòu)大數(shù)據(jù)治理技術(shù)應(yīng)用研究

2022-02-28 22:39:21鐘衛(wèi)東王庭基肖隆妍張明俊黃俊浦
交通科技與管理 2022年3期
關(guān)鍵詞:聚類分析

鐘衛(wèi)東 王庭基 肖隆妍 張明俊 黃俊浦

摘要 隨著信息化的快速發(fā)展,交通運(yùn)輸行業(yè)累積了大量多源異構(gòu)的數(shù)據(jù)資源,治理綜合交通多源異構(gòu)大數(shù)據(jù),實(shí)現(xiàn)信息資源融合共享是交通運(yùn)輸行業(yè)信息化管理的關(guān)鍵問題。文章通過分析綜合交通多源異構(gòu)數(shù)據(jù)類別、研究多源異構(gòu)數(shù)據(jù)治理技術(shù),并運(yùn)用聚類分析方法挖掘交通運(yùn)輸行業(yè)數(shù)據(jù)資源價(jià)值,對實(shí)現(xiàn)“用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新”,提升行業(yè)治理能力和服務(wù)水平,促進(jìn)行業(yè)轉(zhuǎn)型升級具有重要意義。

關(guān)鍵詞 大數(shù)據(jù)治理;多源異構(gòu);綜合交通;聚類分析

中圖分類號 D631.5 文獻(xiàn)標(biāo)識碼 A 文章編號 2096-8949(2022)03-0019-03

0 引言

2019年7月和12月,交通運(yùn)輸部先后印發(fā)《數(shù)字交通發(fā)展規(guī)劃綱要》和《綜合交通運(yùn)輸大數(shù)據(jù)發(fā)展行動綱要(2020—2025)》,提出要以“數(shù)據(jù)鏈”為主線,構(gòu)建數(shù)字化的采集體系;提出推動大數(shù)據(jù)與綜合交通運(yùn)輸深度融合,有效構(gòu)建綜合交通大數(shù)據(jù)中心體系,為加快建設(shè)交通強(qiáng)國提供有力支撐。

隨著交通信息化的快速發(fā)展,通過智能交通終端采集的軌跡、流量、視頻、圖像等數(shù)據(jù)和通過業(yè)務(wù)系統(tǒng)產(chǎn)生的多源異構(gòu)數(shù)據(jù)越來越多。面對綜合交通多源異構(gòu)大數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)存儲、處理以及分析方法已經(jīng)不能充分挖掘出具有高價(jià)值密度的數(shù)據(jù)信息。因此,治理多源異構(gòu)交通大數(shù)據(jù),成為制約綜合交通信息化發(fā)展的瓶頸,必須積極采取有效措施加以解決。

1 綜合交通多源異構(gòu)數(shù)據(jù)分析

綜合交通數(shù)據(jù)包含公路(高速公路、國省干線、農(nóng)村公路)、運(yùn)輸管理(公交、出租、網(wǎng)約車、兩客一危、普貨、維修、駕培)、港航、質(zhì)監(jiān)、綜合執(zhí)法、鐵路、民航、公安交警、氣象、自然資源、互聯(lián)網(wǎng)數(shù)據(jù)等。詳見表1。

從表1可知,綜合交通數(shù)據(jù)來源與交通行業(yè)內(nèi)外多個(gè)部門,同類的數(shù)據(jù)在不同的系統(tǒng)中類型和數(shù)據(jù)結(jié)構(gòu)也各不相同,呈現(xiàn)多源異構(gòu)特點(diǎn),給數(shù)據(jù)的采集增加了難度。同時(shí),大量的智能交通終端設(shè)備,如衛(wèi)星導(dǎo)航定位、視頻監(jiān)控、交調(diào)、治超等,實(shí)時(shí)采集大量數(shù)據(jù),而業(yè)務(wù)系統(tǒng)也不斷在產(chǎn)生業(yè)務(wù)數(shù)據(jù),導(dǎo)致了綜合交通數(shù)據(jù)量的龐大。但是大量的數(shù)據(jù)價(jià)值密度卻不高,因?yàn)閿?shù)據(jù)可能存在樣本不完整、連續(xù)性差、重復(fù)冗余等情況。因此,綜合交通大數(shù)據(jù)的治理變得尤為重要。

2 綜合交通多源異構(gòu)數(shù)據(jù)治理

數(shù)據(jù)在采集過程中會存在設(shè)備故障、信號干擾、人為失誤操作以及環(huán)境影響等誤差因素,導(dǎo)致所獲取多源異構(gòu)數(shù)據(jù)存在不同程度的質(zhì)量問題,影響后續(xù)數(shù)據(jù)分析研究。必須采取科學(xué)的理論方法控制數(shù)據(jù)質(zhì)量。

2.1 冗余數(shù)據(jù)處理

可以利用Hadoop平臺處理存在于大數(shù)據(jù)中的冗余數(shù)據(jù),步驟如下[1]:

(1)通過Eclipse開發(fā)平臺編寫MapReduce關(guān)鍵字統(tǒng)計(jì)程序,將程序?qū)С蒵ar包運(yùn)行在Hadoop數(shù)據(jù)平臺處理相應(yīng)文件存在的冗余數(shù)據(jù)。如交通流量數(shù)據(jù)以經(jīng)過時(shí)間和車輛號碼為關(guān)鍵字;道路事故數(shù)據(jù)以事故時(shí)間、事發(fā)地址為關(guān)鍵字;執(zhí)法數(shù)據(jù)以執(zhí)法記錄時(shí)間、執(zhí)法地址以及號牌號碼為關(guān)鍵字。

(2)若某條數(shù)據(jù)的統(tǒng)計(jì)結(jié)果=1次,則該條數(shù)據(jù)不屬于冗余數(shù)據(jù),應(yīng)正常輸出;若某條數(shù)據(jù)的統(tǒng)計(jì)結(jié)果>1次,則該條數(shù)據(jù)屬于冗余數(shù)據(jù),因此,輸出該數(shù)據(jù)首次出現(xiàn)的信息即可。經(jīng)過冗余數(shù)據(jù)處理后的不同類型數(shù)據(jù)需要重新存儲在HDFS分布式文件系統(tǒng),以備后續(xù)數(shù)據(jù)處理所需。

2.2 缺失數(shù)據(jù)處理

綜合交通大數(shù)據(jù)普遍存在缺失現(xiàn)象,無法為分析研究提供準(zhǔn)確信息,因此,需要采取相關(guān)數(shù)據(jù)處理方法補(bǔ)充缺失值。同樣可以采用Hadoop數(shù)據(jù)平臺檢測處理缺失數(shù)據(jù)。

針對道路事件、治超違法等非連續(xù)數(shù)據(jù)存在缺失的情況,可以通過編寫MapReduce程序Map函數(shù)判斷Value所含字段內(nèi)容是否為空值,如某條元素?cái)?shù)據(jù)字段為空值則刪除該數(shù)據(jù),輸出不存在字段為空元素?cái)?shù)據(jù);在Reduce階段通過編寫Reduce函數(shù)將Map階段輸出數(shù)據(jù)保存至HDFS文件系統(tǒng)。

而針對交通流量等具有連續(xù)性和實(shí)時(shí)性的數(shù)據(jù),數(shù)據(jù)的缺失值處理方法與非連續(xù)數(shù)據(jù)有所不同。通過查閱相關(guān)文獻(xiàn)可知,修復(fù)此類數(shù)據(jù)可采用歷史數(shù)據(jù)修復(fù)法[2]、時(shí)間序列分析法[3]等修復(fù)方法進(jìn)行缺失數(shù)據(jù)處理:

(1)歷史數(shù)據(jù)修復(fù)法:數(shù)據(jù)缺失值采取賦予前幾天同一時(shí)刻以及同一天前一時(shí)刻的歷史數(shù)據(jù)不同權(quán)重且相加的方法填補(bǔ)。該方法的優(yōu)勢在于既體現(xiàn)歷史數(shù)據(jù)的價(jià)值,又考慮實(shí)時(shí)數(shù)據(jù)的影響。

(2)時(shí)間序列分析法:利用同一天與數(shù)據(jù)缺失時(shí)刻相鄰時(shí)刻交通流數(shù)據(jù),修復(fù)缺失數(shù)據(jù)的數(shù)據(jù)處理方法。它通過賦予不同時(shí)刻數(shù)據(jù)不同的權(quán)重體現(xiàn)影響程度的大小進(jìn)行綜合計(jì)算。

具體適用情況如表2。

3 綜合交通多源異構(gòu)數(shù)據(jù)聚類分析

聚類分析是大數(shù)據(jù)挖掘的主要方法,其核心思想是依據(jù)不同數(shù)據(jù)具有相同屬性的原理上,通過計(jì)算數(shù)據(jù)集中不同數(shù)據(jù)之間的相似性度量函數(shù)(歐式距離、曼哈頓距離等),將距離最近的數(shù)據(jù)劃分為相同類并且計(jì)算每類的聚類中心,不斷重復(fù)上述過程直至所有數(shù)據(jù)聚合至特定類[4-5]。

數(shù)據(jù)聚類與分類有所不同,聚類分析的數(shù)據(jù)特征以及聚合類數(shù)均未知,屬于無監(jiān)督學(xué)習(xí)算法;然而,數(shù)據(jù)分類已明確數(shù)據(jù)的類數(shù)和特征,屬于監(jiān)督學(xué)習(xí)算法。隨著國內(nèi)外學(xué)者不斷努力完善聚類理論,聚類分析算法的研究已經(jīng)越來越成熟,根據(jù)聚類算法的原理,主要包含劃分聚類、層次聚類、密度聚類以及網(wǎng)格聚類等四種方法[6-7]。四種不同聚類分析算法的原理和特點(diǎn)各不相同,查閱相關(guān)參考文獻(xiàn)總結(jié),不同聚類分析算法特點(diǎn)如表3。

劃分聚類方法:最基礎(chǔ)的聚類算法,原理簡單便于理解以及計(jì)算收斂速度快,非常適用于球形以及類似球形分布的數(shù)據(jù)集?;趧澐志垲惖拇硇运惴ㄖ饕琄-means(均值)聚類算法、K-medoid(中心點(diǎn))算法。

層次聚類方法:將指定的數(shù)據(jù)集按照層次的方法進(jìn)行分解,通過逐步更新迭代分解使得類的個(gè)數(shù)以及每個(gè)類中所含元素?cái)?shù)據(jù)的個(gè)數(shù)不斷調(diào)整,最終以樹狀圖的形式清晰展示聚類結(jié)果。

密度聚類方法:依據(jù)樣本數(shù)據(jù)集的密度進(jìn)行聚類。適用于凸形以及球形等任意形狀分布的數(shù)據(jù)集,可以解決不規(guī)則分布的數(shù)據(jù)聚類分析問題。

網(wǎng)格聚類方法:將樣本數(shù)據(jù)集劃分為有限網(wǎng)格數(shù)據(jù)單元,不同網(wǎng)格單元可代表多條元素?cái)?shù)據(jù),通過距離度量不同網(wǎng)格單元之間的相似性,合并距離相近的網(wǎng)格單元為相同類別。

針對綜合交通多源異構(gòu)大數(shù)據(jù),建議采取劃分聚類分析方法,且因K-means聚類算法時(shí)間復(fù)雜度低、原理簡單便于理解、計(jì)算速度快以及擴(kuò)展性良好,可采用K-means算法聚類分析多源異構(gòu)交通大數(shù)據(jù)(流程圖如圖1)。

K-means算法的核心思想是根據(jù)需求將數(shù)據(jù)集聚類個(gè)數(shù)設(shè)置為K,目標(biāo)是通過度量不同數(shù)據(jù)之間的相似距離,將數(shù)據(jù)集根據(jù)相似性強(qiáng)弱劃分為K類。K-means算法聚類時(shí),首先在數(shù)據(jù)集中選取K個(gè)數(shù)據(jù)聚類中心點(diǎn),計(jì)算不同數(shù)據(jù)與每個(gè)聚類中心點(diǎn)之間的距離,然后,根據(jù)距離大小將相近數(shù)據(jù)合并為相同類別。雖然,該算法的數(shù)學(xué)原理簡單,但是聚類效果卻明顯優(yōu)于其他聚類算法。

4 結(jié)論

綜合交通大數(shù)據(jù)以不同形式從不同角度詮釋了交通數(shù)據(jù)的多樣性,為多源異構(gòu)大數(shù)據(jù)治理提供了豐富的數(shù)據(jù)源,同時(shí)也使得運(yùn)用K-means聚類方法智能分析交通大數(shù)據(jù)成為可能。

數(shù)據(jù)驅(qū)動服務(wù)是綜合交通信息化的核心,隨著綜合交通數(shù)據(jù)的種類和數(shù)量快速增長,治理多源異構(gòu)大數(shù)據(jù)成為關(guān)鍵核心。該文通過分析綜合交通多源異構(gòu)數(shù)據(jù)情況,研究多源異構(gòu)數(shù)據(jù)治理方法,并比較出適用于綜合交通多源異構(gòu)數(shù)據(jù)的聚類分析方法,對于開展智慧交通數(shù)據(jù)中心暨展示平臺建設(shè),整合大數(shù)據(jù)資源實(shí)現(xiàn)數(shù)據(jù)綜合展示提供技術(shù)支撐。

參考文獻(xiàn)

[1]游兆權(quán).基于Hadoop大數(shù)據(jù)平臺的交通擁堵預(yù)測研究[D].北京:中國人民公安大學(xué),2018.

[2]王騰輝.基于Spark平臺的短時(shí)交通流預(yù)測研究[D].廣州:華南理工大學(xué),2016.

[3]王遠(yuǎn)強(qiáng).面向交通數(shù)據(jù)的事故分析與預(yù)測[D].天津:天津大學(xué),2017.

[4]LAKSHMI K,VISALAKSHI N K,SHANTHI S.Data clustering using K-Means based on Crow Search Algorithm[J].Sadhana,2018(11):190.

[5]KHAN S S,AHMAD A.Cluster center initialization algorithm for K-means clustering[J].Pattern Recognition Letters,2004(11):1293-1302.

[6]盧躍凱.面向海量移動互聯(lián)網(wǎng)用戶行為的聚類算法研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2019.

[7]呂峰.主動半監(jiān)督 K-means 聚類算法研究及應(yīng)用[D].石家莊:河北地質(zhì)大學(xué),2018.

猜你喜歡
聚類分析
基于譜聚類算法的音頻聚類研究
基于Weka的江蘇13個(gè)地級市溫度聚類分析
我國中部地區(qū)農(nóng)村居民消費(fèi)行為階段特征分析
基于多元統(tǒng)計(jì)方法的高??蒲袪顩r評價(jià)分析
基于聚類分析的無須人工干預(yù)的中文碎紙片自動拼接
淺析聚類分析在郫縣煙草卷煙營銷方面的應(yīng)用
基于聚類分析研究貴州省各地區(qū)經(jīng)濟(jì)發(fā)展綜合評價(jià)
商情(2016年39期)2016-11-21 08:45:54
新媒體用戶行為模式分析
農(nóng)村居民家庭人均生活消費(fèi)支出分析
基于省會城市經(jīng)濟(jì)發(fā)展程度的實(shí)證分析
中國市場(2016年33期)2016-10-18 12:16:58
汶川县| 二连浩特市| 开阳县| 治多县| 杂多县| 彰化市| 达孜县| 沂源县| 峨山| 南部县| 乌拉特前旗| 客服| 赤峰市| 凯里市| 鄂托克前旗| 和硕县| 双桥区| 浮梁县| 新丰县| 苗栗县| 泊头市| 涞源县| 大兴区| 中阳县| 东光县| 郎溪县| 哈密市| 普兰店市| 东至县| 射阳县| 张家港市| 连江县| 新乡市| 新巴尔虎左旗| 东至县| 皮山县| 唐河县| 葵青区| 南康市| 达孜县| 海晏县|