王倩
摘 要:本文主要研究交通大數(shù)據(jù)的信息挖掘關(guān)鍵技術(shù),研究了如何從海量的結(jié)構(gòu)化的、半結(jié)構(gòu)化以及無結(jié)構(gòu)化的交通數(shù)據(jù)類型中挖掘出有用的知識(shí),充分分析后加以整合,應(yīng)用在城市道路交通控制中,作為決策時(shí)的依據(jù)。本文探討了城市交通控制中各個(gè)系統(tǒng)產(chǎn)生的海量數(shù)據(jù)的數(shù)據(jù)特點(diǎn),以及數(shù)據(jù)挖掘的關(guān)鍵技術(shù)在道路交通控制領(lǐng)域中的應(yīng)用,從理論上的可行性進(jìn)行了有益的探索。
關(guān)鍵詞:數(shù)據(jù)挖掘; 決策支持; 交通控制;
1 引 言
城市道路管理系統(tǒng)的信息來源的多樣性,導(dǎo)致各類數(shù)據(jù)庫(kù)中累積了大量的結(jié)構(gòu)化、半結(jié)構(gòu)化和無結(jié)構(gòu)化的數(shù)據(jù)類型,還有其他動(dòng)態(tài)的復(fù)雜的數(shù)據(jù)信息。而道路交通系統(tǒng)時(shí)刻都產(chǎn)生了大量的數(shù)據(jù),僅就城市的某一個(gè)道路交叉口而言,卡口系統(tǒng)、路口的實(shí)時(shí)監(jiān)控系統(tǒng)、超速檢測(cè)系統(tǒng)、闖紅燈違章拍照系統(tǒng)、埋設(shè)在地面下的環(huán)形線圈車輛檢測(cè)器等,這些設(shè)備產(chǎn)生了海量的數(shù)據(jù),且隨著交叉口流量的增多數(shù)據(jù)的增長(zhǎng)速度也越來越快。因此,如何存儲(chǔ)和處理這些數(shù)據(jù),它們?cè)谡麄€(gè)交通領(lǐng)域中是否都是有價(jià)值的,成為了研究的重點(diǎn)。
目前處在信息大爆炸的時(shí)代,“數(shù)據(jù)爆炸,知識(shí)匱乏”,數(shù)據(jù)挖掘正是從海量的數(shù)據(jù)中發(fā)現(xiàn)潛在的可以描述或者預(yù)測(cè)數(shù)據(jù)的特性的知識(shí),達(dá)到知識(shí)發(fā)現(xiàn)的目的。工信部發(fā)布的物聯(lián)網(wǎng)“十二五”規(guī)劃中,將信息處理技術(shù)作為4大關(guān)鍵技術(shù)創(chuàng)新工程之一,主要包括海量數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘和圖像視頻智能分析,可見數(shù)據(jù)挖掘在整個(gè)研究領(lǐng)域中的重要程度。道路交通領(lǐng)域作為圖像處理和數(shù)據(jù)挖掘的重要應(yīng)用領(lǐng)域,同樣具備了應(yīng)用大數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù)的可能性。主要研究數(shù)據(jù)挖掘在道路交通控制中的應(yīng)用,是本文重點(diǎn)要探討的問題。接下來先從交通數(shù)據(jù)的數(shù)據(jù)特點(diǎn)開始探究。
本文第2節(jié)介紹了交通大數(shù)據(jù)的數(shù)據(jù)特點(diǎn),第3節(jié)介紹了數(shù)據(jù)挖掘關(guān)鍵技術(shù),第4節(jié)探究了數(shù)據(jù)挖掘技術(shù)在道路交通中的應(yīng)用,最后,進(jìn)行了小結(jié)。
2 交通大數(shù)據(jù)的數(shù)據(jù)特點(diǎn)
當(dāng)前在交通領(lǐng)域,監(jiān)控系統(tǒng)、通信系統(tǒng)、信息采集系統(tǒng)、綜合管理平臺(tái)系統(tǒng)無時(shí)無刻不在產(chǎn)生海量的數(shù)據(jù)。大數(shù)據(jù)都具備了“4V”特性:規(guī)模性(volume)、多樣性(variety)、高速性(velocity)和價(jià)值性(value)。
其中規(guī)模性(volume)集中體現(xiàn)在數(shù)據(jù)的規(guī)模上,當(dāng)前處在信息大爆炸的時(shí)代,在交通領(lǐng)域無時(shí)無刻不在產(chǎn)生著海量的數(shù)據(jù),數(shù)據(jù)的規(guī)模也從PB、EB級(jí)甚至擴(kuò)展到ZB級(jí)。由此可見在交通領(lǐng)域數(shù)據(jù)量巨大。
交通大數(shù)據(jù)的多樣性(variety)主要體現(xiàn)在交通數(shù)據(jù)來源眾多,數(shù)據(jù)類型多樣,如車輛檢測(cè)器采集到的交通流參數(shù),監(jiān)控系統(tǒng)采集到的圖像和視頻類數(shù)據(jù),交通管控中心從不同的監(jiān)控中心收集到的音視頻以及圖像等數(shù)據(jù),闖紅燈違章拍照系統(tǒng)采集的違章信息等不同來源的數(shù)據(jù)類型,共同構(gòu)成了交通大數(shù)據(jù)的多樣性。
交通大數(shù)據(jù)的高速性(velocity)主要體現(xiàn)在對(duì)交通數(shù)據(jù)處理的時(shí)效性上,即在規(guī)定的時(shí)間內(nèi)及時(shí)處理,如交通異常事件檢測(cè)系統(tǒng)中,一旦系統(tǒng)發(fā)出火災(zāi)、車禍等異常事件預(yù)警,一般都需要在很短的時(shí)間內(nèi)進(jìn)行及時(shí)的響應(yīng)。
交通大數(shù)據(jù)的價(jià)值性(value)集中體現(xiàn)在決策支持上,即通過數(shù)據(jù)挖掘關(guān)鍵技術(shù)從海量的大數(shù)據(jù)中挖掘出能夠支持決策的有用的知識(shí)。
同時(shí),也必須看到,由于交通領(lǐng)域數(shù)據(jù)的特殊性,也具備了數(shù)據(jù)存儲(chǔ)分散的特點(diǎn),不同部門之間,不同城市之間,甚至不同地點(diǎn)之間都有可能存在著多種多樣的數(shù)據(jù),存儲(chǔ)位置的分散性導(dǎo)致了在信息共享方面的不足。針對(duì)以上特點(diǎn),第3節(jié)重點(diǎn)介紹數(shù)據(jù)挖掘關(guān)鍵技術(shù)。
3 數(shù)據(jù)挖掘關(guān)鍵技術(shù)
在通常的大數(shù)據(jù)挖掘技術(shù)中,一般都是指基于大規(guī)模文件系統(tǒng)的數(shù)據(jù)挖掘技術(shù),例如基于數(shù)據(jù)庫(kù)的數(shù)據(jù)提取、數(shù)據(jù)倉(cāng)庫(kù)集群處理等[1]。 相較于單純的數(shù)據(jù)分析和處理,數(shù)據(jù)挖掘一般不預(yù)先設(shè)定主題,只需在處理后的數(shù)據(jù)上使用現(xiàn)有算法或改進(jìn)算法進(jìn)行計(jì)算或預(yù)測(cè),實(shí)現(xiàn)數(shù)據(jù)分析的高級(jí)需求。數(shù)據(jù)挖掘可以看作是知識(shí)發(fā)現(xiàn)(KDD)其中一個(gè)步驟,針對(duì)有關(guān)數(shù)據(jù)選擇合適的模型或算法。其中最為經(jīng)典的算法主要有用于聚類的K-Means、用于統(tǒng)計(jì)學(xué)習(xí)的支持向量機(jī)SVM和用于分類的樸素貝葉斯(Naive Bayes),數(shù)據(jù)挖掘的算法原理都相對(duì)來說很復(fù)雜,計(jì)算量和數(shù)據(jù)量也很大。數(shù)據(jù)挖掘在具體應(yīng)用時(shí)主要面臨的挑戰(zhàn)有大型的數(shù)據(jù)庫(kù),高維的數(shù)據(jù),統(tǒng)計(jì)的有效性和準(zhǔn)確性,數(shù)據(jù)的改變導(dǎo)致的模型的改變等一系列的挑戰(zhàn)。
第3節(jié)主要研究數(shù)據(jù)挖掘的關(guān)鍵技術(shù)及其在交通控制領(lǐng)域中的應(yīng)用探究。總體而言,在城市道路交通控制領(lǐng)域,數(shù)據(jù)挖掘技術(shù)可以應(yīng)用在智能交通系統(tǒng)中的決策支持子系統(tǒng)中。
3.1 數(shù)據(jù)挖掘經(jīng)典分析法
從功能上進(jìn)行分類,數(shù)據(jù)挖掘主要分成兩大類:分類和預(yù)測(cè)。
分類算法對(duì)特定的樣本訓(xùn)練和學(xué)習(xí),發(fā)現(xiàn)新的知識(shí),并且能夠在給定一個(gè)新的樣本后,自動(dòng)對(duì)其類別歸屬進(jìn)行預(yù)測(cè)。具體而言,分類過程主要有兩大步驟:首先,建立一個(gè)可以描述數(shù)據(jù)集和概念集的模型,假定每個(gè)樣本屬于一個(gè)預(yù)定義的類,由類標(biāo)屬性確定訓(xùn)練集,形成訓(xùn)練樣本,單個(gè)樣本可以由分類規(guī)則、統(tǒng)計(jì)學(xué)、判定樹等方法提供。
其次使用在第一步中建立的模型,對(duì)新加進(jìn)來的未知樣本進(jìn)行分類。首先評(píng)估模型的預(yù)測(cè)準(zhǔn)確率,對(duì)每個(gè)測(cè)試樣本,將已知的類標(biāo)和該樣本的預(yù)測(cè)類進(jìn)行比較,統(tǒng)計(jì)測(cè)試集的被正確分類的百分比。其中,給定的測(cè)試集必須獨(dú)立于訓(xùn)練集,以免出現(xiàn)“過分適應(yīng)數(shù)據(jù)”的情況。
比較經(jīng)典的分類算法主要有樸素貝葉斯、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、J48等,從這些經(jīng)典算法中也擴(kuò)展了不少的改進(jìn)算法,提升分類器的分類效果。
預(yù)測(cè)是構(gòu)造和使用模型評(píng)估無樣本類,或評(píng)估給定樣本可能具有的屬性或值空間。和分類法相同之處在于都需要構(gòu)建模型來估計(jì)未知值。只是分類法主要是用來預(yù)測(cè)類標(biāo),預(yù)測(cè)法主要是用來估計(jì)連續(xù)值,且預(yù)測(cè)更多的采用線性、非線性回歸等統(tǒng)計(jì)學(xué)的手段進(jìn)行,大都用在商業(yè)領(lǐng)域中。endprint
在數(shù)據(jù)挖掘過程中,對(duì)數(shù)據(jù)的預(yù)處理可以提高模型的準(zhǔn)確性和有效性。預(yù)處理的方法主要有數(shù)據(jù)清洗、相關(guān)性分析、數(shù)據(jù)變換等。數(shù)據(jù)清洗主要是為了消除或減少噪聲,減少空缺和錯(cuò)誤值,減少學(xué)習(xí)時(shí)的混亂,對(duì)數(shù)據(jù)中的“臟數(shù)據(jù)”(冗余、噪聲、錯(cuò)誤、不相關(guān)等)進(jìn)行處理,可以加快數(shù)據(jù)挖掘模型的學(xué)習(xí)速度,使得學(xué)習(xí)結(jié)果更加精確。從而提高模型分析的準(zhǔn)確性。
3.2 大數(shù)據(jù)處理平臺(tái)
在智能交通領(lǐng)域中,數(shù)據(jù)瞬息萬變,時(shí)效性非常強(qiáng),當(dāng)一個(gè)或多個(gè)數(shù)據(jù)流到來,需要立即對(duì)數(shù)據(jù)進(jìn)行處理或存儲(chǔ),并且很快,數(shù)據(jù)就會(huì)失效,失去利用價(jià)值[1]。隨著大數(shù)據(jù)時(shí)代的來臨,應(yīng)對(duì)大數(shù)據(jù)的處理平臺(tái)也應(yīng)運(yùn)而生,主流的平臺(tái)主要有Hadoop、Apache Spark、S4, Storm等。Hadoop 本身存在的缺點(diǎn)是不能有效適應(yīng)實(shí)時(shí)數(shù)據(jù)處理需求,為了克服該局限,一些實(shí)時(shí)處理平臺(tái)如S4, Storm 等隨之產(chǎn)生了,他們?cè)谔幚聿婚g斷的流式數(shù)據(jù)方面有較大的優(yōu)勢(shì)[2]。
3.2.1 Hadoop大數(shù)據(jù)處理平臺(tái)
Hadoop是一種分布式計(jì)算的大數(shù)據(jù)實(shí)時(shí)處理平臺(tái),實(shí)現(xiàn)了計(jì)算機(jī)集群中的分布式運(yùn)算,在海量大數(shù)據(jù)分析處理中應(yīng)用較為廣泛。它允許用戶在不了解底層細(xì)節(jié)的情況下,開發(fā)分布式應(yīng)用程序,充分利用集群的概念和方法進(jìn)行數(shù)據(jù)的高速運(yùn)算。該框架的核心設(shè)計(jì)是分布式文件系統(tǒng)(HDFS)和MapReduce兩部分組成,通過這兩部分存儲(chǔ)資源、內(nèi)存和程序的有效管理。分布式文件系統(tǒng)(HDFS)為海量的數(shù)據(jù)提供了存儲(chǔ)方法,允許以流的形式訪問文件中的數(shù)據(jù);MapReduce提供計(jì)算,二者相互獨(dú)立又相互配合。通過Hadoop,可以輕易的將多臺(tái)普通的或低性能的服務(wù)器組合成分布式的運(yùn)算-存儲(chǔ)集群,提供大數(shù)據(jù)量的存儲(chǔ)和處理能力。MapReduce通過Map(映射)和Reduce(化簡(jiǎn))來實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的并行計(jì)算。通過Map(映射)函數(shù),把一組鍵值對(duì)映射成一組新的鍵值對(duì);指定并發(fā)的Reduce(化簡(jiǎn))函數(shù),達(dá)到分散運(yùn)算的效果。
3.2.2 Apache Spark大數(shù)據(jù)處理平臺(tái)
Apache Spark是Apache的開源項(xiàng)目之一,可以利用Java、Scala或Python語言編寫程序的大數(shù)據(jù)處理框架,為用戶提供了一個(gè)用于管理不同性質(zhì)的數(shù)據(jù)集和數(shù)據(jù)源的大數(shù)據(jù)的處理平臺(tái),它可以提升Hadoop集群在內(nèi)存中的運(yùn)行速度。Spark的處理速度極快,而且支持多種語言為其編寫應(yīng)用,能夠輕松處理實(shí)時(shí)數(shù)據(jù)流,支持復(fù)雜的分析操作[3]。
4 數(shù)據(jù)挖掘技術(shù)在交通領(lǐng)域中的應(yīng)用
在城市交通控制技術(shù)領(lǐng)域,從半結(jié)構(gòu)化甚至無結(jié)構(gòu)化的數(shù)據(jù)類型中挖掘出來的有用的知識(shí)或發(fā)現(xiàn),可以廣泛的應(yīng)用在了智能交通平臺(tái)的基礎(chǔ)平臺(tái)上,如交通誘導(dǎo)系統(tǒng),決策支持系統(tǒng);異常事件檢測(cè)系統(tǒng)等。下面從幾個(gè)方面說明數(shù)據(jù)挖掘技術(shù)的應(yīng)用。
4.1 交通異常事件檢測(cè)
交通異常事件檢測(cè)主要是通過圖像或視頻數(shù)據(jù)中發(fā)現(xiàn)異常狀況,也就是在數(shù)據(jù)集中和其他顯著不同的異常事件,如交通擁堵、交通事故、逆向行駛、車輛違章等狀況,通過對(duì)這些異常的檢測(cè),可以盡早的發(fā)現(xiàn)事件的發(fā)生,從而為后續(xù)的處理提供科學(xué)而準(zhǔn)確的依據(jù)。
4.2交通運(yùn)行狀態(tài)分析和交通誘導(dǎo)
交通誘導(dǎo)是通過分析車輛檢測(cè)器檢測(cè)到的各項(xiàng)交通流的參數(shù),根據(jù)實(shí)時(shí)采集到的數(shù)據(jù)和歷史數(shù)據(jù)記錄的區(qū)別,對(duì)交通的實(shí)時(shí)運(yùn)行狀態(tài)進(jìn)行分析,如可以使用關(guān)聯(lián)規(guī)則、聚類、分類等挖掘方法,挖掘出路網(wǎng)規(guī)劃和交通擁堵、交通事故之間的關(guān)系,從而依據(jù)挖掘結(jié)果實(shí)現(xiàn)對(duì)當(dāng)前交通運(yùn)行狀態(tài)的準(zhǔn)確而有效的分析,為迅速而快捷的實(shí)現(xiàn)交通誘導(dǎo)做數(shù)據(jù)上的支持。
4.3 指揮中心決策支持
城市道路交通指揮中心是整個(gè)交通部門的核心,匯集了城市大小各個(gè)路口和道路的各項(xiàng)信息,因此信息量也很巨大,并且數(shù)據(jù)來源也比較廣泛,在做出決策時(shí),可以采用大數(shù)據(jù)平臺(tái)對(duì)有用的知識(shí)進(jìn)行挖掘,并將這些知識(shí)充分應(yīng)用到?jīng)Q策支持中去,為更好的做出決策做充分的準(zhǔn)備。因此進(jìn)行決策支持時(shí),大數(shù)據(jù)的處理、數(shù)據(jù)挖掘的算法應(yīng)用,都可以有效的應(yīng)用。
指揮中心在進(jìn)行決策支持時(shí),可以充分運(yùn)用GIS地理信息系統(tǒng),將整個(gè)城市的交通路網(wǎng)顯示在電子地圖上,通過對(duì)交通設(shè)施、交通狀態(tài)、交通結(jié)構(gòu)的分析,結(jié)合駕駛員信息、車輛信息、天氣、路況等相關(guān)信息的綜合整合,積極探索這些數(shù)據(jù)內(nèi)部的規(guī)律性,進(jìn)行深層次的數(shù)據(jù)挖掘,為提升整個(gè)城市的交通管理水平提供決策支持和數(shù)據(jù)支持。
5 結(jié) 論
隨著我國(guó)社會(huì)經(jīng)濟(jì)的發(fā)展,交通領(lǐng)域也發(fā)生著巨大的變化,如數(shù)據(jù)來源的多樣性,海量的數(shù)據(jù)類型,多源異構(gòu)數(shù)據(jù)的樹立,大數(shù)據(jù)的分析和處理等,這些變化帶來的不僅僅是巨大的社會(huì)價(jià)值,更多的是挑戰(zhàn)。本文探討了數(shù)據(jù)挖掘技術(shù)在交通領(lǐng)域中的應(yīng)用探析,通過對(duì)交通大數(shù)據(jù)特點(diǎn)的分析、數(shù)據(jù)挖掘關(guān)鍵技術(shù)、大數(shù)據(jù)平臺(tái)應(yīng)用的探討,簡(jiǎn)要的分析了數(shù)據(jù)挖掘關(guān)鍵技術(shù)在道路交通控制領(lǐng)域應(yīng)用的可能性,通過應(yīng)用新的技術(shù)和方法,相信可以能夠應(yīng)對(duì)越來越嚴(yán)重的交通擁堵、交通事故和環(huán)境污染等一系列的交通問題。
參考文獻(xiàn):
[1]楊曉牧. 試述大數(shù)據(jù)在智能交通領(lǐng)域的應(yīng)用[J]. 交通節(jié)能與環(huán)保, 2015, 11(1):76-79.
[2]周為鋼, 楊良懷, 龔衛(wèi)華,等. 大數(shù)據(jù)處理技術(shù)在智能交通中的應(yīng)用[C]// 中國(guó)智能交通年會(huì). 2013
[3]于碩, 李澤宇. 交通大數(shù)據(jù)及應(yīng)用技術(shù)研究[J]. 中國(guó)高新技術(shù)企業(yè), 2017(4).endprint