康晨傲 曾獻輝
摘 要:面對套牌車問題,當(dāng)前檢測技術(shù)誤判率居高不下,稽查部門需要消耗大量人力資源審核檢測結(jié)果。為了降低套牌車檢測的誤判率和虛警率,提出了一種基于車輛異常行為的套牌車并行檢測方法。確立數(shù)種與套牌車相關(guān)聯(lián)的車輛異常行為因素,針對海量通行數(shù)據(jù),利用分布式架構(gòu)建立相應(yīng)異常行為的挖掘算法模型,并對某市高速公路的真實海量交通流數(shù)據(jù)進行挖掘;利用BP神經(jīng)網(wǎng)絡(luò)算法建立模型并對數(shù)種異常行為挖掘結(jié)果進行訓(xùn)練,從而綜合考慮多種異常行為因素得出套牌車檢測結(jié)果。研究結(jié)果表明,該并行檢測算法有效地降低套牌車誤判率至18%,可大幅度提高稽查人員的工作效率。
關(guān)鍵詞: 套牌車檢測;車輛異常行為;大數(shù)據(jù);并行;Spark;高速公路
文章編號: 2095-2163(2019)03-0011-06?中圖分類號: TP391?文獻標(biāo)志碼: A
0?引?言
套牌車是指不法分子偽造和非法套取真牌車的號牌,使非法車輛在表面披上了“合法”的外衣。近年來,隨著人們生活水平日益增高,機動車的數(shù)量日漸普及,為了逃避稅費、逃避交通違法或處理查究、走私、拼裝、報廢和盜搶來的車輛等,套牌車這類違法現(xiàn)象也在不時發(fā)生。嚴(yán)重影響了正常的交通秩序,同時更侵犯了他人的合法權(quán)益,成為了交通治安管理中的突出問題,難點問題[1-2]。
目前,有關(guān)套牌車檢測技術(shù)方面的主要研究有以下幾類:
文獻[3]對機動車車牌和牌照框進行了改造,以方便交警辨別套牌車。但這也使得車牌的制造和丟失后的重制成本大大提高。文獻[4-5]分別運用RFID和ZigBee技術(shù)將車輛信息進行加密存入電子標(biāo)簽中,并將電子標(biāo)簽植入機動車。但這類方法面臨著車主的支持、政府的大量資金投資和推廣、電子標(biāo)簽的篡改和偽造等諸多問題。文獻[6-7]介紹了基于視頻圖像識別技術(shù)的車臉識別套牌車檢測技術(shù)。但這類方法在識別同色同型號的套牌車、光線不佳、天氣惡劣等情況時,識別率的表現(xiàn)不佳。迄至目前,以卡口時間對比法為代表的軟件套牌車檢測技術(shù)因其成本低、且實效性強的優(yōu)勢被廣泛使用。文獻[8]提出了一種基于網(wǎng)格化監(jiān)控的套牌車檢測系統(tǒng),按照一輛車不可能“同時”出現(xiàn)在2個地點的原理,自動完成套牌檢測。文獻[9-10]提出了基于MapReduce的并行式套牌車檢測模型,解決大規(guī)模數(shù)據(jù)下的套牌車檢測問題。文獻[11]提出一種基于歷史車牌識別數(shù)據(jù)集的套牌車并行檢測方法TP-Finder。文獻[12]提出了動態(tài)速度閾值的套牌車檢測方法。
而隨著圖像識別技術(shù)、傳感器技術(shù)、視頻監(jiān)控設(shè)備等信息采集、識別技術(shù)的發(fā)展和普及,使得人們可以通過各類采集設(shè)備獲得多維的海量交通數(shù)據(jù)存入到數(shù)據(jù)庫中[13]。據(jù)統(tǒng)計,就國內(nèi)某市高速公路的交通數(shù)據(jù)采集來說,每月就要存儲超過100 G的數(shù)據(jù)。如何基于這樣的大規(guī)模車輛通行數(shù)據(jù),盡可能準(zhǔn)確地檢測出套牌車成為了一個關(guān)鍵的挑戰(zhàn),而利用分布式架構(gòu)的并行計算就成為了首選手段[13-15]。
雖然當(dāng)前在針對海量交通數(shù)據(jù)的并行式處理技術(shù)方面已有一些研究成果,但在套牌車檢測方面仍存在較高的誤判率(把正常車輛或者超速車輛等誤歸為套牌車),稽查部門需要將大量的警力消耗在對于檢測結(jié)果的人工審核和確認(rèn)上。針對當(dāng)前套牌車檢測技術(shù)誤判率、虛警率較高這個問題,本文提出了一種基于車輛異常行為的套牌車并行檢測方法。研究時,首先確立數(shù)種與套牌車相關(guān)聯(lián)的車輛異常行為因素,利用分布式架構(gòu)建立相應(yīng)異常行為的挖掘算法模型,并對海量交通流數(shù)據(jù)進行挖掘。利用BP神經(jīng)網(wǎng)絡(luò)算法建立模型,再對數(shù)種異常行為挖掘結(jié)果進行訓(xùn)練,從而綜合考慮多種異常行為因素得出套牌車檢測結(jié)果,以達到降低誤判率的效果。
1?套牌車相關(guān)的車輛異常行為確立
1.1?車輛速度異常
正常車輛在較短的時間內(nèi)行駛的距離應(yīng)該在一個合理的閾值范圍內(nèi),如果在較短時間內(nèi)車輛行駛了遠遠超出閾值的距離,即發(fā)生了該車輛“同時”出現(xiàn)在了2個地方的時空矛盾現(xiàn)象,則該車輛可能出現(xiàn)套牌現(xiàn)象。
1.2?車輛出入異常
如果車輛在某一時刻出(進入)高速公路,而在該車牌號的車輛未進入(出)高速公路的情況下,又發(fā)現(xiàn)相同車牌號的車輛不久后在任意出入站點再次出(進入)高速公路。該車牌號的車輛連續(xù)多次出(入)高速公路,則該車輛可能出現(xiàn)套牌現(xiàn)象。
1.3?車輛頻繁出現(xiàn)異常
如果車輛被套牌,在一定時間內(nèi)因其會頻繁經(jīng)過拍攝卡口,其車牌號被記錄在車流量大數(shù)據(jù)中的概率必然增加。因此可以針對某段時間內(nèi)在車輛流大數(shù)據(jù)中出現(xiàn)頻率較高的車牌號進行挖掘。
2?車輛異常行為挖掘模型建立
本文在Spark分布式計算框架上,進行車輛異常行為挖掘模型的搭建。并選取某市高速公路的車流量數(shù)據(jù)作為數(shù)據(jù)集,車流量數(shù)據(jù)記錄了車輛每次經(jīng)過各拍攝卡口時所被記錄下的車輛信息,包括:車牌號(license)、拍攝時間(time)、拍攝卡口ID(id)、車輛行駛方向(direction)。對此擬展開研究論述如下。
2.1?Spark分布式計算框架
Spark是一種通用而且高效的分布式內(nèi)存計算框架,這是基于內(nèi)存的計算方式,能有效提高在大數(shù)據(jù)環(huán)境下的計算效率,同時保證高容錯性和高可伸縮性。Spark采用master-slave結(jié)構(gòu),主節(jié)點上運行名稱為Master的守護進程,負責(zé)對整個集群的監(jiān)控和任務(wù)分配,從節(jié)點上運行名稱為Worker的守護進程,接收來自主節(jié)點的任務(wù)并交由該結(jié)點上的 Executor執(zhí)行該任務(wù)。
彈性分布式數(shù)據(jù)集(RDD)是Spark的核心數(shù)據(jù)結(jié)構(gòu),RDD內(nèi)部的數(shù)據(jù)集合在邏輯和物理上都被劃分成多個子集合,這樣的每一個子集合將其稱為分區(qū)(partitions),每一個分區(qū)數(shù)值的計算都是在一個單獨的任務(wù)中進行,因此并行任務(wù)的個數(shù),也是由RDD分區(qū)的個數(shù)所決定。
Spark程序是由對RDD的操作構(gòu)成的,如讀取文件是一個RDD,對文件計算是一個RDD,結(jié)果集也是一個RDD。程序先通過輸入數(shù)據(jù)創(chuàng)建出一系列RDD;再使用轉(zhuǎn)化(Transformation)操作對一個RDD進行計算后,將其轉(zhuǎn)化成另外一個RDD,然后這個RDD又可以進行下一次轉(zhuǎn)化;最后使用行動操作(Action)對RDD計算出一個結(jié)果,并把結(jié)果存儲到外部存儲系統(tǒng)(比如HDFS、ORACLE等)中,運行流程如圖1所示。
2.2?車輛速度異常挖掘模型建立
車輛速度異常判斷依據(jù):車牌號為N的車輛,在T1時刻經(jīng)過編號為ID_A的拍攝卡口A。車牌號同為N的車在T2時刻經(jīng)過編號為ID_B的拍攝卡口B??贏和卡口B之間的平均行駛距離為Y千米,計算該車輛的行駛速度為:
設(shè)置車輛速度最大閾值為Vmax。若V≤Vmax,則說明該車輛從A卡口行駛到B卡口是符合正常情況的;但若V≥Vmax,車速已超過最大閾值,則說明該車輛不可能在T2 -T1的時間內(nèi)從卡口A行駛到卡口B。
例如,車牌號為浙AB1234車輛的部分車輛行駛記錄如圖2所示,該車輛于08點00分經(jīng)過拍攝卡口1011處,又于08點15分經(jīng)過拍攝卡口1018處,經(jīng)查詢得兩拍攝卡口之間的平均行駛距離為50 km,設(shè)置的閾值速度Vmax為140 km/h。根據(jù)公式(1)計算得該車輛的行駛速度V=200 km/h,超出閾值速度,則該車輛出現(xiàn)車輛速度異常現(xiàn)象。
并行式車輛速度異常挖掘模型的構(gòu)建主要分為以下幾個步驟:
(1)程序讀取Oracle數(shù)據(jù)庫中的預(yù)處理過后的車流量數(shù)據(jù)表生成RDD,其中RDD的每個元素為每條車輛記錄。
(2)將每條車輛記錄轉(zhuǎn)化為形如
(3)按車牌號license對所有元素進行聚合操作,將車牌號相同的所有車輛信息info聚合在一起。即:將RDD的每個元素轉(zhuǎn)化為
(4)對集合list中的所有車輛信息info按照拍攝時間進行升序排序,將RDD的每個元素轉(zhuǎn)化為形如
(5)對于集合list_order中車輛信息info的數(shù)量只有一條的元素,在RDD中刪除該元素。
(6)針對每一個車牌號,依次從集合list_order中遍歷取出相鄰的車輛信息info,并根據(jù)公式(1)進行異常行為判斷:如果車輛速度超出閾值,則此車牌號對應(yīng)的異常次數(shù)count_abSpeed加1(初始為0)。
(7)遍歷完該車牌號對應(yīng)集合list_order中所有車輛信息info后,如果異常次數(shù)count_abSpeed大于3,則將該車牌號碼、異常次數(shù)等相關(guān)異常信息存入車輛速度異常集合。
(8)重復(fù)步驟(6)、(7),直到遍歷完所有的車牌號。
(9)將車輛速度異常集合中的數(shù)據(jù)存儲至Oracle數(shù)據(jù)庫中。其大致過程如圖3所示。
2.3?車輛出入異常挖掘模型建立
并行式車輛出入異常挖掘模型的構(gòu)建主要分為以下幾個步驟:
步驟(1)~步驟(5)與2.2節(jié)相同。
(6)刪除車輛信息info中車輛行駛方向為1或者2的info,僅保留為3和4的info。車輛行駛方向的含義見表1。
(7)針對每一個車牌號license,依次從集合list_order中遍歷取出相鄰車輛信息info中車輛行駛方向direction和拍攝時間time。當(dāng)相鄰車輛信息中車輛行駛方向同為3或者4,且時間差在1 h內(nèi)時,將此車牌號對應(yīng)的異常次數(shù)count_abInout加1。
(8)遍歷完該車牌號對應(yīng)集合list_order中所有車輛信息info后,如果異常次數(shù)count_abInout大于5,將該車牌號碼、異常次數(shù)等相關(guān)異常信息存入車輛出入異常集合。
(9)重復(fù)步驟(7)、(8),直到遍歷完所有的車牌號。
(10)將車輛出入異常集合中的數(shù)據(jù)存儲至Oracle數(shù)據(jù)庫中。
2.4?車輛頻繁出現(xiàn)異常挖掘模型建立
并行式車輛頻繁出現(xiàn)異常挖掘模型的構(gòu)建主要分為以下幾個步驟:
(1)程序讀取Oracle數(shù)據(jù)庫中的預(yù)處理過后的車流量數(shù)據(jù)表,生成RDD。
(2)將每條車輛記錄轉(zhuǎn)換為
(3)按車牌號license和拍攝日期date對所有元素進行聚合等操作,將RDD的每個元素轉(zhuǎn)化為
(4)將RDD的元素按frequency進行降序排序,并選取frequency排名前10%的車牌號,即一天內(nèi)出現(xiàn)頻率最高的10%的車輛。
(5)將步驟(4)中選出的車牌號的各天出現(xiàn)次數(shù)進行累加,得到
3?結(jié)果與分析
3.1?實驗環(huán)境與數(shù)據(jù)集
本文的實驗環(huán)境部署在由4臺4核8 GB內(nèi)存的服務(wù)器組成的Spark集群環(huán)境上。選取其中一臺作為Master節(jié)點,其他三臺作為Work節(jié)點。各節(jié)點的軟件部署見表2。
3.2?數(shù)據(jù)集預(yù)處理
本文研究采用實驗數(shù)據(jù)集為,某市高速公路2018年12月約800個拍攝卡口所錄入的真實車輛流數(shù)據(jù)以及各拍攝卡口信息。數(shù)據(jù)已經(jīng)過脫敏處理,車輛流數(shù)據(jù)規(guī)模約在9 000W條。
各拍攝卡口傳輸?shù)臄?shù)據(jù)通常含有屬性冗余特征,各種天氣因素環(huán)境因素、車速過快等,也會引起拍攝時的數(shù)據(jù)缺失、數(shù)據(jù)異常、屬性不完整等問題。因此在使用數(shù)據(jù)前,需要進行冗余屬性剪枝、異常數(shù)據(jù)剔除、缺失屬性補全等操作。預(yù)處理過后的數(shù)據(jù)集存入Oracle數(shù)據(jù)庫中。
車流量數(shù)據(jù)記錄了車輛每次經(jīng)過各拍攝卡口時被記錄下的車輛信息,選取12月1日~15日的數(shù)據(jù)集,經(jīng)過預(yù)處理過后得到的部分車流量數(shù)據(jù)表P1見表3。通過拍攝卡口信息可以查詢到各個拍攝卡口之間的行駛距離等信息,經(jīng)過預(yù)處理過后得到的部分拍攝卡口距離索引表P2見表4。
3.3?預(yù)測結(jié)果分析
本文采用第2節(jié)建立的3種車輛異常行為挖掘模型,在Spark分布式計算框架上對數(shù)據(jù)集P1進行數(shù)據(jù)挖掘。將高速公路12月警方真實稽查到的套牌車名單作為標(biāo)簽屬性,與異常挖掘結(jié)果構(gòu)成數(shù)據(jù)集P3,部分?jǐn)?shù)據(jù)集見表5。
使用Spark的MLlib組件構(gòu)建BP神經(jīng)網(wǎng)絡(luò)模型,設(shè)置模型的輸入層節(jié)點數(shù)為3,中間層節(jié)點數(shù)為4,輸出層節(jié)點數(shù)為2,傳遞函數(shù)為ReLU函數(shù)。選取數(shù)據(jù)集P3作為模型的數(shù)據(jù)集,并將數(shù)據(jù)集P3進行歸一化操作。為了增強模型的泛化能力,選取數(shù)據(jù)集中70%作為訓(xùn)練集,15%作為驗證集,15%作為測試集。
待模型經(jīng)訓(xùn)練完成后,選取P3測試集和P3全量數(shù)據(jù)集進行測試。為了提高稽查部門的效率,每半個月向稽查部門提交200名最可疑的套牌車輛名單,即分別選取測試結(jié)果中歸類為套牌車的前30位、140位進行驗證(按車輛速度異常次數(shù)的降序排序),對于全量集準(zhǔn)確率約為93%,測試集準(zhǔn)確率約為81%。
為了進一步驗證算法性能,本文選取傳統(tǒng)的卡口時間對比法進行對比實驗,該方法認(rèn)為同一個車牌不能在短時間內(nèi)出現(xiàn)在2個距離較遠的位置,運用最大速度不可達算法對卡口歷史監(jiān)測數(shù)據(jù)進行處理,從而檢測套牌車。選取12月15日~30日的車流量數(shù)據(jù)集,采用2種方法分別對5天、10天、15天的數(shù)據(jù)量進行測試,選取測試結(jié)果中歸為套牌車的前70位、130位、200位(按車輛速度異常次數(shù)的降序排序)作為最終結(jié)果,對比試驗結(jié)果見表6。
由此可見,與僅用卡口時間對比這單一手段檢測套牌車相比,本文方法考慮了多種異常因素,將誤判率降至約18%左右,能更有效地降低套牌車檢測的虛警率。另外,高速公路上大部分套牌車輛一般為有目的性的長期作案,隨著數(shù)據(jù)量的增多也能更好地提高檢測效果。而有效的學(xué)習(xí)能力使本文方法具有較好的適應(yīng)性,對提升高速公路稽查水平具有很大幫助。
4?結(jié)束語
針對當(dāng)前對于海量交通數(shù)據(jù)的套牌車檢測技術(shù)誤判率高的問題,本文提出了一種基于車輛異常行為的套牌車并行檢測方法。與傳統(tǒng)方法相比,本文提出的方法借助分布式架構(gòu),實現(xiàn)了對海量數(shù)據(jù)的挖掘。并建立多種相應(yīng)異常行為挖掘模型,考慮多種異常行為因素,以求達到降低誤判率的效果。最后通過實際數(shù)據(jù)驗證方法的有效性,從預(yù)測結(jié)果中得出,本文所提出的算法對于套牌車檢測的誤判率降低有著不錯的效果,對于降低了稽查部門工作強度,減少了大量人力審核資源方面,取得了令人滿意的效果。
不過,本文提出的方法還有一定欠缺。在套牌車判定過程中,對于閾值(速度閾值、各異常次數(shù)閾值等)的選擇可能會對結(jié)果造成不小的影響,在后續(xù)研究中,將考慮采用機器學(xué)習(xí)方面的算法來解決動態(tài)閾值方面的問題,提高算法的適應(yīng)性能力。
參考文獻
[1]徐鑫華. 淺談“套牌車”產(chǎn)生的原因、危害及對策[J]. 安全與健康,2007(10):22-23.
[2]?陳媛媛. 淺析套牌車輛的危害及整治對策[J]. 安全生產(chǎn)與監(jiān)督,2010(3):44-45.
[3]唐曉東. 套牌機動車輛檢測方法分析[J]. 中國人民公安大學(xué)學(xué)報(自然科學(xué)版), 2013, 19(2):76-79.
[4]?黃銀龍,王占斌,徐旭,等. 基于ISO/IEC18000-6B標(biāo)準(zhǔn)的RFID車卡防偽問題研究[J]. 中國電子商情(RFID技術(shù)與應(yīng)用),2008(5):39-42.
[5]?楊博. 物聯(lián)網(wǎng)ZigBee技術(shù)在套牌車監(jiān)管中的應(yīng)用研究[J]. 制造業(yè)自動化,2012,34(17):41-43.
[6]?黃小龍. 基于卡口車輛特征信息表達方法及其在車輛圖像智能分析系統(tǒng)中的應(yīng)用實現(xiàn)[D]. 廣州:中山大學(xué),2016.
[7]?笪東旭. 基于車臉識別的套牌車檢測方法研究[D]. 西安:西安電子科技大學(xué),2013.
[8]?盧曉春,周欣,蔣欣榮,等. 基于網(wǎng)格化監(jiān)控的套牌車檢測系統(tǒng)[J]. 計算機應(yīng)用,2009,29(10):2847-2848.
[9]?俞東進, 平利強, 李萬清,等. 一種基于 Hadoop 的套牌車識別方法:中國?CN104035954A[P]. 2014-09-10.
[10]王濤,王順,沈益民. 交通流大數(shù)據(jù)中的套牌車并行檢測算法[J]. 湖北工程學(xué)院學(xué)報,2014,34(6): 29-32.
[11]李悅. 大規(guī)模數(shù)據(jù)集關(guān)聯(lián)關(guān)系并行發(fā)現(xiàn)與優(yōu)化方法研究[D]. ?北京:北方工業(yè)大學(xué),2016.
[12]莫迪. 基于大數(shù)據(jù)分析的套牌實時檢測系統(tǒng)研究與實現(xiàn)[D]. 上海: 東華大學(xué),2017.
[13]姬倩倩. 公共交通大數(shù)據(jù)平臺架構(gòu)服務(wù)模式研究[D]. ?西安:西安電子科技大學(xué),2014.
[14]ITS. National intelligent transportation systems program plan: A ten-year vision[Z]. USA: The Intelligent Transportation Society of America and U.S. Department of Transportation,2002.
[15]SUNDERAM V S. Current trends in high performance parallel and distributed computing[C]// 7th International Parallel and Distributed Processing Symposium (IPDPS 2003). Nice, France:dblp, 2003:1.
[16]ZHU Tongyu, YU Jianjun, DU Bowen. RTIC-C: A cloud computing platform for history data mining of traffic information[C]// 2012 International Conference on Connected Vehicles and Expo (ICCVE). Beijing,China:IEEE, 2012:282-283.