基于車輛異常行為的套牌車并行檢測方法

2019-07-01 02:35康晨傲曾獻輝

智能計算機與應(yīng)用 2019年3期

康晨傲曾獻輝

摘要：面對套牌車問題，當(dāng)前檢測技術(shù)誤判率居高不下，稽查部門需要消耗大量人力資源審核檢測結(jié)果。為了降低套牌車檢測的誤判率和虛警率，提出了一種基于車輛異常行為的套牌車并行檢測方法。確立數(shù)種與套牌車相關(guān)聯(lián)的車輛異常行為因素，針對海量通行數(shù)據(jù)，利用分布式架構(gòu)建立相應(yīng)異常行為的挖掘算法模型，并對某市高速公路的真實海量交通流數(shù)據(jù)進行挖掘;利用BP神經(jīng)網(wǎng)絡(luò)算法建立模型并對數(shù)種異常行為挖掘結(jié)果進行訓(xùn)練，從而綜合考慮多種異常行為因素得出套牌車檢測結(jié)果。研究結(jié)果表明，該并行檢測算法有效地降低套牌車誤判率至18%，可大幅度提高稽查人員的工作效率。

關(guān)鍵詞：套牌車檢測;車輛異常行為;大數(shù)據(jù);并行;Spark;高速公路

文章編號： 2095-2163（2019）03-0011-06?中圖分類號： TP391?文獻標(biāo)志碼： A

0?引?言

套牌車是指不法分子偽造和非法套取真牌車的號牌，使非法車輛在表面披上了“合法”的外衣。近年來，隨著人們生活水平日益增高，機動車的數(shù)量日漸普及，為了逃避稅費、逃避交通違法或處理查究、走私、拼裝、報廢和盜搶來的車輛等，套牌車這類違法現(xiàn)象也在不時發(fā)生。嚴(yán)重影響了正常的交通秩序，同時更侵犯了他人的合法權(quán)益，成為了交通治安管理中的突出問題，難點問題[1-2]。

目前，有關(guān)套牌車檢測技術(shù)方面的主要研究有以下幾類：

文獻[3]對機動車車牌和牌照框進行了改造，以方便交警辨別套牌車。但這也使得車牌的制造和丟失后的重制成本大大提高。文獻[4-5]分別運用RFID和ZigBee技術(shù)將車輛信息進行加密存入電子標(biāo)簽中，并將電子標(biāo)簽植入機動車。但這類方法面臨著車主的支持、政府的大量資金投資和推廣、電子標(biāo)簽的篡改和偽造等諸多問題。文獻[6-7]介紹了基于視頻圖像識別技術(shù)的車臉識別套牌車檢測技術(shù)。但這類方法在識別同色同型號的套牌車、光線不佳、天氣惡劣等情況時，識別率的表現(xiàn)不佳。迄至目前，以卡口時間對比法為代表的軟件套牌車檢測技術(shù)因其成本低、且實效性強的優(yōu)勢被廣泛使用。文獻[8]提出了一種基于網(wǎng)格化監(jiān)控的套牌車檢測系統(tǒng)，按照一輛車不可能“同時”出現(xiàn)在2個地點的原理，自動完成套牌檢測。文獻[9-10]提出了基于MapReduce的并行式套牌車檢測模型，解決大規(guī)模數(shù)據(jù)下的套牌車檢測問題。文獻[11]提出一種基于歷史車牌識別數(shù)據(jù)集的套牌車并行檢測方法TP-Finder。文獻[12]提出了動態(tài)速度閾值的套牌車檢測方法。

而隨著圖像識別技術(shù)、傳感器技術(shù)、視頻監(jiān)控設(shè)備等信息采集、識別技術(shù)的發(fā)展和普及，使得人們可以通過各類采集設(shè)備獲得多維的海量交通數(shù)據(jù)存入到數(shù)據(jù)庫中[13]。據(jù)統(tǒng)計，就國內(nèi)某市高速公路的交通數(shù)據(jù)采集來說，每月就要存儲超過100 G的數(shù)據(jù)。如何基于這樣的大規(guī)模車輛通行數(shù)據(jù)，盡可能準(zhǔn)確地檢測出套牌車成為了一個關(guān)鍵的挑戰(zhàn)，而利用分布式架構(gòu)的并行計算就成為了首選手段[13-15]。

雖然當(dāng)前在針對海量交通數(shù)據(jù)的并行式處理技術(shù)方面已有一些研究成果，但在套牌車檢測方面仍存在較高的誤判率（把正常車輛或者超速車輛等誤歸為套牌車），稽查部門需要將大量的警力消耗在對于檢測結(jié)果的人工審核和確認(rèn)上。針對當(dāng)前套牌車檢測技術(shù)誤判率、虛警率較高這個問題，本文提出了一種基于車輛異常行為的套牌車并行檢測方法。研究時，首先確立數(shù)種與套牌車相關(guān)聯(lián)的車輛異常行為因素，利用分布式架構(gòu)建立相應(yīng)異常行為的挖掘算法模型，并對海量交通流數(shù)據(jù)進行挖掘。利用BP神經(jīng)網(wǎng)絡(luò)算法建立模型，再對數(shù)種異常行為挖掘結(jié)果進行訓(xùn)練，從而綜合考慮多種異常行為因素得出套牌車檢測結(jié)果，以達到降低誤判率的效果。

1?套牌車相關(guān)的車輛異常行為確立

1.1?車輛速度異常

正常車輛在較短的時間內(nèi)行駛的距離應(yīng)該在一個合理的閾值范圍內(nèi)，如果在較短時間內(nèi)車輛行駛了遠遠超出閾值的距離，即發(fā)生了該車輛“同時”出現(xiàn)在了2個地方的時空矛盾現(xiàn)象，則該車輛可能出現(xiàn)套牌現(xiàn)象。

1.2?車輛出入異常

如果車輛在某一時刻出（進入）高速公路，而在該車牌號的車輛未進入（出）高速公路的情況下，又發(fā)現(xiàn)相同車牌號的車輛不久后在任意出入站點再次出（進入）高速公路。該車牌號的車輛連續(xù)多次出（入）高速公路，則該車輛可能出現(xiàn)套牌現(xiàn)象。

1.3?車輛頻繁出現(xiàn)異常

如果車輛被套牌，在一定時間內(nèi)因其會頻繁經(jīng)過拍攝卡口，其車牌號被記錄在車流量大數(shù)據(jù)中的概率必然增加。因此可以針對某段時間內(nèi)在車輛流大數(shù)據(jù)中出現(xiàn)頻率較高的車牌號進行挖掘。

2?車輛異常行為挖掘模型建立

本文在Spark分布式計算框架上，進行車輛異常行為挖掘模型的搭建。并選取某市高速公路的車流量數(shù)據(jù)作為數(shù)據(jù)集，車流量數(shù)據(jù)記錄了車輛每次經(jīng)過各拍攝卡口時所被記錄下的車輛信息，包括：車牌號（license）、拍攝時間（time）、拍攝卡口ID（id）、車輛行駛方向（direction）。對此擬展開研究論述如下。

2.1?Spark分布式計算框架

Spark是一種通用而且高效的分布式內(nèi)存計算框架，這是基于內(nèi)存的計算方式，能有效提高在大數(shù)據(jù)環(huán)境下的計算效率，同時保證高容錯性和高可伸縮性。Spark采用master-slave結(jié)構(gòu)，主節(jié)點上運行名稱為Master的守護進程，負責(zé)對整個集群的監(jiān)控和任務(wù)分配，從節(jié)點上運行名稱為Worker的守護進程，接收來自主節(jié)點的任務(wù)并交由該結(jié)點上的 Executor執(zhí)行該任務(wù)。

彈性分布式數(shù)據(jù)集（RDD）是Spark的核心數(shù)據(jù)結(jié)構(gòu)，RDD內(nèi)部的數(shù)據(jù)集合在邏輯和物理上都被劃分成多個子集合，這樣的每一個子集合將其稱為分區(qū)（partitions），每一個分區(qū)數(shù)值的計算都是在一個單獨的任務(wù)中進行，因此并行任務(wù)的個數(shù)，也是由RDD分區(qū)的個數(shù)所決定。

Spark程序是由對RDD的操作構(gòu)成的，如讀取文件是一個RDD，對文件計算是一個RDD，結(jié)果集也是一個RDD。程序先通過輸入數(shù)據(jù)創(chuàng)建出一系列RDD;再使用轉(zhuǎn)化（Transformation）操作對一個RDD進行計算后，將其轉(zhuǎn)化成另外一個RDD，然后這個RDD又可以進行下一次轉(zhuǎn)化;最后使用行動操作（Action）對RDD計算出一個結(jié)果，并把結(jié)果存儲到外部存儲系統(tǒng)（比如HDFS、ORACLE等）中，運行流程如圖1所示。

2.2?車輛速度異常挖掘模型建立

車輛速度異常判斷依據(jù)：車牌號為N的車輛，在T1時刻經(jīng)過編號為ID_A的拍攝卡口A。車牌號同為N的車在T2時刻經(jīng)過編號為ID_B的拍攝卡口B?？贏和卡口B之間的平均行駛距離為Y千米，計算該車輛的行駛速度為：

設(shè)置車輛速度最大閾值為Vmax。若V≤Vmax，則說明該車輛從A卡口行駛到B卡口是符合正常情況的;但若V≥Vmax，車速已超過最大閾值，則說明該車輛不可能在T2 -T1的時間內(nèi)從卡口A行駛到卡口B。

例如，車牌號為浙AB1234車輛的部分車輛行駛記錄如圖2所示，該車輛于08點00分經(jīng)過拍攝卡口1011處，又于08點15分經(jīng)過拍攝卡口1018處，經(jīng)查詢得兩拍攝卡口之間的平均行駛距離為50 km，設(shè)置的閾值速度Vmax為140 km/h。根據(jù)公式（1）計算得該車輛的行駛速度V=200 km/h，超出閾值速度，則該車輛出現(xiàn)車輛速度異常現(xiàn)象。

并行式車輛速度異常挖掘模型的構(gòu)建主要分為以下幾個步驟：

（1）程序讀取Oracle數(shù)據(jù)庫中的預(yù)處理過后的車流量數(shù)據(jù)表生成RDD，其中RDD的每個元素為每條車輛記錄。

（2）將每條車輛記錄轉(zhuǎn)化為形如的元組形式，作為RDD的每個元素。其中， license為車牌號，info為該條記錄的車輛信息（license， time， id， direction）。

（3）按車牌號license對所有元素進行聚合操作，將車牌號相同的所有車輛信息info聚合在一起。即：將RDD的每個元素轉(zhuǎn)化為>的元組形式，其中l(wèi)ist< info >為存儲該車牌號所有車輛信息的集合。

（4）對集合list中的所有車輛信息info按照拍攝時間進行升序排序，將RDD的每個元素轉(zhuǎn)化為形如>的元組形式。

（5）對于集合list_order中車輛信息info的數(shù)量只有一條的元素，在RDD中刪除該元素。

（6）針對每一個車牌號，依次從集合list_order中遍歷取出相鄰的車輛信息info，并根據(jù)公式（1）進行異常行為判斷：如果車輛速度超出閾值，則此車牌號對應(yīng)的異常次數(shù)count_abSpeed加1（初始為0）。

（7）遍歷完該車牌號對應(yīng)集合list_order中所有車輛信息info后，如果異常次數(shù)count_abSpeed大于3，則將該車牌號碼、異常次數(shù)等相關(guān)異常信息存入車輛速度異常集合。

（8）重復(fù)步驟（6）、（7），直到遍歷完所有的車牌號。

（9）將車輛速度異常集合中的數(shù)據(jù)存儲至Oracle數(shù)據(jù)庫中。其大致過程如圖3所示。

2.3?車輛出入異常挖掘模型建立

并行式車輛出入異常挖掘模型的構(gòu)建主要分為以下幾個步驟：

步驟（1）～步驟（5）與2.2節(jié)相同。

（6）刪除車輛信息info中車輛行駛方向為1或者2的info，僅保留為3和4的info。車輛行駛方向的含義見表1。

（7）針對每一個車牌號license，依次從集合list_order中遍歷取出相鄰車輛信息info中車輛行駛方向direction和拍攝時間time。當(dāng)相鄰車輛信息中車輛行駛方向同為3或者4，且時間差在1 h內(nèi)時，將此車牌號對應(yīng)的異常次數(shù)count_abInout加1。

（8）遍歷完該車牌號對應(yīng)集合list_order中所有車輛信息info后，如果異常次數(shù)count_abInout大于5，將該車牌號碼、異常次數(shù)等相關(guān)異常信息存入車輛出入異常集合。

（9）重復(fù)步驟（7）、（8），直到遍歷完所有的車牌號。

（10）將車輛出入異常集合中的數(shù)據(jù)存儲至Oracle數(shù)據(jù)庫中。

2.4?車輛頻繁出現(xiàn)異常挖掘模型建立

并行式車輛頻繁出現(xiàn)異常挖掘模型的構(gòu)建主要分為以下幾個步驟：

（1）程序讀取Oracle數(shù)據(jù)庫中的預(yù)處理過后的車流量數(shù)據(jù)表，生成RDD。

（2）將每條車輛記錄轉(zhuǎn)換為的元組形式，來作為RDD中的每個元素。其中，date為從拍攝時間中提取出的日期（例如2018/12/01）。

（3）按車牌號license和拍攝日期date對所有元素進行聚合等操作，將RDD的每個元素轉(zhuǎn)化為的元組形式。其中，frequency為該車牌號在一天內(nèi)被記錄在數(shù)據(jù)集中的次數(shù)。

（4）將RDD的元素按frequency進行降序排序，并選取frequency排名前10%的車牌號，即一天內(nèi)出現(xiàn)頻率最高的10%的車輛。

（5）將步驟（4）中選出的車牌號的各天出現(xiàn)次數(shù)進行累加，得到的形式的元組，并將車牌號和總被記錄次數(shù)存儲至Oracle數(shù)據(jù)庫中。

3?結(jié)果與分析

3.1?實驗環(huán)境與數(shù)據(jù)集

本文的實驗環(huán)境部署在由4臺4核8 GB內(nèi)存的服務(wù)器組成的Spark集群環(huán)境上。選取其中一臺作為Master節(jié)點，其他三臺作為Work節(jié)點。各節(jié)點的軟件部署見表2。

3.2?數(shù)據(jù)集預(yù)處理

本文研究采用實驗數(shù)據(jù)集為，某市高速公路2018年12月約800個拍攝卡口所錄入的真實車輛流數(shù)據(jù)以及各拍攝卡口信息。數(shù)據(jù)已經(jīng)過脫敏處理，車輛流數(shù)據(jù)規(guī)模約在9 000W條。

各拍攝卡口傳輸?shù)臄?shù)據(jù)通常含有屬性冗余特征，各種天氣因素環(huán)境因素、車速過快等，也會引起拍攝時的數(shù)據(jù)缺失、數(shù)據(jù)異常、屬性不完整等問題。因此在使用數(shù)據(jù)前，需要進行冗余屬性剪枝、異常數(shù)據(jù)剔除、缺失屬性補全等操作。預(yù)處理過后的數(shù)據(jù)集存入Oracle數(shù)據(jù)庫中。

車流量數(shù)據(jù)記錄了車輛每次經(jīng)過各拍攝卡口時被記錄下的車輛信息，選取12月1日～15日的數(shù)據(jù)集，經(jīng)過預(yù)處理過后得到的部分車流量數(shù)據(jù)表P1見表3。通過拍攝卡口信息可以查詢到各個拍攝卡口之間的行駛距離等信息，經(jīng)過預(yù)處理過后得到的部分拍攝卡口距離索引表P2見表4。

3.3?預(yù)測結(jié)果分析

本文采用第2節(jié)建立的3種車輛異常行為挖掘模型，在Spark分布式計算框架上對數(shù)據(jù)集P1進行數(shù)據(jù)挖掘。將高速公路12月警方真實稽查到的套牌車名單作為標(biāo)簽屬性，與異常挖掘結(jié)果構(gòu)成數(shù)據(jù)集P3，部分?jǐn)?shù)據(jù)集見表5。

使用Spark的MLlib組件構(gòu)建BP神經(jīng)網(wǎng)絡(luò)模型，設(shè)置模型的輸入層節(jié)點數(shù)為3，中間層節(jié)點數(shù)為4，輸出層節(jié)點數(shù)為2，傳遞函數(shù)為ReLU函數(shù)。選取數(shù)據(jù)集P3作為模型的數(shù)據(jù)集，并將數(shù)據(jù)集P3進行歸一化操作。為了增強模型的泛化能力，選取數(shù)據(jù)集中70%作為訓(xùn)練集，15%作為驗證集，15%作為測試集。

待模型經(jīng)訓(xùn)練完成后，選取P3測試集和P3全量數(shù)據(jù)集進行測試。為了提高稽查部門的效率，每半個月向稽查部門提交200名最可疑的套牌車輛名單，即分別選取測試結(jié)果中歸類為套牌車的前30位、140位進行驗證（按車輛速度異常次數(shù)的降序排序），對于全量集準(zhǔn)確率約為93%，測試集準(zhǔn)確率約為81%。

為了進一步驗證算法性能，本文選取傳統(tǒng)的卡口時間對比法進行對比實驗，該方法認(rèn)為同一個車牌不能在短時間內(nèi)出現(xiàn)在2個距離較遠的位置，運用最大速度不可達算法對卡口歷史監(jiān)測數(shù)據(jù)進行處理，從而檢測套牌車。選取12月15日～30日的車流量數(shù)據(jù)集，采用2種方法分別對5天、10天、15天的數(shù)據(jù)量進行測試，選取測試結(jié)果中歸為套牌車的前70位、130位、200位（按車輛速度異常次數(shù)的降序排序）作為最終結(jié)果，對比試驗結(jié)果見表6。

由此可見，與僅用卡口時間對比這單一手段檢測套牌車相比，本文方法考慮了多種異常因素，將誤判率降至約18%左右，能更有效地降低套牌車檢測的虛警率。另外，高速公路上大部分套牌車輛一般為有目的性的長期作案，隨著數(shù)據(jù)量的增多也能更好地提高檢測效果。而有效的學(xué)習(xí)能力使本文方法具有較好的適應(yīng)性，對提升高速公路稽查水平具有很大幫助。

4?結(jié)束語

針對當(dāng)前對于海量交通數(shù)據(jù)的套牌車檢測技術(shù)誤判率高的問題，本文提出了一種基于車輛異常行為的套牌車并行檢測方法。與傳統(tǒng)方法相比，本文提出的方法借助分布式架構(gòu)，實現(xiàn)了對海量數(shù)據(jù)的挖掘。并建立多種相應(yīng)異常行為挖掘模型，考慮多種異常行為因素，以求達到降低誤判率的效果。最后通過實際數(shù)據(jù)驗證方法的有效性，從預(yù)測結(jié)果中得出，本文所提出的算法對于套牌車檢測的誤判率降低有著不錯的效果，對于降低了稽查部門工作強度，減少了大量人力審核資源方面，取得了令人滿意的效果。

不過，本文提出的方法還有一定欠缺。在套牌車判定過程中，對于閾值（速度閾值、各異常次數(shù)閾值等）的選擇可能會對結(jié)果造成不小的影響，在后續(xù)研究中，將考慮采用機器學(xué)習(xí)方面的算法來解決動態(tài)閾值方面的問題，提高算法的適應(yīng)性能力。

參考文獻

[1]徐鑫華. 淺談“套牌車”產(chǎn)生的原因、危害及對策[J]. 安全與健康，2007（10）：22-23.

[2]?陳媛媛. 淺析套牌車輛的危害及整治對策[J]. 安全生產(chǎn)與監(jiān)督，2010（3）：44-45.

[3]唐曉東. 套牌機動車輛檢測方法分析[J]. 中國人民公安大學(xué)學(xué)報（自然科學(xué)版）， 2013， 19（2）：76-79.

[4]?黃銀龍，王占斌，徐旭，等. 基于ISO/IEC18000-6B標(biāo)準(zhǔn)的RFID車卡防偽問題研究[J]. 中國電子商情（RFID技術(shù)與應(yīng)用），2008（5）：39-42.

[5]?楊博. 物聯(lián)網(wǎng)ZigBee技術(shù)在套牌車監(jiān)管中的應(yīng)用研究[J]. 制造業(yè)自動化，2012，34（17）：41-43.

[6]?黃小龍. 基于卡口車輛特征信息表達方法及其在車輛圖像智能分析系統(tǒng)中的應(yīng)用實現(xiàn)[D]. 廣州：中山大學(xué)，2016.

[7]?笪東旭. 基于車臉識別的套牌車檢測方法研究[D]. 西安：西安電子科技大學(xué)，2013.

[8]?盧曉春，周欣，蔣欣榮，等. 基于網(wǎng)格化監(jiān)控的套牌車檢測系統(tǒng)[J]. 計算機應(yīng)用，2009，29（10）：2847-2848.

[9]?俞東進，平利強，李萬清，等. 一種基于 Hadoop 的套牌車識別方法：中國?CN104035954A[P]. 2014-09-10.

[10]王濤，王順，沈益民. 交通流大數(shù)據(jù)中的套牌車并行檢測算法[J]. 湖北工程學(xué)院學(xué)報，2014，34（6）： 29-32.

[11]李悅. 大規(guī)模數(shù)據(jù)集關(guān)聯(lián)關(guān)系并行發(fā)現(xiàn)與優(yōu)化方法研究[D]. ?北京：北方工業(yè)大學(xué)，2016.

[12]莫迪. 基于大數(shù)據(jù)分析的套牌實時檢測系統(tǒng)研究與實現(xiàn)[D]. 上海：東華大學(xué)，2017.

[13]姬倩倩. 公共交通大數(shù)據(jù)平臺架構(gòu)服務(wù)模式研究[D]. ?西安：西安電子科技大學(xué)，2014.

[14]ITS. National intelligent transportation systems program plan： A ten-year vision[Z]. USA： The Intelligent Transportation Society of America and U.S. Department of Transportation，2002.

[15]SUNDERAM V S. Current trends in high performance parallel and distributed computing[C]// 7th International Parallel and Distributed Processing Symposium （IPDPS 2003）. Nice， France：dblp， 2003：1.

[16]ZHU Tongyu， YU Jianjun， DU Bowen. RTIC-C： A cloud computing platform for history data mining of traffic information[C]// 2012 International Conference on Connected Vehicles and Expo （ICCVE）. Beijing，China：IEEE， 2012：282-283.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于車輛異常行為的套牌車并行檢測方法