劉昱崗,鄭 帥,徐旭東,王添碧,葉勁松
(1.西南交通大學(xué) 交通運輸與物流學(xué)院, 四川 成都 610031;2.西南交通大學(xué) 綜合交通運輸智能化國家地方聯(lián)合工程實驗室,四川 成都 610031; 3.交通運輸部科學(xué)研究院,北京 100088;4.四川省交通運輸發(fā)展戰(zhàn)略和規(guī)劃科學(xué)研究院,四川 成都 610001)
為響應(yīng)惠農(nóng)興農(nóng)的精神,四川省于2010年12月1日全面給予運輸鮮活農(nóng)產(chǎn)品車輛“綠色通道”政策支持。但一些不法車主利用該政策,通過“混裝”即在普通貨物上覆蓋一層鮮活農(nóng)產(chǎn)品的方式逃繳通行費,給高速運營部門帶來了巨大損失。現(xiàn)階段逃費行為頻發(fā),但針對假冒綠通車的稽查手段卻相對落后,主要依靠工作人員在車道現(xiàn)場對每輛出站綠通車開箱檢驗,極少數(shù)收費站安裝了放射源綠通車專業(yè)檢測設(shè)備。隨著鮮活農(nóng)產(chǎn)品運輸需求擴大,綠通車通行量增加,綠通車稽查工作面臨的檢查難、效率低、成本高、風(fēng)險大的難題更突出,成為高速公路稽查管理部門亟待解決的問題。
現(xiàn)階段大數(shù)據(jù)、數(shù)據(jù)挖掘技術(shù)已經(jīng)完全具備實際應(yīng)用能力,將其應(yīng)用到綠通車排查,可以為綠通車檢查工作提供決策參考,降低假冒綠通車成功逃費情況的發(fā)生概率,從而提高檢查假冒綠通車的效率及收費站通行效率。
國內(nèi)研究學(xué)者對高速公路綠通車稽查管理工作做了大量相關(guān)研究,主要從2個方面來解決假冒綠通車逃費的問題。一是通過優(yōu)化政策和完善制度來解決綠通車管理中存在的不足,二是通過運用放射源等檢測設(shè)備、圖像識別、數(shù)據(jù)挖掘、互聯(lián)網(wǎng)等新技術(shù)來檢查或管理綠通車。國外由于無“綠色通道”類似政策,其研究更多偏向高速公路收費政策、高速公路管理技術(shù)應(yīng)用等方面。陳力[1]認為在全面取消省界收費站且繼續(xù)執(zhí)行現(xiàn)有“綠色通道”政策的背景下,建議將綠通車傳統(tǒng)的“先檢查后免費”模式轉(zhuǎn)變?yōu)椤跋仁召M后退還”的模式,并根據(jù)綠通車誠信度建立分級備案機制,對誠信度高的車輛免檢、抽檢,對誠信度低的車輛必檢。牛建強等[2]建議建立鮮活農(nóng)產(chǎn)品基準密度庫,利用光電體積測算法獲取檢查車輛的裝載體積,再對比車輛裝載密度與基準密度的偏差,判斷是否混裝。熊文磊[3]以放射源掃描綠通車形成的特殊影像作為初始數(shù)據(jù)集,建立了一個具備影像識別功能的預(yù)測模型,并通過試驗分析證明了模型的有效性與先進性。孫曉寧[4]提出建立集數(shù)據(jù)采集、分析、處理為一體的便攜綠通查驗平臺,以實現(xiàn)多系統(tǒng)多平臺同步操作、聯(lián)動存儲、多角度監(jiān)控及移動監(jiān)管的功能。在數(shù)據(jù)挖掘技術(shù)方面,陳浩泰[5]基于生鮮車輛的高速通行數(shù)據(jù)利用Logistic回歸模型構(gòu)建了針對家禽肉的假冒綠通車分類模型,并有較好分類效果。申長春[6]針對綠通車的非均衡屬性采用機器學(xué)習(xí)的方法,并結(jié)合BP神經(jīng)網(wǎng)絡(luò),進一步提升了對假冒綠通車的分類效果。任文龍和申長春[6-7]針對綠通車的非均衡屬性采用機器學(xué)習(xí)的方法,利用收費記錄中的特征字段和偷逃通行費現(xiàn)象之間的關(guān)聯(lián),分析并設(shè)計了用于輔助收費稽查的BP神經(jīng)網(wǎng)絡(luò)模型,進一步提升了對假冒綠通車的分類效果。雷毅等[8]和張萌[9]對高速公路網(wǎng)內(nèi)綠通車流量進行數(shù)據(jù)分析,確定了綠通車檢查點的規(guī)劃布設(shè)來提高綠通車檢查資源的利用率。
綜上所述,目前對高速公路綠通車稽查方面的研究內(nèi)容不夠豐富,數(shù)據(jù)集和算法應(yīng)用的研究十分有限,僅有Logistic回歸模型和神經(jīng)網(wǎng)絡(luò)等算法在綠通車收費數(shù)據(jù)得到應(yīng)用。
機器學(xué)習(xí)作為預(yù)測性分析的常用方法,可從歷史假冒綠通車數(shù)據(jù)中獲取規(guī)律或模型,應(yīng)用到類似場景中。因此,本研究利用決策樹來建立假冒綠通車預(yù)測模型,并比較不同算法的預(yù)測準確率找出最優(yōu)的算法,通過預(yù)測車輛假冒綠通車的概率,提前預(yù)警提醒稽查工作人員重點檢查,以提高綠通車稽查效率。
2019年1月至3月,四川高速公路建設(shè)開發(fā)集團有限公司(簡稱“川高”)查獲了3 244起假冒綠通車通行事件。本研究以聯(lián)網(wǎng)收費系統(tǒng)的3 244輛假冒綠通車數(shù)據(jù)作為研究對象,并從系統(tǒng)中隨機導(dǎo)出2019年1月至3月12 976條正常綠通車通行數(shù)據(jù)為參照對象,提取數(shù)據(jù)的特征屬性,分析假冒綠通車逃費行為特征,并建立假冒綠通車逃費行為預(yù)測模型。
1.1.1數(shù)據(jù)屬性提取原則
(1)重要度。剔除車輛信息影響較小的屬性或其他無意義屬性,保留相對重要屬性(車輛行駛路徑與地理坐標等屬性)或增添其組合屬性。
(2)可靠度。利用貨車通行正態(tài)特征,采用拉依達分析方法剔除整體離散程度較大的屬性,保證數(shù)據(jù)特征的明顯性與可靠性。
1.1.2數(shù)據(jù)屬性范圍分析
經(jīng)預(yù)處理后,每條數(shù)據(jù)包含17個屬性:目標變量y,y∈{0,1},其結(jié)果表示數(shù)據(jù)車輛是否為假冒綠通車;車輛數(shù)據(jù)變量xij,包括車輛信息集合、收費站信息集合、通行過程信息集合3個方面,16個自變量,變量基本分析見表1。
表1 變量特征分析
考慮部分變量對車輛數(shù)據(jù)信息展示直觀度不強,采用變量組合運算,得到6個新增變量zi,見表2,以期從更全面的角度來分析假冒綠通車逃費行為。
表2 新增自變量基本統(tǒng)計分析
對2019年1月至3月川高查獲的3 244起假冒綠通車通行事件的通行數(shù)據(jù)進行逃費行為特征分析。
1.2.1時間特性
據(jù)圖1, 假冒綠通車通行在1周的分布差異性較大,在星期一和星期三查獲的假冒綠通車數(shù)量相對較少;入站高峰時期為18:00—24:00,出站高峰時期為凌晨1:00—7:00,且整個過程的行駛時間主要集中在4~10 h??紤]到綠通車檢查現(xiàn)狀是工作人員檢查記錄后放行,可能大部分假冒綠通車傾向于選擇工作人員比較疲憊和放松警惕的時間段入出收費站,如:晚上18:00—24:00、凌晨1:00—7:00。
圖1 假冒綠通車通行的時間特征Fig.1 Time characteristics of passing of fake TFLVs
1.2.2空間特性
川高在7個綠通車流量大站安裝了綠通車檢測設(shè)備,用于判斷車輛是否為綠通車。為判斷假冒綠通車的空間通行特性,針對本次采集到的假冒綠通車數(shù)據(jù)分析其OD屬性、路徑流向,得到以下特征:假冒綠通車OD屬性與行駛軌跡在空間均具有路徑集中趨勢,主要分布在鄰墊四川站-達渝四川站、棋盤關(guān)站-綿陽站、宜賓北站-大件站高速公路區(qū)間。
3 244輛假冒綠通車通過121個收費站進入、通過111個收費站離開高速公路網(wǎng)絡(luò),其中僅有6個站安裝了綠通車檢測設(shè)備。基于此特征分析:假冒綠通車在進出高速公路的過程中傾向于避開安裝綠通車檢測設(shè)備的收費站,選擇稽查強度薄弱的路段通行,其可能存在的路徑選擇情況見圖2。
圖2 假冒綠通車可能存在的路徑選擇情況Fig.2 Possible routing options for fake TFLVs
1.2.3其他特性
(1)車牌省籍
據(jù)圖3,假冒綠通車屬地主要為外省,占比63.63%,原因可能是外省綠色通道政策與四川省存在差異,并且外省通行信用記錄與四川省通行信用記錄不互通。
圖3 假冒綠通車車牌省籍情況Fig.2 License plate provincial status of fake TFLVs
(2)行駛特征
根據(jù)假冒綠通車的行駛均速與行駛距離頻率分布情況繪制分布函數(shù)曲線,如圖4所示。
圖4 假冒綠通車速度Fig.4 Travel speeds of fake TFLVs
如圖4所示,車輛旅行平均速度范圍是22~150 km/h,其中,46.54%的假冒綠通車速度處于高速公路規(guī)定貨車行駛速度范圍外:40.2%低于60 km/h,6.34%超速行駛,該部分車輛可能是為尋求離開高速公路合適時間而選擇滯留于服務(wù)區(qū)或加速行駛。
圖5 假冒綠通車行駛距離分布Fig.5 Distribution of travel distances of fake TFLVs
如圖5所示, 70.28%的假冒綠通車行駛距離集中在150~500 km的范圍,小部分車輛為短途運輸,造成該情況的原因可能是高速公路通行費用是根據(jù)車輛行駛距離與載貨重量來收取,當運輸距離較長時假冒成綠通車逃繳金額較高,對駕駛員利益誘惑更大。
(3)載重分析
假冒綠通車的實際載重情況如圖6所示。實際載重分別集中在3個區(qū)間,13.62%位于12~16 t之間、53.32%位于30~40 t之間、16.28%位于45~50 t之間。假冒綠通車的滿載率如圖7所示。9.43%的假冒綠通車滿載率超過100%,61.51%的假冒綠通車滿載率超過85%。造成該情況的主要原因可能是每次假冒綠通車載貨越多,越有利可圖。此外滿載率越高,車廂貨物堆積越緊密,工作人員檢查難度增加,假冒成功率增加。
圖6 假冒綠通車實際載重Fig.6 Actual loads of fake TFLVs
圖7 假冒綠通車滿載率情況Fig.7 Full load rates of fake TFLVs
分析了高速公路假冒綠通車的時空分布特征,以及在行駛特征、載重分析等方面的表現(xiàn)情況。
由于采集的原始綠通車通行數(shù)據(jù)集中,各類屬性的量綱不同,時空特征分布不均衡,取值范圍有一定的差異性,因此需要對綠通車數(shù)據(jù)集進行采樣、離散化、關(guān)聯(lián)項與共線性檢驗等系列預(yù)操作后,再進行建模分析。
綠通車數(shù)據(jù)集是典型的非平衡數(shù)據(jù)集,合格綠通車樣本為多數(shù)類,假冒綠通車樣本為少數(shù)類,因此本研究采用Synthetic Minority Oversampling Technique(SMOTE)對綠通車數(shù)據(jù)集進行平衡處理[10-12]。基于SMOTE算法改進形成的Borderline-SMOTE算法能很好地控制新合成的少數(shù)類樣本使其處于兩個類別的邊界附近,解決SMOTE算法導(dǎo)致的邊界模糊問題。
利用Borderline-SMOTE算法對12 976條正常綠通車通行數(shù)據(jù)和3 244假冒綠通車通行數(shù)據(jù)進行過采樣,得到12 976條假冒綠通車通行數(shù)據(jù),正負比由4∶1到1∶1,基本達到均衡數(shù)據(jù)集的目的。
本研究采用考慮樣本所屬類別信息的ChiMerge方法(卡方分箱法)對連續(xù)數(shù)據(jù)離散化預(yù)處理。該方法可以考慮到目標類別的信息差異性,也被稱為全局數(shù)據(jù)離散化方法[13]。具體操作為:按照特定的排序方法對通行數(shù)據(jù)集進行排序,并對數(shù)據(jù)離散區(qū)間計算卡方統(tǒng)計值,對統(tǒng)計值不滿足閾值的區(qū)間進行合并,直到離散的區(qū)間達到預(yù)期,停止離散過程。
選擇ROC曲線用于確定綠通車通行數(shù)據(jù)中連續(xù)型屬性離散化的區(qū)間劃分數(shù),利用曲線下面積(AUC)來表示離散區(qū)間個數(shù),離散過程的截止條件為離散后的綠通車數(shù)據(jù)能夠有效表達原始綠通車的通行數(shù)據(jù)特征[14-15]。利用ChiMerge算法將連續(xù)變量離散化,結(jié)果如表3所示。
表3 連續(xù)變量離散化結(jié)果
綠通車通行數(shù)據(jù)的屬性較多, 并不一定都是影響因素, 如果全部選入預(yù)測模型, 會影響運行時間和預(yù)測精度。先利用K-S檢驗檢驗連續(xù)值的正態(tài)性(sig>0.05, 服從正態(tài)分布), 再采用獨立t檢驗檢驗符合正態(tài)分布的連續(xù)值自變量與結(jié)果的關(guān)聯(lián)性(sig<0.05,有顯著性影響);采用Mann-WhitneyU檢驗,檢驗不具有正態(tài)分布特征的初始連續(xù)型屬性與結(jié)果的關(guān)聯(lián)性(U<0.05,有顯著性影響);采用Pearson卡方檢驗檢驗離散屬性與結(jié)果的關(guān)聯(lián)性(χ2<0.05,有顯著性影響)。通過檢驗各自變量與結(jié)果的關(guān)聯(lián)性,分析各自變量對結(jié)果的影響,并選取合適的自變量。
結(jié)果顯示x11(省籍類型),x12(貨車軸數(shù)),x14(限載重量),x23,x26(出入口站安裝綠通車檢查設(shè)備情況)的Pearson卡方檢驗值χ2<0.01,因此這4類屬性與車輛是否為假冒綠通車具有較大的關(guān)聯(lián)性。
為保證模型預(yù)測結(jié)果的可靠性,需要對自變量進行屬性約簡,減少合并具有共線性的屬性。首先采用容忍度和方差膨脹因子的方法來判斷屬性的共線狀態(tài),進而得到離散數(shù)據(jù)轉(zhuǎn)化的協(xié)方差矩陣,并計算協(xié)方差矩陣的特征根與對應(yīng)的特征向量,再根據(jù)特征根的貢獻程度判斷自變量的重要程度[16-17]。最后將通過關(guān)聯(lián)項檢驗和共線性檢驗的屬性選入假冒綠通車逃費行為預(yù)測模型。
根據(jù)結(jié)果,將x12(貨車軸數(shù))、x14(限載重量)、z2(載重差)、z1(滿載率)剔除,不放入分類預(yù)測模型。
對綠通車通行數(shù)據(jù)的22個屬性進行關(guān)聯(lián)項和共線性檢驗后,共剔除x12(貨車軸數(shù))、x13(實際載重)、x14(限載重量)、x31(入站日期)、x33(出站日期)、z1(滿載率)、z2(載重差)7個屬性,不計入x21,x22,x24,x25(出入口站經(jīng)緯度)采用其組合屬性,共得到11個屬性。
經(jīng)上述處理,再將數(shù)據(jù)集劃分為測試數(shù)據(jù)集(正常綠通車通行數(shù)據(jù)6 488條+假冒綠通車通行數(shù)據(jù)6 488條)和訓(xùn)練數(shù)據(jù)集(正常綠通車通行數(shù)據(jù)6 488 條+假冒綠通車通行數(shù)據(jù)6 488條)。
決策樹是一種研究對象的屬性即xij與對象的值即y之間的映射關(guān)系的樹結(jié)構(gòu)模型[18]。決策樹建模流程如圖8所示。
圖8 決策樹建模流程Fig.8 Flowchart of decision tree modeling
本研究需要區(qū)分車輛是否為假冒綠通車,是一個二分類變量。因此用CART算法來構(gòu)造逃費行為決策樹,將基尼系數(shù)作為最小分類標準?;嵯禂?shù)的計算如下:
(1)
式中,k為車輛是否為假冒綠通車;pi為決策輸出變量屬于第k類的概率值。
據(jù)表4的決策樹模型分類結(jié)果來看,對正常綠通車的判斷能力達到97.0%,對假冒綠通車的識別效果為83.4%。總體來說對假冒綠通車逃費行為的識別效果較好,驗證數(shù)據(jù)的準確率高達90.2%。由預(yù)測結(jié)果繪制混淆矩陣見圖9。
表4 決策樹模型分類預(yù)測結(jié)果
圖9 決策樹模型的混淆矩陣Fig.9 Confusion matrix of decision tree model
決策樹模型的自變量見表5,其中連續(xù)型變量需離散化才能利用決策樹建模,前文利用ChiMerge算法對連續(xù)型變量實現(xiàn)離散化,并利用ROC曲線確定最優(yōu)的區(qū)間劃分方式。利用基于基尼系數(shù)的CART算法來構(gòu)造決策樹,按照基尼系數(shù)的大小,從小到大、從上至下生成子節(jié)點,直到?jīng)Q策樹不可分枝為止。
表5 選入決策樹的變量及變量的重要程度
圖10 假冒綠通車逃費行為決策樹結(jié)構(gòu)Fig.10 Decision tree structure of fake TFLVs evasion behaviors
最終表5的11個變量均被納入決策樹模型,未剔除任何變量。但這11個變量對模型的貢獻程度不同,其中最重要的變量是z5(旅行時間),說明假冒綠通車與正常綠通車在高速公路上行駛的旅行時間分布有較大差別。
據(jù)圖10可知,假冒綠通車逃費行為決策樹結(jié)構(gòu)中,與假冒綠通車逃費行為顯著相關(guān)的變量有z5(旅行時間)、z4(出站位置)、x35(免費金額)、x36(行駛距離)和z6(行駛均速)等,總結(jié)出假冒綠通車逃費行為特征如下。
特征1:大部分假冒綠通車逃費行為的x35(免費金額)處在中等水平,即[544, 874]和 [876, 1 060]2個范圍之內(nèi),原因可能是免費金額太低不值得犯險、免費金額太高在收費站勢必面臨更加嚴格的檢查,假冒成功的概率降低。
特征2:大部分假冒綠通車逃費行為z6(行駛均速)處在2個極端,即[0, 59.918 5]和[89.898 8,+∞],而大部分合格綠通車則處在[59.918 5, 89.898 8]。原因可能是假冒綠通車的駕駛員在等待或趕上某個時機離開收費站,這個特殊時機可能是綠色通道擁堵,大量綠通車排隊,導(dǎo)致工作人員只能快速檢查并放行,還可能是工作人員稽查強度的薄弱時段。
特征3:假冒綠通車與正常綠通車的z4(出站位置)也有明顯區(qū)別,原因可能是假冒綠通車行駛軌跡在空間具有路徑集中趨勢,在進出高速公路的過程中傾向于避開安裝了綠通車檢測設(shè)備的收費站,選擇稽查強度薄弱的路段通行。
本研究采用Logistic回歸模型和隨機森林模型進行假冒綠通車逃費行為建模分析,并將其分析結(jié)果與決策樹模型的分類結(jié)果進行比較。
Logistic回歸模型是一種利用變量間相互作用的概率作為指標的預(yù)測模型,可以弱化不同量綱屬性的多類別屬性對結(jié)果的影響,因此可以用于預(yù)測車輛是否為假冒綠通車[19]。表6為Logistic模型對假冒綠通車的分類預(yù)測情況,Logistic模型對正常綠通車的判斷能力更精準,達到98.7%,但是對假冒綠通車的識別效果不是十分理想,只有61.8%。
表6 Logistic模型分類預(yù)測結(jié)果
隨機森林是目前比較流行且對回歸和分類問題有很好效果的算法[18]。將隨機森林模型應(yīng)用到假冒綠通車逃費行為分類預(yù)測,結(jié)果如表7所示,其預(yù)測假冒綠通車的能力和Logistic回歸模型的預(yù)測能力相似,可以達到97.4%,但對假冒綠通車的識別效果不是十分理想,只有81%。
表7 隨機森林模型分類預(yù)測結(jié)果
利用測試數(shù)據(jù)集來驗證3個模型的分類效果,并繪出各個模型的ROC曲線(圖11),計算各個模型的AUC值,結(jié)果見表8。認為AUC值最大的模型分類效果較好,為較優(yōu)的模型。
圖11 ROC曲線Fig.11 ROC curve
3個模型均能夠達到分類預(yù)測能力,但相較于分析對假冒綠通車的識別,決策樹模型對測試集數(shù)據(jù)的反映效果最佳。因此決策樹模型對假冒綠通車的識別效果優(yōu)于Logistic回歸模型和隨機森林模型。
實際應(yīng)用中,車輛在進入高速公路時將車輛入口時間、坐標等信息錄入高速公路車輛收費系統(tǒng),待綠通車到達出口收費站時,增添車輛到達收費站的出口時間、坐標等收費通行數(shù)據(jù);利用假冒綠通車逃費行為預(yù)測模型,根據(jù)車輛行程數(shù)據(jù)預(yù)測其為假冒綠通車的概率值;工作人員可根據(jù)經(jīng)驗設(shè)定概率值標準,若概率值標準為70%,則將假冒綠通車概率值高于70%的車輛列為重點嫌疑對象,提前預(yù)警工作人員,為綠通車檢查工作提供決策參考,把有限資源集中在重點對象上,提升綠通車檢查的針對性,具體操作流程如圖12所示。
表8 三種模型的ROC曲線下面積
圖12 假冒綠通車預(yù)測操作流程Fig.12 Predictive operation process of fake TFLVs
以高速公路假冒綠通車逃費行為為研究對象,基于聯(lián)網(wǎng)收費系統(tǒng)的綠通車通行數(shù)據(jù),建立了假冒綠通車逃費行為預(yù)測模型。
(1)利用Borderline-SMOTE算法過采樣來平衡數(shù)據(jù)集,使得正常綠通車通行數(shù)據(jù)和假冒綠通車通行數(shù)據(jù)的正負比由4∶1到1∶1,達到均衡數(shù)據(jù)集的目的。
(2)采用ChiMerge方法離散化連續(xù)型數(shù)據(jù),選擇ROC曲線確定綠通車通行數(shù)據(jù)中連續(xù)型屬性離散化的區(qū)間劃分數(shù)。把免費金額、入站時間、出站時間、行駛距離、入站位置、出站位置、旅行時間、行駛均速8個變量,分別劃分為6至7個區(qū)間。
(3)采用K-S檢驗、獨立t檢驗、Mann-WhitneyU檢驗、Pearson卡方檢驗進行關(guān)聯(lián)性檢驗,利用容忍度和方差膨脹因子判斷自變量的共線情況,共剔除貨車軸數(shù)、實際載重)、限載重量、入站日期、出站日期、滿載率)、載重差7個屬性。
(4)對處理后的綠通車通行數(shù)據(jù),運用決策樹來建立預(yù)測建模,得出其對假冒綠通車逃費行為的預(yù)測準確率為83.4%,優(yōu)于其他模型,能為綠通車檢查工作人員提供有效決策參考,提升工作效率。
由于外界因素的約束和自身能力的限制,論文還存在一些不足和值得進一步思考和研究的問題:
(1)本研究工作是基于四川省部分綠通車2019年1月至3月的通行數(shù)據(jù)展開的,可供離散挖掘的數(shù)據(jù)體量有限,為了最大程度反映出綠通車通行特征,未來工作將擴大數(shù)據(jù)量進行研究,提高假冒綠通車逃費行為分類模型的預(yù)測效果,防止出現(xiàn)過擬合問題。
(2)本研究選取的高速公路綠通車通行特征的屬性還不夠全面,屬性的選取方式還不夠科學(xué),未來將進一步優(yōu)化綠通車通行數(shù)據(jù)集的結(jié)構(gòu)設(shè)計。