王 偉
(河北交通投資集團(tuán)公司,河北 石家莊 050091)
高速公路作為我國(guó)重要的交通樞紐,對(duì)經(jīng)濟(jì)的發(fā)展起到了促進(jìn)的作用。截止到2015年,中國(guó)高速公路通車總里程達(dá)12萬(wàn)km,管理和監(jiān)控難度又上了一個(gè)新的臺(tái)階。隨著我國(guó)高速公路不斷發(fā)展,高速公路收費(fèi)系統(tǒng)逐步實(shí)現(xiàn)現(xiàn)代化建設(shè),高速公路的收費(fèi)效率得到明顯的提高。同時(shí),各個(gè)系統(tǒng)也產(chǎn)生了大量的數(shù)據(jù)。想要在高速公路交通安全應(yīng)急、出行服務(wù)、市場(chǎng)監(jiān)督、決策支持等方面進(jìn)行重點(diǎn)建設(shè),就需要對(duì)高速公路中的大數(shù)據(jù)進(jìn)行深入的分析,以便服務(wù)于決策者,提升高速公路的運(yùn)營(yíng)效率和管理水平。
高速公路大數(shù)據(jù)有4個(gè)主要特點(diǎn),即規(guī)模大、變化多樣、價(jià)值密度低和高速性[1]。
a)數(shù)據(jù)規(guī)模 以河北省高速公路為例,車輛經(jīng)過(guò)收費(fèi)站的時(shí)候,監(jiān)控系統(tǒng)都要拍照,每張圖片大小在500 k左右,每年就會(huì)產(chǎn)生上百T的數(shù)據(jù),加上各應(yīng)用系統(tǒng)、收費(fèi)系統(tǒng)和視頻監(jiān)控累計(jì)的數(shù)據(jù)達(dá)到了PB級(jí)以上,并仍然持續(xù)增長(zhǎng)中。
b)數(shù)據(jù)多樣 高速公路的數(shù)據(jù)種類繁多。有各應(yīng)用系統(tǒng)產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù),收費(fèi)站出入口抓拍的非結(jié)構(gòu)化數(shù)據(jù)等。此外,還有地質(zhì)災(zāi)害、服務(wù)區(qū)數(shù)量等各類數(shù)據(jù)。
c)數(shù)據(jù)價(jià)值密度 數(shù)據(jù)量大,但是有用信息較少。監(jiān)控系統(tǒng)24 h監(jiān)控會(huì)產(chǎn)生大量的數(shù)據(jù),但是有用的數(shù)據(jù)只有很少的一段時(shí)間,通過(guò)對(duì)異常數(shù)據(jù)的監(jiān)測(cè)可以分析出路網(wǎng)的異常狀況。
d)高速性 收費(fèi)站產(chǎn)生的數(shù)據(jù)要快速并及時(shí)到達(dá)結(jié)算中心。發(fā)生道路突發(fā)事件的時(shí)候,系統(tǒng)要可以及時(shí)獲取信息并快速進(jìn)行有效分析。
隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)分析的應(yīng)用已經(jīng)在高速公路數(shù)據(jù)的分析中占據(jù)了舉足輕重的地位,例如在運(yùn)營(yíng)管理系統(tǒng)、聯(lián)網(wǎng)收費(fèi)分析業(yè)務(wù)、識(shí)別偷逃通行費(fèi)和冒充綠通行為等方面。
通過(guò)分析收費(fèi)數(shù)據(jù),對(duì)經(jīng)常計(jì)重逃費(fèi)、綠通車輛違規(guī)加大檢查力度;也通過(guò)車牌抓拍系統(tǒng),對(duì)出入口車牌不一致、經(jīng)常性超時(shí)車輛,查找換卡車輛信息,實(shí)現(xiàn)增收。同時(shí)也可以通過(guò)分析周邊區(qū)域的經(jīng)濟(jì)形勢(shì)、人口狀況、產(chǎn)業(yè)結(jié)構(gòu),年均車流量變化進(jìn)行流量預(yù)測(cè)與收入分析[2]。
隨著我國(guó)高速公路的快速發(fā)展,聯(lián)網(wǎng)收費(fèi)系統(tǒng)存儲(chǔ)了海量的收費(fèi)數(shù)據(jù),使用數(shù)據(jù)挖掘這一新興技術(shù),能夠有效地從大量的歷史或在線數(shù)據(jù)中挖掘出隱含的內(nèi)在關(guān)聯(lián)、模式或趨勢(shì)。
現(xiàn)有數(shù)據(jù)挖掘技術(shù)的主要研究單位是和交通行業(yè)關(guān)系比較緊密的高校和研究所,而現(xiàn)有的研究成果主要是趨向于對(duì)整體架構(gòu)和一些整體方法的設(shè)計(jì)。很少有研究人員和單位能夠做到充分利用交通行業(yè)的特點(diǎn),對(duì)收費(fèi)數(shù)據(jù)中多個(gè)主題進(jìn)行深入廣泛研究,同時(shí)又可以挖掘出隱含在高速公路收費(fèi)數(shù)據(jù)中有對(duì)決策支持的有價(jià)值數(shù)據(jù)??偟膩?lái)說(shuō),雖然高速公路收費(fèi)系統(tǒng)在不斷完善,并且已經(jīng)積累了大量的信息數(shù)據(jù),但是將這些資源充分利用的能力還是有待提高。
高速公路通行費(fèi)的收入預(yù)測(cè)是高速公路路網(wǎng)建設(shè)的重要部分,對(duì)項(xiàng)目的可行性研究等方面甚至對(duì)國(guó)家的交通運(yùn)輸都有著重要的意義。
80年代以后,隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,新增了許多新方法和軟件進(jìn)行交通規(guī)劃,其中較普遍的有遺傳算法、數(shù)據(jù)挖掘、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、灰色理論等技術(shù)[3]。
我國(guó)高速公路起步較晚,發(fā)展速度相對(duì)緩慢。交通量的預(yù)測(cè)主要依據(jù)《公路建設(shè)項(xiàng)目交通量預(yù)測(cè)試行辦法》。提出了兩類預(yù)測(cè)方法,一類是包含類比法、平均增長(zhǎng)率法、指數(shù)曲線等預(yù)測(cè)模型的定性預(yù)測(cè)方法;另一類是包含一元回歸曲線、多元回歸曲線、時(shí)間序列預(yù)測(cè)法、回歸分析預(yù)測(cè)法、趨勢(shì)曲線法、灰色模型法等預(yù)測(cè)型的定性預(yù)測(cè)方法。
隨著高速公路事業(yè)的飛速發(fā)展,高速公路的收費(fèi)面臨許多問(wèn)題,特別是計(jì)重收費(fèi)實(shí)施后,司機(jī)逃費(fèi)方式層出不窮,通行費(fèi)存在流失。在新的收費(fèi)環(huán)境下,有效地預(yù)測(cè)未來(lái)收費(fèi)金額及金額走向,有助于管理人員更好地對(duì)高速公路車流量與收費(fèi)進(jìn)行分析[4]。
我們以某一條高速公路的收費(fèi)站為例,分析客車、貨車、綠通車車流的走向以及收費(fèi)金額的變化。下面以客車為例進(jìn)行分析。
圖1 客車月平均車流折線圖
由圖1可以看出,客車一型的流量遠(yuǎn)高于其他幾種車型,雖然車型各不相同,車流量也各不相同,但是每種車型的客車月平均車流量均不斷上下波動(dòng),很難直觀地找到變化規(guī)律。
圖2 客車月平均收費(fèi)額
將所有車型的收費(fèi)收據(jù)進(jìn)行統(tǒng)計(jì)做出客車收費(fèi)合計(jì)折線圖如圖2,由數(shù)據(jù)走向我們可以知道不同月份客車的收費(fèi)金額存在較大差異,如何根據(jù)各類型車流量的變化去分析總收費(fèi)金額的變化是本文接下來(lái)的研究重點(diǎn)。
回歸分析方法在預(yù)測(cè)中又稱為因素分析法[5],它是找出一個(gè)變量與某些視為變化原因的變量之間的數(shù)量關(guān)系,即建立模型。然后通過(guò)某種方法給出未來(lái)一段時(shí)間的外生變量的數(shù)值,代入模型,計(jì)算出變量的未來(lái)數(shù)值即預(yù)測(cè)值。
對(duì)于多元回歸預(yù)測(cè)模型還需要進(jìn)行R檢驗(yàn),F(xiàn)檢驗(yàn)和t檢驗(yàn)。
R說(shuō)明一組變量X1~Xn與Y的相關(guān)程度,R值越接近1,說(shuō)明回歸效果越好。復(fù)相關(guān)系數(shù)R的計(jì)算公式為:
F檢驗(yàn)和t檢驗(yàn),分別給定顯著水平α,判斷是否存在顯著影響,存在顯性影響才能進(jìn)行下一步預(yù)測(cè)。
根據(jù)該高速公路收費(fèi)站點(diǎn)的2014年6月份到2016年2月份的數(shù)據(jù),使用差分法對(duì)不同類型的客車流進(jìn)行數(shù)據(jù)處理,直到數(shù)據(jù)成為平穩(wěn)序列,以客車一型數(shù)據(jù)為例,進(jìn)行差分處理等一系列建模步驟,最終確定參數(shù)。以ARIMA(7,7)模型進(jìn)行時(shí)間序列預(yù)測(cè),得到收費(fèi)站在2016年3月份的客車一型車流量數(shù)據(jù),并與真實(shí)數(shù)據(jù)進(jìn)行對(duì)比,做出相對(duì)誤差曲線圖如圖3。
圖3 客車一型預(yù)測(cè)及殘差分析
由圖3可以看出,選取的時(shí)間序列模型基本達(dá)到了預(yù)測(cè)效果,圖中有個(gè)別原始數(shù)據(jù)變化趨勢(shì)異常,導(dǎo)致個(gè)別數(shù)據(jù)預(yù)測(cè)存在一定誤差。
使用相同方法,對(duì)其他幾種類型的客車流量數(shù)據(jù)進(jìn)行差分處理得到合適的預(yù)測(cè)模型參數(shù),進(jìn)行預(yù)測(cè)得到2016年3月份的客車類型的流量數(shù)據(jù)。
我們使用已有客車車流以及客車合計(jì)收費(fèi)金額的歷史數(shù)據(jù)進(jìn)行多元回歸分析,得到了回歸方程,代入預(yù)測(cè)得到的數(shù)據(jù)進(jìn)行計(jì)算得到預(yù)測(cè)的客車合計(jì)收費(fèi)金額,得到了與實(shí)際數(shù)據(jù)的相對(duì)誤差圖,見(jiàn)圖4。
圖4 相對(duì)誤差圖
最終,我們計(jì)算得到了2016年3月份的客車合計(jì)收費(fèi)金額,并使用相同的方法計(jì)算貨車合計(jì)收費(fèi)金額以及綠通合計(jì)減免金額,與實(shí)際數(shù)據(jù)進(jìn)行對(duì)比,得到表1。
表1 合計(jì)金額對(duì)比
在高速公路收費(fèi)站的收費(fèi)數(shù)據(jù)預(yù)測(cè)中,由于車輛流的不確定性和高度非線性,使用單一的預(yù)測(cè)方法,隨機(jī)干擾過(guò)大,不能得到很好的預(yù)測(cè)效果。本文使用ARIMA模型和多元回歸分析模型組合進(jìn)行預(yù)測(cè),減少了隨機(jī)干擾帶來(lái)的誤差,對(duì)未來(lái)的收費(fèi)金額進(jìn)行了較為準(zhǔn)確的預(yù)測(cè),為高速公路管理單位的分析和管理提供了數(shù)據(jù)支持。如何選擇更加合適的模型和組合,解決隨機(jī)干擾,使得預(yù)測(cè)更加準(zhǔn)確,是值得進(jìn)一步研究的課題。