(中國科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,安徽 合肥 230022)
在諸多交通問題中,交通擁堵是發(fā)生頻率最高、影響最大、時間持續(xù)最長的問題。美國德克薩斯州2012年因交通擁堵?lián)p失近1210億美元[1]。交通狀態(tài)估計是交通擁堵控制的前提和關(guān)鍵,準(zhǔn)確的交通狀態(tài)估計可以密切監(jiān)視交通系統(tǒng)狀態(tài),充分利用道路容量,指導(dǎo)運營管理決策[2]。
基于數(shù)據(jù)融合的交通狀態(tài)估計是交通領(lǐng)域研究熱點。Deng等人使用環(huán)路探測器計數(shù)、藍牙旅行時間讀數(shù)和GPS(Global Positioning System)定位樣本等多個數(shù)據(jù)源,引入信息度量量化異構(gòu)流量測量值,改善高速公路段上交通狀態(tài)估計[3]。Yuan等人使用拉格朗日系統(tǒng)模型,采用擴展卡爾曼濾波技術(shù)估計交通狀態(tài),證明了拉格朗日估計優(yōu)于傳統(tǒng)歐拉方法[4]。Alfredo等人開發(fā)了一種基于模型的方法,利用多源數(shù)據(jù)建立動脈走廊實時交通預(yù)測模型,將高速公路狀態(tài)估計拓展到城市環(huán)境[5]。Felix利用探測器速度數(shù)據(jù),將交通流分解自由流、同步流以及動作干擾,獲得數(shù)據(jù)低密度情況下更準(zhǔn)確結(jié)果[6]。Yang利用密度、速度多種屬性來估計該區(qū)域擁堵狀態(tài),在北京和上海大型出租車GPS數(shù)據(jù)集上取得良好效果[7]。Majid基于交通流理論開發(fā)一種定義明確的非線性函數(shù),以根據(jù)隊列尾部位置和連接車輛平均速度獲得隊列內(nèi)車輛數(shù)量,在存在測量噪聲情況下,仍具有較高效率和準(zhǔn)確性[8]。
傳統(tǒng)研究不同程度上實現(xiàn)了對交通狀態(tài)的估計,但對監(jiān)測器精度有較高要求。交通系統(tǒng)是非線性系統(tǒng),具有強不確定性,許多現(xiàn)象無法用確定性分析方法來研究,應(yīng)引入不確定分析方法。本文結(jié)合傳統(tǒng)數(shù)據(jù)融合算法優(yōu)勢,同時引入車輛構(gòu)成因素,結(jié)合CNN和SVM各自優(yōu)勢,利用多監(jiān)測點數(shù)據(jù)進行擁堵預(yù)測,進而提升交通狀態(tài)預(yù)估的準(zhǔn)確率。
卷積神經(jīng)網(wǎng)絡(luò)是一種專門用來處理類似網(wǎng)狀結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),隨著深度學(xué)習(xí)的發(fā)展,在諸多領(lǐng)域都表現(xiàn)優(yōu)異,包括圖像分類、對象監(jiān)測、語義分割等,這要歸功于它不同層次上學(xué)習(xí)判別特征能力[9]。從結(jié)構(gòu)上看,CNN主要由卷積層、池化層和全連接層構(gòu)成。
卷積層對兩個實變函數(shù)進行卷積運算,在CNN中,一般進行多維度卷積操作:
(1)
式中,I為輸入數(shù)據(jù);K為卷積核。
池化層使用某一位置相鄰輸出的總體統(tǒng)計特征來代替網(wǎng)絡(luò)在該位置的輸出,可以使輸入表示近似不變,常用的池化操作有:最大池化、平均池化、L2范數(shù)以及基于中心像素距離的加權(quán)平均函數(shù)。
全連接層每一個結(jié)點都與上一層所有結(jié)點相連,把提取到的特征綜合起來,在整個卷積神經(jīng)網(wǎng)絡(luò)中起分類作用。作用在于將卷積得到的特征映射到樣本標(biāo)記空間,核心操作是矩陣向量乘積。
SVM算法是基于統(tǒng)計學(xué)習(xí)理論的機器學(xué)習(xí)方法,它以最小化結(jié)構(gòu)風(fēng)險為依據(jù),縮小樣本置信區(qū)間范圍,使經(jīng)驗風(fēng)險與實際風(fēng)險更加接近,提高樣本可推廣性。利用非線性變換將樣本空間映射到高維空間,并在高維空間中尋找最優(yōu)線性分類超平面,以兼顧最小化風(fēng)險和算法泛化能力??弟姷热艘褜VM算法引用到交通領(lǐng)域,對短時交通流進行預(yù)測[10]。
SVM算法主要有三種:硬間隔支持向量機、軟間隔支持向量機和非線性支持向量機。本文采用的是基于核方法的非線性支持向量機。
令φ(x)表示將樣本點x映射后的特征向量,在特征空間中劃分超平面所對應(yīng)的模型可表示為
f(x)=wTx+b
(2)
式中,w和b為待求解的模型參數(shù)。則待求解問題可以表示為
(3)
其對應(yīng)的拉格朗日對偶問題是:
(4)
(5)
考慮到模型復(fù)雜度和數(shù)值計算的問題,本文采用的是RBF(Radial Basis Function)核函數(shù):
(6)
于是式(5)可以寫成:
(7)
得到最終決策函數(shù):
(8)
傳統(tǒng)交通狀態(tài)估計模型主要采用速度、流量、道路占有率等信息作為模型輸入,取得了一定效果[7]。本文將交通擁堵因素拓展到車輛構(gòu)成,考慮相同車流量下,大車型比例越大,則越容易造成擁堵。因此,本文在擁堵因素方面采用速度、流量、道路占有率、大型車比例作為輸入。
單個監(jiān)測點可能存在精度不高問題,擁堵狀況容易造成車輛排隊過長超過監(jiān)測器范圍。因此本文假設(shè)擁堵路段單個監(jiān)測器所測量數(shù)據(jù)是不準(zhǔn)確的,采用某一交叉口上下游多個監(jiān)測點對目標(biāo)路段進行估計。
為實現(xiàn)交通狀態(tài)預(yù)估計,本文采用某一時刻前20 min數(shù)據(jù)進行分析,提前預(yù)估出路段交通狀態(tài),為車輛路段選擇提供參考。因此,本文模型的輸入主要從擁堵因素、空間、時間三個維度進行構(gòu)建。
本文根據(jù)擁堵程度,將交通狀態(tài)分為暢通、擁擠、擁堵三類。參考指標(biāo)是美國加利福尼亞運輸部性能測量系PeMS(Performance Measurement System)交通數(shù)據(jù)延遲項,通過聚類分析得到延遲項劃分標(biāo)準(zhǔn):延遲項為0,表示車輛沒有延遲,定義為暢通狀態(tài);延遲項在0~1間,表示車輛有輕微延遲,定義為擁擠狀態(tài);延遲項大于1,表示有嚴重延遲,定義為擁堵狀態(tài)。
在提取特征方面,CNN模型可以自動進行,避免了人工提取特征好壞對結(jié)果的影響。分類問題中,SVM學(xué)習(xí)超平面是距離各個類別樣本點最遠的平面,分類準(zhǔn)確率更加具有優(yōu)勢。Niu等人已將CNN-SVM應(yīng)用到圖像識別領(lǐng)域[11]。為結(jié)合CNN和SVM優(yōu)勢,本文提出CNN-SVM混合分類模型對交通狀態(tài)進行預(yù)估。CNN對交通數(shù)據(jù)進行特征提取,SVM利用提取后特征對交通狀態(tài)進行分類,具體結(jié)構(gòu)如圖1所示。
圖1 CNN-SVM模型結(jié)構(gòu)圖
模型的輸入是擁堵因素、空間、時間三維矩陣。為取得最佳學(xué)習(xí)效果,需要對模型輸入進行標(biāo)準(zhǔn)化。本文采用的是線性歸一化方法:
(9)
交通數(shù)據(jù)通過3個卷積層進和4個全連接層對交通狀態(tài)進行估計。CNN訓(xùn)練結(jié)束后,將網(wǎng)絡(luò)最后一層全連接的輸出作為特征,輸入到SVM模型中進行分類。CNN-SVM模型訓(xùn)練分為兩個過程:
① 利用交通流數(shù)據(jù)訓(xùn)練CNN模型;
② 利用CNN提取的特征對SVM模型進行訓(xùn)練。
美國加利福尼亞州是擁堵常發(fā)性地區(qū),本文選取該地區(qū)Hollywood Fwy公路進行分析,路段監(jiān)測點分布如圖2所示。設(shè)待預(yù)測路段編號為O(764766),選取呈對稱分布的3個上游監(jiān)測點U1(717488)、U2(717489)、U3(717490)和3個下游監(jiān)測點D1(775990)、D2(717486)、D3(769405)。
圖2 美國加利福尼亞州局部路段監(jiān)測點分布圖
假設(shè)待預(yù)測路段單個監(jiān)測器監(jiān)測數(shù)據(jù)是不準(zhǔn)確的,實驗?zāi)繕?biāo)是通過該路段上下游多個監(jiān)測器前20 min監(jiān)測數(shù)據(jù)對該路段交通狀態(tài)進行預(yù)估,進而指導(dǎo)車輛選擇合理行車路線。
實驗采用2017年9月20日到2017年10月27日PeMS交通數(shù)據(jù)進行實驗,數(shù)據(jù)的采樣間隔時間為5 min。其中,2017年9月20日到2017年10月20日作為訓(xùn)練數(shù)據(jù),2017年10月21日到2017年10月27日作為測試數(shù)據(jù)。
車輛構(gòu)成信息和CNN-SVM模型是影響預(yù)估準(zhǔn)確性的主要因素。因此,本文設(shè)計了兩個對比實驗,分別對比CNN-SVM模型下考慮車輛構(gòu)成和忽略車輛構(gòu)成的預(yù)估準(zhǔn)確性,以及CNN模型和CNN-SVM模型的預(yù)估準(zhǔn)確性。
實驗具體參數(shù)如下:
① CNN模型。卷積層個數(shù)為3,卷積核大小為2×2,3個卷積核層數(shù)分別為6、12和24,全連接層的神經(jīng)元個數(shù)為128、32、8、3,激活函數(shù)采用ReLU函數(shù),模型輸出采用softmax激活函數(shù)。模型采用交叉熵損失函數(shù),訓(xùn)練過程采用Adam算法進行優(yōu)化。
② SVM模型。采用Hinge Loss損失函數(shù),核函數(shù)采用RBF核函數(shù)。為防止過擬合,懲罰因子c設(shè)置為0.8。
CNN-SVM模型預(yù)測結(jié)果如表1所示。其中擁堵狀態(tài)和暢通狀態(tài)的預(yù)估準(zhǔn)確率相對較高,測試集中暢通狀態(tài)預(yù)估準(zhǔn)確率達到了96.77%;擁擠狀態(tài)預(yù)估準(zhǔn)確率相對較低,只有90.71%。原因在于擁擠狀態(tài)處在暢通和擁堵狀態(tài)之間,容易被誤判為暢通或者擁堵。但從整體上來看,訓(xùn)練集中交通狀態(tài)預(yù)估準(zhǔn)確率達到94.68%,測試集準(zhǔn)確率達到了95.32%,準(zhǔn)確度基本滿足預(yù)估要求。
表1 CNN-SVM模型預(yù)測結(jié)果
考慮車輛構(gòu)成和忽略車輛構(gòu)成對比實驗中,模型訓(xùn)練準(zhǔn)確度如圖3所示。黑色實線代表忽略車輛構(gòu)成訓(xùn)練結(jié)果,灰色虛線代表考慮車輛構(gòu)成訓(xùn)練結(jié)果。
圖3 考慮車輛構(gòu)成和忽略車輛構(gòu)成訓(xùn)練結(jié)果對比
灰色虛線剛開始上升速度較慢,當(dāng)訓(xùn)練次數(shù)超過300次后,考慮車輛構(gòu)成模型準(zhǔn)確率逐漸高于忽略車輛構(gòu)成模型準(zhǔn)確率。原因在于,考慮車輛構(gòu)成信息時,模型需要學(xué)習(xí)知識比較多,一開始準(zhǔn)確度上升比較慢,后期經(jīng)過充分訓(xùn)練,考慮車輛構(gòu)成的模型得到了更多信息,因此預(yù)測結(jié)果比忽略車輛信息更高。同時,忽略車輛信息的模型信息量有限,后期隨著訓(xùn)練次數(shù)增加開始趨向于過擬合,預(yù)估效果后期開始逐漸下降。
針對不同數(shù)據(jù)集,考慮車輛構(gòu)成和忽略車輛構(gòu)成預(yù)測結(jié)果如表2所示。驗證集中,考慮車輛構(gòu)成模型預(yù)估準(zhǔn)確度比忽略車輛構(gòu)成模型提升1.40%,在測試集中,考慮車輛構(gòu)成的模型預(yù)估準(zhǔn)確度比忽略車輛構(gòu)成模型提升1.12%。說明車輛構(gòu)成對于交通狀態(tài)有著不可忽略的影響。
表2 考慮車輛構(gòu)成和忽略車輛構(gòu)成預(yù)測結(jié)果對比
CNN模型和CNN-SVM模型的對比實驗中,CNN采用的是softmax分類器,CNN-SVM采用的是SVM分類器,其預(yù)估結(jié)果如表3所示。驗證集中,CNN-SVM模型預(yù)估準(zhǔn)確度比CNN模型提升1.84%,在測試集中,CNN-SVM模型預(yù)估準(zhǔn)確度比CNN模型提升2.25%,說明SVM具有更高的分類效果。
表3 CNN模型和CNN-SVM模型預(yù)測結(jié)果對比
SVM模型雖然可對交通狀態(tài)進行估計,但在單個監(jiān)測器數(shù)據(jù)不準(zhǔn)確的前提下,其使用其他監(jiān)測器數(shù)據(jù)時分類準(zhǔn)確率不足80%,且輸入維度過高,不適合基于多監(jiān)測器檢測數(shù)據(jù)的交通狀態(tài)預(yù)估。因此,在交通狀態(tài)預(yù)估方面,CNN-SVM相對于CNN模型和SVM模型更加具有優(yōu)勢。
本文提出了一種基于車輛構(gòu)成和特征提取的交通狀態(tài)預(yù)估模型,考慮相同車流量下,大車型比例對擁堵的影響。將交通狀態(tài)分成暢通、擁擠和擁堵三種狀態(tài),以多個道路監(jiān)測器數(shù)據(jù)為輸入來預(yù)估交通狀態(tài)。通過CNN自動提取交通擁堵特征,將得到的特征輸入SVM進行交通狀態(tài)預(yù)估。通過考慮車輛構(gòu)成和忽略車輛構(gòu)成的實驗,以及CNN-SVM模型和CNN模型的對比實驗,在PeMS數(shù)據(jù)集的Hollywood Fwy公路上進行驗證,結(jié)果表明考慮車輛構(gòu)成信息的CNN-SVM模型,具有更好的交通狀態(tài)預(yù)估能力。
本文實驗沒有考慮不同道路通行能力差異帶來的區(qū)別,后續(xù)可以結(jié)合不同規(guī)模的道路進行分類探討,使模型具有更廣泛的應(yīng)用場景。