石 敏, 蔡少委, 易清明
(暨南大學(xué) 信息科學(xué)技術(shù)學(xué)院, 廣州 510632)
在具有不確定性、非線性或時(shí)變性的數(shù)據(jù)中,提取數(shù)據(jù)的時(shí)空特征是獲取數(shù)據(jù)信息的一種重要方式,研究數(shù)據(jù)的時(shí)空特征信息提取方法對(duì)于提升模型的預(yù)測(cè)能力具有重要意義[1-4].在一些復(fù)雜的預(yù)測(cè)場(chǎng)景如在短時(shí)交通擁堵預(yù)測(cè)中,由于車(chē)輛速度容易受到包括鄰近道路交通擁堵情況、節(jié)假日等干擾因素的影響,使得車(chē)速數(shù)據(jù)波動(dòng)較大且異常值較多.而常態(tài)和異常時(shí)的數(shù)據(jù)特征同樣重要,因此需要有效的方法來(lái)提取這些數(shù)據(jù)的時(shí)空特征信息.隨著近年來(lái)深度學(xué)習(xí)模型的廣泛應(yīng)用,越來(lái)越多的深度學(xué)習(xí)預(yù)測(cè)模型通過(guò)不同的改進(jìn)方式來(lái)獲取并利用數(shù)據(jù)的時(shí)空特征.羅文慧等[5]利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)能夠提取數(shù)據(jù)時(shí)空特征的特點(diǎn),將CNN和SVR(Su-pport Vactor Regression)相結(jié)合應(yīng)用于短時(shí)交通流預(yù)測(cè).Deng等[6]提出基于CNN 的隨機(jī)子空間學(xué)習(xí)方法,將數(shù)據(jù)轉(zhuǎn)換成圖像的形式并進(jìn)行時(shí)空特征信息的提取,從而提高了模型的預(yù)測(cè)能力.Lin等[7]利用稀疏自動(dòng)編碼器提取數(shù)據(jù)的時(shí)空特征信息并作為L(zhǎng)STM(Long Short-Term Memory)的輸入,通過(guò)實(shí)際交通數(shù)據(jù)驗(yàn)證了模型的有效性.Kang等[8]將車(chē)流量、車(chē)輛速度和檢測(cè)器占有率等數(shù)據(jù)同時(shí)作為L(zhǎng)STM的輸入方式,提高了輸入數(shù)據(jù)特征的多樣性,并達(dá)到不同數(shù)據(jù)特征共同影響預(yù)測(cè)結(jié)果的目的.An等[9]通過(guò)利用殘差網(wǎng)絡(luò)來(lái)增加卷積的層數(shù)并聯(lián)合不同時(shí)間間隔輸入建立起一個(gè)模糊卷積神經(jīng)網(wǎng)絡(luò)深度模型,使得數(shù)據(jù)在時(shí)間上的特征信息能被充分利用.上述研究主要采用了LSTM和CNN兩種模型, LSTM更適合時(shí)間序列等具有波動(dòng)性較小、異常值較少、變化規(guī)律較明顯的場(chǎng)景預(yù)測(cè),在復(fù)雜的預(yù)測(cè)場(chǎng)景中,其對(duì)時(shí)空特征信息的提取不夠充分.而CNN模型由于感受野的變化能夠提取出不相鄰數(shù)據(jù)之間的結(jié)構(gòu)信息,可以通過(guò)這個(gè)特點(diǎn)來(lái)獲取數(shù)據(jù)的時(shí)空特征信息,用于數(shù)據(jù)波動(dòng)性較大、異常值較多的預(yù)測(cè)場(chǎng)景中[10-12].
考慮CNN提取數(shù)據(jù)時(shí)空特征信息的方法還存在一定存在缺陷,即模型在完成卷積過(guò)程后,需要通過(guò)池化過(guò)程來(lái)對(duì)特征進(jìn)行壓縮,并對(duì)二維數(shù)據(jù)進(jìn)行填充,該過(guò)程會(huì)使圖像特征的空間信息出現(xiàn)丟失.針對(duì)此問(wèn)題,本文提出了空洞-稠密網(wǎng)絡(luò)結(jié)構(gòu)模型.該結(jié)構(gòu)利用空洞卷積能靈活控制卷積采樣間隔的特點(diǎn)[13],在降低模型復(fù)雜度的同時(shí)可以減小池化層的作用.此外,本文開(kāi)辟了第2條下采樣通道,用于提取數(shù)據(jù)的顯著特征,然后將空洞卷積通道與下采樣通道在輸出部分進(jìn)行稠密連接[14-16],使得更多的時(shí)空特征信息被傳遞,從而保證了模型結(jié)構(gòu)的深度和預(yù)測(cè)精度,在道路擁堵預(yù)測(cè)等方面取得較好的預(yù)測(cè)效果.
本文延用CNN的特征提取和分類(lèi)器的方式,將輸入通過(guò)1層卷積后傳遞到以多個(gè)稠密塊為核心的稠密層中充分提取特征,稠密塊之間以卷積核大小為1×1的卷積層進(jìn)行連接,最后通過(guò)兩層全連接層進(jìn)行輸出,算法結(jié)構(gòu)流程如圖1所示.其中稠密塊的數(shù)量取決于輸入矩陣的大小,全連接層為普通的前饋網(wǎng)絡(luò),激活函數(shù)為Sigmoid.
圖1 算法結(jié)構(gòu)流程圖Fig.1 Flowchart of algorithm structure
考慮到同一類(lèi)型的數(shù)據(jù)在相鄰的時(shí)間間隔上具有一定的延續(xù)性且不同采集數(shù)據(jù)區(qū)域具有關(guān)聯(lián)性的特點(diǎn),本文將i個(gè)測(cè)量周期內(nèi)j個(gè)不同區(qū)域采集數(shù)據(jù)以二維矩陣I的形式進(jìn)行輸入:
(1)
式中:xi,j表示第i區(qū)域在j時(shí)刻的采集數(shù)據(jù),i≥1,j≥0.每1行元素表示1個(gè)采集點(diǎn)從采集時(shí)間0到采集時(shí)間j的j個(gè)測(cè)量數(shù)據(jù),每1列元素表示同一時(shí)刻不同采集點(diǎn)的i個(gè)測(cè)量數(shù)據(jù),從而構(gòu)成基于時(shí)空特征的輸入矩陣,并作為卷積層的輸入.
稠密塊主要由兩條通道構(gòu)成,第1條空洞卷積通道由3個(gè)卷積塊組成,其中每個(gè)卷積塊由1層空洞卷積層、批量歸一化層和Sigmoid激活函數(shù)層構(gòu)成,卷積塊的輸入為X,輸出為Y,通過(guò)改變空洞卷積的k值可以改變卷積核大小,并通過(guò)采用間隔r設(shè)置卷積核空洞的大小.第2條下采樣通道由兩層最大值池化層和1層1×1的卷積層組成.稠密塊的輸入為I′,空洞卷積通道和下采樣通道在通道輸出部分進(jìn)行稠密連接,并輸出O,稠密塊的結(jié)構(gòu)如圖2所示.
圖2 稠密塊結(jié)構(gòu)圖Fig.2 Structure diagram of dense block
空洞卷積是在普通的卷積核內(nèi)部加入空洞,主要是通過(guò)控制r的大小來(lái)實(shí)現(xiàn),如圖3所示.假設(shè)r為1、2和3時(shí),3×3大小的卷積核下的感受野隨r的增大而增大.此外,隨著r的增大,空洞卷積的卷積核參數(shù)量與傳統(tǒng)卷積核的參數(shù)數(shù)量相同,而卷積過(guò)程的輸出能夠包含數(shù)據(jù)更大范圍內(nèi)的特征信息.
(2)
(3)
卷積核提取的特征大小滿足:
n1=[n+2p-k-r(k-1)]/(s+1)
(4)
m1=[m+2p-k-r(k-1)]/(s+1)
(5)
式中:p為卷積核移動(dòng)的步長(zhǎng);s為特征圖填充的像素?cái)?shù).假設(shè)空洞卷積輸入X′的大小為M×N,卷積核權(quán)重W的大小為m×n,并且M≥m,N≥n,則卷積操作為
(6)
為了避免空洞卷積塊中的參數(shù)更新導(dǎo)致空洞卷積層的輸出發(fā)生劇烈變化,本文在空洞卷積層后增加1層批量歸一化層.通過(guò)引入小批量數(shù)據(jù)的均值和標(biāo)準(zhǔn)差來(lái)調(diào)整輸出,從而使整體模型輸出更加穩(wěn)定.用f1(x)表示空洞卷積層的輸出,f2(x)表示批量歸一化過(guò)程的輸出,f3(x)表示批量歸一化層輸出,則數(shù)據(jù)歸一化過(guò)程為
(7)
f3(x)=γf2(x)+β
(8)
Y=Sigmoid(f3(x))
(9)
由于最大值池化層具有保留數(shù)據(jù)的顯著特征且能夠進(jìn)行尺度放縮的特點(diǎn)[2],本文選擇最大值池化層對(duì)輸入稠密塊的數(shù)據(jù)進(jìn)行下采樣,并將下采樣得到的特征通過(guò)卷積核大小為1×1的卷積層后作為該通道的輸出,使得顯著的特征能夠傳遞到輸出部分,并且特征塊能夠與空洞卷積層輸出特征塊大小相適應(yīng).
考慮目前特征塊連接的方式主要包括殘差和稠密連接兩種方式,相對(duì)于殘差網(wǎng)絡(luò),稠密連接結(jié)合了殘差連接能夠使網(wǎng)絡(luò)更好地收斂的優(yōu)點(diǎn),同時(shí)僅需更少的參數(shù)數(shù)量,能夠降低模型整體參數(shù)數(shù)量.因此本文的稠密塊中兩條通道在輸出部分采用稠密進(jìn)行連接,稠密連接為
O=[fy]
(10)
式中:O為輸出,將空洞卷積通道的輸出f和下采樣通道的輸出y進(jìn)行稠密連接.
空洞-稠密網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練的過(guò)程由兩部分構(gòu)成,輸入矩陣經(jīng)過(guò)網(wǎng)絡(luò)模型進(jìn)行正向傳播得到下一檢測(cè)周期的預(yù)測(cè)數(shù)據(jù).對(duì)這些預(yù)測(cè)數(shù)據(jù)進(jìn)行均方差分析,損失函數(shù)為
(11)
式中:N為輸入樣本的批量;Hi為空洞-稠密網(wǎng)絡(luò)模型的輸出值;Zi為數(shù)據(jù)的真實(shí)值.考慮本文選取的實(shí)測(cè)數(shù)據(jù)具有復(fù)雜多變且存在噪聲的特點(diǎn),因此本文選擇Adam(Adaptive Moment Estimation)[17]梯度下降算法來(lái)更新模型參數(shù),假設(shè)a時(shí)刻,損失函數(shù)L對(duì)于參數(shù)的一階導(dǎo)數(shù)為ga,則梯度的一階矩估計(jì)和二階矩估計(jì)式為
ma=β1ma-1+(1+β1)ga
(12)
(13)
(14)
(15)
(16)
式中:η為學(xué)習(xí)率;ε為維持?jǐn)?shù)值穩(wěn)定性的常熟,設(shè)為10-8.Adam算法能夠通過(guò)梯度的一階矩估計(jì)和二階矩估計(jì)對(duì)不同模型參數(shù)自適應(yīng)不同學(xué)習(xí)率,使得模型參數(shù)變化比較平穩(wěn)有利于數(shù)據(jù)特征的提取.
為了驗(yàn)證空洞-稠密網(wǎng)絡(luò)結(jié)構(gòu)的有效性,本文選擇對(duì)城市交通擁堵情況進(jìn)行預(yù)測(cè).本文數(shù)據(jù)來(lái)源于OpenITS聯(lián)盟提供的2016年8月1日至2016年9月30日的廣州214條匿名路段,主要是主干路和快速路的實(shí)測(cè)車(chē)速數(shù)據(jù),數(shù)據(jù)監(jiān)測(cè)周期為10 min.選取00∶00~24∶00時(shí)間段的車(chē)速數(shù)據(jù)進(jìn)行訓(xùn)練和預(yù)測(cè),以數(shù)據(jù)的前55 d共 221 760 個(gè)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),后6 d共 24 192 個(gè)數(shù)據(jù)作為預(yù)測(cè)數(shù)據(jù).由于車(chē)輛在發(fā)生擁堵時(shí)數(shù)據(jù)的波動(dòng)較大,模型會(huì)出現(xiàn)受局部數(shù)據(jù)影響較大的情況,導(dǎo)致預(yù)測(cè)結(jié)果與真實(shí)數(shù)據(jù)擬合程度較差,預(yù)測(cè)精度較低.所以本文通過(guò) Z-score 標(biāo)準(zhǔn)化方法對(duì)輸入數(shù)據(jù)進(jìn)行預(yù)處理,預(yù)處理后數(shù)據(jù)符合標(biāo)準(zhǔn)的正態(tài)分布,減小了數(shù)值差異的影響,預(yù)處理公式為
μ′=(x-μ)/σ
(17)
式中:x為輸入矩陣I中的數(shù)據(jù);μ為輸入矩陣樣本的均值;σ為輸入矩陣樣本的標(biāo)準(zhǔn)差.通過(guò)標(biāo)準(zhǔn)化后使得輸出數(shù)據(jù)μ′值在[0,1]之間.
考慮輸入矩陣大小和空洞卷積的采樣間隔對(duì)模型預(yù)測(cè)精度的影響,本文將模型的卷積核的統(tǒng)一設(shè)置為3×3大小,模型的學(xué)習(xí)率為0.01,批量大小為32,稠密塊個(gè)數(shù)為3,在Python的IDE PyCharm中進(jìn)行實(shí)驗(yàn).通過(guò)對(duì)3種不同采樣間隔條件下輸入不同的道路數(shù)進(jìn)行測(cè)試,道路數(shù)量每次增加4條,模型的訓(xùn)練迭代次數(shù)為 8 000,得到損失函數(shù)值,如表1所示,其中Loss為損失函數(shù)值.
表1 道路數(shù)和采樣間隔配置表Tab.1 Road number and sampling interval configuration
可以看出,Loss越小,真實(shí)值與預(yù)測(cè)值的誤差越小.由于輸入矩陣中道路數(shù)決定輸入矩陣的行數(shù),因此當(dāng)?shù)缆窋?shù)為28,采樣間隔為1、2、4 或1、2、5時(shí)不能滿足本文結(jié)構(gòu)的要求,因此損Loss為空,適合采樣間隔為1、2、3,其他情況同理.此外,輸入矩陣增大,需要增大采樣間隔來(lái)減少對(duì)預(yù)測(cè)精度的影響.
選擇9月26日和9月27日相鄰兩天的數(shù)據(jù)作為假日和正常日的測(cè)試數(shù)據(jù)集并在同一框圖中進(jìn)行表示.根據(jù)表1 的數(shù)據(jù)選取道路數(shù)為28,采樣間隔分別為1、2、3進(jìn)行觀察,結(jié)果如圖4所示.圖中:t為時(shí)間,v為車(chē)速.t=0~24 h所對(duì)應(yīng)數(shù)值為9月26日監(jiān)測(cè)周期內(nèi)所對(duì)應(yīng)的車(chē)輛速度變化情況,t=24~48 h所對(duì)應(yīng)的數(shù)值為9月27日監(jiān)測(cè)周期內(nèi)所對(duì)應(yīng)的車(chē)輛速度變化情況.本文隨機(jī)列舉其中4條道路實(shí)際速度測(cè)量值和預(yù)測(cè)值,如圖5所示, 4個(gè)曲線圖分別為4條道路的車(chē)輛速度真實(shí)值與預(yù)測(cè)值變化情況.可以看出,真實(shí)值與預(yù)測(cè)值有相似的變化趨勢(shì),擬合程度較高,在第1天8 h和第2天12 h左右道路發(fā)生擁堵時(shí),車(chē)速預(yù)測(cè)值與真實(shí)值之間的誤差較小,在其他擁堵情況較平緩的時(shí)間段,預(yù)測(cè)值曲線與真實(shí)值的重合度較高.
圖4 多條道路真實(shí)值與預(yù)測(cè)值對(duì)比Fig.4 Comparison of true and predicted values of multiple roads
圖5 4種模型在正常工作日和假日的殘差對(duì)比Fig.5 Comparison of residuals between four models on normal working days and holiday
空洞-稠密結(jié)構(gòu)的預(yù)測(cè)曲線能夠較貼切地反映正常工作日及假日的真實(shí)車(chē)流量的變化情況,說(shuō)明該結(jié)構(gòu)能夠有效提取出輸入矩陣中波動(dòng)較大點(diǎn)或異常值的特征,且能夠正確預(yù)測(cè)正常值部分的變化情況.此外模型的預(yù)測(cè)數(shù)據(jù)的是由28條道路的預(yù)測(cè)數(shù)據(jù)構(gòu)成,因此本文模型可以在不增加計(jì)算量的同時(shí)對(duì)28道路進(jìn)行預(yù)測(cè),大大降低整體車(chē)輛擁堵預(yù)測(cè)系統(tǒng)的復(fù)雜度.
為了驗(yàn)證模型的魯棒性,本文引入LeNet模型[11]、空洞卷積模型[13]、空洞-殘差結(jié)構(gòu)模型及空洞-稠密結(jié)構(gòu)模型,并對(duì)這些模型在正常工作日和假日兩天的真實(shí)值與預(yù)測(cè)值之間的殘差值進(jìn)行分析.根據(jù)表1數(shù)據(jù)選取道路數(shù)為28,采樣間隔分別為1、2、3進(jìn)行分析,結(jié)果如圖5所示.可以看出,LeNet模型在不同時(shí)刻的殘差值相對(duì)其他采用空洞卷積的模型的殘差值較大,而在速度變化較明顯的時(shí)間段4種模型的殘差值變化都較明顯.空洞-殘差結(jié)構(gòu)模型和空洞-稠密結(jié)構(gòu)模型相對(duì)空洞卷積模型的殘差值更小,在整體上空洞-稠密卷積結(jié)構(gòu)模型比空洞-殘差模型的殘差值分布在更小的區(qū)域.從測(cè)試結(jié)果來(lái)看,空洞-稠密結(jié)構(gòu)模型的殘差值相比較其他3種模型在車(chē)速正常狀態(tài)和異常狀態(tài)的情況下能保持較小值.
分析LeNet模型、空洞卷積模型及空洞-殘差結(jié)構(gòu)模型的平均絕對(duì)誤差(MAE) 和均方根誤差(RMSE)來(lái)驗(yàn)證模型結(jié)構(gòu)的有效性,并且保證網(wǎng)絡(luò)模型參數(shù)的一致性.MAE 反映了預(yù)測(cè)值誤差的實(shí)際情況,而RMSE反映了預(yù)測(cè)的誤差分布情況,MAE和RMSE 值越小,預(yù)測(cè)模型擬合程度更好,預(yù)測(cè)精度更高,其表達(dá)式分別為
(18)
(19)
式中:Fi為預(yù)測(cè)值;Zi為實(shí)際測(cè)量值;M為測(cè)量值的數(shù)量.
4種模型通過(guò)訓(xùn)練集進(jìn)行訓(xùn)練后,分別對(duì)9 月26 日和9 月27 日兩天車(chē)輛速度進(jìn)行預(yù)測(cè).選擇圖4中第1條道路數(shù)據(jù),分析其MAE和 RMSE.
4種模型的MAE和RMSE如表2所示,相比LeNet模型和空洞卷積模型,空洞-殘差網(wǎng)絡(luò)結(jié)構(gòu)模型和空洞-稠密結(jié)構(gòu)模型的MAE和RMSE都有一定的降低,并且空洞-稠密結(jié)構(gòu)相對(duì)空洞殘差結(jié)構(gòu)模型MAE和RMSE更小.在測(cè)試集中,相比其他3種模型,空洞-稠密模型的MAE降低了約3%至23%,而RMSE降低了2%至26%.
表2 空洞-稠密結(jié)構(gòu)和其他3種模型的MAE及RMSE比較Tab.2 Comparison of MAE and RMSE between dilated convolution-dense network and the other three models
設(shè)計(jì)了用于車(chē)輛擁堵預(yù)測(cè)的空洞-稠密神經(jīng)網(wǎng)絡(luò)模型.該模型能更好地提取復(fù)雜數(shù)據(jù)的時(shí)空特征以及不同道路之間的關(guān)聯(lián)性信息,為預(yù)測(cè)過(guò)程提供更多的判斷依據(jù),從而提高了車(chē)輛擁堵的預(yù)測(cè)性能.應(yīng)用模型對(duì)廣州市的道路擁堵情況進(jìn)行預(yù)測(cè),并與其他模型進(jìn)行了比較.結(jié)果表明空洞-稠密網(wǎng)絡(luò)結(jié)構(gòu)的預(yù)測(cè)值與真實(shí)值的誤差相對(duì)較小,能夠較好地預(yù)測(cè)車(chē)輛速度.而且模型能夠?qū)崿F(xiàn)同時(shí)對(duì)多條道路進(jìn)行預(yù)測(cè),在錯(cuò)綜復(fù)雜、數(shù)量龐大的城市道路的擁堵預(yù)測(cè)中可以作為一種有效的方法.由于城市路段與高速路段受干擾因素的不同,表現(xiàn)出對(duì)模型結(jié)構(gòu)要求的差異性.因此結(jié)合高速路段的相關(guān)因素,提高模型的泛化能力并研究模型在其他預(yù)測(cè)場(chǎng)景中的適用性是未來(lái)研究的重要內(nèi)容.