国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力-長(zhǎng)短期記憶模型的偶發(fā)性交通流異常檢測(cè)

2023-07-13 10:32:32鄭大慶林陳威王昺杰
關(guān)鍵詞:交通流量網(wǎng)格交通

鄭大慶,林陳威,王昺杰

(1.上海財(cái)經(jīng)大學(xué) 信息管理與工程學(xué)院,上海 200433;2.復(fù)旦大學(xué) 經(jīng)濟(jì)學(xué)院,上海 200433)

隨著我國(guó)經(jīng)濟(jì)和社會(huì)的不斷發(fā)展,大型和超大型城市不斷涌現(xiàn),與之相伴相生的“大城市病”也越來(lái)越嚴(yán)重?!敖煌〒頂D”作為大城市病的重要“癥狀”之一,受到廣泛關(guān)注[1],尤其是一些偶發(fā)性的交通異常,由于其不確定性,給城市交通安全與運(yùn)行效率帶來(lái)嚴(yán)重影響,甚至造成財(cái)產(chǎn)和生命損失,如2014 年的上海外灘踩踏事件。在資源有限和空間約束的條件下,發(fā)展智慧城市,利用信息技術(shù)解決城市管理中的難題成為一個(gè)現(xiàn)實(shí)可行的思路。在智慧交通領(lǐng)域,交通流異常檢測(cè)非常重要,它是進(jìn)行智慧交通管理的前提,而隨著手機(jī)、GPS等可移動(dòng)設(shè)備的廣泛應(yīng)用,基于大數(shù)據(jù)開(kāi)展的交通流異常檢測(cè)成為新的趨勢(shì)[2-4]。

交通異常檢測(cè)是交通運(yùn)輸工程領(lǐng)域的一個(gè)重要分支,在大數(shù)據(jù)時(shí)代,城市管理者希望將交通監(jiān)控設(shè)備、車載GPS 設(shè)備等采集的交通數(shù)據(jù)與現(xiàn)有算法相結(jié)合,對(duì)道路狀況進(jìn)行分析預(yù)測(cè),從而達(dá)到智慧交通管理的目的。目前交通異常檢測(cè)的難點(diǎn)主要有:①模型運(yùn)行效率與檢測(cè)結(jié)果的準(zhǔn)確性之間的權(quán)衡。隨著深度學(xué)習(xí)的發(fā)展,為了追求更高的檢測(cè)準(zhǔn)確性,許多復(fù)雜的深層模型被提出,希望通過(guò)增加模型復(fù)雜性來(lái)提高準(zhǔn)確性,結(jié)果導(dǎo)致模型的運(yùn)行時(shí)間增加,不利于實(shí)際投入使用,但若為追求高效運(yùn)行,使用簡(jiǎn)單的模型又會(huì)影響檢測(cè)的準(zhǔn)確性。因此需要在模型運(yùn)行效率與檢測(cè)結(jié)果的準(zhǔn)確性之間進(jìn)行合理的權(quán)衡。②異常檢測(cè)的泛化能力。道路交通流量會(huì)受到許多不同因素的影響,且不同的區(qū)域受影響的權(quán)重存在差異[5],因此需要異常檢測(cè)算法有較強(qiáng)的泛化能力,能對(duì)不同交通情況進(jìn)行準(zhǔn)確的異常檢測(cè)。

交通異常檢測(cè)與交通流量預(yù)測(cè)有非常緊密的聯(lián)系,這個(gè)領(lǐng)域的研究主要經(jīng)歷了統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法三個(gè)階段,其中,相較于統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)方法通過(guò)深層次的神經(jīng)網(wǎng)絡(luò)層學(xué)習(xí)復(fù)雜的非線性關(guān)系,從而發(fā)掘出更深層次的特征關(guān)系,因而越來(lái)越多的研究采用深度學(xué)習(xí)方法。在交通流異常檢測(cè)方面,目前較為常見(jiàn)的異常檢測(cè)基礎(chǔ)模型是由Hochreiter 等[6]提出的LSTM(long short-term memory)模型,因?yàn)長(zhǎng)STM能夠?qū)W習(xí)到較長(zhǎng)時(shí)間序列數(shù)據(jù)的復(fù)雜關(guān)系。Zheng等[7]提出的基于LSTM 模型的交通流量預(yù)測(cè)方法,通過(guò)在LSTM網(wǎng)絡(luò)上增加由多個(gè)存儲(chǔ)單元組成的二維網(wǎng)絡(luò)學(xué)習(xí)交通數(shù)據(jù)的時(shí)空相關(guān)性,從而實(shí)現(xiàn)單位時(shí)間內(nèi)交通流量的預(yù)測(cè)。該模型較為簡(jiǎn)易且運(yùn)行效率較高,但模型的準(zhǔn)確性有待提升。

隨著研究的逐步深入,許多研究開(kāi)始考慮將LSTM 模型作為基礎(chǔ),與傳統(tǒng)統(tǒng)計(jì)模型或其他深度學(xué)習(xí)模型相結(jié)合,從而實(shí)現(xiàn)更高準(zhǔn)確度的異常檢測(cè)。劉世澤等[8]將LSTM 網(wǎng)絡(luò)、卷積殘差網(wǎng)絡(luò)和注意力機(jī)制中的擠壓激勵(lì)模塊相結(jié)合,對(duì)交通異常事件進(jìn)行高效檢測(cè)。彭桐歆等[9]將卷積神經(jīng)網(wǎng)絡(luò)、殘差單元和門(mén)控循環(huán)單元相結(jié)合,對(duì)交通流量數(shù)據(jù)進(jìn)行捕獲,從而對(duì)異常事件進(jìn)行檢測(cè)。Kong 等[10]利用LSTM 模型預(yù)測(cè)不同區(qū)域異常得分,然后通過(guò)OCSVM(one-class support vector machine)模型對(duì)相應(yīng)的異常區(qū)域進(jìn)一步作異常檢測(cè)。宋瑞蓉[11]等分別使用卷積長(zhǎng)短期記憶網(wǎng)絡(luò)、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)和全連接層提取交通數(shù)據(jù)的時(shí)空、周期以及外部特征,最后利用卡爾曼濾波器預(yù)測(cè)交通的線性特征。廖揮若等[12]使用卷積長(zhǎng)短期記憶網(wǎng)絡(luò)和注意力機(jī)制結(jié)合神經(jīng)殘差網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),最后再結(jié)合如天氣等其他因素取得更高的精確度。王海起等[13]通過(guò)網(wǎng)格劃分構(gòu)建交通流量時(shí)空矩陣,使用卷積神經(jīng)網(wǎng)絡(luò)模型獲得交通數(shù)據(jù)的空間特征,使用基于注意力機(jī)制的LSTM模型獲得交通數(shù)據(jù)的時(shí)間信息。以上幾種方法將不同模型結(jié)合從而達(dá)到較好的效果,但它們都面臨著模型運(yùn)行效率低下的問(wèn)題,而且相比較而言,交通流偶發(fā)性異常檢測(cè)具有更大的實(shí)際應(yīng)用需求。

綜合來(lái)看,目前的交通異常檢測(cè)和流量預(yù)測(cè)主要是基于LSTM 網(wǎng)絡(luò)構(gòu)建,且存在著模型不斷復(fù)雜化的發(fā)展趨勢(shì)。高度復(fù)雜的模型固然會(huì)帶來(lái)較高的檢測(cè)準(zhǔn)確性,但不應(yīng)忽視交通領(lǐng)域?qū)ε及l(fā)性交通異常所需的高效、實(shí)時(shí)的需求,需要兼顧模型運(yùn)行效率與檢測(cè)準(zhǔn)確性。由此,本文提出的Attention-LSTM交通異常檢測(cè)模型,在控制模型復(fù)雜度的基礎(chǔ)上充分利用交通流量數(shù)據(jù)的時(shí)空特性;同時(shí)采用不同數(shù)據(jù)集對(duì)該模型進(jìn)行比較分析,展現(xiàn)了其在不同數(shù)據(jù)集上的適應(yīng)能力以及對(duì)異常事件高效準(zhǔn)確的檢測(cè)性能。

1 模型構(gòu)建

長(zhǎng)短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)由Hochreiter等[6]于1997 年首次提出,用于解決循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)中較常見(jiàn)的梯度消失問(wèn)題。2000 年,Gers 等[14]引入遺忘門(mén)機(jī)制,使得LSTM 網(wǎng)絡(luò)能夠重置內(nèi)部狀態(tài)。在基礎(chǔ)的LSTM神經(jīng)網(wǎng)絡(luò)中,每個(gè)神經(jīng)元由輸入門(mén)、遺忘門(mén)和輸出門(mén)組成,使其擁有長(zhǎng)期記憶的能力,可以處理長(zhǎng)時(shí)間序列數(shù)據(jù)。由于在整個(gè)交通網(wǎng)絡(luò)中,某一節(jié)點(diǎn)的交通流量會(huì)受到其他節(jié)點(diǎn)的交通流量影響,且交通流量的變化存在時(shí)序性[15],因此考慮使用LSTM 模型作為檢測(cè)交通異常的基礎(chǔ)組件。雖然LSTM模型通過(guò)門(mén)結(jié)構(gòu)的設(shè)定,部分避免了在時(shí)間序列模型中的梯度消失的問(wèn)題。但是其仍然存在著信息傳遞“瓶頸”的問(wèn)題,尤其是在處理高維度的數(shù)據(jù)時(shí)(如本文實(shí)驗(yàn)中的2 000 維以上的實(shí)際數(shù)據(jù)),僅通過(guò)一個(gè)輸出的隱狀態(tài)來(lái)預(yù)測(cè)未來(lái),極易導(dǎo)致信息的丟失。此外,基礎(chǔ)的LSTM 還面臨著計(jì)算費(fèi)時(shí)[16]和無(wú)法并行化處理[17]等問(wèn)題。

Attention 機(jī)制最早由Bahdanau 等[18]于2015 年提出,用于機(jī)器翻譯,同年,由Xu等[19]將其引入圖像標(biāo)注(image caption)領(lǐng)域。Attention 機(jī)制的本質(zhì)是查詢(query)與一系列鍵值對(duì)(key-value)的相似度計(jì)算,兩者之間的相似度越高會(huì)分配更多的注意力資源,相似度越小則會(huì)分配更少的注意力資源。在實(shí)際的交通網(wǎng)絡(luò)中,也存在類似的情況:某些交通“堵點(diǎn)”是由路網(wǎng)中多個(gè)毗鄰或者較遠(yuǎn)距離的節(jié)點(diǎn)共同造成[16,20],通過(guò)Attention 機(jī)制關(guān)注影響交通流量的“關(guān)鍵點(diǎn)”顯得非常必要。

本文提出模型結(jié)構(gòu)如圖1 所示,由3 部分組成,分別為輸入降維、預(yù)測(cè)計(jì)算以及維度恢復(fù)。圖3中,a為輸入的交通流量數(shù)據(jù)的時(shí)間序列長(zhǎng)度,b為交通流量異常預(yù)測(cè)的時(shí)間序列長(zhǎng)度,m為交通流量數(shù)據(jù)的特征數(shù)量,r為降維后交通流量數(shù)據(jù)的特征數(shù)量,h為L(zhǎng)STM 單元隱狀態(tài)的維度,ReLU(rectified linear unit)為整流線性單元。相較于其他研究,該模型結(jié)構(gòu)簡(jiǎn)潔,避免大量深層網(wǎng)絡(luò)的堆砌,在確保準(zhǔn)確率的同時(shí),提高了模型的學(xué)習(xí)效率。

圖1 Attention-LSTM交通異常檢測(cè)模型Fig.1 Attention-LSTM traffic anomaly detection model

1.1 輸入降維與維度恢復(fù)

輸入降維部分參考了Gugulothu等[21]的研究,其研究發(fā)現(xiàn),在對(duì)高維度的稀疏時(shí)間序列矩陣進(jìn)行異常檢測(cè)時(shí),通過(guò)對(duì)輸入矩陣進(jìn)行維度降低可以提升模型異常檢測(cè)的準(zhǔn)確性。在本模型中,輸入矩陣維度為(a×m),即選取時(shí)間序列長(zhǎng)度為a的m維數(shù)據(jù)進(jìn)行計(jì)算,將輸入矩陣的維度由(a×m)下降至(a×r),其中滿足條件a>r。其數(shù)學(xué)表達(dá)式為

式中:X為原始數(shù)據(jù)矩陣;WR和BR為線性變換矩陣;Y為降維后的數(shù)據(jù)矩陣。

維度恢復(fù)部分與輸入降維部分相對(duì)應(yīng),需要將原本降低的輸出維度恢復(fù)。為此本文采用與輸入降維部分相同的方式,將輸出維度由(b×h)恢復(fù)至(b×m)。其數(shù)學(xué)表達(dá)為

式中:Yˉ為預(yù)測(cè)數(shù)據(jù)矩陣;WV和BV為線性變換矩陣;Xˉ為維度恢復(fù)后的預(yù)測(cè)數(shù)據(jù)矩陣。

1.2 預(yù)測(cè)計(jì)算

預(yù)測(cè)計(jì)算部分具體過(guò)程如下:首先,將經(jīng)過(guò)降維處理的輸入矩陣依序代入第一層LSTM 中計(jì)算,并將各時(shí)間點(diǎn)的輸出值進(jìn)行組合,得到維度為(a×h)的輸出矩陣,其中h為L(zhǎng)STM單元隱狀態(tài)的維度。

其次,將最后一個(gè)時(shí)刻的輸出值ht傳入第二層LSTM 層作為輸入,由此得到此后b個(gè)時(shí)間段的輸出矩陣,維度為(b×h)。

最后,對(duì)兩層LSTM 層的輸出進(jìn)行Attention 計(jì)算,其中,{hˉt+1,hˉt+2,…,hˉt+b}作為查詢矩陣Q,鍵值對(duì) 矩 陣K和V均 為{ht-a,…,ht-1,ht}。另 外,受Vaswani 等[22]研究的啟發(fā),本文在Attention 層之后使用殘差連接,得到維度為(b×h)的預(yù)測(cè)值矩陣Yˉ,數(shù)學(xué)表達(dá)式如下:

1.3 損失函數(shù)

本文選用平均絕對(duì)誤差L1作為損失函數(shù),計(jì)算某一時(shí)刻t預(yù)測(cè)值與實(shí)際值各維度的絕對(duì)差值的平均值,該值即為t時(shí)刻預(yù)測(cè)的損失值。將各個(gè)時(shí)間點(diǎn)的損失值進(jìn)行求和取均值,可得到模型整體的損失值。

為減小過(guò)擬合的可能性,避免模型對(duì)部分參數(shù)的過(guò)度依賴,本文對(duì)最后的目標(biāo)函數(shù)引入?yún)?shù)正則化[23]。其中W={WR,WL,WV},B={BR,BL,BV},WL,BL為L(zhǎng)STM 層中的計(jì)算參數(shù),||*||1則代表L1正則化,對(duì)模型中的所有參數(shù)進(jìn)行絕對(duì)值求和,得到最優(yōu)參數(shù)W*和B*。

2 交通異常檢測(cè)算法

2.1 交通流量數(shù)據(jù)的矩陣表達(dá)

2.2 交通流量數(shù)據(jù)降維

2.3 交通流量數(shù)據(jù)預(yù)測(cè)

通過(guò)對(duì)訓(xùn)練集的學(xué)習(xí),得到完成訓(xùn)練的模型參數(shù),并以此為基礎(chǔ),代入測(cè)試集進(jìn)行計(jì)算,由此得到對(duì)于任意時(shí)間點(diǎn)t的交通流量預(yù)測(cè)值,以函數(shù)F代表模型的計(jì)算過(guò)程,得到計(jì)算過(guò)程的數(shù)學(xué)表達(dá)如下:

2.4 交通異常事件的檢測(cè)

在得到了各時(shí)間點(diǎn)t的交通流量預(yù)測(cè)值以及各網(wǎng)格點(diǎn)的預(yù)測(cè)誤差正態(tài)分布函數(shù)后,進(jìn)行一步計(jì)算異常值得分以對(duì)異常事件進(jìn)行檢測(cè)。

對(duì)于任意網(wǎng)格點(diǎn)i,模型預(yù)測(cè)值與實(shí)際值之間的誤差應(yīng)滿足正態(tài)分布N(μi,σi),而當(dāng)異常事件發(fā)生時(shí),預(yù)測(cè)值與實(shí)際值會(huì)出現(xiàn)較大的偏差。因此,本文選擇將預(yù)測(cè)值與實(shí)際值的差代入正態(tài)分布的密度函數(shù)中計(jì)算,其數(shù)學(xué)式如下:

由于正態(tài)分布的密度函數(shù)滿足鐘型對(duì)稱結(jié)構(gòu),當(dāng)偏差值越偏離正態(tài)分布,則Pi t值將越小。為滿足異常偏差越大,異常值越大的需求,本文以式(15)為基礎(chǔ),將網(wǎng)格點(diǎn)i于時(shí)間點(diǎn)t的異常值得分定義為

當(dāng)異常事件發(fā)生時(shí),與之相關(guān)的網(wǎng)格點(diǎn)的異常值得分將遠(yuǎn)大于其他的網(wǎng)格點(diǎn)。本文將時(shí)間點(diǎn)t的各網(wǎng)格點(diǎn)的異常值得分進(jìn)行匯總,得到該時(shí)間點(diǎn)異常值總得分為

由此,通過(guò)對(duì)各時(shí)間點(diǎn)的異常值總得分進(jìn)行比較,可以及時(shí)發(fā)現(xiàn)異常事件的發(fā)生時(shí)間,進(jìn)一步,可以比較該時(shí)間點(diǎn)各網(wǎng)格點(diǎn)的具體異常值大小以確定異常事件的發(fā)生地點(diǎn)。對(duì)于是否存在異常的閾值的確定,可以根據(jù)不同數(shù)據(jù)進(jìn)行調(diào)整,本文將比時(shí)間窗口內(nèi)異常值總得分均值高50%的情況認(rèn)為出現(xiàn)異常。

3 數(shù)據(jù)實(shí)驗(yàn)

本文的數(shù)據(jù)實(shí)驗(yàn)由3 部分組成,實(shí)驗(yàn)一是使用Net Logo軟件,建立車輛流動(dòng)規(guī)則,模擬在一定區(qū)域內(nèi)交通流量的變化情況,并人為添加持續(xù)時(shí)間不同的交通異常事件。將本文提出的Attention-LSTM模型與自回歸模型(AR)以及LSTM 模型的異常事件檢測(cè)效果進(jìn)行比較。考慮到模擬數(shù)據(jù)具有虛構(gòu)性,無(wú)法體現(xiàn)現(xiàn)實(shí)交通數(shù)據(jù)的復(fù)雜性與多變性,實(shí)驗(yàn)二使用SKAB 這一在現(xiàn)實(shí)中收集的多維傳感數(shù)據(jù)集,并將異常檢測(cè)結(jié)果與排行榜上其他模型進(jìn)行比較。實(shí)驗(yàn)結(jié)果驗(yàn)證了Attention-LSTM 模型交通異常檢測(cè)的優(yōu)越性與對(duì)實(shí)際數(shù)據(jù)的優(yōu)秀適應(yīng)能力。在此基礎(chǔ)上,實(shí)驗(yàn)三使用2014年12月28日至2015年1月10日14 d內(nèi)的出租車GPS數(shù)據(jù),對(duì)模型檢測(cè)到的異常事件進(jìn)行實(shí)證分析,證明模型對(duì)檢測(cè)實(shí)際交通異常事件的可行性與準(zhǔn)確性。

3.1 Net Logo模擬數(shù)據(jù)實(shí)驗(yàn)

本文使用Net Logo模擬特定區(qū)域中車輛的軌跡隨時(shí)間的變化情況,借鑒Zhou等[24]提出的交通流量變化規(guī)則,模擬數(shù)據(jù)遵循以下規(guī)則:

(1)該區(qū)域內(nèi)的車輛總數(shù)固定,由參數(shù)CarNumber決定。

(2)車輛分為兩種狀態(tài),受雇與失業(yè),受雇車輛的比例由EmployRate決定。

(3)隨機(jī)生成住宅與公司的位置,各住宅和各公司的車輛數(shù)分別由PeoplePerCommunity 和PeoplePerCompany決定。

(4)將1 d劃分為120個(gè)時(shí)間段,即5個(gè)時(shí)間段為1 h。每日的第110至次日第19時(shí)間段為休息時(shí)間,此時(shí)受雇車輛于家中休息,失業(yè)車輛于原地休息。

(5)每日的第20 至第39 時(shí)間段為上班時(shí)間,受雇車輛由住宅向公司移動(dòng);每日第40至第89時(shí)間段為工作時(shí)間,受雇車輛停留在公司;每日第90 至第109 時(shí)間段為下班時(shí)間,受雇車輛由公司向住宅移動(dòng)。

(5)除休息時(shí)間外的所有時(shí)間段,失業(yè)車輛于區(qū)域內(nèi)隨機(jī)游蕩。

(6)隨機(jī)生成一定數(shù)量的異常事件,事件發(fā)生地點(diǎn)隨機(jī)生成,事件數(shù)量與異常持續(xù)時(shí)間分別由參數(shù)EventNumber與EventDuration決定。

(7)當(dāng)異常事件發(fā)生時(shí),一定數(shù)量的受雇車輛和失業(yè)車輛會(huì)受到影響,臨近異常點(diǎn)的部分車輛會(huì)受到阻礙,由參數(shù)AttractRate 決定。各參數(shù)的名稱及含義見(jiàn)表1。

表1 Net Logo模擬數(shù)據(jù)參數(shù)Tab.1 Parameters of Net Logo simulation data

模擬數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)兩部分,訓(xùn)練數(shù)據(jù)根據(jù)規(guī)則(1)~(5)生成無(wú)異常事件的車輛軌跡數(shù)據(jù),代入不同模型中進(jìn)行訓(xùn)練。測(cè)試數(shù)據(jù)則根據(jù)規(guī)則(1)~(7)生成含有一定數(shù)量的異常事件的車輛軌跡數(shù)據(jù),代入已訓(xùn)練的模型中進(jìn)行異常檢測(cè),由此比較不同模型的異常事件檢測(cè)能力。

模擬數(shù)據(jù)設(shè)置時(shí)間長(zhǎng)度為7 d,即共840 個(gè)時(shí)間段。將區(qū)域劃分為11×11 共121 個(gè)網(wǎng)格點(diǎn)。為比較模型對(duì)不同持續(xù)時(shí)長(zhǎng)的異常事件的檢測(cè)能力,本文設(shè)置了3 種異常持續(xù)時(shí)間(EventDuration=5,10,20)。以下以EventDuration=5 的情況為例,其中異常事件數(shù)量為9 (EventNumber=9),模型的預(yù)測(cè)結(jié)果如圖2所示

圖2 Event Duration=5時(shí)的異常檢測(cè)效果Fig.2 Effect of anomaly detection at event duration of 5

豎直黑線所標(biāo)記的是異常事件發(fā)生的時(shí)間點(diǎn),可以發(fā)現(xiàn)在這些時(shí)間點(diǎn)的異常值總得分與其他時(shí)間的異常值總得分有較大的偏差,可以認(rèn)為模型對(duì)異常事件的檢測(cè)是顯著的。

本文使用時(shí)間序列的傳統(tǒng)統(tǒng)計(jì)模型自回歸(AR)模型與深度學(xué)習(xí)中的LSTM 預(yù)測(cè)模型作為比較基準(zhǔn)。使用接受者操作特性曲線下方的面積大?。ˋUC)作為比較標(biāo)準(zhǔn),各方法在3 種不同的異常持續(xù)時(shí)間(5/10/20)下的AUC值如表2所示

表2 各模型異常檢測(cè)AUC比較Tab.2 AUC of different anomaly detection models

在異常事件持續(xù)時(shí)間為5、10和20個(gè)時(shí)間段時(shí),Attention-LSTM 模型都有最好的效果。對(duì)于Attention-LSTM模型與AR模型及LSTM預(yù)測(cè)模型間存在的差異,本文從兩個(gè)角度進(jìn)行分析。一是對(duì)深度學(xué)習(xí)模型與統(tǒng)計(jì)模型的差異分析:AR模型本質(zhì)上是時(shí)間序列數(shù)據(jù)的線性回歸,而深度學(xué)習(xí)中的LSTM模型能提供非線性函數(shù),增加模型的復(fù)雜度,提升學(xué)習(xí)能力。由此發(fā)現(xiàn)無(wú)論是LSTM 模型還是Attention-LSTM 模型,表現(xiàn)都優(yōu)于AR 模型。二是對(duì)LSTM 預(yù)測(cè)模型與Attention-LSTM 模型的對(duì)比分析:交通流量數(shù)據(jù)存在周期性且受到交通網(wǎng)絡(luò)中其他網(wǎng)格的影響,而Attention 機(jī)制能找到與當(dāng)前交通流量相似程度最高的歷史時(shí)間點(diǎn)并賦予高權(quán)重,從而充分利用交通流量的歷史信息,提升模型的準(zhǔn)確性。

3.2 SKAB公開(kāi)數(shù)據(jù)集實(shí)驗(yàn)

SKAB v0.9公開(kāi)數(shù)據(jù)集為工業(yè)傳感器收集到的實(shí)際多元時(shí)間序列數(shù)據(jù)。該數(shù)據(jù)按照事件順序收集,具有時(shí)間序列的特征。傳感器之前存在相關(guān)性關(guān)系,不同的傳感器之前的相關(guān)性權(quán)重不同。由于多元傳感器異常數(shù)據(jù)與交通流量數(shù)據(jù)存在類似性質(zhì),可以看做同一類數(shù)據(jù)進(jìn)行分析處理。該數(shù)據(jù)集數(shù)據(jù)結(jié)構(gòu)如表3所示。

表3 SKAB數(shù)據(jù)集參數(shù)及意義Tab.3 Parameters and meanings of SKAB dataset

該數(shù)據(jù)集提供了用于評(píng)估模型檢測(cè)能力的指標(biāo)算法,其采用的指標(biāo)為F1分?jǐn)?shù)、漏報(bào)率(MAR)與誤報(bào)率(FAR)。將SKAB 數(shù)據(jù)集應(yīng)用于本文模型,并與排行榜上的其他模型比較檢測(cè)效果,其結(jié)果如表4所示。

表4 SKAB leaderboard模型比較Tab.4 Model comparison of SKAB leaderboard

由表4可知,本文算法以0.67的F1分?jǐn)?shù)與排行榜中的T-squared+Q(PAC)方法并列榜首。

綜合來(lái)看,實(shí)驗(yàn)一在模擬的交通數(shù)據(jù)上證明了本文提出的Attention-LSTM 模型較于傳統(tǒng)模型中的AR模型與深度學(xué)習(xí)中的LSTM模型有更好的異常檢測(cè)能力。為排除模擬數(shù)據(jù)的影響,實(shí)驗(yàn)二使用了多維傳感器現(xiàn)實(shí)數(shù)據(jù),值得注意的是,SKAB數(shù)據(jù)集具有與交通流量數(shù)據(jù)集相似的時(shí)空特性。在該數(shù)據(jù)集上,Attention-LSTM 模型表現(xiàn)出很好的檢測(cè)效果,其在不同的變量維度,不同的時(shí)間序列長(zhǎng)度甚至不同的應(yīng)用場(chǎng)景上,有著很好的適應(yīng)能力。由此可以得出結(jié)論,本文提出的基于Attention 的交通異常檢測(cè)模型較傳統(tǒng)方法中的自回歸模型與深度學(xué)習(xí)方法中的LSTM 預(yù)測(cè)模型存在優(yōu)勢(shì),本文進(jìn)一步將模型用于實(shí)際的上海市出租車GPS 軌跡數(shù)據(jù)中以檢驗(yàn)其對(duì)實(shí)際交通異常事件的檢測(cè)能力。

3.3 上海市出租車GPS數(shù)據(jù)實(shí)驗(yàn)

本文使用了上海市出租車的實(shí)際GPS 軌跡數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。數(shù)據(jù)的時(shí)間跨度為2014年12月28日至2015 年1 月10 日,共14 d 的數(shù)據(jù)。本文將后7 天即2015年1月4日至2015年1月10日的數(shù)據(jù)作為訓(xùn)練集,將前7 天即2014 年12 月28 日至2015 年1 月3日的數(shù)據(jù)作為測(cè)試集。

為充分減少交通流量值較低的地區(qū)對(duì)模型效果的影響,本實(shí)驗(yàn)只選取了上海外環(huán)線以內(nèi)的地區(qū),具體覆蓋范圍如圖3 所示,面積約為900km2(30 km×30 km)。在網(wǎng)格點(diǎn)的劃分上,由于原始數(shù)據(jù)是每輛出租車在某一時(shí)刻所在地點(diǎn)的經(jīng)緯度信息,因此本文并沒(méi)有按照具體尺寸將網(wǎng)格點(diǎn)分為長(zhǎng)寬相同的方格,而是使用了相同的經(jīng)緯度度數(shù)進(jìn)行劃分,每個(gè)格子的經(jīng)緯度跨度都是0.005°,大致相當(dāng)于東西寬480 m、南北長(zhǎng)550 m 的網(wǎng)格,由此整個(gè)地圖區(qū)域被劃分為3 348(54×62)個(gè)同等大小的網(wǎng)格點(diǎn)。在時(shí)間間隔上,本文選擇每隔10 min 統(tǒng)計(jì)處于每個(gè)網(wǎng)格內(nèi)的出租車數(shù)量,將訓(xùn)練集與測(cè)試集都分為1 008(7×24×60/10)個(gè)時(shí)間段。最終處理好的數(shù)據(jù)集為1 008×3 348的矩陣形式。

圖3 選取的實(shí)際地圖范圍與模型檢測(cè)輸出Fig.3 Real map and model detection output of selected area

本文選取的區(qū)域內(nèi)有河流等出租車無(wú)法到達(dá)的地方,同時(shí)為了消除部分交通流量較小的網(wǎng)格點(diǎn)的影響,本文設(shè)最低流量閾值ThreLow=50。圖3 為選取地區(qū)的交通交通流量熱力圖,黑色區(qū)域就是被消除的交通流量較小的網(wǎng)格點(diǎn),顏色越亮表示交通流量越大。對(duì)比實(shí)際地圖來(lái)看,與預(yù)想相符,消除了水域與偏僻地區(qū)的交通流量影響。在消除這些網(wǎng)格的影響后,參與計(jì)算的網(wǎng)格數(shù)量減少為1 903 個(gè),約為總網(wǎng)格數(shù)的58%。數(shù)據(jù)集轉(zhuǎn)化為1 008×1 903的矩陣形式。

由于本實(shí)驗(yàn)中選取的區(qū)域面積較大,覆蓋較廣,即使對(duì)網(wǎng)格進(jìn)行降維處理后仍有1 903 個(gè)網(wǎng)格點(diǎn)。而在現(xiàn)實(shí)情況中,當(dāng)異常事件發(fā)生時(shí),異常事件通常集中在少部分網(wǎng)格點(diǎn),如果采用對(duì)模擬數(shù)據(jù)的檢驗(yàn)方法,將各網(wǎng)格點(diǎn)的異常值大小進(jìn)行累加,會(huì)導(dǎo)致噪音很多,異常事件檢測(cè)效果很差。因此,本文將每個(gè)時(shí)間點(diǎn)的異常值最高的前5個(gè)網(wǎng)格的平均值作為當(dāng)前時(shí)間點(diǎn)整個(gè)地區(qū)的異常值得分。圖4 中,水平線為平均異常值得分。可以發(fā)現(xiàn),這些高異常值得分主要分布在2個(gè)時(shí)間范圍,一個(gè)是在2014年12月28日上午,而另一個(gè)則分布在2014年12月31日上午。

圖4 交通異常檢測(cè)結(jié)果Fig.4 Result of traffic anomaly detection

對(duì)兩個(gè)時(shí)間段的檢測(cè)結(jié)果進(jìn)一步分析,本文發(fā)現(xiàn)2014年12月28日上午的異常事件是由于當(dāng)天舉辦碩士研究生招生考試,大量考生乘坐出租車前往考點(diǎn),進(jìn)而導(dǎo)致在部分考點(diǎn)周邊路段出現(xiàn)大規(guī)模堵車;而2014 年12 月31 日上午的異常事件是由于當(dāng)天有許多跨年慶?;顒?dòng)在上海市區(qū)舉辦,市民由郊區(qū)涌向市區(qū),導(dǎo)致上海繞城高速與外環(huán)高速往市區(qū)方向路段的持續(xù)擁堵。

由此,本文證明了該模型能對(duì)實(shí)際GPS 數(shù)據(jù)進(jìn)行處理分析,并對(duì)現(xiàn)實(shí)中發(fā)生的交通異常事件進(jìn)行有效檢測(cè),且能快速精確地定位異常事件的發(fā)生位置。

4 結(jié)語(yǔ)

本文針對(duì)交通異常事件的檢測(cè)問(wèn)題,將Attention 機(jī)制引入交通異常事件檢測(cè)領(lǐng)域中,將Attention-LSTM 模型與其他模型進(jìn)行對(duì)比分析,證實(shí)了Attention-LSTM 模型的優(yōu)越性。進(jìn)一步將模型用于實(shí)際GPS 數(shù)據(jù)中,對(duì)現(xiàn)實(shí)中的異常事件有很好的檢測(cè)效果,證實(shí)了本文模型實(shí)際應(yīng)用的有效性。通過(guò)Attention 機(jī)制的注意力權(quán)重分配特性,使得算法對(duì)交通異常事件更為敏感,在模擬數(shù)據(jù)集、公開(kāi)數(shù)據(jù)集以及上海出租車GPS 數(shù)據(jù)集上,檢測(cè)準(zhǔn)確性均更高,可見(jiàn),Attention-LSTM 模型具有良好的適應(yīng)能力。與此同時(shí),Attention-LSTM 模型盡量精簡(jiǎn)了結(jié)構(gòu),降低了模型訓(xùn)練時(shí)的成本,使得其在處理2 000維左右的高維度交通數(shù)據(jù)時(shí),也能夠較為快速地完成。本文也形成了一套完整的從模型訓(xùn)練、方法遷移到實(shí)際應(yīng)用的設(shè)計(jì)方案,比較適合無(wú)標(biāo)簽的數(shù)據(jù)集分析。

作者貢獻(xiàn)聲明:

鄭大慶:方法構(gòu)思,實(shí)驗(yàn)設(shè)計(jì)和論文撰寫(xiě)。

林陳威:數(shù)據(jù)整理,代碼設(shè)計(jì)和論文撰寫(xiě)。

王昺杰:數(shù)據(jù)整理,代碼設(shè)計(jì)和論文撰寫(xiě)。

猜你喜歡
交通流量網(wǎng)格交通
用全等三角形破解網(wǎng)格題
繁忙的交通
童話世界(2020年32期)2020-12-25 02:59:14
反射的橢圓隨機(jī)偏微分方程的網(wǎng)格逼近
基于XGBOOST算法的擁堵路段短時(shí)交通流量預(yù)測(cè)
基于GA-BP神經(jīng)網(wǎng)絡(luò)的衡大高速公路日交通流量預(yù)測(cè)
小小交通勸導(dǎo)員
重疊網(wǎng)格裝配中的一種改進(jìn)ADT搜索方法
基于曲面展開(kāi)的自由曲面網(wǎng)格劃分
基于復(fù)合卡和ETC的交通流量采集研究
MLFF系統(tǒng)在交通流量控制中的應(yīng)用
巨野县| 云阳县| 枞阳县| 景洪市| 乾安县| 昆山市| 陇西县| 新竹市| 潼关县| 台江县| 永顺县| 门头沟区| 宾阳县| 永年县| 安顺市| 玛沁县| 民丰县| 合山市| 宁津县| 贵港市| 莒南县| 天镇县| 中西区| 铜山县| 行唐县| 沂水县| 沾益县| 海原县| 山阴县| 康平县| 水城县| 十堰市| 宁都县| 寿阳县| 中山市| 晋中市| 宜城市| 河东区| 明溪县| 图木舒克市| 南部县|