黃士琛,邵春福,李娟,張小雨,錢(qián)劍培
(北京交通大學(xué),綜合交通運(yùn)輸大數(shù)據(jù)應(yīng)用技術(shù)交通運(yùn)輸行業(yè)重點(diǎn)實(shí)驗(yàn)室,北京100044)
隨著空間定位采樣技術(shù)的發(fā)展和移動(dòng)終端的普及,海量軌跡數(shù)據(jù)的知識(shí)發(fā)現(xiàn)成為交通領(lǐng)域的研究熱點(diǎn)和趨勢(shì)。車(chē)輛軌跡數(shù)據(jù)由于更新快、頻率高,可以得到居民出行和交通運(yùn)行狀態(tài)等重要信息,成為數(shù)字交通的建設(shè)基石。車(chē)輛軌跡理應(yīng)依附于城市道路網(wǎng)絡(luò),然而受到記錄故障、定位故障和人工失誤操作的影響,軌跡數(shù)據(jù)呈現(xiàn)出不確定性、稀疏性和偏態(tài)分布性等缺點(diǎn)[1],無(wú)法精確依照出行者的出行行為和道路網(wǎng)絡(luò)進(jìn)行存儲(chǔ),進(jìn)而產(chǎn)生異常點(diǎn)段,使其在交通領(lǐng)域的應(yīng)用受到阻礙。因此,車(chē)輛軌跡重建與異常識(shí)別研究具有重要意義。
針對(duì)GPS軌跡異常識(shí)別,CHAWLA[2]根據(jù)交通小區(qū)的OD 矩陣,分析潛在的異常鏈路,再依據(jù)歷史信息識(shí)別異常點(diǎn)段。吳玥琳[3]清洗并分析出租車(chē)的軌跡特點(diǎn),從包圍面積和相似度角度闡述軌跡特征并用于合乘行為研究。LEI[4]提出MT-MAD 框架,將軌跡按區(qū)域分割,根據(jù)區(qū)域內(nèi)的軌跡特征分?jǐn)?shù)排序,將分?jǐn)?shù)超過(guò)閾值的軌跡視為異常。在軌跡重建方面,SPAGNOL[5]結(jié)合GPS 與另一組傳感器的數(shù)據(jù)共同推算和重建移動(dòng)軌跡。ZHANG[6]使用樣條曲線(xiàn)函數(shù)擬合船舶的航向軌跡并表明性能優(yōu)于多項(xiàng)式回歸等模型。
本文嘗試將對(duì)抗生成網(wǎng)絡(luò)等深度學(xué)習(xí)方法應(yīng)用于軌跡重建和異常識(shí)別。GOODFELLOW[7]提出基于對(duì)抗網(wǎng)絡(luò)的生成模型(Generative Adversarial Networks,GANs),模型里生成器和判別器兩個(gè)神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)反復(fù)博弈,使生成器逼近樣本實(shí)際分布。HINTON[8]通過(guò)深度自編碼網(wǎng)絡(luò)(Autoencoder,AE)提取高維數(shù)據(jù)特征并表明AE是有效的參數(shù)預(yù)訓(xùn)練方法。段宗濤[9]使用長(zhǎng)、短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Long Short-term Memory,LSTM)預(yù)測(cè)出租車(chē)需求并取得高準(zhǔn)確率。YANG[10]提出能區(qū)別地關(guān)注重要和不重要特征的注意力模型(Attention),用于文檔分類(lèi)并取得較高精度。
本文構(gòu)建基于LSTM-AE-Attention 模型的軌跡重建與異常識(shí)別方法,針對(duì)車(chē)輛軌跡數(shù)據(jù)集中正常與異常數(shù)據(jù)不平衡問(wèn)題,采用數(shù)據(jù)增強(qiáng)的思路,通過(guò)GANs和貝塞爾曲線(xiàn)豐富數(shù)據(jù)集的數(shù)量和種類(lèi)。同時(shí),針對(duì)深度學(xué)習(xí)參數(shù)不易標(biāo)定的缺點(diǎn),建立融合LSTM的AE模型自動(dòng)提取軌跡中最具代表性的特征,在參數(shù)預(yù)訓(xùn)練的同時(shí)完成軌跡重建并使其更平滑。在異常識(shí)別中,引入注意力機(jī)制提升模型的分類(lèi)精度。
車(chē)輛k的出行軌跡為{Tk=(xi,yi)|i=1,2,…,r;k=1,2,…,m},其中:xi、yi分別為車(chē)輛的經(jīng)度、緯度(按時(shí)間升序排列),m為全部車(chē)輛產(chǎn)生的軌跡總數(shù),r為軌跡Tk中經(jīng)緯度點(diǎn)的個(gè)數(shù)。若車(chē)輛k的軌跡Tk出現(xiàn)軌跡接收不全和軌跡定位漂移等誤差,則定義Tk為異常軌跡并將lk賦值為1;否則,lk為0。每個(gè)Tk對(duì)應(yīng)1 個(gè)是否為異常軌跡的標(biāo)簽lk,即{lk|lk∈{0,1},k=1,…,m}。軌跡示意如圖1所示。
圖1 正常軌跡和異常軌跡示意Fig.1 Normal and abnormal trajectory
由圖1可知,正常軌跡和異常軌跡的區(qū)別較為明顯,正常軌跡的線(xiàn)條相對(duì)光滑,軌跡點(diǎn)之間距離和角度的變化也較平緩;當(dāng)軌跡接收出現(xiàn)間斷時(shí),部分軌跡點(diǎn)間將產(chǎn)生長(zhǎng)距離間隔;當(dāng)軌跡點(diǎn)定位發(fā)生漂移時(shí),坐標(biāo)點(diǎn)將產(chǎn)生劇烈的角度和位置變化。
本文需要從海量軌跡數(shù)據(jù)中提取特征,而手工提取特征(例如:統(tǒng)計(jì)軌跡的歐氏距離、速度等)不易囊括數(shù)據(jù)所蘊(yùn)含的全部信息,故采用典型的自動(dòng)提取特征的AE模型,通過(guò)模型中的編碼器Q1和解碼器Q2自動(dòng)提取軌跡特征。軌跡重建是要找到神經(jīng)網(wǎng)絡(luò)Q1和Q2并使Q2[Q1(Tk)]=Tk構(gòu)成恒等映射,用AE 來(lái)訓(xùn)練函數(shù)Q1和為重建后的軌跡。異常識(shí)別被歸納為1 個(gè)有監(jiān)督的多分類(lèi)問(wèn)題,樣本集為{(Tk,lk)|k=1,2,…,m},輸入為AE提取的特征Q1(Tk),輸出為lk。
在分類(lèi)問(wèn)題中,樣本集的正類(lèi)與反類(lèi)比例大于4∶1 時(shí)被認(rèn)為不平衡。本文樣本集{(Tk,lk)|k=1,2,…,m},標(biāo)簽lk數(shù)量差別較大(正常與異常比例為12∶1),故車(chē)輛軌跡數(shù)據(jù)集不平衡,修正方法包括:欠采樣和過(guò)采樣。
欠采樣是隨機(jī)去除多數(shù)類(lèi)中的樣本,使多數(shù)類(lèi)和少數(shù)類(lèi)的數(shù)量接近,但會(huì)丟失多數(shù)類(lèi)的部分特征。過(guò)采樣是將少數(shù)類(lèi)擴(kuò)增到與多數(shù)類(lèi)相近的數(shù)量。本文將少數(shù)類(lèi)(即異常軌跡數(shù)據(jù))作為輸入,使用基于GANs的過(guò)采樣方法,通過(guò)訓(xùn)練不斷逼近少數(shù)類(lèi)分布,產(chǎn)生人工合成的異常軌跡,從而均衡不平衡樣本集。此外,Tk也可以代表動(dòng)物、臺(tái)風(fēng)等物體的移動(dòng)規(guī)律,因此,模型不僅需要識(shí)別正常和異常的交通軌跡,還應(yīng)具備識(shí)別交通和非交通軌跡的能力。如圖2所示,本文一方面通過(guò)人工合成異常軌跡改善樣本數(shù)量不平衡的問(wèn)題,另一方面增加非交通軌跡,擴(kuò)展數(shù)據(jù)多樣性,從樣本數(shù)量和類(lèi)別兩方面實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)。
圖2 基于數(shù)據(jù)增強(qiáng)的軌跡樣本集構(gòu)建和數(shù)據(jù)流向Fig.2 Trajectory dataset construction and data flow based on data augmentation
對(duì)抗生成網(wǎng)絡(luò)GANs 是通過(guò)對(duì)抗學(xué)習(xí)逼近數(shù)據(jù)分布的生成模型。GANs由生成器G和判別器D組成,兩者均為神經(jīng)網(wǎng)絡(luò)。G的目的是輸出可欺騙D的人工合成樣本,D的任務(wù)是判斷樣本是真實(shí)存在還是人工合成,兩者不斷對(duì)抗并在理論上達(dá)到納什均衡。當(dāng)模型訓(xùn)練完成后,G能產(chǎn)生騙過(guò)D的合成異常軌跡,G與D的目標(biāo)函數(shù)為
式中:x為從現(xiàn)實(shí)的異常軌跡分布pdata(x)中采樣得到的異常軌跡;z從概率分布pz(z)(一般為均勻分布)中隨機(jī)采樣得到,喂給G產(chǎn)生合成的異常軌跡G(z)。模型訓(xùn)練D使x和G(z)分別被識(shí)別為1和0,使G生成G(z)并期望D[G(z)]的值為1。
對(duì)異常軌跡數(shù)據(jù)通過(guò)GANs 進(jìn)行過(guò)采樣的訓(xùn)練過(guò)程如圖3所示。
圖3 對(duì)抗生成網(wǎng)絡(luò)GANs生成器G和判別器D的訓(xùn)練過(guò)程Fig.3 Training process of Generator G and Discriminator D for GANs
圖3中G和D的損失值在相互博弈中浮動(dòng)下降,隨著訓(xùn)練次數(shù)的增加,G和D的損失值逐步趨于穩(wěn)定,此時(shí),便可以使用生成器G產(chǎn)生人工合成的異常軌跡。
本文使用貝塞爾曲線(xiàn)生成非交通軌跡。對(duì)于每條曲線(xiàn),首先,產(chǎn)生隨機(jī)數(shù)u∈[5,30]作為控制點(diǎn);然后,生成貝塞爾曲線(xiàn)方程;最后,等間隔采集曲線(xiàn)坐標(biāo)得到非交通軌跡。u階貝塞爾曲線(xiàn)通過(guò)控制點(diǎn)生成平滑曲線(xiàn)為
式中:曲線(xiàn)自變量a的定義域?yàn)?~1;Pj為曲線(xiàn)的控制點(diǎn)坐標(biāo);u為貝塞爾曲線(xiàn)的階數(shù)。綜上,本文通過(guò)數(shù)據(jù)增強(qiáng)將樣本集擴(kuò)展為{(Tk,lk)|lk∈{0,1,2} ;k=1,2,…,N},標(biāo)簽lk取值0,1和2 分別對(duì)應(yīng)正常交通軌跡,異常交通軌跡和非交通軌跡。
LSTM-AE-Attention 模型包含AE 神經(jīng)網(wǎng)絡(luò)和預(yù)測(cè)網(wǎng)絡(luò)兩部分。LSTM-AE是由編碼器和解碼器組成并添加LSTM的AE 神經(jīng)網(wǎng)絡(luò),負(fù)責(zé)捕獲特征并輸出重建軌跡;預(yù)測(cè)網(wǎng)絡(luò),在接受LSTM-AE的預(yù)訓(xùn)練特征后,結(jié)合Attention進(jìn)行異常識(shí)別。計(jì)算流程如圖2所示,先訓(xùn)練和測(cè)試軌跡重建的效果,再固定AE編碼器的參數(shù)用于異常軌跡識(shí)別。
(1)LSTM-Autoencoder結(jié)構(gòu)
自編碼網(wǎng)絡(luò)(AE)是提取特征的無(wú)監(jiān)督算法,由編碼Q1和解碼Q2組成并融合LSTM 成為L(zhǎng)STMAE。編碼將Tk映射為長(zhǎng)度為d的向量c=[c1,c2,…,cd];解碼將向量c映射成同Tk維度相同的序列。LSTM-AE的優(yōu)化目標(biāo)是使輸入和輸出的差值不斷降低,當(dāng)訓(xùn)練完成后可認(rèn)為c蘊(yùn)含了Tk的特征。
Q1和Q2由數(shù)個(gè)LSTM 組成,為保證特征留存和傳遞,LSTM有3個(gè)函數(shù),分別為輸入門(mén)g遺忘門(mén)f和輸出門(mén)o,3個(gè)函數(shù)共同更新LSTM的狀態(tài),計(jì)算公式為
式中:gt,ft和ot分別為第t層輸入門(mén),遺忘門(mén)和輸出門(mén)的函數(shù)輸出;ct和ht作為當(dāng)前層提取的信息保留并向下層傳遞;Wxj,Whj和bj為L(zhǎng)STM的參數(shù),j∈(g,f,c,o);σ(?)和tanh(?) 為relu和tanh 函數(shù);?為元素乘法運(yùn)算符。神經(jīng)網(wǎng)絡(luò)模型框架如圖4所示。
圖4 LSTM-AE-Attention神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.4 Structure of LSTM-AE-Attention neural network model
(2)基于注意力模型的異常軌跡識(shí)別
圖4中異常識(shí)別部分,注意力模型由單層LSTM和Attention 層組成。注意力模型掃描向量c=[c1,c2,…,cd]得到需要關(guān)注的焦點(diǎn)后對(duì)其投入更多權(quán)重,在獲取細(xì)節(jié)的同時(shí)抑制不重要的信息。Tk經(jīng)過(guò)F1的映射后得到向量c,而后實(shí)現(xiàn)Attention層,計(jì)算式為
式中:q為經(jīng)過(guò)編碼器Q1提取得到的特征向量c在權(quán)值α的加權(quán)求和,并作為特征向量用于軌跡異常識(shí)別。具體地,全連接層R(cv) 以參數(shù)Wv和bv實(shí)現(xiàn)cv的非線(xiàn)性映射,而后通過(guò)Softmax 函數(shù)計(jì)算cv的歸一化權(quán)重αv。其中,Wv,bv和h被賦初值并隨著訓(xùn)練不斷被更新。
本文使用北京市2015年1月12日-18日采集的出租車(chē)GPS 軌跡數(shù)據(jù),經(jīng)過(guò)清洗后有10400 條。將可視化后的軌跡進(jìn)行人工標(biāo)注,得到異常軌跡803條,異常軌跡占數(shù)據(jù)集的8.0%。數(shù)據(jù)增強(qiáng)后得到正常交通軌跡1800條,異常交通軌跡1200條,非交通軌跡1200 條,在避免過(guò)度的欠采樣丟失正常交通樣本的特征,同時(shí)維持正常交通軌跡數(shù)量多于異常交通軌跡的前提下,樣本數(shù)量基本達(dá)到均衡。取數(shù)據(jù)集的80%為訓(xùn)練集,20%為測(cè)試集,兩個(gè)數(shù)據(jù)集的標(biāo)簽比例均衡。
為驗(yàn)證模型有效性,實(shí)驗(yàn)設(shè)計(jì)有LSTM-AEAttention 模型組件對(duì)比、軌跡重建和異常軌跡識(shí)別,將本模型與其他模型通過(guò)評(píng)價(jià)指標(biāo)進(jìn)行對(duì)比分析。全連接層(MLP),門(mén)循環(huán)單元(GRU),支持向量機(jī)(SVM)和隨機(jī)森林(RF)被運(yùn)用在實(shí)驗(yàn)中,評(píng)價(jià)指標(biāo)和對(duì)比模型如表1所示。
表1 實(shí)驗(yàn)設(shè)計(jì)Table 1 Experimental design
用決定系數(shù)R2評(píng)價(jià)軌跡重建效果,這里以經(jīng)度為例,第k條軌跡Tk經(jīng)度方向的決定系數(shù)公式為
式中:r為軌跡Tk中點(diǎn)的數(shù)量;xi為軌跡Tk第i個(gè)經(jīng)度坐標(biāo);為對(duì)應(yīng)預(yù)測(cè)的經(jīng)度坐標(biāo);為xi的平均值。R2越接近1,表示重建效果越高;反之,則低。
為重點(diǎn)對(duì)比模型在判別異常交通軌跡上的性能,本文將識(shí)別結(jié)果歸為異常交通軌跡(正類(lèi))和正常及非交通軌跡(負(fù)類(lèi))兩類(lèi)。統(tǒng)計(jì)結(jié)果中包括:真陽(yáng)性樣本、假陽(yáng)性樣本和假陰性樣本,真陽(yáng)性樣本是實(shí)際和預(yù)測(cè)均為正類(lèi),假陽(yáng)性樣本是實(shí)際為負(fù)類(lèi)而預(yù)測(cè)為正類(lèi),假陰性樣本則是實(shí)際為正類(lèi),預(yù)測(cè)為負(fù)類(lèi)。通過(guò)上述樣本計(jì)算精度、召回率和F1值,公式為
式中:STP、SFP和SFN分別代表真陽(yáng)性樣本、假陽(yáng)性樣本和假陰性樣本的數(shù)量;eprecision為精度,指模型識(shí)別為異常軌跡的樣本中真正是異常樣本的比例;erecall為召回率,指全部異常軌跡中,被模型正確識(shí)別出的比例。若模型只成功識(shí)別出1 個(gè)異常軌跡而其他樣本均非異常,精度為1 但召回率很低;若模型將所有軌跡都識(shí)別為異常,召回率為1但精度很低。因此,憑精度或召回率無(wú)法評(píng)價(jià)模型的性能,本文增加F1值綜合評(píng)價(jià)模型性能,其值同時(shí)受精度和召回率的影響。
GANs通過(guò)MLP構(gòu)建,其中,G由神經(jīng)元個(gè)數(shù)為256、512和1024的MLP 構(gòu)成;D由神經(jīng)元個(gè)數(shù)為512和256的MLP 構(gòu)成。LSTM-AE-Attention采用5 層LSTM 結(jié)構(gòu),每層神經(jīng)元的個(gè)數(shù)為64、32、16、32和64,激活函數(shù)為relu 函數(shù),同時(shí)為避免過(guò)擬合,層與層之間使用Dropout層。為保證一致性,層數(shù)為5的AE 模型(MLP-AE,GRU-AE和LSTMAE)的神經(jīng)元個(gè)數(shù)與LSTM-AE-Attention的設(shè)置相同。層數(shù)為1的LSTM神經(jīng)元個(gè)數(shù)為64,其他超參數(shù)與Attention-LSTM-AE中LSTM模塊的設(shè)置保持一致。此外,為保證結(jié)果可靠,挑選SVM和RF 中典型1~2 個(gè)超參數(shù)進(jìn)行網(wǎng)格搜索,例如:SVM的懲罰系數(shù),RF中樹(shù)的數(shù)量和最大深度。
模型采用Python 編寫(xiě),基于Tensorflow和Keras 實(shí)現(xiàn)并使用GPU 加速。數(shù)據(jù)進(jìn)行了中心化。軌跡重建的損失函數(shù)為均方誤差(Mean Square Error,MSE),異常識(shí)別的損失函數(shù)為交叉熵?fù)p失函數(shù)(Cross Entropy Loss,CEL),即
式中:li和為第i個(gè)樣本的真實(shí)值和預(yù)測(cè)值;N為樣本數(shù)量;J為類(lèi)別數(shù)量;lk,s為指示變量,即當(dāng)lk屬于類(lèi)別s時(shí)為1,否則為0。qlk為q的第lk個(gè)分量。模型的優(yōu)化器均為Adam,學(xué)習(xí)率在0.00001~0.001 尋優(yōu)后,GANs的學(xué)習(xí)率為0.0005,軌跡重建的學(xué)習(xí)率為0.0005,異常識(shí)別的學(xué)習(xí)率為0.0001。批量大小在1~32尋優(yōu)后均設(shè)置為16。迭代次數(shù)為50 次,神經(jīng)網(wǎng)絡(luò)在訓(xùn)練中采取早停法,使模型獲得較好的泛化能力。
(1)模型各組件對(duì)比分析
通過(guò)LSTM-AE-Attention的各部分進(jìn)行拆分實(shí)驗(yàn),從多種評(píng)價(jià)指標(biāo)體現(xiàn)模型各模塊的貢獻(xiàn)。LSTM-AE-Attention 模型優(yōu)化實(shí)驗(yàn)結(jié)果如表2所示。
表2 LSTM-AE-Attention模型優(yōu)化實(shí)驗(yàn)結(jié)果Table 2 Experimental results of LSTM-AE-Attention model components
由表2可知,數(shù)據(jù)增強(qiáng)后模型的精度、召回率和F1值均有提升,其中,精度的提升范圍為3.5%~10.4%;召回率的提升范圍為-4.1%~45.0%;F1值的提升范圍為1.9%~26.0%。精度提升幅度低于召回率的提升幅度,說(shuō)明模型在沒(méi)有盲目將所有軌跡識(shí)別為異常的前提下提升了各項(xiàng)指標(biāo)。
數(shù)據(jù)增強(qiáng)后,使用AE模型的精度、召回率和F1值的平均值分別為0.799、0.720和0.757,比不使用AE提升了3.1%、15.7%和10.0%,說(shuō)明是否使用AE對(duì)于模型性能有明顯提升。對(duì)于LSTM-AE-Attention,3項(xiàng)指標(biāo)均優(yōu)于其他模型,F(xiàn)1值比數(shù)據(jù)增強(qiáng)前提升9.8%。AE能有效提升模型對(duì)異常軌跡的識(shí)別精度,后續(xù)均采用AE進(jìn)行實(shí)驗(yàn)。
(2)軌跡重建對(duì)比分析
為進(jìn)一步對(duì)比軌跡重建,將樣本按軌跡點(diǎn)數(shù)量等距劃分為6類(lèi),用MLP-AE,GRU-AE和LSTMAE這3個(gè)模型進(jìn)行重建并對(duì)比6類(lèi)樣本的重建效果(包括經(jīng)度和緯度方向),重建模型指標(biāo)如表3所示。
表3 MLP-AE、GRU-AE和LSTM-AE軌跡重建模型指標(biāo)Table 3 MLP-AE,GRU-AE and LSTM-AE trajectory reconstruction indicators
3個(gè)模型的平均決定系數(shù)均在0.8 以上,重建精度較高,說(shuō)明AE對(duì)于軌跡重建是有效的。MLPAE的平均決定系數(shù)為0.825,低于GRU-AE和LSTM-AE,LSTM-AE的平均決定系數(shù)最高為0.968。經(jīng)度比緯度的決定系數(shù)要低,3個(gè)模型得到相近結(jié)果。
軌跡點(diǎn)數(shù)量小于16的樣本,3個(gè)模型的平均重建精度高于0.8,而軌跡點(diǎn)數(shù)量在17 個(gè)以上的樣本,MLP-AE 經(jīng)度的決定系數(shù)低于0.7;而LSTMAE無(wú)論軌跡點(diǎn)數(shù)量多少,其決定系數(shù)仍保持在0.9以上,說(shuō)明LSTM-AE在重建方面有較強(qiáng)的穩(wěn)定性,適用于不同軌跡點(diǎn)數(shù)量的樣本。
MLP-AE、GRU-AE和LSTM-AE的軌跡重建對(duì)比如圖5所示。
由圖5可知,LSTM-AE的重建效果比GRU-AE和MLP-AE 好,說(shuō)明AE 結(jié)合LSTM 后編碼和解碼過(guò)程在處理序列數(shù)據(jù)時(shí)更具優(yōu)勢(shì),重建后的結(jié)果修正了軌跡坐標(biāo),使曲線(xiàn)更加平滑。
圖5 MLP-AE、GRU-AE和LSTM-AE的軌跡重建模型對(duì)比Fig.5 Comparison of MLP-AE,GRU-AE and LSTM-AE model on trajectory reconstruction
(3)異常軌跡識(shí)別對(duì)比分析
在A(yíng)E 框架下,對(duì)比SVM、RF、LSTM和Attention 這4 種模型在異常識(shí)別任務(wù)里的表現(xiàn),結(jié)果如表4所示。
表4 不同預(yù)測(cè)模型對(duì)比Table 4 Comparison of different prediction models
數(shù)據(jù)增強(qiáng)后,模型的評(píng)價(jià)指標(biāo)有不同程度的提升,F(xiàn)1值提升幅度為4.5%~11.0%;無(wú)論數(shù)據(jù)增強(qiáng)前、后,4個(gè)模型的精度均高于或接近召回率,說(shuō)明模型在保證召回率的同時(shí),傾向于將軌跡精準(zhǔn)地識(shí)別為異常,能有效避免異常軌跡被遺漏;LSTM和Attention的性能均優(yōu)于SVM和RF,而Attention 在數(shù)據(jù)增強(qiáng)后較其他3個(gè)模型F1值提升范圍為1.8%~12.6%。
數(shù)據(jù)增強(qiáng)前、后,不同模型在測(cè)試集下的混淆矩陣對(duì)比結(jié)果如表5所示。
表5 不同預(yù)測(cè)模型混淆矩陣對(duì)比Table 5 Comparison of confusion matrix of different prediction models
由表5可知,數(shù)據(jù)增強(qiáng)后模型可將更多異常軌跡正確分類(lèi),真陽(yáng)性樣本的數(shù)量平均提升了8.7%;數(shù)據(jù)增強(qiáng)后模型也降低了錯(cuò)誤分類(lèi)的數(shù)量,假陽(yáng)性樣本和假陰性樣本分別平均降低了21.2%和20.2%;相較于其他模型,Attention模型將異常軌跡判斷為其他軌跡的數(shù)量最低,正確分類(lèi)(即真陽(yáng)性樣本和真陰性樣本)的數(shù)量最多且占測(cè)試集的88.5%。
本文構(gòu)建基于數(shù)據(jù)增強(qiáng)的LSTM-AE-Attention模型,針對(duì)軌跡重建和異常軌跡識(shí)別兩個(gè)問(wèn)題進(jìn)行實(shí)驗(yàn),主要結(jié)論如下:
(1)提出移動(dòng)軌跡數(shù)據(jù)集的數(shù)據(jù)增強(qiáng)流程。將樣本集中正常交通軌跡和異常交通軌跡的比例由12∶1 進(jìn)行均衡,使正常交通軌跡、異常交通軌跡和非交通軌跡的比例達(dá)到1.5∶1.0∶1.5,將異常軌跡識(shí)別實(shí)驗(yàn)中模型的F1值提高9.8%。
(2)使用LSTM-AE模塊重建軌跡。實(shí)驗(yàn)表明,該模型的平均決定系數(shù)為0.968,且當(dāng)軌跡點(diǎn)數(shù)量大于17 時(shí),該系數(shù)僅下降0.5%。模型在軌跡點(diǎn)數(shù)量較多時(shí)仍可保證重建效果的穩(wěn)定性。
(3)通過(guò)LSTM-AE-Attention 模型識(shí)別異常軌跡。在LSTM-AE 參數(shù)預(yù)訓(xùn)練的基礎(chǔ)上嵌入Attention模塊,使模型的F1值平均提升了7.8%。相較未使用AE的模型,該模型的精度、召回率和F1值分別提升了3.1%、15.7%和10.0%。模型能夠保證異常軌跡識(shí)別的可靠性。