国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于時空相關性的公交大數(shù)據(jù)清洗

2022-01-22 07:47:56謝智穎何原榮李清泉
計算機工程與應用 2022年1期
關鍵詞:緩沖區(qū)時空公交

謝智穎,何原榮,李清泉

1.廈門理工學院計算機與信息工程學院,福建 廈門 361024

2.深圳大學空間信息智能感知與服務深圳市重點實驗室,廣東 深圳 518060

隨著AI 技術的發(fā)展,由數(shù)據(jù)驅動的公交車預測模型層出不窮,為了達到理想的預測效果,這些模型都要求很高的數(shù)據(jù)質(zhì)量,而數(shù)據(jù)清洗是提高數(shù)據(jù)質(zhì)量的必要步驟;同時,很多涉及數(shù)據(jù)分析的項目中,數(shù)據(jù)清洗在開發(fā)時間和預算方面占到30%~80%[1],研究數(shù)據(jù)清洗方法在大數(shù)據(jù)時代,就顯得越來越重要了。數(shù)據(jù)清洗是對臟數(shù)據(jù)進行檢測和糾正的過程,郝爽等[2]對經(jīng)典和新興的數(shù)據(jù)清洗技術進行分類和總結,對數(shù)據(jù)缺失、數(shù)據(jù)冗余、數(shù)據(jù)沖突和數(shù)據(jù)錯誤這四種數(shù)據(jù)噪聲的檢測技術進行詳細闡述,并把數(shù)據(jù)清洗方式分為基于完整性約束的數(shù)據(jù)清洗算法、基于規(guī)則的數(shù)據(jù)清洗算法、基于統(tǒng)計的數(shù)據(jù)清洗算法和人機結合的數(shù)據(jù)清洗算法。郭志懋等[3]對數(shù)據(jù)清洗問題進行了分類,并分析了解決這些問題的途徑,最后說明數(shù)據(jù)清洗研究與其他技術的結合情況,分析了幾種數(shù)據(jù)清洗框架,最后對將來數(shù)據(jù)清洗領域的研究問題作了展望。燕彩蓉等[4]基于樹狀領域知識庫,對海量數(shù)據(jù)中的重復數(shù)據(jù)可以有很好的清洗效果。

在智慧交通領域,王曉原等[5]把交通數(shù)據(jù)分為包含噪聲的正常數(shù)據(jù)和異常數(shù)據(jù)質(zhì)量問題兩類,交通檢測器獲得的數(shù)據(jù)存在無效、冗余、錯誤、時問點漂移及丟失等質(zhì)量問題,研究“臟數(shù)據(jù)”的清洗規(guī)則與清洗步驟,并對環(huán)形線圈檢測器檢測到的數(shù)據(jù)迸行驗證。其所提清洗規(guī)則對錯誤、丟失、冗余數(shù)據(jù)的識別率均在90%以上,但對時間點漂移數(shù)據(jù)無效。耿彥斌等[6]根據(jù)交通流理論和閾值規(guī)則篩選出錯誤數(shù)據(jù),對丟失數(shù)據(jù),采用線性插值和歷史數(shù)據(jù)平均法進行修正。從時空相關性入手,袁瑤瑤等[7]提出一種基于ST-DCGAN 的時序交通流量數(shù)據(jù)補全方法,該方法結合DCGAN網(wǎng)絡和交通流量的時空特性,能更好地抽取交通流量數(shù)據(jù)在時間維度上和遠近區(qū)域上的相關性。孟鴻程[8]采用基于時間相關性、空間相關性和時空相關性的多種數(shù)據(jù)修復方法對缺失數(shù)據(jù)進行處理。李林超等[9]將高速公路交通流數(shù)據(jù)缺失情況分為點缺失、線缺失和面缺失三種情況,并基于隨機森林算法建立修正模型。陸化普等[10]從時間相關性、空間相關性和歷史相關性三方面分析了交通流大數(shù)據(jù)的特點,建立了基礎交通流時空模型,具有較高的修復精度。Gill等[11]使用具有時空特征的公交車頂?shù)沫h(huán)境和位置傳感器獲取的多種數(shù)據(jù),構建了一個分布式實時清洗數(shù)據(jù)流系統(tǒng),建立了線性回歸模型、多元回歸模型和廣義加權回歸模型三種清洗模型。

在AI 預測公交到達時間的相關文獻中,關于數(shù)據(jù)清洗也有專門的章節(jié)描述。賴永炫等[12]將數(shù)據(jù)文件按日期進行分割,并將分割后的數(shù)據(jù)根據(jù)方向、車輛、到達時間進行排序,然后將同趟數(shù)據(jù)劃分到同組中,剔除組內(nèi)臟數(shù)據(jù);對缺失數(shù)據(jù)填充時,對于站點停留和站間行駛時長優(yōu)先選用歷史數(shù)據(jù)的均值進行填充,當不存在歷史數(shù)據(jù)時,則用臨近班次進行填充。陸俊天等[13]對公交GPS 數(shù)據(jù)進行了冗余篩選,站點匹配、站間站距匹配等方法,對公交數(shù)據(jù)進行了清洗。Han等[14]認為GPS數(shù)據(jù)精度比較低,以地圖匹配的方式,把偏離路線的GPS 點投影到了線路上,并通過速度、距離等關系,選取或過濾GPS 原始數(shù)據(jù)。Wang 等[15]提出了離異值判別、交通流趨勢判斷、相似度計算、缺失值補充等算法,來對數(shù)據(jù)進行清洗處理。

現(xiàn)有的研究成果大多是對原始的觀測數(shù)據(jù)進行剔除或者填充,往往破壞了原始觀測數(shù)據(jù)的嚴肅性。本文從OLAP 分析的角度,從業(yè)務數(shù)據(jù)的關聯(lián)性出發(fā),研究面向業(yè)務分析的數(shù)據(jù)的清洗問題。首先,對公交大數(shù)據(jù)的異常進行了分析,并分解為四類數(shù)據(jù)異常;其次,對公交數(shù)據(jù)的時空相關性進行了分析;在此基礎上,提出了公交大數(shù)據(jù)清洗方法及流程;然后對清洗不同階段產(chǎn)生的四種數(shù)據(jù)集,采用LSTM 預測公交到達時間,比較分析了清洗方法的預測精度;最后對時空相關性的清洗方法進行了總結。

1 公交大數(shù)據(jù)異常分析

近年來,隨著物聯(lián)網(wǎng)、云計算等技術在各行各業(yè)的推廣與發(fā)展,公交行業(yè)在刷卡消費、公交調(diào)度、客流統(tǒng)計、主動安全等領域進行相應的信息化改造與升級,各種傳感器部署在公交車上,采集了大量的數(shù)據(jù)。這些數(shù)據(jù)由于采集方式、傳輸手段等因素,存在噪聲、缺失、不一致性、歧義等數(shù)據(jù)質(zhì)量問題,影響了數(shù)據(jù)進一步分析利用,本節(jié)從公交大數(shù)據(jù)的特性出發(fā),對公交異常數(shù)據(jù)分為以下四類。

(1)冗余數(shù)據(jù):一般指內(nèi)容相同的數(shù)據(jù)重復多次出現(xiàn),公交數(shù)據(jù)都是異步上報方式,在網(wǎng)絡不穩(wěn)定的情況下,會出現(xiàn)一些數(shù)據(jù)重復上傳的情況,這也會造成一定的這類冗余數(shù)據(jù)。本文所定義的冗余數(shù)據(jù),是指對公交大數(shù)據(jù)預測沒有價值的數(shù)據(jù),如公交車在首末站??繒r,上傳的大量公交軌跡數(shù)據(jù)或進出站數(shù)據(jù)。

(2)范圍異常數(shù)據(jù):一般指違反某種范圍區(qū)間或規(guī)則的數(shù)據(jù),即文獻[2]中沖突數(shù)據(jù),在公交系統(tǒng)中,由于公交是定線運營,從軌跡上不在線路的數(shù)據(jù),一般可能是發(fā)生了特殊情況,不具有普遍的統(tǒng)計意義,對這類數(shù)據(jù)只需作為異常數(shù)據(jù)記錄,在公交大數(shù)據(jù)分析時,應作為異常數(shù)據(jù)過濾。

(3)異常數(shù)據(jù):指一些與大部分數(shù)據(jù)相比偏差較大的數(shù)據(jù),在公交網(wǎng)中,兩站間的運行時長、站點停留時長、公交運行時長(起終點間)等數(shù)據(jù)都符合某種統(tǒng)計規(guī)律,通過統(tǒng)計很容易發(fā)現(xiàn)異常數(shù)據(jù)。如表1后三列就對應著停留時長,運行時長與公交運行時長,當有異常發(fā)生時,這些值都奇高,通過這些奇異值就可以定位異常數(shù)據(jù)的位置,進而分析其出錯的原因。

(4)缺失數(shù)據(jù):指采集終端故障、移動通訊中斷或后臺接收問題導致的數(shù)據(jù)的缺失,這種缺失數(shù)據(jù)也可以按異常數(shù)據(jù)的方式發(fā)現(xiàn)并定位之。如表1 中最后兩行數(shù)據(jù),通過到達時間非常大這一奇異值,發(fā)現(xiàn)是因為缺失了前5站數(shù)據(jù)所導致。對缺失數(shù)據(jù)發(fā)現(xiàn)比較容易,但要補全缺失值就沒那么容易了,本文基于交通網(wǎng)的時空相關性,對如何補全缺失數(shù)據(jù)進行了研究。

表1 公交進出站數(shù)據(jù)中的異常數(shù)據(jù)Table 1 Abnormal data of bus in and out stations

2 公交大數(shù)據(jù)時空相關性

公交傳感器在采集數(shù)據(jù)時本身就帶有時間戳這一時間要素,空間信息由GNSS模塊獲取。公交的時空感知數(shù)據(jù)體現(xiàn)了數(shù)據(jù)的實時性和連續(xù)空間位置變化的屬性,反映了人們生活工作活動狀態(tài)時空變化特征。

2.1 時間相關性

時間維往往被看成是單向線性的或分支循環(huán)的,在單向線性時間中,以某一個時刻作為起點,這之后的固定間隔發(fā)生的時刻,往往以時間序列來表達。周期時間每周期都以某一時刻作為起點,其后周期內(nèi)的任一時刻,也以時間序列來描述。可見時間的周期性與序列性是相互嵌套,交替前行的。

(1)序列性

公交運行在定點定線的線路上,從起點到終點的一趟行駛下來,從時間維上會產(chǎn)生一些時間序列數(shù)據(jù),如GNSS模塊以固定的采樣頻率,實時上報公交車的軌跡數(shù)據(jù),還有公交車報站儀,與站點相關聯(lián),自動的或由司機手動的觸發(fā)上報公交進出站信息。如圖1 所示的到達時間序列、行駛時長序列、等待停止序列等,在這個序列中數(shù)據(jù)是連續(xù)的,也是完整的,丟失某幾站數(shù)據(jù),則相應的統(tǒng)計數(shù)據(jù)就會出現(xiàn)比較大的奇異值。

圖1 公交數(shù)據(jù)的序列性Fig.1 Sequence of bus data

(2)周期性

交通流隨時間變化的規(guī)律,是由車輛出行的規(guī)律決定的。每個工作日(星期一至星期五)的日變化規(guī)律基本相同,工作日與休息日(周六、周日)的形狀相似,從日流量變化圖,可獲得每天的流量高峰時間與高峰小時流量,這段時間車輛經(jīng)常被堵塞,車輛運行緩慢。公交車輛也受交通流的支配,其運行也呈現(xiàn)出與交通流相似的周期性,如圖2 是某路公交車以5 min 時隙統(tǒng)計的到達終點所花費的時長統(tǒng)計圖,明顯可見這種周期規(guī)律性。

圖2 公交數(shù)據(jù)的周期性Fig.2 Periodicity of bus data

2.2 空間鄰近性

對公交而言,其運行線路具有定線定點的特點,某些公交車共享一些換乘站,某些公交車共享某幾段路段,這也從空間上可以把這些車輛關聯(lián)起來,其空間相關性可分以下三種情況。

(1)同線路同向車輛間空間鄰近性

同線路同向車輛發(fā)車時間相隔不大的話,如前車,其所處的交通流環(huán)境是相差不大的,其在某路段的行駛時間是相差不大的。正基于此,有學者[12]在做行程時間預測時,選用的特征數(shù)據(jù)是前面車輛的歷史數(shù)據(jù),同理,當在清理數(shù)據(jù)時,發(fā)現(xiàn)數(shù)據(jù)缺失時,也可以采用這種方法,補齊缺失的數(shù)據(jù)。

(2)共享部分站點不同線路車間的空間鄰近性

共享站點的車輛,在相同時間,其站點的乘車環(huán)境可認為相同,如乘客的擁擠程度、站點周圍的交通流環(huán)境等。該站點上的停留等待時間具有相似性,若在處理異常數(shù)據(jù)時,發(fā)現(xiàn)停留等待時間異?;蛉笔В赏ㄟ^共享相同站點的其他車輛補齊。

(3)共享部分行駛路段不同線路車間的空間鄰近性

同共享站點的車輛一樣,共享行駛路段的車間,可借鑒的東西就更多了,如路段行駛時間、站點停留等待時間、區(qū)間車速,若時間相隔不大,則GNSS經(jīng)緯度的缺失也可以采用這種方式補齊。

總之,空間相關性是滿足地理學第一定律的,同方向距離越近的車輛,其空間相關性越大,所采集的數(shù)據(jù)差別越小,反之亦然。

2.3 時空依賴性

根據(jù)交通流理論,應該從時間和空間兩個維度認識交通流的變化規(guī)律。交通流由于時間和空間兩個變量和隨機因素的影響,其變化規(guī)律是非常復雜的。公交車間存在共享站點與共享路段,時間依賴公交網(wǎng)體現(xiàn)了公交間的時空相關性。時間依賴公交網(wǎng)定義為:

給定有向圖G=(V,A) ,則時空網(wǎng)可表示為GT=(VT,AT) ,其中VT={(i,t)|i∈V,t∈T} ,AT={((i,t),(j,t+dij(t))|i,j∈V,t,t+dij(t)∈T}時空網(wǎng)上的節(jié)點與弧段是時間依賴的,即弧段上描述的屬性,是與車輛進入節(jié)點的時間緊密相關的。如公交車在某路段上的行程時間,在早高峰時段與平時時段是不一樣的,有時還相差比較大。通過時間依賴公交網(wǎng),可以把所有公交車輛在某站點、某路段、某時隙里的行程時間或停留時間統(tǒng)計出來,通過時隙對應的時間點獲取經(jīng)過該路段的相關屬性,完成缺失數(shù)據(jù)的補齊。

3 公交大數(shù)據(jù)清洗方法

公交大數(shù)據(jù)在時間維上具有序列與周期的特點,在空間維上具有鄰近性,在時空上可以通過時間依賴公交網(wǎng)關聯(lián)起來。下面從時間維的四分位數(shù)、空間維的緩沖區(qū)法、時空維的時間依賴公交網(wǎng)絡關聯(lián)法三方面介紹公交大數(shù)據(jù)的清洗方法。

3.1 四分位數(shù)法

四分位數(shù)(quartile)[16]也稱四分位點,是指在統(tǒng)計學中把所有數(shù)值由小到大排列并分成四等份,處于3個分割點位置的數(shù)值。它是一組數(shù)據(jù)排序后處于25%和75%位置上的值。四分位數(shù)是通過3個點將全部數(shù)據(jù)等分為4 部分,其中每部分包含25%的數(shù)據(jù)。很顯然,中間的四分位數(shù)就是中位數(shù),因此通常所說的四分位數(shù)是指處在25%位置上的數(shù)值(下四分位數(shù))和處在75%位置上的數(shù)值(上四分位數(shù))。四分位數(shù)多應用于統(tǒng)計學中的箱線圖繪制。它由5個數(shù)值點組成:最小值(min)、下四分位數(shù)(Q1)、中位數(shù)(median)、上四分位數(shù)(Q3)、最大值(max);也可以往箱線圖里面加入平均值(mean)。最大(最?。┯^測值設置為與四分位數(shù)值間距離為1.5個IQR(中間四分位數(shù)極差)。由于現(xiàn)實數(shù)據(jù)中總是存在各式各樣地“臟數(shù)據(jù)”,也成為“離群點”,于是為了不因這些少數(shù)的離群數(shù)據(jù)導致整體特征的偏移,將這些離群點單獨匯出。

通過箱線圖,在分析數(shù)據(jù)的時候,箱線圖能夠有效地識別數(shù)據(jù)的離異值,也可以通過箱體的長度、中位數(shù)的大小判斷數(shù)據(jù)離散程序與偏向。在圖2中,對公交到達時間就是采用箱線圖繪制的,通過中位數(shù)可以觀察交通流的變化趨勢,通過箱體長度可以看到該時隙數(shù)據(jù)的離散程序,離群點單獨以圓點繪出,這些離群點多是數(shù)據(jù)異常所導致,所以,通過四分位數(shù)法可以定位異常數(shù)據(jù)。本文正是基于四分位法這一特點,計算公交到達時間,然后按5 min時隙分組數(shù)據(jù),計算每個分組的四分位數(shù),發(fā)現(xiàn)異常數(shù)據(jù),完成異常數(shù)據(jù)的清洗。

3.2 緩沖區(qū)

緩沖區(qū)分析是指以點、線、面實體為基礎,自動建立其周圍一定寬度范圍內(nèi)的緩沖區(qū)多邊形圖層,主要用來解決空間鄰近性問題的空間分析工具。在公交系統(tǒng)中,站點是點要素,線路是線要素,點要素的緩沖區(qū),通常以站點為圓心,以一定距離為半徑的圓,線要素的緩沖區(qū),通常是以線為中心軸線,距中心軸線一定距離的平行條帶多邊形。

如圖3是某公交網(wǎng)依線路與站點生成的緩沖區(qū),黃色的多邊形是線路的緩沖區(qū),粉色的圓形緩沖區(qū)是站點生成的,線路緩沖區(qū)可以過濾非正常不按線路行駛的記錄,如臨時封路改道的車輛行駛軌跡。站點緩沖區(qū)可以判斷公交進出站數(shù)據(jù)的正確性。這兩類緩沖區(qū)都可以過濾范圍異常的數(shù)據(jù),起到范圍清洗的效果,同時,在首末站,還可以利用站點緩沖區(qū),過濾大量的冗余數(shù)據(jù),起到冗余清洗的作用。

圖3 公交站點與線路生成的緩沖區(qū)Fig.3 Buffer zone generated by bus stops and routes

3.3 時間依賴公交網(wǎng)絡

公交網(wǎng)是時間依賴交通網(wǎng),每路段上的行程時間是與車輛進入該路段的時間相關的[17],本文以傳統(tǒng)的節(jié)點-弧段模型[18]為基礎,建立時間依賴公交網(wǎng)的模型。如圖4 是邏輯模型,該模型把拓撲從幾何中分離出來,以交通特征作為建庫的基本要素,維持了地理實體在語義上的完整性。通過線路弧段與站點節(jié)點、運行時長序列、到達時長序列、停留時長序列的引入,可以很好地描述公交網(wǎng)的時態(tài)變化性,在公交網(wǎng)模型中加進了時間維,集成了相關的與交通有關的數(shù)據(jù),從而為公交大數(shù)據(jù)中缺失數(shù)據(jù)的補充打下基礎,也是該模型對公交換乘路徑選擇也起到很大的支撐作用。

圖4 時間依賴公交網(wǎng)邏輯模型Fig.4 Logical model of time dependent bus network

如圖5是時間依賴公交網(wǎng)的物理存儲結構,結合公交發(fā)車及運行的特點,把相關統(tǒng)計量按工作日與周末進行了分組,并從6:00—23:00 按5 min 劃分為204 個時隙,這樣很好地表達了時間維,通過站點與線路間一對多的拓撲關系,很好地表達了空間維關系。

圖5 時間依賴公交網(wǎng)物理表結構Fig.5 Physical structure of time dependent bus network

3.4 時空數(shù)據(jù)清洗流程

從4 種異常數(shù)據(jù)的特點出發(fā),利用各種清洗方法,從點緩沖區(qū)開始,依次通過冗余清洗、范圍清洗、異常清洗、補全清洗4個清洗步驟,完成對公交大數(shù)據(jù)和清洗,其主要流程分以下4步:

(1)生成站點緩沖區(qū),過濾掉首末站的冗余數(shù)據(jù),生成冗余清洗進出站與冗余清洗軌跡數(shù)據(jù)集。

(2)然后基于此數(shù)據(jù)集,通過線路緩沖區(qū),通過范圍清洗,過濾進出站、軌跡不在線路上的數(shù)據(jù),生成范圍清洗進出站與范圍清洗軌跡數(shù)據(jù)集。

(3)在范圍清洗進出站數(shù)據(jù)集上,依線路計算每兩站間的運行時長、累積運行時長、停留時長等,根據(jù)發(fā)車時間分組到每5 min時隙中,再依據(jù)工作日進行分組,并計算每個時隙的四分位數(shù),把中位數(shù)存入時空依賴公交網(wǎng)中,作為以后補充缺失數(shù)據(jù)選用,通過四分位數(shù)判斷異常數(shù)據(jù),生成異常數(shù)據(jù)集與異常清洗數(shù)據(jù)集。

(4)基于步驟(3)生成的異常進出站數(shù)據(jù)集,進行缺失站點判斷,如有缺失站點,從范圍清洗軌跡數(shù)據(jù)集中找補,從軌跡數(shù)據(jù)中沒有找到,則從時間依賴公交網(wǎng)中填補,若只是到達站點時間維數(shù)據(jù)異常,則直接從時間依賴公交網(wǎng)找公交運行時長反推計算,該步生成缺失清洗進出站數(shù)據(jù)集。

步驟(4)與步驟(3)生成的異常清洗進出站、補全清洗進出站數(shù)據(jù)集,是清洗完成后,用于公交到達時間預測可用的數(shù)據(jù)集。如圖6是完整的數(shù)據(jù)清洗流程圖。

圖6 數(shù)據(jù)清洗流程Fig.6 Data cleaning process

4 LSTM模型預測下清洗結果分析

公交進出站數(shù)據(jù)由進出站儀采集并上報,數(shù)據(jù)包含了線路、司機、車輛、到達站點時間、駛離站點時間、到達站點GNSS坐標等信息,但缺乏行駛里程、車速等信息,這些可以從公交車軌跡數(shù)據(jù)集中取得。從該數(shù)據(jù)集可以計算車輛的行駛時長、停留時長、到達時間、車頭時距等,該數(shù)據(jù)集可以用來預測車輛到達時間,也可以分析“串串車”“大間隔車”等智能調(diào)度面臨的主要問題。下面以前面介紹的基于時空相關性清洗方法,研究對該數(shù)據(jù)集清洗的實現(xiàn)。

4.1 原始數(shù)據(jù)集

如圖7 是山東省臨沂市選取一天的公交進出站與軌跡數(shù)據(jù)集,黑色的點是軌跡數(shù)據(jù),綠色的點是進出站數(shù)據(jù)。軌跡數(shù)據(jù)比較密,80 s 采一次樣,進出站數(shù)據(jù)聚集在公交站點附近,在公交線路比較少的地方,間隔性表現(xiàn)的很明顯。

圖7 進出站與軌跡原始數(shù)據(jù)集Fig.7 Raw dataset of in and out stations and trajectories

4.2 LSTM網(wǎng)絡預測模型

本文對清洗數(shù)據(jù)集結果的評價,通過對不同清洗階段生成的數(shù)據(jù)集,采用LSTM網(wǎng)絡[19-20]預測公交到達時間的統(tǒng)計結果來進行。本次實驗基于2020年3月28日—2020 年6 月28 日山東省臨沂市30 路公交進出站數(shù)據(jù)、線路數(shù)據(jù)、節(jié)假日以及臨沂市天氣狀況等數(shù)據(jù),使用Tensorflow-gpu2.0 進行數(shù)據(jù)處理與算法編寫。選用了與線路相關的一些屬性與當前站點之前的到達時間序列作為輸入特征,來預測當前站之后的到達時間序列。其形式如下:

[公交線路,方向,公交車輛,公交司機,發(fā)車小時,發(fā)車分鐘,星期幾,是否節(jié)日,距起點距離,天氣),(xt-k,…,xt)],xt為當前站與上一站間的到達時間之差。輸出序列為(-xt-k,…,0,xt+1,…,xt+n)。

如圖8 是預測網(wǎng)絡結構圖,由單層LSTM 與二層全連接層組成,LSTM主要用于時間序列類預測。其輸入層由41 位的向量組成,包括線路相關屬性特征與到達時間序列特征。

圖8 LSTM網(wǎng)絡結構Fig.8 LSTM network structure

損失函數(shù)選用平均絕對誤差(MAE),即輸出的預測結果與真實值的誤差。網(wǎng)絡參數(shù)的更新采用Adam優(yōu)化算法。Adam 算法是一種一階優(yōu)化算法,主要利用梯度的一階矩估計和二階矩估計動態(tài)地為不同參數(shù)設計獨立的自適應性學習率,比傳統(tǒng)的梯度下降法更新效果更好。

如圖9 是epoch 選用100,batch 為100,validation split 為0.2 時的訓練損失圖。從4 種清洗數(shù)據(jù)集LSTM網(wǎng)絡的訓練圖可見,補全數(shù)據(jù)集訓練收斂最好,大約在80次時,模型已訓練到位,清洗完異常數(shù)據(jù)的數(shù)據(jù)集表現(xiàn)次之,另外兩種數(shù)據(jù)集由于有異常數(shù)據(jù)的存在,歸一化后導致數(shù)據(jù)值太小,訓練收斂效果比較差。

圖9 LSTM網(wǎng)絡訓練損失圖Fig.9 Diagram of LSTM network training loss

4.3 清洗數(shù)據(jù)集比較分析

4 個清洗過程都對應著不同的清洗數(shù)據(jù)集,數(shù)據(jù)集按8∶2 分成訓練集與測試集,訓練集又按8∶2 分成訓練集與驗證集,驗證集主要是驗證超參數(shù)設置是否合理,防止過擬合現(xiàn)象。表2 中列出了4 種數(shù)據(jù)集的數(shù)量大小,冗余清洗數(shù)據(jù)集最大,異常清洗數(shù)據(jù)集由于剔除了一些離異值,數(shù)量最小,補全數(shù)據(jù)集補全了一些缺失值與改正了一些離異值,數(shù)據(jù)數(shù)量得到了很大提高,與異常清洗相比,補全率達到19%。如圖10為4種清洗數(shù)據(jù)集預測公交到達時間結果比較圖

表2 預測公交到達時間結果統(tǒng)計表Table 2 Statistical table of predicted bus arrival time results

圖10 預測公交到達時間結果比較圖Fig.10 Comparison of predicted bus arrival time results

LSTM網(wǎng)絡經(jīng)過訓練后,采用測試集數(shù)據(jù)進行預測精度分析,表2中,采用了平均絕對誤差(mean absolute error,MAE)、余弦相似度(cosign similarity,COS)兩個量化指標來量化的評價網(wǎng)絡模型。從數(shù)據(jù)可見,冗余清洗、范圍清洗、異常清洗、補全清洗是遞次進行的,對異常數(shù)據(jù)的每一次清洗,都能提高預測數(shù)據(jù)的精度,COS 描述了預測序列與測試序列的相似度,相似度也是依次遞進。

如圖11是4種清洗數(shù)據(jù)測試集的MAE偏差圖。棕色的線是MAE 的平值均,可以看出,MAE 的平均值補全數(shù)據(jù)集是最低的,從散點圖也可以看出,補全數(shù)據(jù)集大部分點都在均值附近,而其他數(shù)據(jù)集離異值比較多,說明預測精度沒有補全數(shù)據(jù)集高。

圖11 清洗測試集預測精度比較Fig.11 Comparison of prediction accuracy of cleaning test sets

如圖12 是按照公交站點,統(tǒng)計的每一站點預測值的平方根均方差(RMSE),綠色是補全清洗數(shù)據(jù)集的結果,在4 個數(shù)據(jù)集中均方差是最小的,也說明按單個站點,補全數(shù)據(jù)集的預測精度也是最高的。特別在第25站,由于異常值的存在,導致RMSE很高,通過異常清洗后,在異常清洗數(shù)據(jù)集與補全清洗數(shù)據(jù)集上,25站的預測精度得到了明顯改善。

圖12 站點預測平方根均方差Fig.12 RMSE of site prediction

綜上分析,冗余清洗、范圍清洗、異常清洗、補全清洗是遞次進行的,對異常數(shù)據(jù)的每一次清洗,都能提高預測數(shù)據(jù)的精度。補全數(shù)據(jù)集是在冗余數(shù)據(jù)集、范圍數(shù)據(jù)集、異常數(shù)據(jù)集的基礎上,最符合客觀實際的公交車運行數(shù)據(jù),其預測效果也是最好的,這也證明了本文所研究清洗方法的有效性。

5 結論

本文針對公交大數(shù)據(jù)中的異常數(shù)據(jù),分冗余數(shù)據(jù)、范圍異常數(shù)據(jù)、異常數(shù)據(jù)、缺失數(shù)據(jù)四類異常進行特征分析,然后從時間相關性、空間鄰近性、時空依賴性分析了公交數(shù)據(jù)間存在的時空關系,并基于時空關系,采用站點緩沖區(qū)完成冗余數(shù)據(jù)的清洗,路線緩沖區(qū)完成范圍異常數(shù)據(jù)的清洗,到達時間四分位數(shù)法判斷出離異值,完成異常數(shù)據(jù)的清洗,時間依賴公交網(wǎng)補全缺失數(shù)據(jù),完成補全清洗。補全數(shù)據(jù)集數(shù)據(jù)數(shù)量得到了很大提高,與異常清洗相比,補全率達到19%。最后通過四種清洗階段生成的數(shù)據(jù)集,采用LSTM預測公交到達時間的方式,對清洗效果進行了比較分析。結果顯示,對異常數(shù)據(jù)的每一次清洗,都能提高預測數(shù)據(jù)的精度,補齊數(shù)據(jù)集是在冗余數(shù)據(jù)集、范圍數(shù)據(jù)集、異常數(shù)據(jù)集的基礎上,最符合客觀實際的公交車運行數(shù)據(jù),其預測效果也是最好的,與異常清洗數(shù)據(jù)集相比MAE 提升了9%,預測值與真實值序列相關性達到95%以上,也證明了本文所研究冗余清洗、范圍清洗、異常清洗、補全清洗方法的有效性。

猜你喜歡
緩沖區(qū)時空公交
嵌入式系統(tǒng)環(huán)形緩沖區(qū)快速讀寫方法的設計與實現(xiàn)
跨越時空的相遇
一元公交開進太行深處
鏡中的時空穿梭
玩一次時空大“穿越”
等公交
等公交
時空之門
關鍵鏈技術緩沖區(qū)的確定方法研究
地理信息系統(tǒng)繪圖緩沖區(qū)技術設計與實現(xiàn)
哈尔滨市| 高雄市| 濮阳市| 甘孜县| 米林县| 竹山县| 开原市| 蓝田县| 威海市| 盐山县| 定安县| 晋江市| 呼和浩特市| 石泉县| 灵丘县| 柳河县| 白城市| 丰顺县| 大邑县| 南溪县| 通海县| 久治县| 紫阳县| 禄丰县| 祥云县| 揭西县| 集贤县| 遵化市| 平江县| 芜湖市| 外汇| 忻城县| 滦南县| 孝感市| 五原县| 沾益县| 珲春市| 且末县| 诸暨市| 平乐县| 梁平县|