周 博,賈樹林,胡江宇,馬雙寶, ,羅維平,
(1. 武漢紡織大學(xué) 機(jī)械工程與自動(dòng)化學(xué)院,湖北 武漢 430200;2. 湖北省數(shù)字裝備重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430200)
隨著私家車占有量急劇上升,城市交通網(wǎng)絡(luò)所面臨的負(fù)荷也與日俱增。在公路及城市道路中使用不同類型交通探測(cè)器收集實(shí)時(shí)交通數(shù)據(jù),以對(duì)交通流進(jìn)行預(yù)測(cè)、實(shí)時(shí)交通誘導(dǎo)以及道路通行能力預(yù)測(cè)分析提供及時(shí)可靠的數(shù)據(jù)支撐[1]。探測(cè)器收集數(shù)據(jù)的過(guò)程中存在諸多噪音,如設(shè)備的磨損導(dǎo)致精度的降低、雨雪天氣對(duì)探頭的影響及設(shè)備供電異常等,會(huì)對(duì)收集到的交通流數(shù)據(jù)質(zhì)量產(chǎn)生一定的影響,因此需對(duì)收集的原始交通流數(shù)據(jù)進(jìn)行故障數(shù)據(jù)的篩選修復(fù)。
針對(duì)交通流異常數(shù)據(jù)診斷,李琦等提出一種基于流量守恒定律的交通流數(shù)據(jù)質(zhì)量評(píng)價(jià)與控制方法[2],可對(duì)異常值進(jìn)行整體修復(fù),但該方法具有較強(qiáng)地域局限性,魯棒性較低;苗旭等提出一種基于支持向量機(jī)模型的固定交通檢測(cè)器缺失數(shù)據(jù)綜合修復(fù)方法,可對(duì)交通流數(shù)據(jù)中缺失值進(jìn)行填補(bǔ)[3],但對(duì)于數(shù)據(jù)中存在的異常值未進(jìn)一步處理;鮑東玉等人根據(jù)交通運(yùn)行狀態(tài)的統(tǒng)計(jì)相似性進(jìn)行了研究和對(duì)比,選擇了IQR法作為數(shù)據(jù)修復(fù)的方法[4]。綜合前期學(xué)者研究,針對(duì)交通流數(shù)據(jù)的修復(fù)研究較為分化,缺乏較為完整數(shù)據(jù)處理體系,且大多基于統(tǒng)計(jì)原理,模型遷移能力有待提高。針對(duì)上述問(wèn)題,本文提出基于機(jī)器學(xué)習(xí)及線性回歸模型構(gòu)建出一種綜合數(shù)據(jù)清洗、奇異值、缺失值及異常值處理的交通流數(shù)據(jù)集成處理框架,對(duì)原始交通流數(shù)據(jù)進(jìn)行有效性處理。
交通流數(shù)據(jù)主要包括速度、流量、時(shí)間占有率三個(gè)參數(shù),數(shù)據(jù)采集過(guò)程中由于檢測(cè)設(shè)備故障及檢測(cè)環(huán)境對(duì)數(shù)據(jù)采集帶來(lái)的影響,交通流數(shù)據(jù)中存在的問(wèn)題數(shù)據(jù)可分為缺失數(shù)據(jù)、重復(fù)數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)三大類,根據(jù)問(wèn)題數(shù)據(jù)類型對(duì)其進(jìn)行有效性處理,其整體流程如圖1 所示。本文所用數(shù)據(jù)來(lái)自蘭州2018年一月份城市及高速交通檢測(cè)器所采集原始數(shù)據(jù)集,采樣間隔為五分鐘,數(shù)據(jù)集來(lái)源于網(wǎng)絡(luò)數(shù)據(jù)庫(kù)。
圖1 數(shù)據(jù)有效性處理整體流程圖
首先對(duì)三參數(shù)均為空值的數(shù)據(jù)及重復(fù)采樣的數(shù)據(jù)進(jìn)行刪除,再通過(guò)三參數(shù)的基本關(guān)系對(duì)數(shù)據(jù)中的奇異值進(jìn)行刪減。
對(duì)速度、流量、時(shí)間占有率三者關(guān)系進(jìn)行相關(guān)性分析,當(dāng)有車通過(guò)交通流數(shù)據(jù)采集器時(shí)三參數(shù)值均不為零;當(dāng)無(wú)車通過(guò)采集器,三參數(shù)均為零;當(dāng)車停在采集器邊時(shí),速度及車流量為零,占有率為100%;根據(jù)此交通流機(jī)理,可得到交通流數(shù)據(jù)奇異值基礎(chǔ)篩選規(guī)則,如表1 所示(表中speed、occupancy、volume分別表示速度、時(shí)間占有率及流量)。
表1 交通流數(shù)據(jù)奇異值基礎(chǔ)篩選規(guī)則表
根據(jù)表1 所提供的基礎(chǔ)篩選規(guī)則可對(duì)原始數(shù)據(jù)中的奇異值進(jìn)行初步篩選。
在交通流數(shù)據(jù)采集器的采樣間隔內(nèi)無(wú)車通過(guò)時(shí),車輛服從泊松分布,其公式如式(1)所示。
其中p(x)為在采樣間隔內(nèi)通過(guò)采樣間隔的車輛的概率密度函數(shù),m為間隔內(nèi)到達(dá)的平均車輛數(shù),依據(jù)此在置信水平α下,交通流數(shù)據(jù)采集器采樣間隔內(nèi)有車輛到達(dá)的概率,即x>0 的概率如式(2)所示。
由此可得m=?ln α,可通過(guò)設(shè)置置信水平α進(jìn)一步以概率來(lái)判斷三參數(shù)均為零是否為異常值,即m >?ln α?xí)r,有1 ?α的概率不會(huì)出現(xiàn)volume 為零的情況。
針對(duì)時(shí)間占有率為零其他兩者不為零的數(shù)據(jù),分析其原因可能是由于傳感器不靈敏導(dǎo)致,根據(jù)交通流三參數(shù)線性關(guān)系如式(3)所示:
根據(jù)式(4)輸入合理范圍內(nèi)的最大平均速度,平均有效車長(zhǎng)及時(shí)間占有率即可得出最大流量閾值,并通過(guò)此篩選出奇異值。
由于現(xiàn)有缺失數(shù)據(jù)插補(bǔ)方法主要包含單變量缺失值插補(bǔ)及多變量聯(lián)立缺失值差補(bǔ)兩大類,本數(shù)據(jù)集三參數(shù)均包含缺失值,為避免如均值填充、中值填充、上、下采樣等單變量缺失值方法所造成的數(shù)據(jù)原始分布改變及產(chǎn)生抽樣誤差,本文采用多變量聯(lián)立缺失值差補(bǔ)法對(duì)交通流數(shù)據(jù)集中缺失值進(jìn)行填補(bǔ)。
通過(guò)對(duì)交通流三參數(shù)進(jìn)行相關(guān)性分析,可以得到三參數(shù)相關(guān)性關(guān)系如表2 所示。
表2 速度、流量、時(shí)間占有率三參數(shù)相關(guān)性分析
由表2 中數(shù)據(jù)可知速度與時(shí)間占有率、流量與時(shí)間占有率之間具有較強(qiáng)的相關(guān)性,速度與流量之間具有中等相關(guān)性,因此,本文采用隨機(jī)森林回歸模型對(duì)速度、流量、時(shí)間占有率三個(gè)變量中缺失的數(shù)據(jù)進(jìn)行缺失值填補(bǔ)。
隨機(jī)森林是一種主流的機(jī)器學(xué)習(xí)算法,其底層是一種基于決策樹的集成算法,由“Classification And Regression Tree(CART)”與“Bagging”方法結(jié)合而成,在建模過(guò)程中通過(guò)bootstrap 隨機(jī)抽樣的方法構(gòu)建樣本集以訓(xùn)練模型,模型輸出結(jié)果是通過(guò)“投票”方式所決定的。由于其處理機(jī)制,隨機(jī)森林對(duì)噪音數(shù)據(jù)及缺失數(shù)據(jù)具有較好的容錯(cuò)率,在處理高維數(shù)據(jù)時(shí),能夠自主進(jìn)行特征選擇,且抗過(guò)擬合的能力較強(qiáng),魯棒性較高[5]。
在交通流數(shù)據(jù)中,由于速度、時(shí)間占有率及流量三參數(shù)均存在缺失值,可根據(jù)變量缺失量由少到多的順序?qū)ζ淙笔е颠M(jìn)行填補(bǔ)。首先提取缺失數(shù)據(jù)最少的變量作為標(biāo)簽,對(duì)其余變量中的缺失值進(jìn)行均值填充后,構(gòu)建特征矩陣;其次對(duì)標(biāo)簽缺失值進(jìn)行預(yù)測(cè)填補(bǔ);最后使用填補(bǔ)完成的變量補(bǔ)充進(jìn)數(shù)據(jù)集,再次進(jìn)行排序及標(biāo)簽、特征矩陣構(gòu)建,對(duì)三參數(shù)進(jìn)行循環(huán)填補(bǔ)后即可得到完整無(wú)缺失交通流數(shù)據(jù)集。
在得到的完整交通流數(shù)據(jù)集后,通過(guò)繪制核密度圖觀察數(shù)據(jù)分布情況,如圖2 所示。
圖2 完整數(shù)據(jù)occupancy、speed、volume 三參數(shù)核密度圖
由圖2 可知三參數(shù)中均具有離群值,需對(duì)其進(jìn)行異常值處理。首先采用箱線法對(duì)數(shù)據(jù)進(jìn)行異常值分析。對(duì)經(jīng)過(guò)前期處理的交通流數(shù)據(jù)進(jìn)行箱線法描述,其結(jié)果如圖3 所示。
圖3 交通流數(shù)據(jù)箱線法分析圖
由圖3 中數(shù)據(jù)可得,occupancy、speed、volume 三者均存在異常值。在speed 變量中存在較多偏大偏小數(shù)據(jù),在volume 變量中存在少量偏大數(shù)據(jù),在occupancy 中存在較多偏大數(shù)據(jù)。數(shù)據(jù)整體存在較多異常情況,因此需對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步異常值處理。
本文采用Isolation Forest 算法對(duì)異常數(shù)據(jù)進(jìn)行提取,由于Isolation Forest 模型是基于樹模型的集成模型,因此在構(gòu)建Isolation Forest 模型時(shí)首先需要通過(guò)數(shù)據(jù)訓(xùn)練出m多個(gè)iTree,其步驟如下:
(1)對(duì)于給定數(shù)據(jù)集X,采用隨機(jī)抽樣法抽取D個(gè)子集放入根節(jié)點(diǎn):
(2)從t個(gè)特征維度指定單個(gè)維度q,采用隨機(jī)原則產(chǎn)生切割點(diǎn)p:
(3)對(duì)數(shù)據(jù)空間通過(guò)切割點(diǎn)p生成的超平面劃分為兩個(gè)子空間,對(duì)于維度小與p的放入左子節(jié)點(diǎn),大于的放入右子節(jié)點(diǎn);
(4)遞歸(1)、(2)至iTreed 達(dá)到預(yù)定高低;
(5)循環(huán)所有步驟,至m個(gè)iTree 生成。
孤立森林生成后,將單個(gè)樣本輸入iTree,計(jì)算其平均高度,并對(duì)其進(jìn)行歸一化處理,最后計(jì)算每個(gè)樣本的異常值分?jǐn)?shù),分?jǐn)?shù)計(jì)算公式如式(5)所示。
對(duì)于捕捉到的異常值,Isolation Forest 算法所提供的接口可將異常值所對(duì)應(yīng)的數(shù)據(jù)索引進(jìn)行緩存,便于對(duì)異常值處理后對(duì)應(yīng)地填回?cái)?shù)據(jù)。通過(guò)將交通流數(shù)據(jù)傳入Isolation Forest 算法,得到的occupancy、speed、volume 三參數(shù)異常值數(shù)量如下表所示。
表3 速度、時(shí)間占有率及流量三參數(shù)異常值數(shù)量表
當(dāng)交通流數(shù)據(jù)采集器采集到的數(shù)據(jù)中出現(xiàn)因硬件原因所造成的數(shù)據(jù)缺失的情況,可通過(guò)對(duì)交通流參數(shù)中兩兩之間構(gòu)建關(guān)系模型,并通過(guò)已有數(shù)據(jù)對(duì)硬件故障進(jìn)行數(shù)據(jù)修復(fù),以進(jìn)一步保證交通數(shù)據(jù)系統(tǒng)的正常運(yùn)行。
3.2.1 速度-時(shí)間占有率模型求解
通過(guò)前期對(duì)交通流參數(shù)中速度與時(shí)間占有率兩者關(guān)系進(jìn)行分析得出兩者具有很強(qiáng)的線性關(guān)系,因此建立一元線性回歸的數(shù)學(xué)模型如式(7)所示:
式中s為交通流速度;m為時(shí)間占有率;c0、c1為回歸系數(shù)及常數(shù);ε為隨機(jī)誤差。此外,對(duì)于系統(tǒng)隨機(jī)的誤差需服從服從正態(tài)分布,滿足如式(8)所示關(guān)系:
對(duì)于所構(gòu)建函數(shù)模型中的參數(shù),可通過(guò)最小二乘法計(jì)算得出。最小二乘法是通過(guò)最小化誤差的平方和尋找參數(shù)的最佳匹配[5]。對(duì)于所構(gòu)建的線性回歸模型,需檢驗(yàn)其可行性即準(zhǔn)確率,其中包括回歸方程及回歸系數(shù)的顯著性檢驗(yàn)、殘差分析等。對(duì)于有效的線性回歸模型,殘差應(yīng)服從均值為0 的正態(tài)分布。對(duì)所得回歸模型進(jìn)行相關(guān)可行性檢驗(yàn)所得計(jì)算結(jié)果如表4 所示。
表4 速度—時(shí)間占有率模型回歸系數(shù)及顯著性檢驗(yàn)結(jié)果
由表4 數(shù)據(jù)可知,對(duì)于所求變量之間存在線性關(guān)系,且線性回歸系數(shù)存在顯著意義。最終得到利用最小二乘法得到速度-時(shí)間占有率的線性回歸模型方程如式(9)所示。
3.2.2 流量-時(shí)間占有率模型求解
由流量-時(shí)間占有率散點(diǎn)圖可以看出,數(shù)據(jù)點(diǎn)分布呈非線性關(guān)系,根據(jù)假設(shè)構(gòu)建二元回歸方程。建立流量-時(shí)間占有率二次曲線回歸方程模型如式(10)所示:通
過(guò)線性變換m1=m2變換為二元線性模型為:
對(duì)構(gòu)建的流量-時(shí)間占有率線性回歸模型,輸入數(shù)據(jù)進(jìn)行擬合,使用最小二乘法參數(shù)進(jìn)行擬合估計(jì),求解出其回歸模型,并對(duì)其進(jìn)行相關(guān)性參數(shù)分析,其結(jié)果如表5 所示:
表5 流量—時(shí)間占有率模型回歸系數(shù)及顯著性檢驗(yàn)結(jié)果
由表5 可知,經(jīng)過(guò)計(jì)算,F(xiàn) 檢驗(yàn)的概率p 值小于0.05 即流量與時(shí)間占有率之間存在二元線性關(guān)系;T檢驗(yàn)的概率p 值小于0.05,即回歸系數(shù)有顯著意義[6-8]。最終經(jīng)擬合檢驗(yàn)得到的可行性流量-時(shí)間占有率模型如式(12)所示。
3.2.3 速度-流量模型求解
根據(jù)交通流三參數(shù)之間的相關(guān)性關(guān)系,對(duì)于速度-流量模型可聯(lián)立前期求出的流量-時(shí)間占有率及速度-時(shí)間占有率模型對(duì)其進(jìn)行求解,其中時(shí)間占有率作為中間變量。
通過(guò)聯(lián)立式(9)及式(12)可得速度-流量模型如式(13)所示。
在得到三參數(shù)對(duì)應(yīng)模型后將提取出的異常值及其相關(guān)參數(shù)輸入模型,即可對(duì)異常數(shù)據(jù)進(jìn)行預(yù)測(cè),最終將所預(yù)測(cè)數(shù)據(jù)通過(guò)孤立森林模型中所保存的索引對(duì)數(shù)據(jù)進(jìn)行替換,最終得到完整無(wú)缺失的數(shù)據(jù)集。
通過(guò)對(duì)數(shù)據(jù)集中異常值捕捉修正后,再次使用箱線法對(duì)數(shù)據(jù)整體進(jìn)行觀測(cè),其結(jié)果如圖4 所示。
圖4 修正后數(shù)據(jù)集箱線圖
由圖 4 中信息可知,經(jīng)過(guò)處理后的交通流數(shù)據(jù)集volume、occupancy 兩參數(shù)所有值均在正常閾值內(nèi),基本為正確數(shù)據(jù),但speed 參數(shù)中仍存在大量偏離最大閾值范圍的數(shù),根據(jù)交通流三參數(shù)基本規(guī)律對(duì)speed、occupancy 兩參數(shù)進(jìn)行散點(diǎn)圖描述如圖5 所示。
圖5 車速-時(shí)間占有率關(guān)系圖
由圖5 信息可得,車速出現(xiàn)明顯分段聚集,大致分為0~60km/h 及80~120km/h 兩個(gè)區(qū)間,但在兩個(gè)區(qū)間內(nèi)數(shù)據(jù)基本服從交通流參數(shù)關(guān)系,即速度與時(shí)間占有率成反比關(guān)系。分析出現(xiàn)區(qū)間分化的原因是由于數(shù)據(jù)集中所采集的數(shù)據(jù)來(lái)源包括城市公路及快車道(高架、高速等),由于不同車道中速度限制及車道寬度的影響所造成的速度分化情況。在城市內(nèi)道路中速度閾值大致為0~60km/h,在高架等快速車道速度閾值為80~120km/h,但在不同車道由散點(diǎn)圖可知數(shù)據(jù)基本服從交通流參數(shù)關(guān)系,故通過(guò)箱線圖表現(xiàn)出的速度異常值為正常數(shù)據(jù)。
對(duì)交通流數(shù)據(jù)的異常值進(jìn)行判斷修復(fù)是提高交通流信息數(shù)據(jù)有效性的基礎(chǔ),本文提出一種融合奇異值分析及孤立森林的交通流異常數(shù)據(jù)診斷方法,基于多元線性回歸算法的異常值修復(fù)方法,經(jīng)過(guò)實(shí)測(cè)數(shù)據(jù)檢驗(yàn),本文所構(gòu)建數(shù)據(jù)處理模型可在很大程度上提升數(shù)據(jù)利用率,保證了交通流數(shù)據(jù)的可靠性與有效性,在今后研究中可對(duì)實(shí)時(shí)的交通流數(shù)據(jù)輸出有效性方面進(jìn)行改進(jìn)。