針對城市道路擁堵的優(yōu)化隨機森林預(yù)測模型

2021-10-08 09:02白小曼馮永祥李雷孝張利平馬志強王永生

科學(xué)技術(shù)與工程 2021年26期

白小曼，馮永祥，2*，李雷孝，2，張利平，馬志強，2，王永生，2，王慧，2

(1.內(nèi)蒙古工業(yè)大學(xué)數(shù)據(jù)科學(xué)與應(yīng)用學(xué)院，呼和浩特 010080； 2.內(nèi)蒙古自治區(qū)基于大數(shù)據(jù)的軟件服務(wù)工程技術(shù)研發(fā)中心，呼和浩特 010080)

隨著中國社會經(jīng)濟的快速發(fā)展，機動車保有量逐年迅速上漲，交通擁堵現(xiàn)象在各大城市路網(wǎng)中頻發(fā)，以交通擁堵為主的各種交通問題已成為制約中國眾多城市交通發(fā)展的重要問題。有效預(yù)測擁堵情況的發(fā)生、及時對可能出現(xiàn)的擁堵采取預(yù)防措施，可以有效提高城市交通通行效率、節(jié)約出行時間、降低環(huán)境污染和能源浪費。因此，如何有效對交通擁堵進行預(yù)測，是近年來學(xué)者們聚焦的熱點問題。

傳統(tǒng)的交通擁堵預(yù)測方法通常采用基于統(tǒng)計和微積分的數(shù)學(xué)方法，如時間序列、卡爾曼濾波、馬爾可夫模型等，對短期交通擁堵情況進行預(yù)測[1-5]。在后續(xù)的研究中，學(xué)者們提出了很多基于機器學(xué)習(xí)和深度學(xué)習(xí)的預(yù)測研究方法。韋清波等[6]考慮了特殊條件對交通狀況的影響，將天氣、重大活動、節(jié)假日等等綜合考慮，分析道路擁堵指數(shù)總體變化趨勢，基于K近鄰構(gòu)建城市道路擁堵預(yù)測模型，并通過實驗驗證了模型效果。呂鮮等[7]考慮了交通流特征，利用去躁自編碼模型提取數(shù)據(jù)核心特征，結(jié)合LSTM(long short-term memory)模型長時記憶歷史數(shù)據(jù)。實驗證明，該模型可以對城市道路擁堵進行有效預(yù)測，但訓(xùn)練速度較慢，消耗的計算資源較多。邢一鳴等[8]提出了組合多個超限學(xué)習(xí)機子模型而成的核超限學(xué)習(xí)機擁堵預(yù)測模型，實驗證明，相比超限學(xué)習(xí)機提高了準(zhǔn)確率和訓(xùn)練速度。曹潔等[9]提出了基于信息熵加權(quán)的FCM(FuzzyC-means)聚類算法識別局部路網(wǎng)交通狀態(tài)的方法，相較于傳統(tǒng)FCM聚類算法在一定程度上提高了準(zhǔn)確率，其模型性能受聚類中心個數(shù)選取的影響，可通過進一步研究以達到更好的效果。晏雨嬋等[10]提出了一種多指標(biāo)模糊擁堵級別評價方法，利用PSO-SVR(particle swarm optimization-support vector regression)預(yù)測平均速度和交通流量進行交通擁堵級別模糊評價，提升了預(yù)測效果。陳忠輝等[11]提出一種模糊C均值聚類融合隨機森林的短時交通狀態(tài)預(yù)測模型，利用FCM算法評估歷史交通狀態(tài)，并通過隨機森林進行短時交通專題預(yù)測，提升了預(yù)測準(zhǔn)確率。

在交通擁堵預(yù)測領(lǐng)域，中外學(xué)者已取得較為豐碩的研究成果。由于隨機森林算法既能處理離散型數(shù)據(jù)，也能處理連續(xù)型數(shù)據(jù)，且訓(xùn)練速度快，非常適合用于研究交通數(shù)據(jù)?，F(xiàn)針對隨機森林模型的特性，采用低復(fù)雜度且能夠迅速確定最優(yōu)解的陰陽對優(yōu)化算法對隨機森林的關(guān)鍵參數(shù)進行合理選取，提高預(yù)測準(zhǔn)確性，并利用Spark機器學(xué)習(xí)平臺針對隨機森林進行并行化設(shè)計，以期達到提高計算速度和計算精度的目的，以便更好地對城市道路擁堵情況進行預(yù)測。

1 相關(guān)算法研究

1.1 隨機森林算法

隨機森林(random forest)是由Breiman[12]提出的一種集成機器學(xué)習(xí)方法。它的主要思想是通過隨機抽樣的方式建立由多個互不關(guān)聯(lián)的決策樹組成的森林；每棵決策樹均采用bagging方法進行抽樣。對于城市道路交通數(shù)據(jù)集，假設(shè)訓(xùn)練集樣本個數(shù)為X，共有M個決策屬性，從中有放回地隨機抽取x個樣本構(gòu)造道路交通訓(xùn)練子集，再從所有M個決策屬性中隨機選擇m個屬性構(gòu)造道路交通特征子集。利用訓(xùn)練子集和特征子集構(gòu)造對應(yīng)的決策樹，需要n棵樹，則隨機抽樣n次；訓(xùn)練結(jié)束后，將待測試數(shù)據(jù)輸入訓(xùn)練好的森林中，利用森林中的決策樹對數(shù)據(jù)進行分類，采用投票的思想，選擇決策樹分類最多的類別作為測試數(shù)據(jù)的最終類別。

在隨機森林模型構(gòu)建過程中，決策樹數(shù)量(ntree)和分裂屬性個數(shù)(mtry)兩個參數(shù)設(shè)置的大小對其模型預(yù)測精度有著至關(guān)重要的影響。若這兩個參數(shù)設(shè)置不合理，則在訓(xùn)練過程中會使模型出現(xiàn)過擬合或欠擬合現(xiàn)象，進而嚴(yán)重降低隨機森林預(yù)測準(zhǔn)確性。因此，為提高隨機森林模型預(yù)測精度，選取陰陽對優(yōu)化算法對隨機森林進行參數(shù)調(diào)優(yōu)。

1.2 陰陽對優(yōu)化算法

陰陽對優(yōu)化算法(Yin-Yang-pair optimization, YYPO)是Punnathanam等[13]于2016年提出的一種新型的元啟發(fā)式算法。它能迅速確定最優(yōu)解，是一種低復(fù)雜度的隨機算法，基于陰陽平衡原理通過利用和探索兩個點進行工作，并根據(jù)優(yōu)化問題中決策變量的數(shù)量產(chǎn)生相應(yīng)維度的點。

YYPO算法根據(jù)待優(yōu)化問題的維度D隨機生成兩個點P1和P2。P1專注于利用變量空間，P2專注于探索變量空間，點P1和P2作為中心分別負責(zé)變量空間中以δ1和δ2為半徑的超球體。該算法包括兩個主要階段，分裂階段和存檔階段。分裂階段用于在迭代過程中搜索兩個點半徑范圍內(nèi)的超球體；存檔階段用于存儲分裂階段搜索后的P1和P2點和通過比較存檔中的點的適應(yīng)度更新P1、P2，并根據(jù)用戶定義的擴展/收縮因子α更新δ1和δ2。

1.2.1 分裂階段

分裂階段的目的是在以點P為球心的半徑為δ的超球體中于盡可能變化的方向上以隨機的方式生成新的點，利用適應(yīng)性函數(shù)評估產(chǎn)生的新點適應(yīng)度，將最適點替換為當(dāng)前點并記入存檔。分裂階段主要有兩種分裂方式：單向分裂和多向分裂。每次分裂通過范圍在0～1的隨機生成數(shù)R來決定分裂方式。

(1)單向分裂：設(shè)置矩陣S，它表示點P的2D維度的相同副本，大小為2D×D。矩陣S中的每一個點按式(1)所示設(shè)置。

(1)

式(1)中：上標(biāo)為行號；下標(biāo)為列號；r為0～1的隨機數(shù)矩陣；δ為點的半徑。

(2)多向分裂：同樣存在矩陣S，它表示點P的二維相同副本，大小為2D×D。矩陣S中的每一個點按式(2)所示設(shè)置。

(2)

式(2)中：B為由一個長度為D的二進制字符串組成的矩陣，其中每一個字符串通過隨機選擇0～(2D-1)之間的2D個唯一整數(shù)轉(zhuǎn)換而成。

1.2.2 存檔階段

存檔階段在計數(shù)器i達到存檔更新次數(shù)I后啟動。此時存檔中包含2I個點，分別對應(yīng)分裂階段每次更新之前添加的兩個點P1、P2。比較存檔中點與當(dāng)前P1、P2的適應(yīng)度，將最優(yōu)點替換為P1、P2。替換后使用式(3)更新搜索半徑δ1、δ2。

(3)

式(3)中：α為擴展/收縮因子。

1.2.3 YYPORF模型

采用陰陽對優(yōu)化算法對隨機森林ntree和mtry進行尋優(yōu)，主要基于P點適應(yīng)度傾向于極小值的趨勢，即模型預(yù)測誤差最小。YYPORF步驟如下。

步驟1設(shè)置存檔更新范圍Imin和Imax，擴展/收縮因子α，迭代最大次數(shù)T，待優(yōu)化參數(shù)決策樹數(shù)量ntree和分裂屬性個數(shù)mtry取值范圍lb和ub。

步驟2確定模型適應(yīng)性函數(shù)。定義隨機森林模型的分類誤差Erro如式(4)所示：

Erro=1-acc

(4)

式(4)中：acc為模型分類準(zhǔn)確率。適應(yīng)度函數(shù)f描述如式(5)所示：

生態(tài)監(jiān)測工作在青海省是一項開創(chuàng)性的工作，專業(yè)性很強，涉及多個部門和多個專業(yè)，要結(jié)合我們所開展的工作和取得的成果，通過發(fā)布信息、媒體報道，充分提升各級政府和全社會對生態(tài)監(jiān)測工作重要性的認識。

minf(ntree,mtry)=fRF=Erro=1-acc

(5)

步驟4迭代開始，在存檔更新范圍內(nèi)隨機產(chǎn)生存檔更新次數(shù)I，初始化計數(shù)器i=0，利用模型適應(yīng)度函數(shù)評估P1、P2的適應(yīng)度，若P2的適應(yīng)度優(yōu)于P1，互換兩個點。將P1、P2記入存檔。啟動分裂階段。

步驟5利用式(1)、式(2)分別對P1、P2點進行分裂操作，通過適應(yīng)度函數(shù)評估分裂階段產(chǎn)生的新點的適應(yīng)度，將最適點替換為正在經(jīng)歷分裂的P點，計數(shù)器i加1。

步驟6若i

步驟7比較存檔中P1、P2與當(dāng)前P1、P2的適應(yīng)度，若存檔中最優(yōu)點優(yōu)于當(dāng)前P1、P2點，則替換當(dāng)前P1、P2點。

步驟8若未達到最大迭代次數(shù)T，利用式(3)更新P1、P2點搜索半徑δ1、δ2，計數(shù)器i歸零，于Imin和Imax之間隨機產(chǎn)生新的存檔更新次數(shù)I，重復(fù)步驟4～步驟8，進入下一輪迭代。

步驟9滿足最大迭代次數(shù)，獲得ntree和mtry最優(yōu)解。

YYPORF算法流程圖如圖1所示。

圖1 YYPORF算法流程圖Fig.1 Flow chart of YYPORF

1.3 并行化設(shè)計

利用Spark大數(shù)據(jù)平臺進行城市道路擁堵預(yù)測模型的并行化構(gòu)建。Spark是一種與Hadoop相似的開源集群計算環(huán)境，具有類似MapReduce的編程模型。Spark提供大量的庫，以Spark Core作為核心，提供Spark SQL、GraphX 、MLlib、Streaming等多種功能接口[14-18]。與MapReduce相比，Spark具有數(shù)倍于它的批處理速度和數(shù)十倍的數(shù)據(jù)分析速度[19]，更適用與處理城市道路交通數(shù)據(jù)集。

在使用Spark進行城市道路擁堵預(yù)測時，首先將城市道路交通數(shù)據(jù)轉(zhuǎn)化為具有數(shù)據(jù)共享抽象的彈性分布式數(shù)據(jù)集RDD(resilient distributed dataset)[20]。每個RDD可以分成多個分區(qū)，并且在集群的不同節(jié)點進行保存，從而達到的集群各個節(jié)點上并行計算的目的[21-22]。

在 Spark 上平臺上對隨機森林算法的并行化設(shè)計步驟如下。

步驟1從HDFS(hadoop distributed file system)讀取城市道路交通數(shù)據(jù)集，合理劃分為訓(xùn)練集和測試集。本文研究的集群由4個節(jié)點組成，將訓(xùn)練集復(fù)制4份分發(fā)給每個節(jié)點。

步驟2假設(shè)需要創(chuàng)建的決策樹數(shù)目為n，共有4個節(jié)點，每個節(jié)點負責(zé)創(chuàng)建n/4棵決策樹，各節(jié)點利用map()方法構(gòu)建訓(xùn)練子集，通過boosttrap sample()抽樣并行創(chuàng)建決策樹，各得到一個包含n/4個決策樹的集合。創(chuàng)建決策樹后，利用reduce()方法將所有決策樹整合為長度為n的決策樹集合，即訓(xùn)練得到的隨機森林模型。

步驟3使用訓(xùn)練得到的隨機森林模型對測試集進行預(yù)測，并將結(jié)果上傳至HDFS。

隨機森林算法并行化設(shè)計如圖2所示。

圖2 隨機森林并行化設(shè)計Fig.2 Parallel design of random forest

2 實驗設(shè)計與結(jié)果分析

2.1 數(shù)據(jù)預(yù)處理

采用合肥示范區(qū)黃科路口相關(guān)數(shù)據(jù)，包含微波數(shù)據(jù)6萬條和車輛GPS(global positioning system)數(shù)據(jù)36萬條共42萬條數(shù)據(jù)作為數(shù)據(jù)集。整合兩項數(shù)據(jù)集，根據(jù)交通數(shù)據(jù)的實際情況，對城市道路交通數(shù)據(jù)進行預(yù)處理。以1 min為一段，將每分鐘內(nèi)數(shù)據(jù)合并，并計算每一個時間段內(nèi)經(jīng)過道路的車流量、平均速度、占有率及密度。整理數(shù)據(jù)后，通過閾值法和交通流機理法對原始城市道路交通數(shù)據(jù)進行異常值的判斷。

2.1.1 閾值法

通過考慮城市道路交通數(shù)據(jù)中單個參數(shù)的特征確定交通數(shù)據(jù)項的閾值。本文研究主要衡量的交通項為車流量、平均速度和車道占有率。

車流量q、平均速度v、車道占有率p的取值范圍如式(6)所示：

(6)

式(6)中：qmin、qmax、vmin、vmax、pmin、pmax分別為車流量q、平均速度v、占有率p的上下限；qmin、vmin、pmin取值為0；qmax取決于路段通行能力；vmax取決于路段限速；pmax取95%。

2.2.2 交通流機理法

其基本思想是城市道路交通數(shù)據(jù)中的各項交通參數(shù)之間不能存在互相矛盾的關(guān)系。根據(jù)交通流機理法的交通數(shù)據(jù)項異常判別規(guī)則如表1所示。

表1 交通數(shù)據(jù)異常判別規(guī)則Table 1 Abnormal discrimination rules of traffic data

篩選出問題數(shù)據(jù)后，采用移動平均法和歷史趨勢法進行數(shù)據(jù)處理工作。單點異常使用移動平均法，利用異常數(shù)據(jù)的附近數(shù)據(jù)值修復(fù)異常數(shù)據(jù)，公式如式(7)所示。異常數(shù)據(jù)少于當(dāng)日數(shù)據(jù)三分之一時，利用歷史趨勢法，使用上周正常數(shù)據(jù)替換異常日數(shù)據(jù)，公式如式(8)所示。當(dāng)問題數(shù)據(jù)大于當(dāng)日數(shù)據(jù)的三分之一時，為避免強行修復(fù)反而人為增加噪點的情況，舍棄當(dāng)日數(shù)據(jù)。

(7)

(8)

2.2 實驗結(jié)果與分析

2.2.1 實驗環(huán)境

采用由4個工作節(jié)點建立的計算集群，其中包含Spark的1個Master節(jié)點和3個Slave節(jié)點。Spark集群節(jié)點配置如表2所示。

表2 節(jié)點配置參數(shù)Table 2 Node configuration parameters

2.2.2 準(zhǔn)確率實驗

本實驗選取準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)和F1度量(F1-measure)作為評價指標(biāo)，分別使用K近鄰(KNN)、長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)、原始隨機森林和本文提出的模型對處理后的數(shù)據(jù)進行道路擁堵情況預(yù)測，分別運算10次計算平均值。準(zhǔn)確率實驗結(jié)果如表3所示。

表3 準(zhǔn)確率實驗結(jié)果Table 3 Results of accuracy experiment

由表3可知，KNN在城市道路擁堵情況方面的預(yù)測效果最差，其準(zhǔn)確率、精確率、召回率和F1均為最低；原始RF和LSTM的預(yù)測效果次之，較KNN有所提高；YYPORF模型在4個評價指標(biāo)上對城市道路擁堵的預(yù)測均較好，準(zhǔn)確率為95.58%，精確率95.78%，召回率95.6%，F(xiàn)1為0.955 9。由此看出，YYPORF模型可以有效預(yù)測道路擁堵狀況，符合實際道路交通擁堵情況，能夠?qū)煌ü芾聿块T提供有效決策支持。

2.2.3 加速比實驗

加速比表示集群并行化通過增加節(jié)點數(shù)量，對提升運行速度減少運行時間帶來的性能提升[23]，其公式如式(9)所示：

(9)

式(9)中：TS為單個節(jié)點情況下進行預(yù)測所消耗的時間；TP為在P個性能相同的節(jié)點并行計算的情況下進行預(yù)測所消耗的時間。

本實驗采用4個節(jié)點組成的集群，對原有數(shù)據(jù)集進行擴增，驗證模型在不同節(jié)點不同數(shù)據(jù)量情況下的加速比。實驗結(jié)果如圖3所示。

圖3 加速比實驗結(jié)果Fig.3 Results of speedup radio experiment

由圖3可以看出，在數(shù)據(jù)集大小為60 M時，隨著節(jié)點個數(shù)的增加，加速比有少量提升；在數(shù)據(jù)集大小為120 M時，加速比的提升趨勢逐漸明顯；在數(shù)據(jù)集大小為240 M時，加速比的提升趨勢非常明顯。由此可以看出，當(dāng)數(shù)據(jù)量不太大時，節(jié)點數(shù)目增加可以使計算速度逐步提升、運行時間逐漸減少，但提升的趨勢一開始并不明顯。這是因為，在計算量小的情況下，集群系統(tǒng)的啟動、任務(wù)調(diào)度和數(shù)據(jù)通信會增加時間消耗，降低計算速度。當(dāng)數(shù)據(jù)量增大、集群的節(jié)點數(shù)增加后，集群的加速比呈現(xiàn)線性增長狀態(tài)，逐漸趨近理想值。因此，本文研究提出的使用Spark大數(shù)據(jù)平臺的隨機森林并行化方案能夠有效提高隨機森林的計算速度，減少運行時間。

2.2.4 可擴展性實驗

可擴展性用于評價在集群的節(jié)點個數(shù)增加時算法性能按照節(jié)點個數(shù)比例提高的能力。由于節(jié)點個數(shù)的增加會帶來額外的通信開銷的增長，因此在增加節(jié)點個數(shù)的同時會致使每個節(jié)點的利用率降低[24]。因此使用可擴展性衡量算法并行化對于有效可擴展節(jié)點個數(shù)的利用能力。其公式如式(10)所示：

(10)

式(10)中：P為節(jié)點個數(shù)；SpP為P個節(jié)點上的加速比。

可擴展性實驗結(jié)果如圖4所示。圖4可以看出，隨著節(jié)點數(shù)目的增加，算法的運行時間逐漸減少；隨著數(shù)據(jù)量的增加，算法的運行時間也逐漸減少；且隨著數(shù)據(jù)集大小和節(jié)點個數(shù)的增加，模型的運行時間增長的倍數(shù)始終低于數(shù)據(jù)集大小和節(jié)點個數(shù)的增長倍數(shù)。因此，基于Spark的隨機森林模型具有良好的可擴展性。

圖4 可擴展性實驗結(jié)果Fig.4 Results of scalability experiment

4 結(jié)論

提出一種基于Spark大數(shù)據(jù)平臺的陰陽對優(yōu)化隨機森林模型對城市道路擁堵情況進行預(yù)測，利用陰陽對優(yōu)化對影響隨機森林精度的關(guān)鍵參數(shù)進行參數(shù)優(yōu)化。通過基于真實數(shù)據(jù)的實驗，得到以下結(jié)論。

(1)提出的模型較其他預(yù)測算法具有較高的精度，預(yù)測準(zhǔn)確率達到95.58%，提高了模型準(zhǔn)確率。

(2)提出的并行化設(shè)計方案能夠提高模型計算速度，降低運行時間，具有良好的可擴展性，能夠為交通管理部門的決策提供有力支持。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡