国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

針對城市道路擁堵的優(yōu)化隨機森林預(yù)測模型

2021-10-08 09:02白小曼馮永祥李雷孝張利平馬志強王永生
科學(xué)技術(shù)與工程 2021年26期
關(guān)鍵詞:決策樹適應(yīng)度準(zhǔn)確率

白小曼, 馮永祥,2*, 李雷孝,2, 張利平, 馬志強,2, 王永生,2, 王 慧,2

(1.內(nèi)蒙古工業(yè)大學(xué)數(shù)據(jù)科學(xué)與應(yīng)用學(xué)院, 呼和浩特 010080; 2.內(nèi)蒙古自治區(qū)基于大數(shù)據(jù)的軟件服務(wù)工程技術(shù)研發(fā)中心, 呼和浩特 010080)

隨著中國社會經(jīng)濟的快速發(fā)展,機動車保有量逐年迅速上漲,交通擁堵現(xiàn)象在各大城市路網(wǎng)中頻發(fā),以交通擁堵為主的各種交通問題已成為制約中國眾多城市交通發(fā)展的重要問題。有效預(yù)測擁堵情況的發(fā)生、及時對可能出現(xiàn)的擁堵采取預(yù)防措施,可以有效提高城市交通通行效率、節(jié)約出行時間、降低環(huán)境污染和能源浪費。因此,如何有效對交通擁堵進行預(yù)測,是近年來學(xué)者們聚焦的熱點問題。

傳統(tǒng)的交通擁堵預(yù)測方法通常采用基于統(tǒng)計和微積分的數(shù)學(xué)方法,如時間序列、卡爾曼濾波、馬爾可夫模型等,對短期交通擁堵情況進行預(yù)測[1-5]。在后續(xù)的研究中,學(xué)者們提出了很多基于機器學(xué)習(xí)和深度學(xué)習(xí)的預(yù)測研究方法。韋清波等[6]考慮了特殊條件對交通狀況的影響,將天氣、重大活動、節(jié)假日等等綜合考慮,分析道路擁堵指數(shù)總體變化趨勢,基于K近鄰構(gòu)建城市道路擁堵預(yù)測模型,并通過實驗驗證了模型效果。呂鮮等[7]考慮了交通流特征,利用去躁自編碼模型提取數(shù)據(jù)核心特征,結(jié)合LSTM(long short-term memory)模型長時記憶歷史數(shù)據(jù)。實驗證明,該模型可以對城市道路擁堵進行有效預(yù)測,但訓(xùn)練速度較慢,消耗的計算資源較多。邢一鳴等[8]提出了組合多個超限學(xué)習(xí)機子模型而成的核超限學(xué)習(xí)機擁堵預(yù)測模型,實驗證明,相比超限學(xué)習(xí)機提高了準(zhǔn)確率和訓(xùn)練速度。曹潔等[9]提出了基于信息熵加權(quán)的FCM(FuzzyC-means)聚類算法識別局部路網(wǎng)交通狀態(tài)的方法,相較于傳統(tǒng)FCM聚類算法在一定程度上提高了準(zhǔn)確率,其模型性能受聚類中心個數(shù)選取的影響,可通過進一步研究以達到更好的效果。晏雨嬋等[10]提出了一種多指標(biāo)模糊擁堵級別評價方法,利用PSO-SVR(particle swarm optimization-support vector regression)預(yù)測平均速度和交通流量進行交通擁堵級別模糊評價,提升了預(yù)測效果。陳忠輝等[11]提出一種模糊C均值聚類融合隨機森林的短時交通狀態(tài)預(yù)測模型,利用FCM算法評估歷史交通狀態(tài),并通過隨機森林進行短時交通專題預(yù)測,提升了預(yù)測準(zhǔn)確率。

在交通擁堵預(yù)測領(lǐng)域,中外學(xué)者已取得較為豐碩的研究成果。由于隨機森林算法既能處理離散型數(shù)據(jù),也能處理連續(xù)型數(shù)據(jù),且訓(xùn)練速度快,非常適合用于研究交通數(shù)據(jù)?,F(xiàn)針對隨機森林模型的特性,采用低復(fù)雜度且能夠迅速確定最優(yōu)解的陰陽對優(yōu)化算法對隨機森林的關(guān)鍵參數(shù)進行合理選取,提高預(yù)測準(zhǔn)確性,并利用Spark機器學(xué)習(xí)平臺針對隨機森林進行并行化設(shè)計,以期達到提高計算速度和計算精度的目的,以便更好地對城市道路擁堵情況進行預(yù)測。

1 相關(guān)算法研究

1.1 隨機森林算法

隨機森林(random forest)是由Breiman[12]提出的一種集成機器學(xué)習(xí)方法。它的主要思想是通過隨機抽樣的方式建立由多個互不關(guān)聯(lián)的決策樹組成的森林;每棵決策樹均采用bagging方法進行抽樣。對于城市道路交通數(shù)據(jù)集,假設(shè)訓(xùn)練集樣本個數(shù)為X,共有M個決策屬性,從中有放回地隨機抽取x個樣本構(gòu)造道路交通訓(xùn)練子集,再從所有M個決策屬性中隨機選擇m個屬性構(gòu)造道路交通特征子集。利用訓(xùn)練子集和特征子集構(gòu)造對應(yīng)的決策樹,需要n棵樹,則隨機抽樣n次;訓(xùn)練結(jié)束后,將待測試數(shù)據(jù)輸入訓(xùn)練好的森林中,利用森林中的決策樹對數(shù)據(jù)進行分類,采用投票的思想,選擇決策樹分類最多的類別作為測試數(shù)據(jù)的最終類別。

在隨機森林模型構(gòu)建過程中,決策樹數(shù)量(ntree)和分裂屬性個數(shù)(mtry)兩個參數(shù)設(shè)置的大小對其模型預(yù)測精度有著至關(guān)重要的影響。若這兩個參數(shù)設(shè)置不合理,則在訓(xùn)練過程中會使模型出現(xiàn)過擬合或欠擬合現(xiàn)象,進而嚴(yán)重降低隨機森林預(yù)測準(zhǔn)確性。因此,為提高隨機森林模型預(yù)測精度,選取陰陽對優(yōu)化算法對隨機森林進行參數(shù)調(diào)優(yōu)。

1.2 陰陽對優(yōu)化算法

陰陽對優(yōu)化算法(Yin-Yang-pair optimization, YYPO)是Punnathanam等[13]于2016年提出的一種新型的元啟發(fā)式算法。它能迅速確定最優(yōu)解,是一種低復(fù)雜度的隨機算法,基于陰陽平衡原理通過利用和探索兩個點進行工作,并根據(jù)優(yōu)化問題中決策變量的數(shù)量產(chǎn)生相應(yīng)維度的點。

YYPO算法根據(jù)待優(yōu)化問題的維度D隨機生成兩個點P1和P2。P1專注于利用變量空間,P2專注于探索變量空間,點P1和P2作為中心分別負責(zé)變量空間中以δ1和δ2為半徑的超球體。該算法包括兩個主要階段,分裂階段和存檔階段。分裂階段用于在迭代過程中搜索兩個點半徑范圍內(nèi)的超球體;存檔階段用于存儲分裂階段搜索后的P1和P2點和通過比較存檔中的點的適應(yīng)度更新P1、P2,并根據(jù)用戶定義的擴展/收縮因子α更新δ1和δ2。

1.2.1 分裂階段

分裂階段的目的是在以點P為球心的半徑為δ的超球體中于盡可能變化的方向上以隨機的方式生成新的點,利用適應(yīng)性函數(shù)評估產(chǎn)生的新點適應(yīng)度,將最適點替換為當(dāng)前點并記入存檔。分裂階段主要有兩種分裂方式:單向分裂和多向分裂。每次分裂通過范圍在0~1的隨機生成數(shù)R來決定分裂方式。

(1)單向分裂:設(shè)置矩陣S,它表示點P的2D維度的相同副本,大小為2D×D。矩陣S中的每一個點按式(1)所示設(shè)置。

(1)

式(1)中:上標(biāo)為行號;下標(biāo)為列號;r為0~1的隨機數(shù)矩陣;δ為點的半徑。

(2)多向分裂:同樣存在矩陣S,它表示點P的二維相同副本,大小為2D×D。矩陣S中的每一個點按式(2)所示設(shè)置。

(2)

式(2)中:B為由一個長度為D的二進制字符串組成的矩陣,其中每一個字符串通過隨機選擇0~(2D-1)之間的2D個唯一整數(shù)轉(zhuǎn)換而成。

1.2.2 存檔階段

存檔階段在計數(shù)器i達到存檔更新次數(shù)I后啟動。此時存檔中包含2I個點,分別對應(yīng)分裂階段每次更新之前添加的兩個點P1、P2。比較存檔中點與當(dāng)前P1、P2的適應(yīng)度,將最優(yōu)點替換為P1、P2。替換后使用式(3)更新搜索半徑δ1、δ2。

(3)

式(3)中:α為擴展/收縮因子。

1.2.3 YYPORF模型

采用陰陽對優(yōu)化算法對隨機森林ntree和mtry進行尋優(yōu),主要基于P點適應(yīng)度傾向于極小值的趨勢,即模型預(yù)測誤差最小。YYPORF步驟如下。

步驟1設(shè)置存檔更新范圍Imin和Imax,擴展/收縮因子α,迭代最大次數(shù)T,待優(yōu)化參數(shù)決策樹數(shù)量ntree和分裂屬性個數(shù)mtry取值范圍lb和ub。

步驟2確定模型適應(yīng)性函數(shù)。定義隨機森林模型的分類誤差Erro如式(4)所示:

Erro=1-acc

(4)

式(4)中:acc為模型分類準(zhǔn)確率。適應(yīng)度函數(shù)f描述如式(5)所示:

生態(tài)監(jiān)測工作在青海省是一項開創(chuàng)性的工作,專業(yè)性很強,涉及多個部門和多個專業(yè),要結(jié)合我們所開展的工作和取得的成果,通過發(fā)布信息、媒體報道,充分提升各級政府和全社會對生態(tài)監(jiān)測工作重要性的認識。

minf(ntree,mtry)=fRF=Erro=1-acc

(5)

步驟4迭代開始,在存檔更新范圍內(nèi)隨機產(chǎn)生存檔更新次數(shù)I,初始化計數(shù)器i=0,利用模型適應(yīng)度函數(shù)評估P1、P2的適應(yīng)度,若P2的適應(yīng)度優(yōu)于P1,互換兩個點。將P1、P2記入存檔。啟動分裂階段。

步驟5利用式(1)、式(2)分別對P1、P2點進行分裂操作,通過適應(yīng)度函數(shù)評估分裂階段產(chǎn)生的新點的適應(yīng)度,將最適點替換為正在經(jīng)歷分裂的P點,計數(shù)器i加1。

步驟6若i

步驟7比較存檔中P1、P2與當(dāng)前P1、P2的適應(yīng)度,若存檔中最優(yōu)點優(yōu)于當(dāng)前P1、P2點,則替換當(dāng)前P1、P2點。

步驟8若未達到最大迭代次數(shù)T,利用式(3)更新P1、P2點搜索半徑δ1、δ2,計數(shù)器i歸零,于Imin和Imax之間隨機產(chǎn)生新的存檔更新次數(shù)I,重復(fù)步驟4~步驟8,進入下一輪迭代。

步驟9滿足最大迭代次數(shù),獲得ntree和mtry最優(yōu)解。

YYPORF算法流程圖如圖1所示。

圖1 YYPORF算法流程圖Fig.1 Flow chart of YYPORF

1.3 并行化設(shè)計

利用Spark大數(shù)據(jù)平臺進行城市道路擁堵預(yù)測模型的并行化構(gòu)建。Spark是一種與Hadoop相似的開源集群計算環(huán)境,具有類似MapReduce的編程模型。Spark提供大量的庫,以Spark Core作為核心,提供Spark SQL、GraphX 、MLlib、Streaming等多種功能接口[14-18]。與MapReduce相比,Spark具有數(shù)倍于它的批處理速度和數(shù)十倍的數(shù)據(jù)分析速度[19],更適用與處理城市道路交通數(shù)據(jù)集。

在使用Spark進行城市道路擁堵預(yù)測時,首先將城市道路交通數(shù)據(jù)轉(zhuǎn)化為具有數(shù)據(jù)共享抽象的彈性分布式數(shù)據(jù)集RDD(resilient distributed dataset)[20]。每個RDD可以分成多個分區(qū),并且在集群的不同節(jié)點進行保存,從而達到的集群各個節(jié)點上并行計算的目的[21-22]。

在 Spark 上平臺上對隨機森林算法的并行化設(shè)計步驟如下。

步驟1從HDFS(hadoop distributed file system)讀取城市道路交通數(shù)據(jù)集,合理劃分為訓(xùn)練集和測試集。本文研究的集群由4個節(jié)點組成,將訓(xùn)練集復(fù)制4份分發(fā)給每個節(jié)點。

步驟2假設(shè)需要創(chuàng)建的決策樹數(shù)目為n,共有4個節(jié)點,每個節(jié)點負責(zé)創(chuàng)建n/4棵決策樹,各節(jié)點利用map()方法構(gòu)建訓(xùn)練子集,通過boosttrap sample()抽樣并行創(chuàng)建決策樹,各得到一個包含n/4個決策樹的集合。創(chuàng)建決策樹后,利用reduce()方法將所有決策樹整合為長度為n的決策樹集合,即訓(xùn)練得到的隨機森林模型。

步驟3使用訓(xùn)練得到的隨機森林模型對測試集進行預(yù)測,并將結(jié)果上傳至HDFS。

隨機森林算法并行化設(shè)計如圖2所示。

圖2 隨機森林并行化設(shè)計Fig.2 Parallel design of random forest

2 實驗設(shè)計與結(jié)果分析

2.1 數(shù)據(jù)預(yù)處理

采用合肥示范區(qū)黃科路口相關(guān)數(shù)據(jù),包含微波數(shù)據(jù)6萬條和車輛GPS(global positioning system)數(shù)據(jù)36萬條共42萬條數(shù)據(jù)作為數(shù)據(jù)集。整合兩項數(shù)據(jù)集,根據(jù)交通數(shù)據(jù)的實際情況,對城市道路交通數(shù)據(jù)進行預(yù)處理。以1 min為一段,將每分鐘內(nèi)數(shù)據(jù)合并,并計算每一個時間段內(nèi)經(jīng)過道路的車流量、平均速度、占有率及密度。整理數(shù)據(jù)后,通過閾值法和交通流機理法對原始城市道路交通數(shù)據(jù)進行異常值的判斷。

2.1.1 閾值法

通過考慮城市道路交通數(shù)據(jù)中單個參數(shù)的特征確定交通數(shù)據(jù)項的閾值。本文研究主要衡量的交通項為車流量、平均速度和車道占有率。

車流量q、平均速度v、車道占有率p的取值范圍如式(6)所示:

(6)

式(6)中:qmin、qmax、vmin、vmax、pmin、pmax分別為車流量q、平均速度v、占有率p的上下限;qmin、vmin、pmin取值為0;qmax取決于路段通行能力;vmax取決于路段限速;pmax取95%。

2.2.2 交通流機理法

其基本思想是城市道路交通數(shù)據(jù)中的各項交通參數(shù)之間不能存在互相矛盾的關(guān)系。根據(jù)交通流機理法的交通數(shù)據(jù)項異常判別規(guī)則如表1所示。

表1 交通數(shù)據(jù)異常判別規(guī)則Table 1 Abnormal discrimination rules of traffic data

篩選出問題數(shù)據(jù)后,采用移動平均法和歷史趨勢法進行數(shù)據(jù)處理工作。單點異常使用移動平均法,利用異常數(shù)據(jù)的附近數(shù)據(jù)值修復(fù)異常數(shù)據(jù),公式如式(7)所示。異常數(shù)據(jù)少于當(dāng)日數(shù)據(jù)三分之一時,利用歷史趨勢法,使用上周正常數(shù)據(jù)替換異常日數(shù)據(jù),公式如式(8)所示。當(dāng)問題數(shù)據(jù)大于當(dāng)日數(shù)據(jù)的三分之一時,為避免強行修復(fù)反而人為增加噪點的情況,舍棄當(dāng)日數(shù)據(jù)。

(7)

(8)

2.2 實驗結(jié)果與分析

2.2.1 實驗環(huán)境

采用由4個工作節(jié)點建立的計算集群,其中包含Spark的1個Master節(jié)點和3個Slave節(jié)點。Spark集群節(jié)點配置如表2所示。

表2 節(jié)點配置參數(shù)Table 2 Node configuration parameters

2.2.2 準(zhǔn)確率實驗

本實驗選取準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)和F1度量(F1-measure)作為評價指標(biāo),分別使用K近鄰(KNN)、長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)、原始隨機森林和本文提出的模型對處理后的數(shù)據(jù)進行道路擁堵情況預(yù)測,分別運算10次計算平均值。準(zhǔn)確率實驗結(jié)果如表3所示。

表3 準(zhǔn)確率實驗結(jié)果Table 3 Results of accuracy experiment

由表3可知,KNN在城市道路擁堵情況方面的預(yù)測效果最差,其準(zhǔn)確率、精確率、召回率和F1均為最低;原始RF和LSTM的預(yù)測效果次之,較KNN有所提高;YYPORF模型在4個評價指標(biāo)上對城市道路擁堵的預(yù)測均較好,準(zhǔn)確率為95.58%,精確率95.78%,召回率95.6%,F(xiàn)1為0.955 9。由此看出,YYPORF模型可以有效預(yù)測道路擁堵狀況,符合實際道路交通擁堵情況,能夠?qū)煌ü芾聿块T提供有效決策支持。

2.2.3 加速比實驗

加速比表示集群并行化通過增加節(jié)點數(shù)量,對提升運行速度減少運行時間帶來的性能提升[23],其公式如式(9)所示:

(9)

式(9)中:TS為單個節(jié)點情況下進行預(yù)測所消耗的時間;TP為在P個性能相同的節(jié)點并行計算的情況下進行預(yù)測所消耗的時間。

本實驗采用4個節(jié)點組成的集群,對原有數(shù)據(jù)集進行擴增,驗證模型在不同節(jié)點不同數(shù)據(jù)量情況下的加速比。實驗結(jié)果如圖3所示。

圖3 加速比實驗結(jié)果Fig.3 Results of speedup radio experiment

由圖3可以看出,在數(shù)據(jù)集大小為60 M時,隨著節(jié)點個數(shù)的增加,加速比有少量提升;在數(shù)據(jù)集大小為120 M時,加速比的提升趨勢逐漸明顯;在數(shù)據(jù)集大小為240 M時,加速比的提升趨勢非常明顯。由此可以看出,當(dāng)數(shù)據(jù)量不太大時,節(jié)點數(shù)目增加可以使計算速度逐步提升、運行時間逐漸減少,但提升的趨勢一開始并不明顯。這是因為,在計算量小的情況下,集群系統(tǒng)的啟動、任務(wù)調(diào)度和數(shù)據(jù)通信會增加時間消耗,降低計算速度。當(dāng)數(shù)據(jù)量增大、集群的節(jié)點數(shù)增加后,集群的加速比呈現(xiàn)線性增長狀態(tài),逐漸趨近理想值。因此,本文研究提出的使用Spark大數(shù)據(jù)平臺的隨機森林并行化方案能夠有效提高隨機森林的計算速度,減少運行時間。

2.2.4 可擴展性實驗

可擴展性用于評價在集群的節(jié)點個數(shù)增加時算法性能按照節(jié)點個數(shù)比例提高的能力。由于節(jié)點個數(shù)的增加會帶來額外的通信開銷的增長,因此在增加節(jié)點個數(shù)的同時會致使每個節(jié)點的利用率降低[24]。因此使用可擴展性衡量算法并行化對于有效可擴展節(jié)點個數(shù)的利用能力。其公式如式(10)所示:

(10)

式(10)中:P為節(jié)點個數(shù);SpP為P個節(jié)點上的加速比。

可擴展性實驗結(jié)果如圖4所示。圖4可以看出,隨著節(jié)點數(shù)目的增加,算法的運行時間逐漸減少;隨著數(shù)據(jù)量的增加,算法的運行時間也逐漸減少;且隨著數(shù)據(jù)集大小和節(jié)點個數(shù)的增加,模型的運行時間增長的倍數(shù)始終低于數(shù)據(jù)集大小和節(jié)點個數(shù)的增長倍數(shù)。因此,基于Spark的隨機森林模型具有良好的可擴展性。

圖4 可擴展性實驗結(jié)果Fig.4 Results of scalability experiment

4 結(jié)論

提出一種基于Spark大數(shù)據(jù)平臺的陰陽對優(yōu)化隨機森林模型對城市道路擁堵情況進行預(yù)測,利用陰陽對優(yōu)化對影響隨機森林精度的關(guān)鍵參數(shù)進行參數(shù)優(yōu)化。通過基于真實數(shù)據(jù)的實驗,得到以下結(jié)論。

(1)提出的模型較其他預(yù)測算法具有較高的精度,預(yù)測準(zhǔn)確率達到95.58%,提高了模型準(zhǔn)確率。

(2)提出的并行化設(shè)計方案能夠提高模型計算速度,降低運行時間,具有良好的可擴展性,能夠為交通管理部門的決策提供有力支持。

猜你喜歡
決策樹適應(yīng)度準(zhǔn)確率
改進的自適應(yīng)復(fù)制、交叉和突變遺傳算法
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
頸椎病患者使用X線平片和CT影像診斷的臨床準(zhǔn)確率比照觀察
決策樹和隨機森林方法在管理決策中的應(yīng)用
啟發(fā)式搜索算法進行樂曲編輯的基本原理分析
決策樹學(xué)習(xí)的剪枝方法
決策樹多元分類模型預(yù)測森林植被覆蓋
基于人群搜索算法的上市公司的Z—Score模型財務(wù)預(yù)警研究
乌拉特中旗| 益阳市| 门头沟区| 汤原县| 秦皇岛市| 陇川县| 遂川县| 雷波县| 贵港市| 塘沽区| 泌阳县| 易门县| 通州区| 固始县| 乡城县| 花莲市| 怀柔区| 清水河县| 瑞金市| 湘阴县| 平阴县| 莆田市| 沁源县| 和田市| 阳西县| 土默特右旗| 海淀区| 凭祥市| 屯留县| 海南省| 浮梁县| 盐池县| 开化县| 通江县| 泰州市| 普安县| 宜兰县| 观塘区| 河间市| 福清市| 安新县|