張志剛, 徐瑩, 張錦秋, 韓秀杰, 閆尉深
(1.河北省高速公路延崇籌建處, 張家口 075400; 2.河北工業(yè)大學(xué)土木與交通學(xué)院, 天津 300401)
隧道是公路交通網(wǎng)絡(luò)的重要組成部分。公路隧道的建設(shè)有效地減少了道路病害、保護(hù)自然環(huán)境,提高了公路交通的運(yùn)輸效率。由于狹長的隧道空間不利于污染物的及時擴(kuò)散,車輛排放的污染物不僅限制了隧道的建設(shè)規(guī)模,還影響隧道的運(yùn)營成本、駕駛安全性和司乘人員的健康[1-2]。
一氧化碳(CO)是車輛排放污染物的主要成分,對人體健康影響最大。輕則會造成人體反應(yīng)、記憶力等機(jī)能障礙;重則危害人體血液循環(huán)系統(tǒng)?,F(xiàn)行公路隧道的通風(fēng)控制多依據(jù)污染物監(jiān)測結(jié)果實(shí)施,數(shù)據(jù)反饋的時滯性和通風(fēng)控制的滯后性導(dǎo)致隧道內(nèi)污染物濃度無法得到及時、有效的控制,極易造成隧道內(nèi)污染物的積聚,從而影響人員健康和行車安全。因此,提前預(yù)知隧道內(nèi)CO濃度值及其變化趨勢,對隧道內(nèi)CO濃度控制及隧道通風(fēng)控制方案的制定十分必要。
隧道內(nèi)車輛排放CO濃度受諸多因素影響,如交通量、車速、風(fēng)速。已有眾多學(xué)者對這些影響因素進(jìn)行了研究[3-5]。陳雷[6]通過實(shí)驗(yàn)研究得出:無豎井縱向通風(fēng)隧道越長,隧道末端CO濃度越大。雨天情況下隧道內(nèi)CO氣體濃度較高[7]。付偉等[8]通過物理與數(shù)學(xué)模型得出交通量與隧道長度、交通量與高程、隧道入口風(fēng)速與高程對CO氣體濃度的關(guān)系?!豆匪淼劳L(fēng)設(shè)計(jì)細(xì)則》JTG/T D70/2-02—2014[9]中給出的CO排放量經(jīng)驗(yàn)計(jì)算公式考慮了多種因素的影響。但計(jì)算公式將車速、風(fēng)速等作為定值參數(shù)計(jì)算,難以作為隧道內(nèi)CO氣體濃度控制的依據(jù)。此外,部分學(xué)者對各因素作用下的隧道內(nèi)污染氣體濃度的分布特征進(jìn)行了廣泛研究,總結(jié)了污染氣體濃度沿隧道長度的分布規(guī)律[10-11]。然而,污染氣體濃度的粗略計(jì)算和定性的污染氣體濃度分布規(guī)律難以作為隧道前饋式通風(fēng)系統(tǒng)精確控制的依據(jù),不利于實(shí)現(xiàn)隧道的節(jié)能環(huán)保運(yùn)行。
隨著機(jī)器學(xué)習(xí)的發(fā)展和推廣,越來越多的學(xué)者將其應(yīng)用于空氣污染物濃度的預(yù)測研究[12-13]。機(jī)器學(xué)習(xí)在非線性數(shù)據(jù)處理與預(yù)測方面優(yōu)勢突出,Grivas 等[14]建立了基于時間和氣象數(shù)據(jù)的PM10人工神經(jīng)網(wǎng)絡(luò)預(yù)測模型,模型預(yù)測結(jié)果的決定系數(shù)(R2)介于0.50~0.67。孫寶磊[15]基于污染物濃度監(jiān)測數(shù)據(jù),建立了SO2、NO2、O3、CO、PM10、PM2.56種污染物的BP (back propagation) 神經(jīng)網(wǎng)絡(luò)預(yù)測模型。王黎明等[16]提出了基于距離相關(guān)系數(shù)和支持向量機(jī)回歸的PM2.5濃度預(yù)測模型。董紅召等[17]利用空氣污染物監(jiān)測數(shù)據(jù)和車輛抓拍識別數(shù)據(jù),構(gòu)建了基于CART (classification and regression tree) 回歸樹的氮氧化物(NOx)濃度預(yù)測模型。構(gòu)建準(zhǔn)確、高效的隧道內(nèi)污染氣體濃度預(yù)測機(jī)器學(xué)習(xí)模型,實(shí)現(xiàn)污染氣體濃度的實(shí)時預(yù)測,可為隧道通風(fēng)系統(tǒng)的精準(zhǔn)控制提供依據(jù),有利于實(shí)現(xiàn)隧道前饋式通風(fēng)系統(tǒng)的節(jié)能環(huán)保。
隨機(jī)森林是一種靈活性高的機(jī)器學(xué)習(xí)算法,能夠處理高維度數(shù)據(jù)、模型泛化能力強(qiáng)、訓(xùn)練速度快,廣泛應(yīng)用于交通運(yùn)輸[18]、水質(zhì)監(jiān)測[19]、電力系統(tǒng)預(yù)警[20]等領(lǐng)域,且性能突出。為準(zhǔn)確、快速地預(yù)測隧道內(nèi)CO氣體濃度,降低CO氣體對人員健康的危害、保證隧道營運(yùn)的安全和環(huán)保,現(xiàn)將隨機(jī)森林應(yīng)用于隧道CO濃度預(yù)測研究中,并驗(yàn)證預(yù)測模型的準(zhǔn)確性,以實(shí)現(xiàn)多因素共同作用下的隧道內(nèi)CO濃度的準(zhǔn)確預(yù)測。首先,搜集隧道內(nèi)CO濃度現(xiàn)場實(shí)測數(shù)據(jù)建立數(shù)據(jù)庫;其次,基于隨機(jī)森林算法構(gòu)建隧道內(nèi)CO濃度預(yù)測模型;最后,將構(gòu)建的預(yù)測模型應(yīng)用于3 300 m長隧道的CO氣體濃度預(yù)測,以驗(yàn)證模型的預(yù)測性能。
為充分考慮各因素對隧道內(nèi)CO濃度預(yù)測的影響,本文研究結(jié)合文獻(xiàn)[4]的現(xiàn)場實(shí)測數(shù)據(jù),將車流量、車速、風(fēng)速作為主要輸入特征。為充分考慮隧道內(nèi)污染物濃度分布的不均勻性,提高模型泛化性能,將污染物監(jiān)測點(diǎn)位置作為輸入特征之一。文獻(xiàn)[4]中實(shí)測隧道長度為2 087 m;沿隧道設(shè)置5個監(jiān)測點(diǎn),監(jiān)測點(diǎn)間的隧道長度分別為360、600、540、580 m,高度均為1.2 m;測試時間共120 min;數(shù)據(jù)集共120組數(shù)據(jù),測試日期為2019年12月20日16:30—18:30,整體分析如表 1所示。測點(diǎn)位置被定義為距隧道出口距離與隧道長度的比值。交通量以小客車為標(biāo)準(zhǔn)車型折算為當(dāng)量標(biāo)準(zhǔn)小客車,小型車折算系數(shù)為1,中型車折算系數(shù)為1.5,大型車折算系數(shù)為2.5,汽車列車折算系數(shù)為4.0[21]。
表1 樣本數(shù)據(jù)集分析Table 1 Statistics of the collecting database
皮爾遜相關(guān)系數(shù)常用于度量兩個變量間的相關(guān)性,值介于-1~1。其中,-1表示完全負(fù)相關(guān),0表示無關(guān),1表示完全正相關(guān)。為了更好地了解各輸入特征間的相關(guān)關(guān)系,避免非必要特征導(dǎo)致的過擬合,并減小計(jì)算強(qiáng)度,本文對輸入特征進(jìn)行皮爾遜相關(guān)性分析,計(jì)算結(jié)果如圖 1所示。由圖 1可以看出,各輸入特征間的皮爾遜相關(guān)系數(shù)絕對值均小于0.6,各特征間為弱相關(guān)關(guān)系,因此認(rèn)為各輸入特征相互獨(dú)立且有意義。
圖1 各特征間的皮爾遜相關(guān)系數(shù)Fig.1 Pearson correlation coefficient of each pair input variables
處理數(shù)據(jù)缺失問題的常用方法為刪減法和填補(bǔ)法。由于樣本數(shù)據(jù)集數(shù)量的限制,本文采用填補(bǔ)法處理車速缺失數(shù)據(jù),以減小數(shù)據(jù)缺失導(dǎo)致的預(yù)測誤差。車速缺失數(shù)據(jù)對應(yīng)的隧道限制車速為40~80 km/h,故使用[40,60]區(qū)間內(nèi)的隨機(jī)數(shù)填補(bǔ)缺失數(shù)據(jù)。
為避免數(shù)據(jù)透視差導(dǎo)致的模型精度虛高現(xiàn)象,在將樣本數(shù)據(jù)集輸入隨機(jī)森林模型前,首先進(jìn)行訓(xùn)練集和測試集數(shù)據(jù)的劃分,并設(shè)置數(shù)據(jù)集劃分隨機(jī)生成器種子。數(shù)據(jù)透視差是指在模型訓(xùn)練過程中,由于每次劃分的數(shù)據(jù)集不同,多次運(yùn)行后使機(jī)器學(xué)習(xí)算法學(xué)習(xí)到整個樣本數(shù)據(jù),進(jìn)而導(dǎo)致模型計(jì)算結(jié)果過于樂觀。隨機(jī)挑選數(shù)據(jù)集的70%作為訓(xùn)練集數(shù)據(jù),30%作為測試集數(shù)據(jù);隨機(jī)生成器種子為42。
由表 1可知,數(shù)據(jù)集各特征值量級存在較大差異,為統(tǒng)一樣本數(shù)據(jù)的統(tǒng)計(jì)分布,提高預(yù)測模型的計(jì)算效率,采用如下公式對樣本數(shù)據(jù)集進(jìn)行歸一化處理:
(1)
式(1)中:x*為歸一化后的樣本數(shù)據(jù);xmean為樣本數(shù)據(jù)均值;xmax為樣本數(shù)據(jù)最大值;xmin為樣本數(shù)據(jù)最小值。
圖2 隨機(jī)森林原理Fig.2 Simplified conceptual diagram of the RF method
(2)
式(2)中:x為輸入模型的自變量與因變量。
(1)決定系數(shù)(R2),也稱擬合優(yōu)度,反應(yīng)自變數(shù)x對變數(shù)y變異的可解釋的百分比,進(jìn)而判斷模型的解釋能力。決定系數(shù)越大,自變量引起的變動占總變動的百分比越高,自變量對因變量的解釋程度越高。
(2)均方根誤差(root mean square error, RMSE),也稱標(biāo)準(zhǔn)誤差,是觀測值和真實(shí)值的差的平方與觀測次數(shù)n的比值的平方根。均方根誤差能夠很好地反映測量的精密度。
決定系數(shù)和均方根誤差的計(jì)算公式為
(3)
(4)
隨機(jī)森林是基于bagging框架的決策樹模型,故隨機(jī)森林的參數(shù)調(diào)節(jié)包括框架的參數(shù)擇優(yōu)和決策樹的參數(shù)擇優(yōu)。采用十折交叉驗(yàn)證微調(diào)模型,設(shè)置30種參數(shù)組合,每種組合計(jì)算10次,組合的最優(yōu)RMSE結(jié)果如圖 3所示,最小值RMSE為0.491 0。據(jù)此確定最優(yōu)超參數(shù)n_estimators為100;bootstrap為False;max_features為4;其余參數(shù)為默認(rèn)值。
圖3 每種試驗(yàn)組合的最優(yōu)RMSE Fig.3 The best RMSE versus each parameter combination test
應(yīng)用預(yù)處理完成的訓(xùn)練集和測試集數(shù)據(jù)對模型其進(jìn)行評估。模型的學(xué)習(xí)曲線如圖 4所示。由圖 4可知,隨著訓(xùn)練集數(shù)量的增加,訓(xùn)練曲線的R2平穩(wěn)至接近1。測試曲線的R2變化較大,在初始的20次循環(huán)中,R2急劇上升至0.8;逐漸趨向于訓(xùn)練集結(jié)果,并最終穩(wěn)定于0.9左右。由此可知,CO濃度預(yù)測模型表現(xiàn)力好,無數(shù)據(jù)過擬合和欠擬合現(xiàn)象。
圖4 學(xué)習(xí)曲線Fig.4 Learning curve
訓(xùn)練集和測試集數(shù)據(jù)應(yīng)用于該預(yù)測模型的計(jì)算結(jié)果如圖 5所示,其中圖 5(a)為訓(xùn)練集預(yù)測結(jié)果,圖 5(b)為測試集預(yù)測結(jié)果。由圖 5可以看出,基于該模型的CO濃度預(yù)測值與CO濃度實(shí)測值十分接近。預(yù)測模型在訓(xùn)練集的平均絕對誤差和決定系數(shù)分別為0.187 1和0.990 7;測試集的平均絕對誤差和決定系數(shù)分別為0.497 4和0.943 7。由此可知,基于隧道內(nèi)CO濃度影響因素構(gòu)建隨機(jī)森林預(yù)測模型的整體擬合性能較高,能夠準(zhǔn)確預(yù)測隧道內(nèi)的CO濃度值。
圖5 預(yù)測模型計(jì)算結(jié)果Fig.5 Scatter plot of the predicted and actual pressures for full database
為進(jìn)一步評估基于隨機(jī)森林的隧道內(nèi)CO濃度預(yù)測模型性能,本文建立了隧道內(nèi)CO濃度預(yù)測線性模型和支持向量機(jī)模型,并比較3種模型的預(yù)測性能,如表 2所示。線性回歸模型中訓(xùn)練集和測試集的RMSE分別為0.817 4和1.044 6,R2分別為0.809 7和0.778 1;支持向量機(jī)模型中訓(xùn)練集和測試集的RMSE分別為0.282 0和0.629 4,R2分別為0.977 3和0.919 4。RMSE值低說明預(yù)測值與真實(shí)值偏差??;R2高說明預(yù)測值與真實(shí)值接近,模型擬合效果好。由此可知,隨機(jī)森林模型的測試結(jié)果優(yōu)于線性回歸模型和支持向量機(jī)模型。
表2 隨機(jī)森林和線性回歸模型性能比較Table 2 The performance comparison of random forest and linear regression
將構(gòu)建的隧道內(nèi)CO氣體濃度預(yù)測模型應(yīng)用于3 300 m長公路隧道內(nèi)CO氣體濃度預(yù)測,并將預(yù)測結(jié)果與實(shí)際CO氣體濃度值比較,進(jìn)一步驗(yàn)證預(yù)測模型的適用性。驗(yàn)證集數(shù)據(jù)來源于整理文獻(xiàn)[4]中關(guān)于3 300 m長隧道的實(shí)測數(shù)據(jù)(共110組)。數(shù)據(jù)采集監(jiān)測點(diǎn)為5個,間距為900、770、610、510 m,監(jiān)測點(diǎn)高度為1.2 m?,F(xiàn)場實(shí)測時間為2020年1月9日17:10—19:00。數(shù)據(jù)的統(tǒng)計(jì)方式與表 1相同,兩次隧道實(shí)測儀器相同。數(shù)據(jù)集分析如表 3所示。
將驗(yàn)證集數(shù)據(jù)輸入特征按照式(1)進(jìn)行歸一化處理后導(dǎo)入訓(xùn)練好的CO預(yù)測模型,并將模型輸出結(jié)果與驗(yàn)證集CO濃度真實(shí)值進(jìn)行對比,結(jié)果如圖 6所示。驗(yàn)證集的RMSE和R2分別為0.909 5和0.729 5, 劣于測試集數(shù)據(jù)計(jì)算結(jié)果。這是由兩組實(shí)測數(shù)據(jù)集的數(shù)據(jù)差異導(dǎo)致。兩組實(shí)測數(shù)據(jù)來自不同的隧道,表 1中數(shù)據(jù)源于隧道A,長2 087 m,單洞建筑限界寬度為13.25 m,限高為5 m,設(shè)計(jì)速度為80 km/h;表 3中數(shù)據(jù)源于隧道B,長3 300 m,單洞建筑限界寬度為8.5 m,限高為4 m,設(shè)計(jì)速度為50 km/h。表 1數(shù)據(jù)集中交通量和車速數(shù)據(jù)的標(biāo)準(zhǔn)差分別為52.97和4.94,而表 3驗(yàn)證集數(shù)據(jù)中交通量和車速數(shù)據(jù)的標(biāo)準(zhǔn)差分別為32.78和14.71。兩組數(shù)據(jù)中交通量和車速數(shù)據(jù)的標(biāo)準(zhǔn)差相差約37.78%和197.78%,這使得預(yù)測模型在驗(yàn)證集預(yù)測性能的表現(xiàn)稍差。此外,隧道A與隧道B所處地理位置存在差異,會導(dǎo)致環(huán)境中的CO氣體濃度略有不同,而實(shí)測數(shù)據(jù)為考慮隧道環(huán)境的CO氣體濃度,而CO氣體濃度預(yù)測模型是基于隧道A的測試數(shù)據(jù)建立,因此導(dǎo)致預(yù)測模型對隧道B內(nèi)CO氣體濃度的計(jì)算誤差。
圖6 模型驗(yàn)證結(jié)果Fig.6 Scatter plot of the predicted and actual pressures for validation database
表3 樣本數(shù)據(jù)集分析Table 3 Statistics of the collecting database
總體而言,基于2 087 m隧道現(xiàn)場實(shí)測數(shù)據(jù)建立的CO濃度預(yù)測模型能夠較為準(zhǔn)確地預(yù)測CO濃度,模型泛化能力較強(qiáng)。
為進(jìn)一步分析各輸入特征對隧道內(nèi)CO濃度預(yù)測的影響,應(yīng)用隨機(jī)森林對輸入特征的重要性進(jìn)行分析,并采用基尼指數(shù)作為特征重要性評價指標(biāo)。依據(jù)特征重要性評分結(jié)果將各特征依次排序,如圖 7所示。由圖 7可以看出,測點(diǎn)位置的重要性評分最高(0.593 34);其次是風(fēng)速(0.330 14);車速和交通量的重要性評分分別為0.045 26和0.031 26。
圖7 特征重要性Fig.7 Feature importance
特長隧道內(nèi)CO濃度監(jiān)測點(diǎn)位置間距較大,不同監(jiān)測點(diǎn)CO氣體濃度存在差異,致使隧道內(nèi)CO氣體濃度分布不均勻。因此,測點(diǎn)位置對特長隧道CO氣體濃度預(yù)測有較大影響。圖 8為各輸入特征與CO濃度的散點(diǎn)圖,圖8中紅色線段為對應(yīng)特征與CO濃度的關(guān)系曲線。由圖 8可以看出,測點(diǎn)位置與CO濃度的關(guān)系最為顯著[圖 8(a)];風(fēng)速與CO濃度的關(guān)系擬合曲線[圖 8(b)]次之。隨著測點(diǎn)位置值的增大,隧道內(nèi)CO濃度逐漸減小,即靠近隧道出口處,CO濃度值較大。此外,隧道內(nèi)CO濃度值隨風(fēng)速的增大逐漸減小。車速、交通量與CO濃度的關(guān)系難以通過數(shù)據(jù)散點(diǎn)圖總結(jié)[圖 8(c)和圖8(d)],因此,車速與交通量對隧道CO濃度的影響規(guī)律的總結(jié)應(yīng)結(jié)合其他因素綜合考慮。
圖8 輸入特征與風(fēng)速的關(guān)系Fig.8 Scatter plot of CO versus input variables
(1)以公路隧道實(shí)測數(shù)據(jù)為基礎(chǔ),建立了以交通量、車速、風(fēng)速為主要輸入特征的特長隧道內(nèi)CO氣體濃度預(yù)測模型。該模型在訓(xùn)練集的RMSE和R2分別為0.187 1和0.990 7;測試集的RMSE和R2分別為0.497 4和0.943 7;預(yù)測結(jié)果優(yōu)于線性模型和支持向量機(jī)模型。
(2)本文建立CO氣體濃度預(yù)測模型具有準(zhǔn)確的預(yù)測性能和良好的泛化能力。預(yù)測模型應(yīng)用于3 300 m長隧道內(nèi)CO氣體濃度預(yù)測,預(yù)測結(jié)果與實(shí)際CO氣體濃度值比較顯示RMSE和R2分別為0.909 5和0.729 5。
(3)特征的重要性分析確定測點(diǎn)位置對隧道內(nèi)CO濃度的影響最大,風(fēng)速次之。隨著測點(diǎn)位置值的增大,隧道內(nèi)CO濃度逐漸減小;靠近隧道出口處,CO濃度值較大。隧道內(nèi)CO氣體濃度值隨風(fēng)速的增大逐漸減小。