国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于網(wǎng)格劃分的空間關(guān)聯(lián)區(qū)域VOCs濃度預(yù)測(cè)研究

2021-05-07 07:56陸秋琴黃光球
關(guān)鍵詞:決策樹(shù)監(jiān)測(cè)點(diǎn)預(yù)估

陸秋琴, 蘭 瓊, 黃光球

(西安建筑科技大學(xué) 管理學(xué)院, 陜西 西安 710055)

隨著工業(yè)化的快速發(fā)展,區(qū)域性大氣污染日益突出,VOCs的大幅度排放引發(fā)了諸多環(huán)境問(wèn)題。作為PM2.5和臭氧等大氣污染物的重要前體物,VOCs能發(fā)生光化學(xué)反應(yīng)并生成有害的二次有機(jī)氣溶膠等物質(zhì)[1-2]。部分VOCs易燃易爆,部分VOCs有毒,可以致癌、引起病變,嚴(yán)重危害人體健康[3],所以“十三五”生態(tài)環(huán)境保護(hù)規(guī)劃將VOCs納入大氣污染防治的重要模塊[4]。因此,對(duì)VOCs濃度進(jìn)行預(yù)測(cè)研究,有助于掌握其發(fā)展和變化規(guī)律,對(duì)制定有效的污染防治對(duì)策具有重要意義。不同的研究方法拓展和推動(dòng)了預(yù)測(cè)理論的發(fā)展,為其他行業(yè)的預(yù)測(cè)研究提供了參考。同時(shí),該預(yù)測(cè)研究可為環(huán)境保護(hù)規(guī)劃提供重要的數(shù)據(jù)積累,對(duì)開(kāi)展污染控制有著積極的參考意義,也促進(jìn)了公眾參與和居民環(huán)保意識(shí)的提高。

當(dāng)前,對(duì)VOCs等大氣污染物濃度的預(yù)測(cè)研究主要是在其排放清單的基礎(chǔ)上展開(kāi)的,通過(guò)建立基準(zhǔn)年的污染物排放清單,來(lái)實(shí)現(xiàn)其他時(shí)段的預(yù)測(cè)[5]。國(guó)內(nèi)外學(xué)者還利用大氣排放因子S型曲線預(yù)測(cè)大氣污染物的未來(lái)排放趨勢(shì)[6-7];除此之外,還有基于情景分析法的污染物濃度預(yù)測(cè),通過(guò)識(shí)別關(guān)鍵不確定因素,構(gòu)建幾種可能出現(xiàn)的情景并分析內(nèi)容[8];優(yōu)化模型也是污染物濃度預(yù)測(cè)的常見(jiàn)方法[9-10]。已經(jīng)提出的大氣污染濃度預(yù)測(cè)模型主要有回歸分析、灰色模型[11]、神經(jīng)網(wǎng)絡(luò)模型[12]、混沌模型[13]、基于時(shí)間序列的模型等[14],以及他們的組合和改進(jìn)模型。最優(yōu)定權(quán)組合法大氣污染物濃度預(yù)測(cè)是基于多個(gè)空氣質(zhì)量模式,以各單項(xiàng)空氣質(zhì)量模式的組合預(yù)測(cè)誤差平方和最小為原則,構(gòu)建出針對(duì)大氣污染的預(yù)測(cè)模型[15]。模糊綜合評(píng)價(jià)方法一般都是結(jié)合預(yù)測(cè)模型來(lái)使用。通過(guò)模糊聚類分析,將影響環(huán)境質(zhì)量的各因素按主次區(qū)分,預(yù)測(cè)時(shí)考慮主要因素[16]。

以上研究還存在一些不足:①由于資金、地理?xiàng)l件等限制,對(duì)VOCs并不能做到全方位監(jiān)測(cè),所獲取的數(shù)據(jù)和信息不太完整;②研究主要集中在數(shù)量預(yù)測(cè)方面,較少通過(guò)劃分區(qū)域精細(xì)到每一個(gè)網(wǎng)格進(jìn)行研究;③預(yù)測(cè)過(guò)程中較少考慮氣象指標(biāo)等因素對(duì)預(yù)測(cè)結(jié)果的影響。為了解決上述問(wèn)題,本文提出基于網(wǎng)格劃分的空間關(guān)聯(lián)區(qū)域VOCs濃度預(yù)測(cè)方法,以實(shí)現(xiàn)區(qū)域內(nèi)VOCs精細(xì)化預(yù)測(cè)研究。

1 網(wǎng)格劃分與編號(hào)

1.1 區(qū)域坐標(biāo)集合

根據(jù)選定區(qū)域建立相應(yīng)的坐標(biāo)系,建立原則為其中的每一點(diǎn)都能用坐標(biāo)表示,可以取所選范圍比例尺為坐標(biāo)刻度,獲取不同地方的坐標(biāo),形成區(qū)域坐標(biāo)集合Rc:

Rc={(x1,y1),(x2,y2),…,(xn,yn)}

(1)

式中:(xi,yi)表示選定區(qū)域中的第i個(gè)坐標(biāo),用二維平面坐標(biāo)表示,其中i=1,2,…,n;n表示區(qū)域坐標(biāo)點(diǎn)總個(gè)數(shù)。

1.2 點(diǎn)云網(wǎng)格劃分算法與編號(hào)

點(diǎn)云網(wǎng)格劃分算法是利用點(diǎn)與點(diǎn)之間的距離關(guān)系來(lái)實(shí)現(xiàn)網(wǎng)格劃分,基于一點(diǎn)搜索臨近點(diǎn)形成線段,根據(jù)線段中點(diǎn)臨近檢索第三點(diǎn),連接三點(diǎn)形成一個(gè)三角網(wǎng)格。對(duì)其新邊進(jìn)行中點(diǎn)臨近檢索,依次形成網(wǎng)格體系,具體步驟如下。

1) 獲取區(qū)域坐標(biāo)點(diǎn)集合Rc,初始化一個(gè)種子網(wǎng)格?;邳c(diǎn)p1=(xm1,ym1)進(jìn)行臨近檢索到第二個(gè)坐標(biāo)點(diǎn)p2=(xm2,ym2),連接兩點(diǎn)形成線段L(p1,p2),再基于線段L的中點(diǎn)臨近檢索第三點(diǎn)p3=(xm3,ym3),連接點(diǎn)p3形成第一個(gè)三角網(wǎng)格,如圖1所示。將網(wǎng)格形成過(guò)程中產(chǎn)生的每條邊存入集合El,開(kāi)始時(shí)El=?。

圖1 種子網(wǎng)格

El=El∪(p1,p2)∪(p4,p3)∪…∪(pi,pj)

i,j=1,2,…,n

(2)

2) 在種子網(wǎng)格的基礎(chǔ)上進(jìn)行網(wǎng)格擴(kuò)充,利用中點(diǎn)檢索,形成原始網(wǎng)格。從邊集合El中獲取未進(jìn)行中點(diǎn)檢索的邊Lh(h=1,2,…,l;l為邊的數(shù)量),其端點(diǎn)坐標(biāo)為pi=(xmi,ymi)、pj=(xmj,ymj),計(jì)算其中點(diǎn)坐標(biāo)Ci,j;從集合Rc檢索距離點(diǎn)Ci,j最近且未形成邊的點(diǎn),中點(diǎn)邊與新點(diǎn)構(gòu)造出兩條新邊,形成一個(gè)新的三角網(wǎng)格,并將新產(chǎn)生的邊存入集合El中。重復(fù)該步驟,直到邊集合El中不再提供外邊中點(diǎn)檢索為止。

(3)

(4)

3) 原始網(wǎng)格擴(kuò)展,形成新網(wǎng)格。第二步結(jié)束形成一個(gè)原始網(wǎng)格,檢索集合Rc是否存在未形成邊的點(diǎn),如果存在,則尋找新的種子網(wǎng)格重復(fù)第一、第二步,直到集合Rc不再有未形成邊的點(diǎn)為止,如圖2所示,此種情況下所選區(qū)域中存在大量的坐標(biāo)點(diǎn)。在形成網(wǎng)格過(guò)程中,如果出現(xiàn)中斷現(xiàn)象,只需重復(fù)上述第一、第二步形成新的網(wǎng)格即可。

4) 編制網(wǎng)格順序碼,標(biāo)識(shí)網(wǎng)格信息。在初始化種子網(wǎng)格時(shí),將初始化的第一個(gè)三角網(wǎng)格編號(hào)為001,表示該區(qū)域的第一個(gè)網(wǎng)格。在網(wǎng)格擴(kuò)充時(shí),根據(jù)網(wǎng)格劃分步驟以及檢索點(diǎn)算法,對(duì)形成的新網(wǎng)格依次編號(hào),最后輸出編號(hào)后的區(qū)域網(wǎng)格以及網(wǎng)格編號(hào)信息 [(pi,pj,pk),Num](k=1,2,…,n),如圖2所示。其中(pi,pj,pk)表示形成該網(wǎng)格的三個(gè)坐標(biāo)點(diǎn),即pi=(xmi,ymi)、pj=(xmj,ymj)、pk=(xmk,ymk),Num表示網(wǎng)格編號(hào),其編號(hào)值范圍為0~999的整數(shù)。

圖2 原始網(wǎng)格及網(wǎng)格編號(hào)圖

1.3 點(diǎn)云網(wǎng)格劃分的優(yōu)點(diǎn)

1) 不規(guī)則劃分。根據(jù)所取點(diǎn)不規(guī)則形成大小不一的三角網(wǎng)格。

2) 劃分區(qū)域選點(diǎn)靈活。根據(jù)劃分需求可以隨意選取點(diǎn),選點(diǎn)過(guò)程能有效避免山川、河流等地理?xiàng)l件的限制。

3) 自動(dòng)編碼。在劃分過(guò)程中自動(dòng)編碼表示網(wǎng)格,達(dá)到網(wǎng)格唯一性和明確性的要求。

4) 點(diǎn)利用率高。在網(wǎng)格劃分中采取三點(diǎn)為一的原因是可以將研究區(qū)域中所有的點(diǎn)全部劃分完,不會(huì)遺留未劃分的點(diǎn)。

2 空間關(guān)聯(lián)區(qū)域數(shù)據(jù)預(yù)估與收集

2.1 空間關(guān)聯(lián)區(qū)域數(shù)據(jù)預(yù)估

1) 網(wǎng)格數(shù)據(jù)預(yù)估原理

在實(shí)現(xiàn)VOCs精細(xì)化監(jiān)管的過(guò)程中,將區(qū)域劃分成網(wǎng)格,在網(wǎng)格內(nèi)設(shè)置監(jiān)測(cè)點(diǎn),監(jiān)測(cè)設(shè)備在固定時(shí)段對(duì)網(wǎng)格內(nèi)VOCs污染物進(jìn)行監(jiān)測(cè),能夠準(zhǔn)確地標(biāo)識(shí)該網(wǎng)格內(nèi)VOCs污染物的監(jiān)測(cè)濃度值。但由于網(wǎng)格數(shù)眾多,并不是每一個(gè)網(wǎng)格都會(huì)設(shè)置監(jiān)測(cè)點(diǎn),為了收集和計(jì)算未設(shè)置監(jiān)測(cè)點(diǎn)的網(wǎng)格數(shù)據(jù),以及預(yù)估其污染物發(fā)展態(tài)勢(shì),采取克里金插值法,通過(guò)已知網(wǎng)格數(shù)據(jù)及其與未知網(wǎng)格之間的空間關(guān)聯(lián)性來(lái)預(yù)估未知網(wǎng)格數(shù)據(jù)。

2) 克里金插值法預(yù)估過(guò)程

克里金插值被稱為空間最優(yōu)無(wú)偏估計(jì)器,它是以變異函數(shù)理論和結(jié)構(gòu)分析為基礎(chǔ)[17],所選變異函數(shù)由數(shù)學(xué)期望、隨機(jī)場(chǎng)內(nèi)特定點(diǎn)的數(shù)學(xué)期望、方差運(yùn)算組成。克里金插值法會(huì)根據(jù)所選的變異函數(shù)模型進(jìn)行模擬,最終對(duì)待估點(diǎn)進(jìn)行預(yù)估。

設(shè)區(qū)域網(wǎng)格坐標(biāo)點(diǎn)pi處設(shè)有監(jiān)測(cè)點(diǎn),監(jiān)測(cè)值為V(pi),i=1,2,…,n,則未設(shè)置監(jiān)測(cè)點(diǎn)p0的估計(jì)值可以通過(guò)周圍n個(gè)監(jiān)測(cè)點(diǎn)的監(jiān)測(cè)值V(pi)求得,即

(5)

式中:λi為監(jiān)測(cè)點(diǎn)pi的權(quán)重,λi的取值不僅要考慮監(jiān)測(cè)點(diǎn)與預(yù)測(cè)點(diǎn)之間的距離,而且需結(jié)合二者的空間分布關(guān)系來(lái)確定,樣點(diǎn)分布如圖3所示。

圖3 樣點(diǎn)分布圖

設(shè)p0為待估計(jì)點(diǎn),已知其鄰域內(nèi)有p1,p2,…,p8共8個(gè)采樣點(diǎn),其位置如圖3所示,各點(diǎn)的權(quán)重分別是λ1,λ2,…,λ8,由于圖中p1、p2、p3、p6到p0的距離相同,并且有p2與p3、p1與p6關(guān)于p0對(duì)稱,則有λ2=λ3,但由于樣點(diǎn)p5、p7、p8與p6叢聚在一起,這種叢聚作用降低了樣點(diǎn)p6對(duì)待估計(jì)點(diǎn)p0的影響,p1是一個(gè)單獨(dú)的樣點(diǎn)不存在叢聚影響,而且點(diǎn)p6與p0之間存在點(diǎn)p4,由于點(diǎn)p4距離點(diǎn)p0更近,對(duì)p6存在屏蔽效應(yīng),所以λ1>λ6。

要得到無(wú)偏最優(yōu)估計(jì)值,必須滿足下面兩個(gè)條件:

a) 無(wú)偏估計(jì),即E=[V(p0)-V*(p0)]=0

b) 估計(jì)方差最小,即

Var[V(p0)-V*(p0)]=min

則要求權(quán)重λi滿足下列方程:

(6)

2.2 數(shù)據(jù)收集及預(yù)處理

1) 數(shù)據(jù)收集

現(xiàn)有的監(jiān)測(cè)設(shè)備不僅可以監(jiān)測(cè)到VOCs的濃度(即單位體積排放量),而且可以分析出該區(qū)域內(nèi)VOCs不同組成成分的含量,并將監(jiān)測(cè)數(shù)據(jù)上傳至服務(wù)器進(jìn)行存儲(chǔ),對(duì)于設(shè)有監(jiān)測(cè)點(diǎn)的網(wǎng)格,通過(guò)監(jiān)測(cè)設(shè)備獲取到VOCs監(jiān)測(cè)值,并按照統(tǒng)一格式處理。已知監(jiān)測(cè)點(diǎn)的監(jiān)測(cè)數(shù)據(jù),通過(guò)克里金插值法計(jì)算未設(shè)有監(jiān)測(cè)點(diǎn)網(wǎng)格的VOCs組成成分預(yù)估值。將網(wǎng)格監(jiān)測(cè)數(shù)據(jù)與網(wǎng)格預(yù)估數(shù)據(jù)合并,得到區(qū)域網(wǎng)格的VOCs污染物濃度值,如表1所示。

表1 區(qū)域網(wǎng)格VOCs污染物濃度值

表1對(duì)VOCs主要成分依次劃分了編號(hào):苯為1號(hào)、甲苯為2號(hào)、……、苯乙烯為12號(hào),并結(jié)合單元網(wǎng)格順序碼,描述不同網(wǎng)格中不同成分的監(jiān)測(cè)濃度值,如V001(1)表示001號(hào)網(wǎng)格中苯的濃度值、V028(12)表示028號(hào)網(wǎng)格中苯乙烯的濃度值,依次收集得到區(qū)域網(wǎng)格VOCs污染物的濃度值。

2) 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理是對(duì)收集到的網(wǎng)格數(shù)據(jù)進(jìn)行整理的過(guò)程,通過(guò)研究區(qū)域每個(gè)網(wǎng)格的VOCs污染物濃度數(shù)據(jù),形成區(qū)域VOCs污染物數(shù)據(jù)集合:

(7)

式中:D表示整個(gè)研究區(qū)域網(wǎng)格VOCs組成成分濃度集合;vij表示第i網(wǎng)格內(nèi)第j類污染物的濃度值。

3 基于隨機(jī)森林算法的VOCs預(yù)測(cè)模型

3.1 數(shù)據(jù)集及模型結(jié)構(gòu)

1) VOCs預(yù)測(cè)模型特征

VOCs預(yù)測(cè)模型特征可分為兩大類型,VOCs污染物和氣象指標(biāo),具體特征如表2所示。

表2中VOCs污染物特征是指VOCs污染物的烷類、烴類、酯類、醇類、苯系物等具體監(jiān)測(cè)成分;氣象指標(biāo)是指監(jiān)測(cè)當(dāng)天的氣象特征。表2中所有特征形成特征向量集合F。

表2 VOCs特征表

2) VOCs預(yù)測(cè)模型原始訓(xùn)練樣本數(shù)據(jù)集合

基于研究區(qū)域VOCs污染物數(shù)據(jù)特征以及時(shí)間維度,形成區(qū)域VOCs數(shù)據(jù)集VD:

(8)

式中:αt1,αt2,…,αti和βt1,βt2,…,βti是時(shí)序特征向量,分別表示某一時(shí)間段內(nèi)區(qū)域VOCs污染物濃度集合和區(qū)域VOCs總濃度序列數(shù)據(jù);γ1,γ2,…,γm是非時(shí)序特征向量,包含氣象指標(biāo)參數(shù)值、VOCs污染物特征。

3) VOCs預(yù)測(cè)模型構(gòu)建

在上述數(shù)據(jù)處理的基礎(chǔ)上,運(yùn)用隨機(jī)森林算法對(duì)研究區(qū)域VOCs濃度進(jìn)行預(yù)測(cè)建模,建模過(guò)程如圖4所示。

圖4 基于隨機(jī)森林的區(qū)域VOCs預(yù)測(cè)建模過(guò)程

首先,利用Bootstrap方法從原始訓(xùn)練樣本集VD中隨機(jī)抽取多個(gè)訓(xùn)練樣本子集,對(duì)每個(gè)子集分別進(jìn)行決策樹(shù)建模,然后利用測(cè)試集對(duì)各決策樹(shù)進(jìn)行測(cè)試,綜合多棵決策樹(shù)測(cè)試結(jié)果,通過(guò)投票得出最終的預(yù)測(cè)模型。

3.2 訓(xùn)練樣本子集的隨機(jī)選取

原始訓(xùn)練樣本子集由兩部分構(gòu)成:一類為VD中區(qū)域VOCs總量數(shù)據(jù)集合βti,將其作為預(yù)測(cè)模型的輸出;另一類為對(duì)應(yīng)的區(qū)域網(wǎng)格VOCs污染物平均濃度集合αti和非時(shí)序特征數(shù)據(jù)集合γm,將其作為預(yù)測(cè)模型輸入。

利用Bootstrap方法從VD隨機(jī)選取w個(gè)訓(xùn)練樣本子集V1,V2,…,Vw,用于構(gòu)建w棵分類回歸樹(shù)(CART)。由于訓(xùn)練樣本集的選取采用有放回的采樣方法,在采樣過(guò)程中會(huì)有36.8%的原始樣本不會(huì)出現(xiàn)在采集的樣本集合中,這些數(shù)據(jù)稱為袋數(shù)(out-of-bag,OOB),對(duì)CART決策樹(shù)的誤差進(jìn)行估計(jì)。對(duì)誤差估計(jì)取平均,便可得到隨機(jī)森林的泛化誤差估計(jì)值,由此可以對(duì)VOCs濃度預(yù)測(cè)模型的精度進(jìn)行量化度量[18]。

3.3 CART決策樹(shù)的構(gòu)建

對(duì)每個(gè)訓(xùn)練樣本子集,采用CART算法生成一棵決策樹(shù),共生成w棵決策樹(shù)。為保證決策樹(shù)構(gòu)建的隨機(jī)性,采用隨機(jī)子空間思想,從VOCs特征集合F中隨機(jī)選取m個(gè)特征作為隨機(jī)特征變量,參與決策樹(shù)節(jié)點(diǎn)分裂過(guò)程,其中m≤log2(M+1),而M表示特征集合F的集合長(zhǎng)度。此外,整個(gè)隨機(jī)森林中決策樹(shù)的棵數(shù)w需根據(jù)預(yù)測(cè)結(jié)果來(lái)調(diào)整。

3.4 VOCs濃度預(yù)測(cè)結(jié)果投票及性能評(píng)價(jià)

1) VOCs濃度預(yù)測(cè)結(jié)果

當(dāng)w棵樹(shù)構(gòu)建完成后,利用測(cè)試集對(duì)數(shù)據(jù)進(jìn)行仿真。將測(cè)試集數(shù)據(jù)Vk作為輸入,得到各決策樹(shù)模型預(yù)測(cè)的結(jié)果序列{fk1(V1),fk2(V2),…,fkw(Vw)},基于隨機(jī)森林算法的預(yù)測(cè)模型最終預(yù)測(cè)輸出的VOCs濃度采用投票方式產(chǎn)生:

k=1,2,…,n

(9)

式中:Fk為組合預(yù)測(cè)模型;fki為單棵決策樹(shù)預(yù)測(cè)模型;I為示性函數(shù);Yk為各決策樹(shù)預(yù)測(cè)的結(jié)果序列。將預(yù)測(cè)模型進(jìn)行線性組合,即可得到區(qū)域VOCs濃度預(yù)測(cè)模型。

2) 性能評(píng)價(jià)指標(biāo)

采用通用的模型誤差、擬合程度、效率作為度量指標(biāo),進(jìn)行多模型量化評(píng)估,如平均相對(duì)誤差(MRE)和決定系數(shù)(R2)。其中R2表示模型輸入變量對(duì)輸出變量的解釋程度,也稱為擬合優(yōu)度,取值在0到1之間。MRE越小,R2越接近于1,說(shuō)明模型準(zhǔn)確度越高。

(10)

(11)

4 案例分析

4.1 數(shù)據(jù)源

以西安市某區(qū)域涉及VOCs排放的企業(yè)為研究對(duì)象,企業(yè)清單來(lái)源于北極星網(wǎng)站,時(shí)間跨度為2018年6月至2018年12月。VOCs具體濃度數(shù)據(jù)通過(guò)企業(yè)年報(bào)、地方統(tǒng)計(jì)年鑒以及天氣后報(bào)網(wǎng)站獲得。將研究區(qū)域劃分成不同大小的網(wǎng)格,收集設(shè)有監(jiān)測(cè)設(shè)備網(wǎng)格的污染物數(shù)據(jù),通過(guò)克里金插值估計(jì)法計(jì)算出未設(shè)監(jiān)測(cè)設(shè)備網(wǎng)格的污染物數(shù)據(jù),形成VOCs數(shù)據(jù)集VD。

4.2 研究區(qū)域網(wǎng)格劃分及數(shù)據(jù)收集

1) 網(wǎng)格劃分

通過(guò)點(diǎn)云網(wǎng)格算法對(duì)西安市某區(qū)進(jìn)行網(wǎng)格劃分并且對(duì)網(wǎng)格進(jìn)行編號(hào)。首先獲取該區(qū)的坐標(biāo)點(diǎn)集合,初始化種子網(wǎng)格,然后在種子網(wǎng)格的基礎(chǔ)上繼續(xù)擴(kuò)充,形成新的網(wǎng)格,以此類推,將整個(gè)區(qū)域的網(wǎng)格劃分完畢,并編制網(wǎng)格順序碼,標(biāo)識(shí)網(wǎng)格信息,結(jié)果如圖5所示。

圖5 西安市某區(qū)網(wǎng)格劃分及編號(hào)圖

2) 數(shù)據(jù)集

研究區(qū)域中有部分網(wǎng)格設(shè)有監(jiān)測(cè)點(diǎn),由監(jiān)測(cè)點(diǎn)獲取到網(wǎng)格VOCs監(jiān)測(cè)數(shù)據(jù),包括VOCs污染物組分中的甲苯、乙烯、苯乙烯等12種物質(zhì),具體監(jiān)測(cè)數(shù)值如表3所示。

表3 監(jiān)測(cè)點(diǎn)VOCs污染物濃度值

4.3 空間關(guān)聯(lián)區(qū)域數(shù)據(jù)預(yù)估

根據(jù)網(wǎng)格坐標(biāo)點(diǎn)及VOCs污染物濃度值,構(gòu)建一個(gè)40×40的網(wǎng)格,標(biāo)注范圍為1~40,即使網(wǎng)格間距為1。創(chuàng)建矩陣S和Y分別存儲(chǔ)坐標(biāo)值和觀測(cè)值(即VOCs污染物濃度值)用于預(yù)測(cè),根據(jù)其預(yù)估點(diǎn)和已知數(shù)值網(wǎng)格坐標(biāo)點(diǎn)的空間位置,形成預(yù)測(cè)值表面,如圖6所示。

注:黑色點(diǎn)表示原始散點(diǎn)數(shù)據(jù)

根據(jù)圖6中預(yù)測(cè)值表面,結(jié)合每個(gè)點(diǎn)的擬合誤差值,求解出待估點(diǎn)的預(yù)估值,擬合誤差值如圖7所示。

圖7 擬合誤差值

在λi滿足式(6)的條件下,將其相關(guān)數(shù)值代入式(5)計(jì)算出未設(shè)有監(jiān)測(cè)點(diǎn)網(wǎng)格的VOCs污染物預(yù)估值,具體數(shù)值如表4所示。

表4 預(yù)估點(diǎn)VOCs污染物濃度值

4.4 隨機(jī)森林模型預(yù)測(cè)

1) 模型構(gòu)建及變量相關(guān)性分析

通過(guò)上述數(shù)據(jù)收集,獲得1 237組VOCs濃度數(shù)據(jù),按式(8)處理得到數(shù)據(jù)集VD形成原始訓(xùn)練樣本集,將其劃分為訓(xùn)練集和驗(yàn)證集,構(gòu)建隨機(jī)森林回歸模型預(yù)測(cè)VOCs污染物濃度。VOCs特征集合F作為變量參與決策樹(shù)的分裂,模型預(yù)測(cè)中每個(gè)特征所起的作用不同,其相關(guān)系數(shù)如表5所示。

表5 VOCs部分特征相關(guān)系數(shù)表

根據(jù)相關(guān)系數(shù)表,VOCs與異丁烷以及環(huán)戊烷的線性相關(guān)性最大,相關(guān)系數(shù)達(dá)到了0.8以上,但是異戊烷與丙烯、甲苯之間的相關(guān)系數(shù)也達(dá)到了0.8以上,即各因素之間存在多重共線性,不滿足相互獨(dú)立條件,不能直接進(jìn)行線性回歸,所以采用隨機(jī)森林預(yù)測(cè)。

2) 模型訓(xùn)練、驗(yàn)證和評(píng)估

將原始數(shù)據(jù)集合分為訓(xùn)練集和驗(yàn)證集,由式(10)、(11)分別進(jìn)行模型的訓(xùn)練和驗(yàn)證,并對(duì)模型訓(xùn)練和驗(yàn)證結(jié)果進(jìn)行評(píng)估,如表6所示。

表6 模型評(píng)估參數(shù)表

表6中訓(xùn)練集和驗(yàn)證集的相關(guān)評(píng)估參數(shù)值相差很小,其決定系數(shù)R2以及解釋度均達(dá)到了98%以上,表明模型在自變量不發(fā)生變化的情況下,因變量的變異概率極小。模型訓(xùn)練過(guò)程中,各特征參數(shù)的重要性如圖8所示。

圖8 VOCs特征影響系數(shù)表

圖8表明, VOCs污染物的預(yù)測(cè)中,烷烴類污染物重要性比較強(qiáng),相對(duì)而言溫度及壓強(qiáng)作用比較小。

3) VOCs污染物濃度預(yù)測(cè)

從設(shè)有監(jiān)測(cè)點(diǎn)網(wǎng)格中選取19組數(shù)據(jù)作為預(yù)測(cè)集輸入模型,得到各決策樹(shù)的預(yù)測(cè)結(jié)果序列,再根據(jù)式(9)投票篩選出最優(yōu)預(yù)測(cè)結(jié)果,預(yù)測(cè)結(jié)果如表7所示。

表7 VOCs污染物濃度預(yù)測(cè)結(jié)果

4) 模型比較

本文是基于網(wǎng)格空間特性以及隨機(jī)森林回歸模型實(shí)現(xiàn)VOCs污染物濃度預(yù)測(cè),現(xiàn)將預(yù)測(cè)結(jié)果與常用的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果進(jìn)行比較,如表8所示。

表8給出了不同網(wǎng)格在兩種預(yù)測(cè)模型下的VOCs污染物預(yù)測(cè)值,未設(shè)置監(jiān)測(cè)點(diǎn)的網(wǎng)格VOCs污染物實(shí)際值用克里金插值預(yù)測(cè)結(jié)果代替;分別采用相對(duì)誤差和平均相對(duì)誤差對(duì)兩種模型進(jìn)行分析。由表8可知,隨機(jī)森林模型和BP神經(jīng)網(wǎng)絡(luò)模型的VOCs總量預(yù)測(cè)值的平均誤差分別是3.15%和13.36%,由此可見(jiàn),隨機(jī)森林回歸模型誤差更小。

表8 不同預(yù)測(cè)方法的結(jié)果對(duì)比

5 結(jié) 論

本次預(yù)測(cè)是根據(jù)區(qū)域空間關(guān)聯(lián)性以及VOCs污染物特征,對(duì)其濃度進(jìn)行的精細(xì)化預(yù)測(cè),意在解決監(jiān)測(cè)設(shè)備不能普及部署以及區(qū)域之間污染物的流動(dòng)影響問(wèn)題。

1) 各區(qū)域之間的污染物存在相互影響??死锝鸩逯捣ㄍㄟ^(guò)網(wǎng)格的空間地理位置來(lái)預(yù)估未設(shè)置監(jiān)測(cè)點(diǎn)的網(wǎng)格數(shù)據(jù);隨機(jī)森林模型基于污染物特征之間的相關(guān)關(guān)系預(yù)測(cè)污染物的濃度,隨機(jī)森林模型預(yù)測(cè)的結(jié)果更加精準(zhǔn)。

2) 和BP神經(jīng)網(wǎng)絡(luò)模型相比,隨機(jī)森林模型誤差更小,其VOCs總濃度預(yù)測(cè)值的平均誤差為3.15%。模型構(gòu)建過(guò)程考慮了氣象指標(biāo)對(duì)預(yù)測(cè)結(jié)果的影響,更能體現(xiàn)出VOCs特征之間的關(guān)聯(lián)性及相互影響作用。

3) 運(yùn)用基于隨機(jī)森林算法的預(yù)測(cè)模型預(yù)測(cè)區(qū)域VOCs總濃度,同時(shí)也可以預(yù)測(cè)其組成成分的濃度(如苯、甲苯、苯乙烯等),將其與國(guó)家VOCs排放控制標(biāo)準(zhǔn)限值進(jìn)行對(duì)比,當(dāng)超出限值時(shí),結(jié)合區(qū)域網(wǎng)格編號(hào)信息[(pi,pj,pk),Num]獲得其坐標(biāo)信息(pi,pj,pk),而坐標(biāo)定位位置可為管理者超前管控提供依據(jù)。

猜你喜歡
決策樹(shù)監(jiān)測(cè)點(diǎn)預(yù)估
美國(guó)銀行下調(diào)今明兩年基本金屬價(jià)格預(yù)估
基于FCM聚類和漏失模擬的給水管網(wǎng)壓力監(jiān)測(cè)點(diǎn)布設(shè)
天津南港LNG接收站沉降監(jiān)測(cè)點(diǎn)位布設(shè)
基于社區(qū)網(wǎng)絡(luò)的大氣污染源定位算法
簡(jiǎn)述一種基于C4.5的隨機(jī)決策樹(shù)集成分類算法設(shè)計(jì)
決策樹(shù)學(xué)習(xí)的剪枝方法
濟(jì)南市細(xì)顆粒物(PM2.5)的時(shí)空分布特征分析研究
決策樹(shù)在施工項(xiàng)目管理中的應(yīng)用
大连市| 彭泽县| 凯里市| 泾阳县| 都昌县| 满洲里市| 文安县| 玉林市| 黄冈市| 时尚| 美姑县| 图片| 孙吴县| 南阳市| 布拖县| 皮山县| 阿城市| 金堂县| 盐亭县| 土默特右旗| 始兴县| 汶上县| 昆山市| 南投县| 来宾市| 调兵山市| 海淀区| 瓮安县| 合肥市| 大兴区| 邹平县| 同仁县| 息烽县| 和林格尔县| 昆明市| 漠河县| 萍乡市| 华容县| 商丘市| 金华市| 南雄市|