狄瑞彤 王希凱 孟憲棟 趙京峰 侯紅運(yùn)
(山東省濟(jì)寧市氣象局,山東 濟(jì)寧 272000)
能見度的高低與人們的日常生活緊密相關(guān),當(dāng)能見度較低時(shí),易引發(fā)交通事故,造成危害和經(jīng)濟(jì)損失。氣溶膠粒子、大氣透明度以及氣象要素等因素會(huì)對(duì)能見度產(chǎn)生影響,當(dāng)出現(xiàn)霧、霾等天氣過(guò)程時(shí),大氣的透明度降低,能見度變差。因此,能見度的相關(guān)研究受到廣泛的關(guān)注,對(duì)能見度的預(yù)測(cè)也顯得尤為重要。
在能見度影響因素方面,DOYLE M等人根據(jù)獲取的8個(gè)英國(guó)氣象局觀測(cè)站點(diǎn)的資料,使用4種不同的統(tǒng)計(jì)方法構(gòu)建了1950—1997年能見度的變化趨勢(shì)。LEE D O研究發(fā)現(xiàn),英國(guó)能見度主要受燃料燃燒和氣象條件的影響,與日照時(shí)數(shù)、風(fēng)向以及風(fēng)速無(wú)明顯關(guān)系,能見度提高的原因是二氧化硫排放量降低。王楠等人發(fā)現(xiàn)風(fēng)速是能見度的影響因子,且與其呈正相關(guān)。姜江等人研究了北京地區(qū)大氣能見度的主要影響因子,并分析了2007—2015年北京地區(qū)能見度的時(shí)空特征分布。
在能見度預(yù)測(cè)方面,Li Xiang等人使用SAE方法從獲得的數(shù)據(jù)中進(jìn)行特征提取,然后利用多元線性回歸模型進(jìn)行能見度預(yù)測(cè)。DEBASHREE等人使用NO、風(fēng)速等氣象因子構(gòu)建了印度加爾各答機(jī)場(chǎng)基于神經(jīng)網(wǎng)絡(luò)算法的能見度預(yù)測(cè)模型,預(yù)測(cè)結(jié)果表明,所使用的氣象因子對(duì)能見度的總體解釋度較高。施憫憫等人構(gòu)建了多元線性擬合模型和非線性擬合模型對(duì)合肥市能見度進(jìn)行預(yù)測(cè),結(jié)果表明非線性擬合模型對(duì)能見度的預(yù)測(cè)效果比線性擬合模型更好。丁卉等人通過(guò)構(gòu)建多個(gè)多函數(shù)統(tǒng)計(jì)模型對(duì)廣州市大氣能見度進(jìn)行預(yù)測(cè),獲得了較好的預(yù)測(cè)效果,實(shí)際測(cè)量值和模擬預(yù)測(cè)值間的相關(guān)系數(shù)高達(dá)0.9。
因此,該文利用逐步回歸方法對(duì)與能見度有影響的多源數(shù)據(jù)進(jìn)行特征選擇,構(gòu)建有序邏輯回歸能見度預(yù)測(cè)模型,并通過(guò)試驗(yàn)對(duì)比驗(yàn)證了多源特征和構(gòu)建模型的有效性。
數(shù)據(jù)來(lái)源包括氣象數(shù)據(jù)和空氣質(zhì)量數(shù)據(jù)2個(gè)部分。該文氣象數(shù)據(jù)來(lái)源于2016—2021年濟(jì)寧國(guó)家氣象觀測(cè)站(54915,116.6014E,35.4411N)逐小時(shí)地面觀測(cè)資料(包括氣壓、水汽壓、溫度、相對(duì)濕度、降水量、風(fēng)向、風(fēng)速以及能見度),且這些數(shù)據(jù)均經(jīng)過(guò)“臺(tái)站級(jí)—省級(jí)—國(guó)家級(jí)”三級(jí)嚴(yán)格的質(zhì)量控制。其中,能見度數(shù)據(jù)是利用DNQ1型前向散射式能見度儀進(jìn)行觀測(cè)所得的數(shù)據(jù),觀測(cè)范圍為1 m~35 000 m;空氣質(zhì)量數(shù)據(jù)來(lái)源于同期的濟(jì)寧市環(huán)境監(jiān)測(cè)站所屬的3個(gè)國(guó)控環(huán)境空氣質(zhì)量監(jiān)測(cè)站點(diǎn)(火炬城站、污水處理廠以及圣地度假村站)的逐時(shí)觀測(cè)資料(包括SO濃度、NO濃度、CO濃度、O濃度、PM濃度以及PM濃度),采取這3個(gè)站點(diǎn)各顆粒物濃度的平均值代表濟(jì)寧市的空氣質(zhì)量數(shù)據(jù)。
能見度具有小時(shí)周期性,能見度原始序列與24 h~48 h的滯后項(xiàng)之間的Pearson相關(guān)系數(shù)見表1,其取值范圍為[-1,1]。當(dāng)其為正值時(shí),兩者為正相關(guān);當(dāng)其為負(fù)值時(shí),兩者為負(fù)相關(guān);當(dāng)取值為(0.95,1]時(shí),表示兩者具有顯著相關(guān)性;當(dāng)絕對(duì)值取值為[0,0.3)時(shí),表示兩者的相關(guān)性極弱或者不相關(guān);當(dāng)絕對(duì)值取值為[0.3,0.5)時(shí),表示兩者呈低度相關(guān);當(dāng)絕對(duì)值取值為[0.5,0.8)時(shí),表示兩者呈中度相關(guān);當(dāng)絕對(duì)值取值為[0.8,0.95)時(shí),表示兩者呈高度相關(guān);當(dāng)絕對(duì)值取值為[0.95,1]時(shí),表示兩者呈顯著相關(guān)。
表1 Pearson相關(guān)性分析
該文根據(jù)相關(guān)性系數(shù)等級(jí)劃分,舍棄兩者相關(guān)性極弱或者不相關(guān)的特征,將與原始序列之間的相關(guān)性系數(shù)大于或等于0.3的小時(shí)能見度滯后項(xiàng)作為特征選擇的備選特征。所選擇的小時(shí)能見度滯后項(xiàng)分別為24 h、25 h、26 h、27 h以及28 h能見度滯后項(xiàng),與原始能見度序列之間的相關(guān)性系數(shù)分別是0.39、0.38、0.36、0.34以及0.31,其余小時(shí)能見度滯后項(xiàng)均被舍棄。
已有的研究表明,氣象條件、環(huán)境條件對(duì)能見度有較大的影響,且通過(guò)前文能見度滯后項(xiàng)的相關(guān)性分析也可以看出其中一部分小時(shí)滯后項(xiàng)與能見度原始序列具有較密切的關(guān)系,為了從這些與能見度有關(guān)的信息中提取最有效的信息,該文利用逐步回歸法進(jìn)行特征選擇,分別對(duì)氣象因子、環(huán)境因子以及24 h滯后項(xiàng)中與能見度相關(guān)性大于0.3的數(shù)據(jù)進(jìn)行特征選擇,構(gòu)建多源特征融合的數(shù)據(jù)集。該方法可以剔除不顯著的特征,且使剩余特征間的共線性不明顯,使其對(duì)能見度具有較高的解釋貢獻(xiàn)。
逐步回歸法的基本思想如下:逐個(gè)引入影響能見度的特征,每次均引入對(duì)能見度影響最顯著的特征,并對(duì)之前已引入的特征進(jìn)行檢驗(yàn),看其是否受后引入特征的影響(變得不再顯著),如果不顯著,就將其刪除;如果顯著,則保留。最終,模型中存在的特征是對(duì)能見度影響最顯著的特征,其進(jìn)行特征選擇的基本步驟如圖1所示。
圖1 逐步回歸基本步驟
特征剔除的判定條件如下:為了避免新引入的特征與已選擇的特征之間存在共線性,使已選擇的特征顯著性不再明顯,當(dāng)>2時(shí)開始進(jìn)行篩選剔除,其方法為將已選擇的所有特征和新引入的特征相結(jié)合,與能見度進(jìn)行線性回歸,從特征集中剔除統(tǒng)計(jì)值小于給定的顯著性水平的特征。
篩選結(jié)束的判定條件如下:為了避免陷入死循環(huán),令<,依次進(jìn)行迭代計(jì)算,直至沒(méi)有被引入和剔除的特征。
該文結(jié)合《水平能見度等級(jí)》(GB/T 33673—2017)將能見度劃分為4個(gè)等級(jí),且這4個(gè)能見度等級(jí)所表示的程度是逐級(jí)遞增的。為便于表達(dá),對(duì)4個(gè)能見度等級(jí)進(jìn)行量化(表2),且給出2016—2021年各等級(jí)能見度發(fā)生天數(shù)所占的比例。其中,把能見度等級(jí)定義為因變量,把影響能見度等級(jí)變化的特征定義為因變量,=(,,…,x)。當(dāng)<0.5(為能見度距離,km)時(shí),能見度等級(jí)為0,能見度被定義為“差”;當(dāng)0.5≤≤2.0時(shí),能見度等級(jí)為1,能見度被定義為“較差”;當(dāng)2.0≤<10.0時(shí),能見度等級(jí)為2,能見度被定義為“較好”,當(dāng)10.0≤時(shí),能見度等級(jí)為3,被定義為能見度“好”。
表2 能見度等級(jí)量化
從各等級(jí)能見度發(fā)生天數(shù)占比可以看出,能見度“差”等級(jí)的占比為0.6%,“較差”等級(jí)的占比為4.2%,“較好”等級(jí)的占比為51.3%,“好”等級(jí)的占比為43.9%。其中,濟(jì)寧市能見度“差”和“較差”的占比極小,能見度“較好”和“好”等級(jí)的占比很大,集中分布于這2個(gè)等級(jí),說(shuō)明濟(jì)寧市出現(xiàn)能見度較低的天數(shù)很少,能見度整體狀況較好。
由此可以看出,這4個(gè)能見度等級(jí)所表示的程度是逐級(jí)遞增的,因此該文選擇有序多分類邏輯回歸模型對(duì)能見度等級(jí)進(jìn)行預(yù)測(cè),在該過(guò)程中利用累積概率函數(shù)得到每個(gè)樣本隸屬于每個(gè)等級(jí)的概率。
傳統(tǒng)的Logistic回歸模型可以寫成關(guān)于因變量的函數(shù)表達(dá)式,如公式(1)所示。
式中:為被預(yù)測(cè)能見度等級(jí)為的值,=(0,1,2,3);為截距項(xiàng)參數(shù),=(,,,);為偏回歸系數(shù),=(,,,α),均為待估計(jì)參數(shù);為特征向量數(shù)量;p為當(dāng)前樣本被預(yù)測(cè)為類別的概率。
該文通過(guò)累計(jì)概率函數(shù)對(duì)p進(jìn)行計(jì)算,如公式(2)所示。
式中:p'為當(dāng)取前個(gè)等級(jí)的累計(jì)概率;為累計(jì)概率;為能見度等級(jí)。
綜上所述,該文的4個(gè)能見度等級(jí)的預(yù)測(cè)概率p如公式(3)所示。
該文分別利用逐步回歸方法對(duì)氣象特征、環(huán)境特征以及滯后項(xiàng)特征進(jìn)行特征選擇,在該過(guò)程中令引入的顯著性水平=0.05,令剔除的顯著性水平=0.1。經(jīng)過(guò)特征選擇后,最終共有16個(gè)特征被引入,2個(gè)特征被剔除,分別是風(fēng)速和降水量。其中,氣象特征共有5個(gè)特征被引入,2個(gè)特征被剔除,被引入特征的順序依次為相對(duì)濕度、水汽壓、溫度、風(fēng)向以及氣壓;環(huán)境特征全部被引入,且被引入的順序依次為CO、SO、PM、PM、O以及NO濃度;滯后項(xiàng)特全部被引入,且被引入的順序依次為24 h滯后項(xiàng)、26 h滯后項(xiàng)、25 h滯后項(xiàng)、27 h滯后項(xiàng)以及28 h滯后項(xiàng)。最終由上述數(shù)據(jù)構(gòu)成了具有多源特征融合的數(shù)據(jù)集。
為了判斷特征提取方法的有效性,現(xiàn)對(duì)其進(jìn)行檢驗(yàn)?;貧w模型檢驗(yàn)方法主要分為3種,即似然比檢驗(yàn)、計(jì)分檢驗(yàn)以及Wald檢驗(yàn)。其中,似然比檢驗(yàn)既適用于多特征的假設(shè)檢驗(yàn),又適用于單特征的假設(shè)檢驗(yàn);計(jì)分檢驗(yàn)在小樣本上的結(jié)果比似然比檢驗(yàn)更接近于x分布,在大樣本空間上則相反;與似然比檢驗(yàn)相比,Wald檢驗(yàn)適用于單特征檢驗(yàn)。因此,該文選取似然比檢驗(yàn)方法。
似然比檢驗(yàn)統(tǒng)計(jì)量的計(jì)算如公式(5)所示,該公式的含義為通過(guò)增加或者去掉某個(gè)特征觀察似然比的變化來(lái)分析該特征對(duì)因變量影響的顯著性。所選取的氣象特征、環(huán)境特征和滯后項(xiàng)特征的、值以及其他擬合信息見表3。
表3 模型擬合信息
式中:為不包含檢驗(yàn)特征時(shí)該模型對(duì)應(yīng)的對(duì)數(shù)似然值;為包含檢驗(yàn)特征時(shí)該模型對(duì)應(yīng)的對(duì)數(shù)似然值。。
通過(guò)分析表3可知,在分別引入氣象特征、環(huán)境特征以及滯后項(xiàng)特征后,似然比均發(fā)生明顯變化,值均變小,且顯著性的值均小于0.05,說(shuō)明在每類特征中至少存在1個(gè)特征的偏回歸系數(shù)取值不為0,從而驗(yàn)證了該特征提取方法的有效性。
為了驗(yàn)證能見度預(yù)測(cè)模型的有效性,通過(guò)對(duì)比試驗(yàn)的方法對(duì)其進(jìn)行驗(yàn)證,利用有序多分類邏輯回歸模型對(duì)不同的類別特征分別進(jìn)行試驗(yàn),通過(guò)精確率、召回率和調(diào)和平均數(shù)值3個(gè)指標(biāo)值對(duì)能見度預(yù)測(cè)模型的優(yōu)劣進(jìn)行驗(yàn)證,在該過(guò)程采用五折交叉驗(yàn)證。召回率、精確率和值的計(jì)算公式分別如公式(6)~公式(8)所示。
式中:為被正確劃分且本身為正類的樣本數(shù)量;為被錯(cuò)誤劃分且本身為負(fù)類的樣本數(shù)量;為被錯(cuò)誤劃分為正類的負(fù)類樣本數(shù)量。
為了證明多源特征融合的有效性,圖2展示了不同類別特征能見度預(yù)測(cè)的召回率、精確率和值的對(duì)比,“氣象”代表僅包括氣象特征,“氣象+環(huán)境”代表既包括氣象特征,又包括環(huán)境特征,“氣象+環(huán)境+滯后項(xiàng)”代表3種特征均在內(nèi)。由圖2可知,3種特征融合的能見度預(yù)測(cè)的精確率、召回率和值均高于另外2種特征組合,“氣象+環(huán)境”特征組合表現(xiàn)次之,僅包括“氣象”特征的組合表現(xiàn)最差。在精確率方面,3種特征融合的能見度預(yù)測(cè)比包括“氣象+環(huán)境”特征組合和僅包括“氣象”特征組合分別高出0.09和0.15。在召回率方面,3種特征融合的能見度預(yù)測(cè)比包括“氣象+環(huán)境”特征和僅包括“氣象”特征的組合分別高出0.21和0.30;在值方面,3種特征融合的能見度預(yù)測(cè)比包括“氣象+環(huán)境”特征和僅包括“氣象”特征的組合分別高出0.16和0.24。其表現(xiàn)最佳的原因是所含的信息更多,對(duì)能見度特征的度量更精確,對(duì)其的分析更全面,因此利用多源特征融合可以更好地提高能見度預(yù)測(cè)精度。
圖2 不同特征能見度預(yù)測(cè)效果
為了證明有序邏輯回歸方法的有效性,圖3展示了在數(shù)據(jù)集上進(jìn)行不同算法預(yù)測(cè)能見度的召回率、精確率和值的對(duì)比,該文選取了多分類邏輯回歸方法和線性回歸方法進(jìn)行對(duì)比。由圖3可知,在有序多分類邏輯回歸上的表現(xiàn)是最好的,略高于多分類邏輯回歸,在線性回歸上的表現(xiàn)最差。在精確率方面,有序多分類邏輯回歸比多分類邏輯回歸和線性回歸分別高出0.02和0.14。在召回率方面,有序多分類邏輯回歸比多分類邏輯回歸和線性回歸分別高出0.02和0.25。在值方面,有序多分類邏輯回歸比多分類邏輯回歸和線性回歸分別高出0.02和0.20。其原因是能見度的等級(jí)是遞增的,而其使用的是累計(jì)概率函數(shù),與能見度的性質(zhì)相符,因此預(yù)測(cè)結(jié)果更科學(xué)、準(zhǔn)確。在線性回歸上的表現(xiàn)最差,其原因可能是數(shù)據(jù)為非線性的,不能很好地對(duì)其進(jìn)行擬合。
圖3 不同算法能見度預(yù)測(cè)效果
首先,利用Pearson相關(guān)系數(shù)研究了能見度與氣象因子、環(huán)境因子以及24 h滯后項(xiàng)間的相關(guān)性,并把與能見度相關(guān)性大于0.3的滯后項(xiàng)納入候選特征,利用逐步回歸方法對(duì)以上各類特征分別進(jìn)行了特征選擇,構(gòu)造了多源特征融合的數(shù)據(jù)集。其次,提出了有序多分類能見度預(yù)測(cè)模型,使用累積概率函數(shù)計(jì)算每個(gè)樣本隸屬于每個(gè)等級(jí)的概率。最后,利用精確率、召回率以及值3個(gè)指標(biāo)對(duì)模型進(jìn)行評(píng)價(jià),驗(yàn)證了該文所提的多源特征融合的能見度預(yù)測(cè)方法的有效性。。