王雅雪 李城 劉霆
摘 要:針對(duì)不同大霧情況下的能見度,建立估計(jì)與預(yù)測(cè)模型。通過(guò)建立多分類的多元回歸模型,研究能見度與地面氣象影響因素之間的關(guān)系,并對(duì)大霧的能見度進(jìn)行預(yù)測(cè)。利用2020年研究生數(shù)學(xué)建模競(jìng)賽E題所提供的數(shù)據(jù),用主成分分析進(jìn)行降維,分析每個(gè)變量對(duì)能見度的影響規(guī)律,建立多分類多元回歸模型。模型結(jié)果表明,風(fēng)速對(duì)能見度的影響程度最大,呈正相關(guān)關(guān)系;氣壓越高,能見度越低;溫度越高,能見度越大;濕度對(duì)能見度的影響程度最小,呈負(fù)相關(guān)關(guān)系。預(yù)測(cè)結(jié)果表明,八點(diǎn)過(guò)后能見度逐漸增大。
關(guān)鍵詞:能見度;氣象因素;主成分分析;回歸模型;預(yù)測(cè)
中圖分類號(hào):O212? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):1673-260X(2021)01-0009-04
引言
在日常出行中,公路,飛機(jī)等都需在意天氣問(wèn)題,尤其是霧霾情況下。而大霧和霾直接影響著能見度這一指標(biāo)。在能見度很低時(shí),高速公路以及航空公司均會(huì)采取封路取消航班等措施。因此,能見度的預(yù)測(cè)是高速公路和航空公司十分關(guān)注的問(wèn)題。
本文所用資料為2020年“華為杯”研究生數(shù)學(xué)建模E題所給資料及數(shù)據(jù)。根據(jù)競(jìng)賽提供的數(shù)據(jù)建立模型,探究能見度與地面氣象因素的內(nèi)在關(guān)系,并進(jìn)行預(yù)測(cè)。
1 模型的建立與求解
1.1 數(shù)據(jù)處理
原數(shù)據(jù)給出5755個(gè)數(shù)值,時(shí)間跨度為從北京時(shí)間的2020-3-12 8:00到2020-3-13 7:59,每一分鐘給出4個(gè)數(shù)值。將數(shù)據(jù)進(jìn)行整合,經(jīng)過(guò)基本的數(shù)據(jù)篩選,選用每分鐘的4個(gè)數(shù)值的平均值x1,x2,…,x2929個(gè)變量作為研究對(duì)象,每個(gè)指標(biāo)的數(shù)據(jù)都從5755個(gè)值縮減到1437個(gè)值[1]。
原始數(shù)據(jù)給出29個(gè)變量,但其中有很多變量反映的是同一個(gè)信息,為進(jìn)一步判斷這些變量之間是否存在線性相關(guān),對(duì)這些變量進(jìn)行多重共線性檢驗(yàn)。
共線性可以通過(guò)共線統(tǒng)計(jì)的方差膨脹因子VIF值來(lái)判斷,若該值大于5時(shí),則認(rèn)為自變量可能存在多重共線性的問(wèn)題。通過(guò)SPSS中對(duì)上述29個(gè)指標(biāo)變量計(jì)算方差膨脹因子如表1所示。
上表顯示超過(guò)95%的變量的方差膨脹因子VIF的值大于5,說(shuō)明各個(gè)變量指標(biāo)之間存在著多重共線性,因此不可以直接對(duì)上述29個(gè)變量進(jìn)行建模,需要對(duì)變量進(jìn)行進(jìn)一步降維處理。
采用主成分分析的方法進(jìn)行降維來(lái)處理高維數(shù)據(jù),通過(guò)正交變化的方式將高維數(shù)據(jù)盡可能少的投影到低維空間,從而達(dá)到簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)的目的[2]。解釋總方差結(jié)果如表2。
由上表可知,相關(guān)系數(shù)矩陣的特征根分別為:1=14.006,2=6.401,3=2.083,4=1.485,5=0.915,6=0.561等等,我們發(fā)現(xiàn)只有前4個(gè)主成分的特征值是大于1,且其方差占所有主成分方差的85.63%,即包含了原始變量的85.63%的信息。一般情況下,主成分累計(jì)貢獻(xiàn)率達(dá)到80%即可滿足。該結(jié)果可以直接通過(guò)碎石圖看出,如下圖所示。
上圖顯示在第四個(gè)因子之后逐漸趨于平緩,在之后的回歸建模時(shí)可以取前4個(gè)主成分。
根據(jù)4個(gè)主成分對(duì)原指標(biāo)變量的提取程度,將其4個(gè)成分分別命名為風(fēng)速、氣壓、溫度、濕度,用y1,y2,y3,y4表示。
1.2 模型形式設(shè)定
給出的影響因素中,有一個(gè)因素是風(fēng)向,該指標(biāo)的單位為度,取值在0-360之間,由于風(fēng)向不具有可加性,不能將其加入模型,再考慮風(fēng)向因素對(duì)能見度的季節(jié)性影響尤為重要,因此需要對(duì)該變量進(jìn)行處理。進(jìn)行數(shù)據(jù)挖掘?qū)L(fēng)向分為四類,從而構(gòu)造3個(gè)0-1虛擬變量。將0-90之間的數(shù)值取為第1類,為東北方向;將90-180之間的數(shù)值取為第2類,為西北方向;將180-270之間的數(shù)值取為第3類,為西南方向;將270-360之間的數(shù)值取為第4類,為東南方向[3]。
D1=1,東北方向0,非東北方向,D2=1,西北方向0,非西北方向,
D3=1,西南方向0,非西南方向。
根據(jù)主成分分析結(jié)果,用y1,y2,y3,y4這4個(gè)主要變量作為自變量、風(fēng)向作為虛擬變量建模,為之后根據(jù)不同地域的風(fēng)向預(yù)測(cè)大霧消散情況做一個(gè)理論基礎(chǔ)。模型如下:
Z=f(y1,y2,y3,y4,D1,D2,D3)
其中:Z為能見度;y1,y2,y3,y4分別為風(fēng)速、氣壓、溫度、濕度;Di,i=1,2,3為方向。
現(xiàn)根據(jù)上述得到的風(fēng)速、氣壓、溫度、濕度4個(gè)變量指標(biāo),分別做出各個(gè)變量關(guān)于能見度Z的趨勢(shì)圖,初步探究之間的關(guān)系。如下所示:
由圖2可知,風(fēng)速與能見度呈正相關(guān)關(guān)系。雖有一個(gè)特殊峰值,但是大致呈線性關(guān)系。
由圖3可知,氣壓與能見度呈負(fù)相關(guān)關(guān)系,大致呈線性關(guān)系。
由圖4可知,溫度與能見度呈正相關(guān)關(guān)系。能見度隨溫度的升高而增大,前期增大幅度漸漸變小,呈現(xiàn)對(duì)數(shù)關(guān)系;后期增大的幅度漸漸變大,呈現(xiàn)二次關(guān)系;圖像整體呈線性關(guān)系。因此將溫度變量納入模型時(shí),分別考慮其對(duì)數(shù)形式、一次形式和二次形式。
由圖5可知,濕度與能見度呈負(fù)相關(guān)關(guān)系。隨濕度增大,能見度逐漸變小;一開始能見度變小的幅度很大,漸漸幅度減小??紤]將該變量的負(fù)一次形式納入模型[4]。
基于溫度變量隨能見度的變化趨勢(shì)圖,認(rèn)為溫度變量與能見度的關(guān)系可能是對(duì)數(shù)關(guān)系、一次關(guān)系和二次關(guān)系,因此分別將溫度變量的對(duì)數(shù)形式、一次形式和二次形式納入模型?;跐穸茸兞侩S能見度的變化趨勢(shì)圖,認(rèn)為濕度變量與能見度的關(guān)系可能是一次關(guān)系和負(fù)一次關(guān)系,因此分別將濕度變量的一次形式和負(fù)一次形式納入模型??紤]到不同變量納入模型的不同形式,分別建立5種模型,最終根據(jù)擬合程度選出一個(gè)最優(yōu)模型。
建立以下五種模型,依次記為a~e:
Z=c+?琢1y1+?琢2y2+?琢3y3+?琢4y4+?茁1D1+?茁2D2+?茁3D3 (a)
Z=c+?琢1y1+?琢2y2+?琢3log(y3)+?琢4y4+?茁1D1+?茁2D2+?茁3D3 (b)
Z=c+?琢1y1+?琢2y2+?琢3log(y3)+?琢4y4+?茁1D1+?茁2D2+?茁3D3 (c)
Z=c+?琢1y1+?琢2y2+?琢3y3+?琢4+?茁1D1+?茁2D2+?茁3D3 (d)
Z=c+?琢1y1+?琢2y2+?琢3y32+?琢4+?茁1D1+?茁2D2+?茁3D3 (e)
其中:Z為能見度;y1,y2,y3,y4分別為風(fēng)速、氣壓、溫度、濕度;Di,i=1,2,3為方向。
1.3 參數(shù)估計(jì)
該參數(shù)的p值都小于0.05,均通過(guò)顯著性檢驗(yàn)。
1.4 模型檢驗(yàn)
1.4.1 統(tǒng)計(jì)檢驗(yàn)
從上表可以看出,五種模型的F統(tǒng)計(jì)量的p值均為0,則說(shuō)明這些方程在統(tǒng)計(jì)上均是顯著的。其次,通過(guò)擬合度R2、標(biāo)準(zhǔn)誤差、以及F統(tǒng)計(jì)量顯示,d模型的各項(xiàng)數(shù)據(jù)均優(yōu)于其余4個(gè)模型,因此在這里選用模型d,模型方程為:
Z=f(y1,y2,y3,y4)=940394+1075.74y1-929.2969y2
+658.8416y3+1822.342+600.2985D1
-81.08468D2+430.219D3
四個(gè)方向的平均能見度為:
東北方向:
E(Z|D1=1,D2=0,D3=0)=940399.43+1075.744y1
-929.2969y2+658.8416y3+1822.342
西北方向:
E(Z|D1=0,D2=1,D3=0)=940313+1075.744y1
-929.2969y2+658.8416y3+1822.342
西南方向:
E(Z|D1=1,D2=0,D3=1)=940824.2+1075.744y1
-929.2969y2+658.8416y3+1822.342
東南方向:
E(Z|D1=0,D2=0,D3=0)=940394+1075.744y1
-929.2969y2+658.8416y3+1822.342
1.4.2 預(yù)測(cè)檢驗(yàn)
從建模樣本外的測(cè)試樣本中的原數(shù)據(jù)中隨機(jī)取出10個(gè)數(shù)值,對(duì)比模型擬合預(yù)測(cè)出的濃度值與實(shí)際值[5],如表5所示。
上表可以看出,幾乎所有的預(yù)測(cè)值與真實(shí)值之間的相對(duì)誤差都小于1%,大部分的相對(duì)誤差在0.1%附近,模型擬合較好。
1.5 結(jié)果分析
上述建立的模型可知,風(fēng)速對(duì)能見度的影響程度最大。風(fēng)速越大,能見度越高,風(fēng)速變化1個(gè)單位,能見度變化1075.7個(gè)單位;氣壓與能進(jìn)度呈負(fù)相關(guān)關(guān)系,氣壓越高,能見度越低,氣壓上升1個(gè)單位,能見度降低929.3個(gè)單位;溫度越高,能見度越大,溫度升高1個(gè)單位,能見度增大658.8個(gè)單位;濕度對(duì)能見度的影響程度最小,濕度越大,能見度越低[6]。
2 外推預(yù)測(cè)
用該模型對(duì)之后的大霧情形下的能見度進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果如表6。
預(yù)測(cè)趨勢(shì)整體平緩,有上升趨勢(shì)。預(yù)測(cè)結(jié)果圖如圖6,紅色線段為原數(shù)據(jù)的圖像,藍(lán)色線段為預(yù)測(cè)部分圖像,虛線為趨勢(shì)線。圖中可以看出,能見度變化不大,略微有變大趨勢(shì)。
3 結(jié)語(yǔ)
(1)在8:00到14:30,能見度逐漸增大并達(dá)到峰值;14:30之后的時(shí)間段,能見度逐步降低。在16:14時(shí)間點(diǎn)附近,能見度出現(xiàn)急速下降。
(2)能見度與風(fēng)速、溫度成正相關(guān)關(guān)系,與風(fēng)速、氣壓呈負(fù)相關(guān)關(guān)系,與方向因素關(guān)系不大。
(3)風(fēng)速越大,能見度越高,風(fēng)速變化1個(gè)單位,能見度變化1075.7個(gè)單位;氣壓越高,能見度越低,氣壓上升1個(gè)單位,能見度降低929.3個(gè)單位;溫度越高,能見度越大,溫度升高1個(gè)單位,能見度增大658.8個(gè)單位;濕度越大,能見度越低。
本文考慮到了5種不同的模型形式,估計(jì)了未來(lái)10個(gè)預(yù)測(cè)值,在之后的研究中,會(huì)深入挖掘各影響因素對(duì)能見度的影響程度與趨勢(shì),建立更適合的模型并進(jìn)行長(zhǎng)期預(yù)測(cè)。
——————————
參考文獻(xiàn):
〔1〕周建平,張蕾,王傳輝,姚葉青,劉承曉.大霧臨近預(yù)報(bào)中高密度能見度數(shù)據(jù)應(yīng)用[J].氣象科技,2019,47(05):866-871.
〔2〕陳玉蓉.四川盆地低能見度天氣的變化分析及其對(duì)機(jī)場(chǎng)運(yùn)行的影響[D].中國(guó)民航大學(xué),2019.
〔3〕白小云.咸陽(yáng)機(jī)場(chǎng)大霧低能見度資料的分析與應(yīng)用[A].中國(guó)氣象學(xué)會(huì).第34屆中國(guó)氣象學(xué)會(huì)年會(huì)S16智能氣象觀測(cè)論文集[C].中國(guó)氣象學(xué)會(huì):中國(guó)氣象學(xué)會(huì),2017:10.
〔4〕程航.大連地區(qū)大霧氣候特征及成因研究[D].蘭州大學(xué),2014.
〔5〕劉炳杰.環(huán)渤海低能見度分析及短期預(yù)報(bào)方法研究[D].蘭州大學(xué),2010.
〔6〕白小云.咸陽(yáng)機(jī)場(chǎng)大霧天氣能見度的觀測(cè)[J].陜西氣象,2005,63(04):42-43.