陳文佳 余至成 王 婧
(1.福建省霞浦縣氣象局,福建 寧德 355100;2.福建省大氣探測技術(shù)保障中心,福建 福州 350008;3.福建省氣象信息中心,福建 福州 350001)
隨著經(jīng)濟(jì)發(fā)展及社會進(jìn)步,人民群眾可支配收入增長,旅游產(chǎn)業(yè)地位不斷攀升。而氣象條件對旅游質(zhì)量和旅游安全保障等多方面均有影響,隨著旅客對旅游氣象服務(wù)的要求不斷提升,傳統(tǒng)、定時(shí)、單一的預(yù)報(bào)服務(wù)模式不能完全滿足旅客的需求,精細(xì)化、定制化的旅游氣象服務(wù)模式將逐漸成為主流趨勢[1-2]。近年來,旅游氣象服務(wù)研究工作實(shí)屬熱門,各地氣象部門均對該業(yè)務(wù)開展了各類研究。賴輝煌等[3]對2020年九仙山的日出日落時(shí)間、氣象條件等進(jìn)行了統(tǒng)計(jì)分析,結(jié)果發(fā)現(xiàn),九仙山可觀賞率最高的月份為1月,最有利觀日氣象條件是前一日風(fēng)向?yàn)槠黠L(fēng)向,為九仙山觀日旅游服務(wù)提供指導(dǎo)。楊春華等[4]利用茶卡鹽湖景區(qū)臨近氣象站觀測數(shù)據(jù),對景區(qū)氣象要素開展了統(tǒng)計(jì)分析,并對攝影的影響因子云量、能見度、風(fēng)速和降水進(jìn)行分級,確定了天空之鏡攝影氣象指數(shù)和攝影氣象條件優(yōu)劣標(biāo)準(zhǔn)。丁國香等[5]針對安徽省山岳型景區(qū)的需求,開展了氣象景觀預(yù)報(bào),在計(jì)算各類氣象條件分級指標(biāo)后,通過疊加方式確立云海出現(xiàn)的概率情況,以此方法達(dá)到定制化服務(wù),而特色景觀更多依賴于預(yù)報(bào)員的經(jīng)驗(yàn)預(yù)報(bào)。
作為旅游大縣,霞浦縣的海岸線達(dá)505km,近岸還有“中國最美麗的灘涂”,配合其西高東低的復(fù)雜地勢,享有豐富的山海資源。正是由于霞浦依山傍海的天然地理環(huán)境,使其成為國內(nèi)外攝影愛好者的寵兒,而灘涂攝影、日出日落攝影等產(chǎn)業(yè)的蓬勃發(fā)展又進(jìn)一步促進(jìn)了霞浦旅游業(yè)的發(fā)展,到霞浦游玩的旅客數(shù)量日益增多,提供精準(zhǔn)、及時(shí)的旅游氣象服務(wù)勢在必行。
根據(jù)前期實(shí)地調(diào)研和線上意見征集的結(jié)果,來霞旅客認(rèn)為常規(guī)氣象服務(wù)形勢單一、內(nèi)容枯燥、缺乏針對性,對此,他們提出了許多意見。霞浦縣氣象局聽取反饋意見,于2020年開展了一系列精細(xì)化旅游氣象服務(wù)工作。在諸多服務(wù)中,廣受好評及熱議的是2020年10月上線的花竹日出預(yù)報(bào)服務(wù)?;ㄖ翊逦挥谙计秩虫?zhèn),素有“中國觀日地標(biāo)”的美譽(yù)[6],其自然資源稟賦優(yōu)越,具有以“山、海、灘、石、島、日出”為代表的自然山水景觀[7]。作為熱門網(wǎng)紅打卡點(diǎn),霞浦縣氣象局提供了花竹破曉時(shí)間、日出時(shí)間以及日出指數(shù)和氣象條件。綜合各類研究結(jié)論,其他旅游氣象類研究對實(shí)況數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,并依據(jù)分析結(jié)果建立分級指數(shù),將分級值疊加或加權(quán)后得到各類旅游指數(shù),這種方法缺少預(yù)報(bào)結(jié)論與實(shí)況的檢驗(yàn)評估。本文就2021年霞浦縣氣象局花竹日出預(yù)報(bào)服務(wù)進(jìn)行檢驗(yàn)評估,并通過機(jī)器學(xué)習(xí)的方法建立新日出預(yù)報(bào)服務(wù)模式,為后期開展多點(diǎn)服務(wù)提供參考。
利用2021年5月1日至12月31日三沙國家一般氣象站和花竹自動氣象觀測站的逐小時(shí)觀測數(shù)據(jù)及實(shí)景觀測結(jié)果,對福建省霞浦縣氣象局該時(shí)段內(nèi)提供的花竹日出氣象預(yù)報(bào)數(shù)據(jù)進(jìn)行檢驗(yàn),并利用Python的開源庫Sklearn中的邏輯回歸(Logistic Regression,LR)算法,將清洗過的實(shí)況數(shù)據(jù)代入算法進(jìn)行模型訓(xùn)練,再根據(jù)模型預(yù)測明日日出情況(實(shí)現(xiàn)二分類,即有無日出)。
邏輯回歸算法是將某事件發(fā)生結(jié)果作為因變量,將影響其結(jié)果的要素作為自變量建立的回歸模型,其因變量應(yīng)具有二分特性,即結(jié)果可以用是或否(有或無)等類似判定詞描述,其取值有且僅有兩種,在計(jì)算機(jī)內(nèi)可以用0或1來表示[8]。目前被較多應(yīng)用于流行性疾病判識等方面,也被嘗試引入電商環(huán)境[9],鑒于此,可以將該模式引入旅游氣象服務(wù)業(yè)務(wù)工作。以經(jīng)典糖尿病數(shù)據(jù)集為例,LR算法模型將人的BMI、年齡、血壓等作為自變量,判識該個(gè)體是否有糖尿病。通過學(xué)習(xí)這種預(yù)測模式,可以將前期收集到的花竹日出過程中的天氣情況、云量、能見度、風(fēng)速、雨量、相對濕度、氣溫等數(shù)據(jù)集和實(shí)景觀測有無日出的數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集對模型進(jìn)行訓(xùn)練,通過計(jì)算不同訓(xùn)練集的準(zhǔn)確率、召回率等,選取最佳訓(xùn)練集。也就是通過這種方式確定日出的主導(dǎo)影響要素。
邏輯回歸曲線計(jì)算公式[10]如下:
(1)
f(x)=α0+α1x1+α2x2+α3x3+...
(2)
當(dāng)變量值通過0值時(shí)(如圖1所示),可確定函數(shù)值為0.5,這里規(guī)定當(dāng)函數(shù)值大于等于0.5為正向,小于0.5為負(fù)向,從而將函數(shù)值二分類。在本研究中,x1、x2、x3……即對應(yīng)氣溫、相對濕度、降水量、風(fēng)速、能見度等要素,α0、α1、α2、α3等為回歸系數(shù),L(x)對應(yīng)有無日出的結(jié)果。
圖1 邏輯回歸曲線示意圖
當(dāng)確定主導(dǎo)要素后,以該模型開始預(yù)測,并再次檢驗(yàn)預(yù)測效果。
本文使用的觀測數(shù)據(jù)所含要素為氣溫、相對濕度、降水量、瞬時(shí)風(fēng)速、能見度,對數(shù)據(jù)進(jìn)行清洗,篩除缺測和錯(cuò)誤數(shù)據(jù)后,將上述數(shù)據(jù)引入隨機(jī)種子random_state=0的參數(shù)設(shè)置進(jìn)行拆分,拆分為訓(xùn)練集和測試集,代入編寫好的Python程序中進(jìn)行模擬實(shí)驗(yàn)。這里使用的是Python的Sklearn開源庫中包含的LR算法。將要素類目分為兩組,一組是包含氣溫、相對濕度、降水量、瞬時(shí)風(fēng)速、能見度、海平面氣壓、24小時(shí)最高氣溫、24小時(shí)最低氣溫、露點(diǎn)溫度、水汽壓、人工觀測云量(以下稱試驗(yàn)1),另一組包含氣溫、相對濕度、降水量、24小時(shí)最高氣溫、24小時(shí)最低氣溫、云量(以下稱試驗(yàn)2)。通過對2組要素進(jìn)行試驗(yàn),試驗(yàn)結(jié)果如表1、表2所示。
表1 試驗(yàn)1要素的模擬試驗(yàn)結(jié)果
表2 試驗(yàn)2要素的模擬試驗(yàn)結(jié)果
將實(shí)驗(yàn)?zāi)M結(jié)果統(tǒng)計(jì)整理成混淆矩陣,如表3所示。表4為2組試驗(yàn)結(jié)果的準(zhǔn)確率、錯(cuò)誤率、召回率、特異度等[11],通過對比這些數(shù)值來評估2組模擬方法擬合效果的區(qū)別。
表3 LR算法模擬試驗(yàn)結(jié)果的混淆矩陣
表4 兩組試驗(yàn)擬合效果統(tǒng)計(jì)值
比對2組數(shù)據(jù)的模擬效果檢驗(yàn)指標(biāo)可以得知,相對于試驗(yàn)1,試驗(yàn)2采用了更少的要素場參與擬合,從4項(xiàng)指標(biāo)值而言,召回率和特異度較試驗(yàn)1相比更優(yōu)。試驗(yàn)2使用較少的氣象要素進(jìn)行試驗(yàn)時(shí),雖然特異度和召回率有一定程度提升,但提升效果并不明顯,且準(zhǔn)確率有所降低,更容易出現(xiàn)空報(bào)現(xiàn)象。通過試驗(yàn)1、2結(jié)果各項(xiàng)的系數(shù)對比,發(fā)現(xiàn)降水量、24小時(shí)最高氣溫、24小時(shí)最低氣溫影響系數(shù)較大,起主導(dǎo)作用,而在模擬中,其他氣象要素的影響系數(shù)比以上3個(gè)要素偏小或小1個(gè)量級。
根據(jù)上一組試驗(yàn)結(jié)果,選取最優(yōu)相關(guān)要素組代入,對使用的隨機(jī)種子randomseed進(jìn)行改動,并進(jìn)行檢驗(yàn),結(jié)果表明,當(dāng)使用隨機(jī)數(shù)種子不同時(shí),模擬效果也不同。通過比對各類檢驗(yàn)指標(biāo)發(fā)現(xiàn),當(dāng)隨機(jī)種子設(shè)置小于200時(shí),準(zhǔn)確率和錯(cuò)誤率整體浮動比較小。召回率在選擇40~200區(qū)間內(nèi)呈先增加后減少的態(tài)勢。當(dāng)隨機(jī)種子選取大于200時(shí),準(zhǔn)確率、召回率驟然降低,特異度略有提升。因此,在預(yù)測中將隨機(jī)數(shù)種子適當(dāng)設(shè)置在40~200的區(qū)間內(nèi),尤其在100左右為最佳。
召回率是指預(yù)測日出樣本數(shù)占實(shí)際日出的比重。特異度是指預(yù)測無日出占實(shí)際無日出樣本數(shù)的比重。從實(shí)際角度而言,這兩個(gè)值更能反映預(yù)報(bào)精準(zhǔn)度質(zhì)量。從特異度角度分析可以發(fā)現(xiàn),當(dāng)隨機(jī)種子數(shù)介于0~200,大部分模擬效果預(yù)報(bào)無日出的情況都可以達(dá)到80%以上的概率,在實(shí)際服務(wù)中,可以有效規(guī)避不利天氣對賞日出行規(guī)劃的影響。
在實(shí)際業(yè)務(wù)服務(wù)日出預(yù)報(bào)中,更注重召回率,即精準(zhǔn)預(yù)測日出的情況,對于過擬合的情況,其實(shí)是對日出概率的悲觀考慮,使用隨機(jī)種子在0~200區(qū)間可以提升預(yù)報(bào)準(zhǔn)確率,使用隨機(jī)種子在100左右效果尤佳,而且能夠從很大程度上提高日出預(yù)報(bào)中有效日出預(yù)報(bào)占比,從而提升游客對服務(wù)效果的信任度。
圖2 不同隨機(jī)數(shù)種子值模擬檢驗(yàn)結(jié)果
綜合上述指標(biāo),將隨機(jī)種子值定為100,進(jìn)行模擬運(yùn)算,獲得式(3)、式(4)預(yù)報(bào)模型。
其中,x1是逐時(shí)平均氣溫,x2是逐時(shí)相對濕度,x3是逐時(shí)降水量,x4是24小時(shí)最高氣溫,x5是24小時(shí)最低氣溫,x6是日出時(shí)刻人工觀測云量,x7是逐時(shí)極大風(fēng)速,x8是逐時(shí)能見度,x9是逐時(shí)海平面氣壓,x10是逐時(shí)露點(diǎn)溫度,x11是逐時(shí)水汽壓(數(shù)據(jù)時(shí)間選擇的是05—06時(shí)這一小時(shí))。
確定隨機(jī)數(shù)種子最優(yōu)值后計(jì)算各要素回歸系數(shù),其系數(shù)值分別為-0.01417,-0.03609,-0.02613,-0.04751,0.04295,-0.06742,0.06934,-0.0001083,0.006641,0.04475,0.03082。
(3)
f(x)=-0.01417x1-0.03609x2-0.02613x3-0.04751x4+0.04295x5-0.06742x6+0.06934x7-0.0001083x8+0.006641x9+0.04475x10+0.03082x11-0.0001704
(4)
利用Python的Sklearn庫中的LR算法,對日出預(yù)報(bào)服務(wù)進(jìn)行改進(jìn),將機(jī)器學(xué)習(xí)的方式引入當(dāng)前業(yè)務(wù)工作中。利用自動站獲取的2021年5月1日至12月31日逐時(shí)要素?cái)?shù)據(jù),進(jìn)行機(jī)器學(xué)習(xí)算法,獲得邏輯回歸算法模型。
通過模擬試驗(yàn),可以得出以下結(jié)論:
①選取不同要素進(jìn)行模擬試驗(yàn)的結(jié)果表明,選取較少的氣象要素個(gè)數(shù)雖然會提升召回率但會造成準(zhǔn)確率降低,以及空報(bào)的概率增加。選取過多的要素會造成結(jié)果過于悲觀,召回率低,故應(yīng)結(jié)合實(shí)際選取要素。
②將不同隨機(jī)數(shù)種子值代入試驗(yàn)結(jié)果表明,當(dāng)隨機(jī)值在0~200的區(qū)間內(nèi)時(shí),特異度和準(zhǔn)確率均可達(dá)到80%以上,可以較好地模擬日出情況。當(dāng)隨機(jī)種子處于40~200區(qū)間內(nèi),召回率呈先增加后減少的態(tài)勢,當(dāng)處于100左右時(shí)達(dá)到最優(yōu)。
③選取最優(yōu)因子和最優(yōu)隨機(jī)種子值進(jìn)行模擬,計(jì)算得到的回歸模型可以將模式輸出的平均氣溫、降水量、相對濕度等氣象要素代入運(yùn)算,獲得預(yù)測值。預(yù)測值大于0.5,表示可見日出;預(yù)測值小于0.5,表示無日出。
本文引入機(jī)器學(xué)習(xí)中常用的LR算法對日出預(yù)報(bào)進(jìn)行模擬試驗(yàn),該方法既將實(shí)況數(shù)據(jù)納入了預(yù)報(bào)中,還可滿足預(yù)報(bào)檢驗(yàn)的需求,同時(shí)利用機(jī)器學(xué)習(xí)的特點(diǎn),實(shí)現(xiàn)動態(tài)模型的預(yù)報(bào)模式。但這種方法還存在幾點(diǎn)問題:
①LR算法更多針對的是二分類數(shù)據(jù),但在實(shí)際服務(wù)中,除了有無日出,日出還有多種多樣的形態(tài),這種算法適用范圍有限。
②選取的2個(gè)站點(diǎn)缺乏云量自動觀測數(shù)據(jù),從第二大點(diǎn)的隨機(jī)值試驗(yàn)的系數(shù)值中可以發(fā)現(xiàn),在最優(yōu)隨機(jī)值時(shí),系數(shù)較大的其中一項(xiàng)氣象要素為云量,文中使用的云量為人工觀測,后期可以借助衛(wèi)星遙感的數(shù)據(jù)對云量數(shù)據(jù)進(jìn)行改進(jìn),實(shí)現(xiàn)自動預(yù)報(bào)的學(xué)習(xí)模式。