李曼,徐楠楠
(南京郵電大學通信與信息工程學院,南京210000)
準確地預知降水量的時空分布對農(nóng)業(yè)、畜牧業(yè)、放牧、能源生產(chǎn)有著重要且直接的影響,與臺風、洪水、干旱和泥石流等災害也存在密切聯(lián)系。受地形、水汽來源等多因素影響,降水的時空差異性較大[1],因此,如何精確估計降水的時空特征仍然面臨著巨大的挑戰(zhàn)。降水的測量包括傳統(tǒng)的地面氣象站的測量,以及衛(wèi)星遙感監(jiān)測[2]。在偏遠山區(qū),氣象站的雨量計相對稀少且分布不佳導致降雨量的測量困難。近幾十年來,衛(wèi)星遙感監(jiān)測在不斷地發(fā)展與進步,新一代的全球衛(wèi)星降水(Global Precipitation Measurement,GPM)計劃[3],與以往的降水產(chǎn)品相比具有更高的精度,更大的覆蓋范圍,更高的時空分辨率[4]。但是衛(wèi)星降水產(chǎn)品使用的是可見光/紅外傳感器、微波估計降雨量,其間接估計的性質(zhì),不可避免存在區(qū)域和季節(jié)性系統(tǒng)偏差和隨機誤差[5-6]。氣象測量站空間分布的局限性以及衛(wèi)星遙感數(shù)據(jù)較低的準確性使極端天氣事件的預報、氣候預報、洪水、干旱和泥石流等災害的預報有很大的困難[7]。
關(guān)于衛(wèi)星降水校準方法的研究已有許多,并取得了一些成果且發(fā)現(xiàn)地理位置、高層、季節(jié)、溫度均有助于衛(wèi)星降雨量的校準[8-9]。如:Yang 等人從數(shù)字高程模型中提取地形變量,確定其旋轉(zhuǎn)主分量,建立調(diào)整TMPA 降水量的逐步回歸模型,還建立了反傳播(BP)神經(jīng)網(wǎng)絡(luò)來校正TMPA 降水量[8]。Shi 等基于EVI 和TRMM月降水數(shù)據(jù)研究了一種統(tǒng)計降尺度校準程序,利用EVI(Enhanced Vegetation Index)、海拔、坡度、坡向、緯度、經(jīng)度與降水相關(guān)的非參數(shù)統(tǒng)計關(guān)系,實現(xiàn)了從0.25°到1km 的空間降尺度并且采用加法(additive method)對降尺度降水資料進行了校正[9]。
近年來,許多研究表明降水與植被覆蓋[10]關(guān)系密切。植被是連結(jié)土壤、大氣和水分的自然“紐帶”,在全球變化研究中起到“指示器”作用[11]。Chen 等人提出了一種新的降尺度方法——地理加權(quán)回歸(GWR),通過對TRMM、歸一化植被指數(shù)(NDVI)、數(shù)字高程模型(DEM)數(shù)據(jù)集進行分析和探索,能更準確地生成降尺度的降雨數(shù)據(jù)[12]。因此在進行衛(wèi)星降水校準方面的研究時,應(yīng)將植被作為一個重要的考慮因素。此外,衛(wèi)星降水數(shù)據(jù)的偏差和誤差與季節(jié)季風有很大的相關(guān)性[13-14]。Prakash 等人廣泛評估印度地區(qū)的TMPA 產(chǎn)品,通過分析季風前、季風中和季風后的降雨量,表明將TMPA 數(shù)據(jù)集應(yīng)用到水文領(lǐng)域之前,需要對TMPA 數(shù)據(jù)集進行適當?shù)膮^(qū)域和季節(jié)相關(guān)偏差校正[14]。
近年來,遺傳編程技術(shù)作為遺傳算法的分支,被廣泛的應(yīng)用于數(shù)據(jù)分析、數(shù)據(jù)挖掘方面。Rampone 等人利用人工神經(jīng)網(wǎng)絡(luò)和遺傳編程預測未來季節(jié)平均氣溫[15]。Kisi 等人利用小波-遺傳編程(Wavelet-Genetic Programming)和小波-神經(jīng)模糊(Wavelet-Neuro-Fuzzy)結(jié)合模型進行日降水預報[16]。從這些研究可得,遺傳編程技術(shù)能夠進一步發(fā)現(xiàn)影響衛(wèi)星降水產(chǎn)品測量的相關(guān)變量之間可能存在的關(guān)系。然而,目前從遺傳編程角度分析降雨量的研究很少。
大多數(shù)衛(wèi)星降水產(chǎn)品的校準和評估都是基于月尺度和年尺度,很少對日降水尺度的數(shù)據(jù)進行分析。因此,考慮植被對降水的影響,在本研究中,我們利用遺傳編程挖掘衛(wèi)星降水數(shù)據(jù)、全國氣象站降水數(shù)據(jù)與相關(guān)因素(經(jīng)緯度、高程、溫度、時間、植被類型)之間的關(guān)系,構(gòu)建了一種校正方法,以提高我國衛(wèi)星日尺度降水數(shù)據(jù)的精度。
在本研究中,主要用到數(shù)據(jù)包括:全國氣象站點數(shù)據(jù),GPM 降水數(shù)據(jù)集和全國植被區(qū)劃數(shù)據(jù)集。
(1)氣象站點數(shù)據(jù)選取來源于中國氣象數(shù)據(jù)網(wǎng)(http://data.cma.cn/)的日尺度數(shù)據(jù)集,選取全國地區(qū)氣象站點2016 年1 月至2016 年12 月的日降水序列,其中研究區(qū)內(nèi)氣象站點660 個(見圖1 全國站點分布)。
圖1全國站點分布
(2)GPM 數(shù)據(jù)集通過美國國家航空航天局戈達德航天飛行中心(NASA-GSFC)獲取(https://pmm.nasa.gov/precipitation-measurement-missions),收集2016 年1 月至2016 年12 月的日尺度降水序列,覆蓋范圍為17.95N~54.95N,72.05E~133.95E,空 間 分 辨 率 為0.1°×0.1°。
(3)全國植被區(qū)劃數(shù)據(jù)來源于中國科學院資源環(huán)境科學數(shù)據(jù)中心(http://www.resdc.cn),該數(shù)據(jù)根據(jù)植被和氣候類型,將全國劃分為八個區(qū)域。為了方便統(tǒng)計,本研究將八個植被區(qū)域用數(shù)值1-8 代替,替換結(jié)果如表1 所示。
表1 植被區(qū)劃數(shù)值表
根據(jù)全國氣象站2016 年的可用數(shù)據(jù)以及對衛(wèi)星校準方面的研究分析,我們考慮8 個評價降水條件的參數(shù)(表2)。所有的特性都表示為數(shù)值變量。
表2 參數(shù)列表
遺傳編程是在遺傳算法的基礎(chǔ)上引入自動程序設(shè)計的一種算法,它可以通過自身的學習快速發(fā)現(xiàn)數(shù)據(jù)與數(shù)學表達式之間的關(guān)系,通常由樹形結(jié)構(gòu)表示[7]。遺傳編程開始于一群由隨機生成的千百萬個計算機程序組成的“人群”,然后根據(jù)一個程序完成給定的任務(wù)的能力來確定某個程序的適合度,應(yīng)用達爾文的自然選擇(適者生存)確定勝出的程序。計算機程序間也模擬兩性組合、變異、基因復制,基因刪除等代代進化,直到達到預先確定的某個中止條件為止[17]。遺傳編程流程圖如圖2 所示。
圖2 遺傳編程流程圖
本研究中由于地形、高程、溫度、氣候類型,植被覆蓋等因素對衛(wèi)星降雨測量產(chǎn)品的影響不明確,將遺傳編程用作挖掘降水與相關(guān)因素之間關(guān)系的工具。在運用遺傳編程前,需要確定所需的數(shù)據(jù)集和函數(shù)集。PA(氣象站降水)為遺傳編程的目標,輸入數(shù)據(jù)集包括X(緯度)、Y(經(jīng)度)、E(高程)、t(時間)、T(溫度)和PS(衛(wèi)星降水)。函數(shù)集如下:
利用遺傳編程生成校準公式的步驟為:
(1)將數(shù)據(jù)集隨機分為兩個獨立的集合:訓練集和驗證集。設(shè)置函數(shù)集PA= f(PS,X,Y,E,T,t),產(chǎn)生初始的校準群體。初始種群由數(shù)據(jù)集和函數(shù)集隨機生成。
(2)數(shù)據(jù)集隨機分為兩個獨立的集合:訓練集和驗證集,訓練集經(jīng)過遺傳操作(選擇、交叉、變異)得到初步的校準公式。
(3)定義種群的適應(yīng)度函數(shù),用于評估種群中的每個公式的適應(yīng)度。在本研究中,我們使用均方根誤差(RMSE)作為適應(yīng)度函數(shù)。驗證集用于評估步驟(2)中公式的適應(yīng)度。
其中i 為氣象站點秩數(shù),M 為氣象站總數(shù),PS 為衛(wèi)星降水數(shù)據(jù),PA 為氣象站降水數(shù)據(jù)。
(4)重復步驟(2-3),直到訓練時間達到停止準則(本研究中為500 小時)。
(5)程序結(jié)束,由公式得到的校準后的降水量與實際衛(wèi)星降水量的擬合優(yōu)度判定系數(shù)R2選出最終最優(yōu)公式。
受季風影響,我國降水季節(jié)特征顯著?;诖?,本研究按照季節(jié)尺度(春、夏、秋、冬)對2016 年GPM 日降水量進行校準。各季節(jié)的最終最優(yōu)校準公式如表3所示。
表3 2016 年全國區(qū)域最終校準公式
我們使用泰勒圖來表示春夏秋冬四個季節(jié)的衛(wèi)星降雨量原始數(shù)據(jù)和校準值與氣象站實測日降水數(shù)據(jù)之間的對應(yīng)程度(圖3)。它利用了相關(guān)系數(shù)(CC)和標準差(SD)之間的三角轉(zhuǎn)換關(guān)系??梢钥闯?,春夏秋冬衛(wèi)星日降水量原始數(shù)據(jù)與氣象站實測日降水量的相關(guān)系數(shù)均在0.4-0.5 之間,經(jīng)過遺傳編程校準后校準值和實測值的相關(guān)系數(shù)在0.5-0.7 之間,CC 提高了10%左右,且標準差和均方根誤差均明顯降低??偟膩碚f,對于日降水量的校準,夏季校準效果較好一些,冬季校準雖然CC 較大,SD 較小,但由于部分校準值出現(xiàn)了負值,總體校準效果較差。主要是因為冬季溫度較低,冰雹、雪固體降雨量難測量,氣象站的實際測量與衛(wèi)星遙感數(shù)據(jù)偏差較大,導致校準精度不高。而夏季降雨量充沛,校準精度相對較高。
圖3 春夏秋冬的GPM日降水量與氣象站實測日降水量的泰勒分布圖
上面的結(jié)論充分利用了衛(wèi)星降水數(shù)據(jù)空間分辨率高,探測范圍廣的特點,但仍存在部分地區(qū)校準效果不佳。造成這種校準效果不佳的原因較多,主要是因為地理位置、溫度、植被覆蓋、氣候類型存在較大的不同。故本研究根據(jù)植被和氣候類型,將全國劃分為八種區(qū)域,分別進行衛(wèi)星日降水量的校準,進而提升衛(wèi)星降水產(chǎn)品的可靠性。
將2016 年的數(shù)據(jù)集按照植被區(qū)劃分為八個獨立的數(shù)據(jù)集分別進行校準。不同的植被區(qū)域校準的效果不同,其中熱帶季風雨林區(qū)域(區(qū)域4)和亞熱帶常綠闊葉林區(qū)域(區(qū)域8)校準效果較好,溫帶草原(區(qū)域5)、溫帶荒漠(區(qū)域6)效果較差。
表4 2016 年植被區(qū)劃最終校準公式
圖4 分別給出了八個植被區(qū)域的衛(wèi)星降水量原始數(shù)據(jù)和校準值與站點實測日降水數(shù)據(jù)的泰勒分布??梢钥闯觯藗€植被區(qū)域衛(wèi)星日降水量的原始數(shù)據(jù)與站點實測日降水量的相關(guān)系數(shù)相差較大,分布在0.3-0.6之間,校準值和實測值的相關(guān)系數(shù)主要分布在0.4-0.8之間。八個植被區(qū)域校準值的均方根誤差和標準差均比原始數(shù)據(jù)減少了50%左右,相關(guān)系數(shù)提高15%左右。其中,熱帶季風林和亞熱帶常綠闊葉林的校準后的相關(guān)系數(shù)均大于其他地區(qū),而溫帶荒漠與溫帶草原植被區(qū)校準后的相關(guān)系數(shù)相對較小。暖溫帶落葉闊葉林、溫帶針葉落葉闊葉混交林、青藏高原高寒植被區(qū)域校準效果一般。
圖4 全國植被區(qū)域的GPM日降水量與站點實測日降水量的泰勒分布圖
綜上分析,基于遺傳編程的衛(wèi)星降水量的校準適合降水量充沛的中國東南部地區(qū)的校準,降水量越大,相關(guān)性越大,校準效果越好。即在考慮植被對GPM 降水產(chǎn)品影響的基礎(chǔ)上,遺傳編程對GPM 衛(wèi)星降水量的校準有了進一步的改進。
本研究從日降水尺度的數(shù)據(jù)出發(fā),利用遺傳編程挖掘數(shù)據(jù),得出衛(wèi)星降水量與影響因素中的潛在關(guān)系,生成直觀的公式,實現(xiàn)了衛(wèi)星降水量的校準。研究表明,空間分布、季節(jié)和溫度對衛(wèi)星降水量的校正具有重要價值。夏季溫度高且降水量較多,校準后CC 提高了15%左右,校準效果最好;中國東部和南部,溫度偏高,降水量充沛,衛(wèi)星降水容易高估數(shù)據(jù),CC 相比其他地區(qū)提高10%-20%;中國西部和北部地區(qū)降水量相對少,溫度普遍較低,冰雹、雪固體降水量難測量,且土壤濕度低,降水量蒸發(fā)較快,衛(wèi)星降水容易低估數(shù)據(jù),導致校準效果較差?;谶z傳規(guī)劃的衛(wèi)星降水量的校準適合降水充沛季節(jié)和地區(qū)的校準,降水量越大,相關(guān)性越大,校準效果越好。