馬志峰,張 浩,劉 劼
(1.哈爾濱工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱150001;2.哈爾濱工業(yè)大學(xué)(深圳)國際人工智能研究院,廣東 深圳 518055)
短臨降水預(yù)報一般指預(yù)測局部地區(qū)未來0~2 h的降水[1-3],是天氣預(yù)報領(lǐng)域最重要的任務(wù)之一[4,5],其不僅要求預(yù)報的準(zhǔn)確性和及時性,還要求預(yù)測的精細程度,即期望獲取到準(zhǔn)確、及時和高分辨率的預(yù)測結(jié)果[6]。短臨降水預(yù)報的應(yīng)用無處不在,極大地影響著人類的生產(chǎn)和生活,如航空業(yè)需要根據(jù)氣象服務(wù)信息來判斷是否允許航班起飛[7,8];農(nóng)業(yè)從業(yè)者需要知道未來幾小時內(nèi)的降水信息來確定收割農(nóng)作物的最佳時機[9];海洋管理機構(gòu)依賴氣象預(yù)警服務(wù)及時通知出海捕撈的漁船避險等[10]。另外,還期望其在發(fā)生概率很小但危害很大的極端天氣事件(如暴雨和特大暴雨等)上表現(xiàn)良好,以保護人民的生命和財產(chǎn)安全[11]。由于短臨降水預(yù)報的重要性,其在氣象和計算機研究領(lǐng)域受到越來越多的關(guān)注[5,12]。
傳統(tǒng)的預(yù)報方式主要基于數(shù)值天氣預(yù)報NWP(Numerical Weather Prediction)[13]。數(shù)值天氣預(yù)報是在給定初始條件和邊界條件下,通過時間積分求解描述大氣運動的物理方程來預(yù)測未來時刻的大氣狀態(tài)[14]。其主要以雷達、衛(wèi)星、地面和高空觀測數(shù)據(jù)以及地形數(shù)據(jù)作為輸入,輸出在不同高度場下未來時刻的各種氣象要素(如溫度、濕度、風(fēng)速和降水等)的值。根據(jù)當(dāng)?shù)氐臍夂蛱攸c,世界上許多先進的氣象服務(wù)中心已經(jīng)逐步建立了自己的數(shù)值預(yù)報模式,如中國的GRAPES(Global/Regional Assimilation and PrEdiction System)[15]和美國的WRF(Weather Research and Forecasting)[16]。然而,NWP通常受初始條件場的影響較大,需要一個積分周期來啟動推演過程,這導(dǎo)致其在0~2 h的前置時間內(nèi)預(yù)報不佳[17,18]。此外,NWP的計算成本高昂,導(dǎo)致其不能提供小尺度的預(yù)測[19]。因而,基于雷達的預(yù)報成為了其替代方案。光流法[20]通過獲取雷達回波圖的光流場來推斷降雨區(qū)域的運動。相比于NWP,光流法的計算效率較高,預(yù)測圖像較為清晰,這使得其成為了在極短時間內(nèi)預(yù)測時使用的主流模型。然而,當(dāng)應(yīng)用于短期預(yù)測時,光流法預(yù)測精度較低(預(yù)測圖畸變效應(yīng)明顯),無法滿足實際應(yīng)用的需求[21]。
近年來,隨著計算機硬件(如GPU、TPU)性能的大幅提升[22],深度學(xué)習(xí)技術(shù)蓬勃發(fā)展,在各領(lǐng)域的應(yīng)用效果優(yōu)于傳統(tǒng)方法[23,24]的。大多數(shù)研究工作將短臨降水預(yù)報視為雷達序列預(yù)測任務(wù),而雷達序列預(yù)測屬于視頻預(yù)測(或時空序列預(yù)測,圖像序列預(yù)測)的子任務(wù)[25],因此,用于視頻預(yù)測的模型一般都適用于雷達序列預(yù)測任務(wù),只是由于降水云團存在膨脹、消散、變形等更為復(fù)雜的運動變換,雷達序列預(yù)測任務(wù)比一般的圖像序列預(yù)測問題更具挑戰(zhàn)性[26,27]。有些模型[28,29]只在雷達回波數(shù)據(jù)集上進行了實驗,有些模型[30,31]在其它的視頻數(shù)據(jù)集上進行了實驗,有些模型兼顧了兩者[32,33],這些模型都是本文介紹的重點,在模型部分本文將重點介紹這些和短臨降水預(yù)報和視頻預(yù)測相關(guān)的模型。目前主流的視頻預(yù)測模型可以分為2類[27]:確定性模型和隨機生成模型。確定性模型主要有以UNet[34]為代表的卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)、以ConvLSTM[35]為代表的循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)以及兩者的混合模型。隨機生成模型主要有生成對抗網(wǎng)絡(luò)GAN(Generative Adversarial Network)[36]、變分自編碼器VAE(Variational Auto-Encoder)[37]以及兩者的混合模型[38]。
由于短臨降水預(yù)測是一個跨學(xué)科的科研問題,涉及到多個學(xué)科的交叉和融合[39],如:氣象學(xué)、地理學(xué)、計算機視覺和人工智能等,關(guān)于該領(lǐng)域的研究知識分散在各個學(xué)科相關(guān)的會議和期刊文獻上。本文重點整理了近年來在計算機視覺、人工智能、地理以及數(shù)據(jù)挖掘等領(lǐng)域的國際頂級會議(如 CVPR (IEEE/CVF Computer Vision and Pattern Recognition Conference)、AAAI(AAAI Conference on Artificial Intelligence)、NeurIPS(Conference on Neural Information Processing Systems)、ICML(International Conference on Machine Learning)等)與學(xué)術(shù)期刊(如 TGRS(IEEE Transactions on Geoscience and Remote Sensing)、Nature、TPAMI(IEEE Transactions on Pattern Analysis and Machine Intelligence)等)上發(fā)表的與視頻預(yù)測和短臨降水預(yù)測相關(guān)的論文并進行了歸納和分析。據(jù)我們所知,目前國內(nèi)只有一篇關(guān)于深度學(xué)習(xí)在短臨降水預(yù)報中應(yīng)用的中文綜述文獻[40]。然而,這綜述文獻只是簡單地介紹了年份久遠的RNN模型,且沒有介紹相關(guān)的數(shù)據(jù)集、度量和損失函數(shù)??傊?其沒有完整地介紹短臨降水預(yù)測任務(wù)中各個方面的問題,不能起到綜述應(yīng)有的作用。目前國際上有幾篇關(guān)于視頻預(yù)測的英文綜述文獻[41-43],其中文獻[42]最具代表性。該文獻主要介紹了視頻預(yù)測、人體姿勢識別和視頻語義分割等視頻相關(guān)的問題,但其并不是專門針對短臨預(yù)測這個子問題的綜述。本文是專門針對短臨降水預(yù)測任務(wù)的綜述,詳細介紹了短臨預(yù)測任務(wù)中的各種模型、損失、度量和數(shù)據(jù)集等,還分析和總結(jié)了在科學(xué)研究過程中遇到的其它的比較隱蔽的科學(xué)問題。
本文的組織結(jié)構(gòu)如圖1所示。具體來說,本文第1節(jié)講述了短臨天氣預(yù)測的意義、相關(guān)的研究背景、與其他綜述文獻的區(qū)別以及本文的價值所在;第2節(jié)給出了短臨天氣預(yù)測問題的定義;第3節(jié)介紹了相關(guān)的模型分類以及一些隱蔽的科學(xué)研究問題;第4節(jié)歸納了開源的數(shù)據(jù)集及其下載方式;第5節(jié)詳細分析了度量和評價指標(biāo)的優(yōu)缺點;第6節(jié)介紹與模型訓(xùn)練相關(guān)的損失函數(shù);第7節(jié)展望了短臨降水預(yù)測未來的研究方向;最后,第8節(jié)對全文的工作進行了總結(jié)。
Figure 1 Organization of this paper
Figure 2 An example of precipitation nowcasting
(1)
雖然關(guān)于短臨降水預(yù)測的模型眾多,但目前并沒有一個詳細且完整的總結(jié)。本節(jié)將全面、具體地介紹相關(guān)的模型,并討論其優(yōu)缺點。
目前主流的視頻預(yù)測模型可以分為2類:確定性模型和隨機生成模型。確定性視頻生成方法為觀察到的幀只生成一種可能的未來。相比之下,隨機視頻生成方法專注于建模未來的不確定性并生成不同可能的未來幀。另外,本文還對這2類模型中相似的模型進行了總結(jié)和重新分類。
確定性模型主要有以UNet[34]為代表的卷積神經(jīng)網(wǎng)絡(luò)CNN、以ConvLSTM[35]為代表的循環(huán)神經(jīng)網(wǎng)絡(luò)RNN以及兩者的混合模型。本文在表1和表2中分別總結(jié)了基于CNN和RNN的模型。
Table 1 Deterministic models based on CNN
Table 2 Deterministic models based on RNN
3.1.1 卷積神經(jīng)網(wǎng)絡(luò)
UNet[34]最早應(yīng)用于醫(yī)療圖像分割任務(wù),其結(jié)構(gòu)和用于圖像分類的卷積神經(jīng)網(wǎng)絡(luò)類似,主要由卷積層和池化層構(gòu)成鏡像金字塔結(jié)構(gòu)來保持輸出和輸入分辨率的一致,并且使用跳躍連接來組合同尺度下編碼器的低級細節(jié)特征和解碼器的高級語義特征。
鑒于UNet結(jié)構(gòu)簡單、計算需求小、易于部署、且不會像其它卷積神經(jīng)網(wǎng)絡(luò)一樣帶來分辨率的損失,有許多研究工作將其拓展到短臨天氣預(yù)測領(lǐng)域。RainNet[28]將UNet的分類頭替換為預(yù)測頭,用于德國全境的雷達拼圖預(yù)測任務(wù)。SE-ResUNet[47]將SE(Squeeze and Excitation)[75]模塊整合到UNet中,且已被集成到北京市海淀區(qū)氣象局的氣象預(yù)報服務(wù)中。SmaAt-UNet[49]引入注意力機制[76]到UNet中,并使用深度可分離卷積[77]來減少參數(shù)量和運算量。Agrawal等人[46]將降雨分為3個類別(輕微降雨、小雨和中雨),然后使用UNet預(yù)測美國大陸的降水。Broad-UNet[52]使用衛(wèi)星圖像而不是常規(guī)的雷達圖像,其還在UNet的基礎(chǔ)上引入了多尺度分解卷積[78,79]和空間金字塔池模塊[80]來預(yù)測荷蘭境內(nèi)的降水。Han等人[55]將UNet用于中國北方區(qū)域的對流降水預(yù)報。Ko等人[56]采用預(yù)訓(xùn)練和微調(diào)的方式訓(xùn)練UNet,并將其用于韓國境內(nèi)的降水估計。ADC_Net[59]融合空洞卷積、注意力卷積及循環(huán)卷積構(gòu)建了一個類似UNet鏡像金字塔結(jié)構(gòu)的雷達回波外推模型。
基于UNet的模型通常用前面時刻的多幀去預(yù)測下一幀(如圖3a所示),然后遞歸地預(yù)測后面的幀以學(xué)習(xí)序列中的時間趨勢,也有一些研究工作(STConvS2S[50])嘗試使用3D卷積來捕捉幀之間的時間依賴。然而,卷積是為了提取圖像中的空間特征和捕獲局部空間依賴而設(shè)計的,其在捕獲時間變化方面存在天然的劣勢[32]。在如此困難的時空序列預(yù)測任務(wù)下,只使用卷積無法應(yīng)對復(fù)雜的非線性時空變換[81]。
Figure 3 Model structure of UNet,UNet+RNN,MS-RNN
圖3中白色框表示編碼器,灰色框表示解碼器,黑色框表示瓶頸層。
3.1.2 遞歸神經(jīng)網(wǎng)絡(luò)
與卷積適合提取空間特征相反,基于馬爾科夫假設(shè)的RNN在處理時序數(shù)據(jù)上有著優(yōu)異的表現(xiàn)[42]。直覺上結(jié)合CNN和RNN可能適合處理短臨天氣預(yù)測這樣一個時空序列任務(wù),然而簡單地拼接2個模型并不可行,原因是時空是交織在一起的,不是割裂的。ConvLSTM[35]的提出奠定了RNN模型在短臨降水預(yù)測領(lǐng)域的統(tǒng)治地位。ConvLSTM將LSTM[82]的輸入到狀態(tài)和狀態(tài)到狀態(tài)轉(zhuǎn)換中的全連接(1×1卷積)替換為卷積(3×3卷積或者更大)來同時捕獲時空運動趨勢。ConvLSTM模型的核心是同LSTM一樣的記憶忘記機制[83,84],即記住并忘記過去以應(yīng)對未來的不確定性。
ConvLSTM存在的問題是會產(chǎn)生模糊的預(yù)測圖像,并且這種趨勢隨著預(yù)報時間的推移愈發(fā)地明顯(如圖2所示)[33]。從模型結(jié)構(gòu)層面來說原因有2點:ConvLSTM模型過于簡單和性能不夠強大。從損失函數(shù)層面來說,MSE(Mean Square Error)或者MAE(Mean Absolute Error)損失總是帶來未來狀態(tài)的平均,使得ConvLSTM難以應(yīng)對未來的不確定性[42]。本文將在第3.2節(jié)和第6節(jié)討論關(guān)于損失函數(shù)的改進,本節(jié)主要討論關(guān)于RNN模型結(jié)構(gòu)的改進。
在自然語言處理NLP(Natural Language Processing)領(lǐng)域中,Seq2Seq[85]結(jié)構(gòu)在機器翻譯和文本預(yù)測任務(wù)上表現(xiàn)優(yōu)異。隨著ConvLSTM的提出,圖像預(yù)測和文本預(yù)測任務(wù)之間的差異不再明顯,許多模型將Seq2Seq結(jié)構(gòu)遷移到視頻預(yù)測領(lǐng)域。原始的Seq2Seq架構(gòu)如圖4所示,其中白色框表示編碼器,灰色框表示解碼器,EOS(End of Sequence)代表序列結(jié)束,此時的輸入是零張量。從圖4可知,原始的Seq2Seq通過自回歸來完成逐步的預(yù)測,左邊是編碼器,用于編碼觀測到的幀序列;右邊是解碼器,用于解碼編碼器最后一個時刻的隱狀態(tài)。訓(xùn)練期間解碼器的輸入可以使用真實幀也可以使用預(yù)測幀,但通常采用計劃采樣策略(Scheduled Sampling)[86]來彌補訓(xùn)練和測試階段解碼器輸入的不一致。ConvLSTM的不同變體使用了不同的Seq2Seq結(jié)構(gòu),接下來本文將結(jié)合模型設(shè)計來詳細介紹這些架構(gòu)的不同。
Figure 4 Model structure of Seq2Seq
ConvLSTM采用的模型結(jié)構(gòu)如圖5a所示,其中白色框表示編碼器,灰色框表示解碼器。相較于原始的Seq2Seq結(jié)構(gòu),其解碼器沒有輸入(輸入全為0的張量),只有沿著時間軸傳播的記憶(Hidden State and Cell State)。為了進一步提升ConvLSTM的性能來緩解模糊問題,許多研究工作改進了ConvLSTM的基本單元,并使用不同的Seq2Seq結(jié)構(gòu)。
Figure 5 Model structures of ConvLSTM and TrajGRU
TrajGRU[62]認為跨時間軸的卷積連接是隨位置不變的(Location-invariant),而自然界的運動或變換(如旋轉(zhuǎn))一般是隨位置變化的(Location-variant),這不利于學(xué)習(xí)像素之間的時空關(guān)聯(lián)。為了解決此問題,TrajGRU將光流法引入ConvGRU的狀態(tài)到狀態(tài)轉(zhuǎn)換中(原來是卷積)。相比于ConvLSTM,其結(jié)構(gòu)略有不同(如圖5b所示)。TrajGRU調(diào)轉(zhuǎn)了解碼器的預(yù)測方向,并在此基礎(chǔ)上引入多尺度結(jié)構(gòu),使得編解碼器的層處于同一特征級別上。TrajGRU的編碼器和解碼器的每一層的尺度是一致的,越是底層尺度越小。為了方便與ConvLSTM進行對比,本文沒有在圖5b中體現(xiàn)這點。
像其它深度神經(jīng)網(wǎng)絡(luò)一樣,ConvLSTM也是通過疊加更多的層來獲取更高的性能。然而,這種結(jié)構(gòu)中只有輸出(隱含狀態(tài))自下而上傳遞,層與層之間的記憶單元在時域上是相互獨立的。在這種情況下,底層將完全忽略頂層在之前的時間步驟中記住的內(nèi)容。為了克服這一缺點,Wang等人[33]提出了PredRNN,它允許不同層之間的記憶跨層交互。國家氣象中心已將其作為短臨降水預(yù)報的基礎(chǔ)模型。相比于ConvLSTM,PredRNN增加了網(wǎng)絡(luò)的寬度,增加了約1倍的參數(shù)量,帶來了更好的性能。PredRNN的模型結(jié)構(gòu)如圖6a所示,其中沿著之字形路徑傳播的信息流是用于層間記憶交互的時空記憶(Spatiotemporal Memory)。原始的Seq2Seq的編碼器并不會輸出預(yù)測值,因為輸入幀的下一時刻的預(yù)測值并不是想要預(yù)測的。然而,PredRNN的編碼器輸出了這些幀,并且在損失函數(shù)中做出了相應(yīng)的懲罰,這導(dǎo)致網(wǎng)絡(luò)的前幾層成為編碼器,而后幾層成為解碼器。在時空序列預(yù)測這樣一個自監(jiān)督任務(wù)背景下,這種做法懲罰了更多的幀,有益于模型學(xué)習(xí)更多的運動趨勢(幾乎整個序列的運動)。
PredRNN++[31]重新整理了PredRNN中的張量流來增強模型的短期趨勢建模能力,并在第1層和第2層之間加入了梯度高速公路GHU(Gradient Highway Unit)來增強模型的長期趨勢建模能力。本質(zhì)上,GHU是一個GRU層。相比于PredRNN,PredRNN++通過增加網(wǎng)絡(luò)深度來捕獲更多的時空上下文信息。
受傳統(tǒng)時間序列經(jīng)典模型ARIMA(Auto-Regressive Integrated Moving Average )[87]的啟發(fā),MIM[27]通過多次差分將非平穩(wěn)過程轉(zhuǎn)換為平穩(wěn)過程[88],其在PredRNN的基礎(chǔ)上引入了2個記憶模塊(Non-stationary Memory and Stationary Memory)來建模時空動力學(xué)中的非平穩(wěn)和近似平穩(wěn)特性。另外,其還引入了沿著對角路徑傳播的張量流,用于差分同一層相鄰2幀之間的隱狀態(tài)(如圖6b所示)。此外,還可以替換PredRNN為PredRNN++構(gòu)建MIM*模型。然而相對于PredRNN,MIM增加了網(wǎng)絡(luò)的寬度,增加了大約2倍的參數(shù)量,這可能是模型性能提升的根本原因。
E3D-LSTM[65]將PredRNN中的2D卷積替換為3D卷積來使記憶單元更好地存儲短期特征,并引入門控自我注意模塊來回憶長期歷史上下文信息。不同于PredRNN使用單幀預(yù)測單幀的方式來進行一步預(yù)測,E3D-LSTM采用類似UNet的方式使用多幀預(yù)測一幀來進行一步預(yù)測。相比于PredRNN,E3D-LSTM使用了3D卷積,這將引入巨大的參數(shù)量和顯存占用量。
PredRNN和MIM的模型結(jié)構(gòu)如圖6所示,其中白色框表示編碼器,灰色框表示解碼器。
和PredRNN引入沿著層和時間軸傳遞的時空記憶不同,SA-ConvLSTM[67]在ConvLSTM的基礎(chǔ)上引入了沿著時間軸傳遞的自我注意記憶SAM(Self-Attention Memory)。SA-ConvLSTM中的隱狀態(tài)(Hidden State)和SAM一樣都采用了自我注意機制來捕獲全局空間依賴和長程時間依賴,并且2個注意力模塊共享了查詢部分(Query)。SA-ConvLSTM使用了深度可分離卷積來降低由自我注意力帶來的額外的參數(shù)量和巨大的顯存占用量。盡管SA-ConvLSTM的參數(shù)量少于PredRNN的,性能優(yōu)于MIM*的,但在實際應(yīng)用中,一般的顯卡無法承受其巨大的顯存占用量,導(dǎo)致其只能用于圖像尺寸較小的數(shù)據(jù)集。
MotionRNN[26]認為物理世界的運動可以分解為瞬時變化和運動趨勢,而后者可以看作是以前運動的積累。MotionRNN在MIM(也可使用前面介紹的其他模型)的層之間加入 MotionGRU來同時捕捉瞬態(tài)變化(Transient Memory)和運動趨勢(Trend Memory),MotionGRU的核心思想是動量衰減策略(常用于梯度下降算法)[89],用于學(xué)習(xí)瞬時變化并累積運動趨勢。相對于MIM,MotionRNN本質(zhì)上是增加了網(wǎng)絡(luò)的深度。盡管其使用編解碼壓縮了參數(shù)量,但這也導(dǎo)致其性能和MIM的相當(dāng)。另外,由于引入光流法的緣故,MotionRNN的訓(xùn)練和TrajGRU一樣較為緩慢。
卷積遞歸混合模型如圖3b所示,這類模型只在瓶頸層使用LSTM或者ConvLSTM,它們既具有UNet簡單輕便的多尺度空間結(jié)構(gòu),又兼?zhèn)銵STM的時間建模能力。它們通常作為GAN的生成器或者VAE的主干結(jié)構(gòu)。使用此類結(jié)構(gòu)的模型有:FSTN[90]、BP-Net[91]、BCnet[92]、HAF-SVG[93]、Chen等人提出的模型[94]和TsGAN[95]等。
生成模型主要用于應(yīng)對未來的不確定性,它們生成多種可行的預(yù)測,而不是單一的結(jié)果。隨機生成模型主要有生成對抗網(wǎng)絡(luò)GAN[36]和變分自編碼器VAE[37]以及兩者的混合模型,表3給出了隨機生成模型的總結(jié)。
Table 3 Random generation models
3.2.1 生成對抗神經(jīng)網(wǎng)絡(luò)
由于像素空間的高維性,從原始像素值中提取一個魯棒的表示是一項非常復(fù)雜的任務(wù)[42]。連續(xù)幀之間的逐像素變化導(dǎo)致在長期水平上的預(yù)測誤差呈指數(shù)增長,MSE這類像素級預(yù)測損失通過模糊預(yù)測來適應(yīng)視頻固有的不確定性。另外,天然的視頻是服從多峰分布的,而MSE損失函數(shù)假定數(shù)據(jù)服從高斯分布[21]。最小化MSE將傾向于獲取多個結(jié)果的平均,使得預(yù)測結(jié)果丟失了大部分的高頻細節(jié),這與人類的直觀視覺感受相違背。
為了克服這些局限性,許多研究工作將生成對抗訓(xùn)練引入到視頻預(yù)測任務(wù)中。GAN是受博弈論[107]的啟發(fā)而提出的,通過學(xué)習(xí)數(shù)據(jù)的概率分布使其很容易地從學(xué)習(xí)到的分布中生成新的未出現(xiàn)過的樣本。GAN是由2個相互競爭的學(xué)習(xí)系統(tǒng)組成的,分別稱為生成器和判別器。它們被聯(lián)合訓(xùn)練成一個極大極小博弈游戲,以生成與真實數(shù)據(jù)相似的假樣本。生成器產(chǎn)生新的樣本試圖欺騙判別器,而判別器則試圖區(qū)分出由生成器生成的樣本。
在原始的GAN中,生成器從隨機噪聲中采樣新數(shù)據(jù),而在短臨降水預(yù)測任務(wù)中,GAN的生成器一般從前面介紹的CNN或者RNN模型的預(yù)測中采樣。GA-ConvGRU[21](如圖7所示)是最為簡單的生成模型,其使用前面介紹的RNN模型作為生成器,并使用一個二分類判別器來辨別真實雷達圖和預(yù)測圖來對抗重建損失(MSE)導(dǎo)致的模糊。Mathieu等人[96]提出了3種不同但互補的學(xué)習(xí)策略(多尺度結(jié)構(gòu)、對抗訓(xùn)練和圖像梯度差分損失函數(shù)GDL(Gradient Difference Loss))來對抗模糊。與Mathieu等人提出的學(xué)習(xí)策略類似,MCNet[97]引入了多尺度、對抗訓(xùn)練和GDL損失,但其分解了運動和內(nèi)容。Ravuri等人[1]認為產(chǎn)生模糊的降水預(yù)測的原因是缺乏約束,其使用2個判別器分別用于甄別生成的幀在時間和空間維度上是否相似。BCnet[92]分為正向預(yù)測模塊和反向預(yù)測模塊(作為額外的約束)。正向預(yù)測模塊使用當(dāng)前序列預(yù)測未來序列,反向預(yù)測模塊使用正向模塊的輸出再去預(yù)測當(dāng)前序列。當(dāng)正向預(yù)測模糊時,反向預(yù)測會放大誤差,導(dǎo)致出現(xiàn)更模糊的序列。這使得正向預(yù)測模塊朝著減少運動混淆的方向進行優(yōu)化,縮小了解空間的大小。FSTN[90]使用CNN與ConvLSTM的組合作為生成器,能同時進行視頻外推和視頻插值。Znet[99]使用類似計劃采樣的思想訓(xùn)練GAN,這在一定程度上緩解了預(yù)測的模糊性。其使用了2個生成器,一個完全使用預(yù)測幀作為輸入,一個完全使用真實幀作為輸入。TsGAN[95]使用2個階段來訓(xùn)練GAN,其中第1個階段用于生成預(yù)測圖像,并引入2個判別器分別用于判別單幅雷達圖像和整個序列的真假;第2個階段再次引入GAN來豐富對抗過程,進一步改善了模糊性的問題。Kim等人[22]提出了一種基于條件生成對抗網(wǎng)絡(luò)的雷達降雨預(yù)報方法,適用于10 min~4 h的短期天氣預(yù)報。Luo等人[24]將UNet多幀預(yù)測一幀再循環(huán)預(yù)測的思想融入到RNN中,作為GAN的生成器,之后用RNN逐步迭代預(yù)測的思想構(gòu)建了多尺度GAN,證實了GAN的正則化損失項能減緩雷達回波圖預(yù)測的模糊。
Figure 7 Model structure of GA-ConvGRU
盡管關(guān)于GAN的模型很多,然而對抗訓(xùn)練是不穩(wěn)定的。如果沒有明確的潛在變量解釋,GAN很容易崩潰[108,109],這時生成器將無法覆蓋可能的預(yù)測空間,陷入單一模式。此外,GAN經(jīng)常難以平衡對抗損失和重建損失,從而得到模糊的預(yù)測[110]。
3.2.2 變分自編碼器
除了對抗性訓(xùn)練之外,一些研究工作還通過編碼和重構(gòu)輸入的方式來建模未來的不確定性。這些模型基于變分自編碼器VAE[37],致力于從潛在表示構(gòu)成的先驗知識中估計出潛在的分布,以生成新的樣本。
Babaeizadeh等人[102]首次將潛在變量納入確定性的CNDA[60]架構(gòu)中,提出了SV2P模型。SV2P使用整個輸入視頻序列來近似后驗分布。Denton等人[103]將確定性模型與隨機潛變量相結(jié)合,提出了SVG網(wǎng)絡(luò)。與SV2P采用固定的高斯分布作為先驗不同,SVG(如圖8所示)采用可學(xué)習(xí)的高斯分布作為先驗。SVG是從一個隨時間變化的后驗分布中采樣的。隨機模型通常使用自回歸的方式根據(jù)模型生成的幀去預(yù)測下一幀。與自回歸模型的交錯過程相反,狀態(tài)空間模型將幀生成與動力學(xué)模型分開了。Franceschi等人[105]提出了一種用于視頻生成的狀態(tài)空間模型SRVP,其使用確定的狀態(tài)轉(zhuǎn)換表示幀之間的殘余變化。通過這種方式,時空動力學(xué)是用獨立于先前生成的幀的潛在狀態(tài)變量來建模的。盡管獨立的潛在狀態(tài)在計算上很有吸引力,但它們無法對視頻的運動歷史進行建模。SLAMP[106]假設(shè)內(nèi)容和運動歷史都被編碼在隨機潛在變量中,并以一種確定性的方式將它們分別解碼為內(nèi)容和運動的預(yù)測。HAF-SVG[93]放松了SVG中近似后驗變量的所有維度都是相互獨立的假設(shè),將近似后驗變量分解為多組,并假設(shè)組內(nèi)獨立、組外相關(guān)。
Figure 8 Model structure of SVG
3.2.3 生成對抗和變分混合模型
盡管基于變分推理的模型能夠產(chǎn)生各種貌似合理的結(jié)果,但與最先進的基于GAN的模型相比,VAE的預(yù)測不夠真實,質(zhì)量較低[42]。為了充分利用兩者的優(yōu)勢,一些研究人員將對抗訓(xùn)練與變分推理進行了結(jié)合。Lee等人[104]提出了SAVP模型,首次將潛在變量模型與GAN相結(jié)合,以增加視頻預(yù)測中的可變性,同時保持真實性。BP-Net[91]提出了一個具有挑戰(zhàn)性的新問題,涉及2個層面的不確定性:噪聲輸入的感知不確定性和時空建模中的動態(tài)不確定性。BP-Net使用序列重要性采樣SIS(Sequential Importance Sampling)[111]解決輸入的隨機性問題,使用VAE和GAN解決輸出的隨機性問題。
3.3.1 多尺度模型
在前面介紹的RNN模型中,PredRNN[33]、PredRNN++[31]、MIM[27]、SA-ConvLSTM[67]和MotionRNN[26]等通過將模型變得更寬和更深來提升模型性能和緩解模糊性,然而這種做法帶來了參數(shù)量和顯存占用量的增加[112]。在計算資源受限的情況下,這些模型只能用于低分辨率的任務(wù)。實際上在計算機視覺CV(Computer Vision)領(lǐng)域,除了深度(Depth)[113]和寬度(Width)[114]外,還有2個維度可以提高性能,即基數(shù)(Cardinality)[115]和尺度(Scale)[116]?;鶖?shù)通過對卷積進行分組來減少參數(shù)的數(shù)量,然后通過增加組的數(shù)量來提高性能,同時確保與原始卷積相同的參數(shù)量。不幸的是,基數(shù)也會加重顯存占用量。在視覺任務(wù)中,獲取多尺度表示要求特征提取器使用大范圍的感受野來描述不同尺度的對象,這可以通過疊加卷積層、使用更大的卷積核或使用池化(下采樣)來實現(xiàn)。其中,池化是最有效的方式。具體來說,前兩者分別增加了網(wǎng)絡(luò)的深度和寬度,而后者只是增加了一些沒有參數(shù)的層,并允許模型在低分辨率(低開銷)下運行。
在視頻預(yù)測領(lǐng)域,UNet模型本身就是多尺度的鏡像金字塔結(jié)構(gòu),在GAN和VAE中通常使用UNet和ConvLSTM聯(lián)合的多尺度結(jié)構(gòu),此外,CNDA[60]、SV2P[102]、SNA[61]和MS-RNN[112]將這種金字塔結(jié)構(gòu)遷移到RNN模型中(如圖3c所示)。其中CNDA、SV2P和SNA只能使用多尺度的ConvLSTM結(jié)構(gòu);而MS-RNN是通用的架構(gòu),能兼容很多RNN模型,通過替換基礎(chǔ)RNN模型可以得到多個多尺度模型,如MS-ConvLSTM、MS-TrajGRU、MS-PredRNN、MS-PredRNN++、MS-MIM和MS-MotionRNN等。相比于基礎(chǔ)RNN模型,MS-RNN性能更強,顯存占用量更少。UNet、UNet和ConvLSTM的組合,以MS-RNN這3種多尺度結(jié)構(gòu)的對比如圖3所示。
短臨降水預(yù)測通常需要高分辨率和小尺度的預(yù)測圖像,這樣就能精確地確定降水的具體位置。目前來說,用于訓(xùn)練模型的顯卡的顯存是固定的,顯存占用量更小的模型允許顯存承受更高分辨率的圖像輸入,這對短臨降水預(yù)測模型的落地應(yīng)用具有重要意義。除了使用多尺度結(jié)構(gòu)外,另一個降低顯存占用量的方法是使用塊(Patch),即將圖像進行切塊。該做法將切分的塊在通道維度拼接起來作為模型的輸入,再將模型的輸出還原到原始圖像分辨率。ConvLSTM[35]最早使用了這種做法,主要是受限于當(dāng)時落后的訓(xùn)練設(shè)備。TrajGRU[62]設(shè)計了新的多尺度結(jié)構(gòu)來進一步降低顯存占用量。PredRNN[33]、MIM[27]和MotionRNN[26]等模型都延續(xù)了ConvLSTM的做法。然而,使用Patch將帶來模型性能的顯著下降,并且可能會引發(fā)預(yù)測圖像的柵格效應(yīng)[42]。關(guān)于顯存占用量和模型性能的平衡,有待未來進一步探究。
3.3.2 時空上下文模型
在時空序列預(yù)測任務(wù)中,時間和空間2個維度你中有我,我中有你,交織在一起。一些模型像多尺度模型一樣關(guān)心空間上下文信息,另一些模型考慮如何獲取到更豐富的時間上下文信息。
CLCRN[95]基于地理位置特征的平滑性假設(shè),提出使用局部條件卷積來捕捉和模擬在整個地球球面上的局部氣象流模式。ContextVP[64]不依賴于深度網(wǎng)絡(luò)、多尺度架構(gòu)、解耦、光流和對抗訓(xùn)練來緩解模糊性,而是使用完全上下文的結(jié)構(gòu)來捕捉每個像素所有相關(guān)的時空上下文信息,并使用混合單元聚合這些信息。和SA-ConvLSTM[77]采用自我注意記憶模塊來記憶全局長期時間上下文信息不同,E3D-LSTM[65]和MAU[71]選擇軟注意力機制來記憶歷史幀的時間上下文信息。HPRNN[4]在編碼器和解碼器之間引入了一個長期記憶模塊來幫助長期天氣預(yù)測。LMC[72]將長期運動上下文存儲起來,并通過序列匹配機制回憶出已學(xué)習(xí)到的長期上下文信息。
3.3.3 解耦模型
視頻中的復(fù)雜運動是由多個因素相互作用并糾纏在一起形成的。解耦或者叫做解糾纏的方法將高維視頻分解為低維數(shù)據(jù),使得模型更容易學(xué)習(xí)潛在的時空動力學(xué)。這類模型有很多,如:PhyDNet[68]解耦了已知和未知物理知識,MIM[27]解耦了平穩(wěn)和非平穩(wěn)過程,MotionRNN[26]解耦了短期和長期趨勢,Znet[99]和PredRNN V2[32]解耦了時間和時空記憶,MCNet[97]和MoCoGAN[98]解耦了運動和內(nèi)容,DPG[48]解耦了平移和變形,Jin等人[100]通過小波變換解耦了時間和空間,STRPM[101]解耦了時間和空間,FDNet[7]解耦了光流場運動與形態(tài)變形等等。然而,盡管從原理上的解釋是合理的,但有些模型引入了額外的編解碼器或者生成判別器,帶來了參數(shù)量的增加,這可能是性能提升的根本原因,但在損失函數(shù)中加入新的正則約束項,將會縮小解空間的大小,這種做法應(yīng)該能起一定的作用。
3.3.4 多模態(tài)模型
不同于視頻預(yù)測任務(wù)只有單一的視頻幀輸入,短臨天氣預(yù)測可以有多種模態(tài)的數(shù)據(jù)輸入。氣象數(shù)據(jù)可通過衛(wèi)星、雷達、地面觀測站、高空探測站獲取,有時也可采用數(shù)值天氣預(yù)報模式NWP的預(yù)測值作為輸入源。此外,衛(wèi)星具有不同的遙感通道,這些通道數(shù)據(jù)代表的含義不同;雷達使用不同的仰角將得到不同高度的反射率回波圖;地面和高空觀測將獲取到風(fēng)速、風(fēng)向、壓力、濕度及降水等多種氣象要素數(shù)據(jù)??傊?氣象數(shù)據(jù)源眾多,推動了多模態(tài)降水預(yù)測模型的發(fā)展。
Tran等人[8,17]使用從不同高度采集的雷達反射率數(shù)據(jù)來學(xué)習(xí)垂直維度上的氣象時空動力學(xué)。Wu等人[117]融合了衛(wèi)星、地面觀測站和地形數(shù)據(jù)來預(yù)測中國大陸的日降水量。Ivashkin等人[118]提出了一種融合雷達和衛(wèi)星數(shù)據(jù)的算法。Bouget等人[53]使用雷達數(shù)據(jù)和NWP預(yù)測出的風(fēng)要素預(yù)報降水。Franch等人[119]將地形數(shù)據(jù)作為輸入。FURENet[29]引入了2個額外的極化雷達變量數(shù)據(jù)。MetNet[69]融合了衛(wèi)星、雷達和地形數(shù)據(jù),其性能優(yōu)于數(shù)值天氣預(yù)測。MetNet-2嘗試使用所有可用的數(shù)據(jù)源(地面觀測、高空觀測、雷達和衛(wèi)星等),能夠提供長達12 h前置時間的大規(guī)模降水預(yù)報,該模型比目前在美國大陸運行的最先進的基于物理的模型HRRR和HREF的性能更高。此外,MetNet-2還嘗試結(jié)合物理模型來進行更準(zhǔn)確的降水預(yù)測。前面的這些工作都是以UNet或者ConvLSTM為基礎(chǔ)的模型,而FourCastNet[120]與這些模型不同,采用了最新的神經(jīng)網(wǎng)絡(luò)架構(gòu)ViT[121]進行多模態(tài)降水預(yù)測。FourCastNet認為降水?dāng)?shù)據(jù)較為稀疏,呈現(xiàn)出長尾分布特征,不容易被學(xué)習(xí),因此其使用其它相對連續(xù)且容易被預(yù)測的氣象要素(如風(fēng)速、壓力、溫度等)去預(yù)測降水。FourCastNet采用先預(yù)測1幀再預(yù)測2幀的逐步預(yù)訓(xùn)練的方式來同時進行其它氣象要素的預(yù)測,然后再使用同一個模型去預(yù)測降水。然而,FourCastNet的訓(xùn)練過程極其復(fù)雜,并且需要時間跨度較長的數(shù)據(jù)集來學(xué)習(xí)潛在的全球氣候變化。雖然FourCastNet可能不適用于短期降水預(yù)測,但FourCastNet的出現(xiàn)至少證明了ViT也可作為基礎(chǔ)模型用于時空序列預(yù)測任務(wù)。
總之,這些多模態(tài)工作在數(shù)據(jù)融合方面做出了一定的嘗試。然而這些多模態(tài)數(shù)據(jù)通常具有一定的觀測誤差,它們的時間或空間分辨率也不同,需要插值對齊,這都帶來了額外的誤差。這些誤差的存在可能會影響到多模態(tài)模型的性能。
3.3.5 遷移學(xué)習(xí)模型
遷移學(xué)習(xí)涉及到的面較廣,具有不同的實現(xiàn)形式,如預(yù)訓(xùn)練+微調(diào)[122]、知識蒸餾[123]、元學(xué)習(xí)[124]和小樣本學(xué)習(xí)[125]等。這些實現(xiàn)形式都是將已習(xí)得的強大技能遷移到相關(guān)的問題,以幫助目標(biāo)數(shù)據(jù)的學(xué)習(xí)。
使用預(yù)訓(xùn)練+微調(diào)的方式在CV和NLP領(lǐng)域很常見。這些模型先在相關(guān)的大規(guī)模數(shù)據(jù)集進行預(yù)訓(xùn)練,然后在目標(biāo)數(shù)據(jù)集上微調(diào)網(wǎng)絡(luò)權(quán)重。使用這種知識遷移方式能獲得更高的模型性能,并且有時可以節(jié)省在目標(biāo)任務(wù)上的訓(xùn)練時間。假設(shè)已經(jīng)有了一個在雨量充沛、運動豐富的雷達數(shù)據(jù)集上訓(xùn)練好的模型,那么可以通過微調(diào)的方式快速地將模型部署到新建的只具有較少歷史雷達數(shù)據(jù)的雷達站點上。然而,不同的地區(qū)可能有其獨特的氣候特征,并不是所有預(yù)訓(xùn)練模型的知識都可以直接應(yīng)用到目標(biāo)任務(wù)中。知識蒸餾探索從預(yù)訓(xùn)練模型中提取那些可轉(zhuǎn)移的表示。例如,當(dāng)需要訓(xùn)練一個干旱地區(qū)的降水預(yù)報模型時,有可能會利用從其他雨量充沛的地區(qū)學(xué)習(xí)到的天氣變化規(guī)律,但不同的氣候條件會導(dǎo)致不同的降水規(guī)律,這時就需要蒸餾出有用的知識并在目標(biāo)域上進行調(diào)整。
Han等人[126]首先在北京地區(qū)收集的大量雷達數(shù)據(jù)上進行預(yù)訓(xùn)練,然后分別建立了基于微調(diào)和基于最大均值差異最小化方法MMD(Maximum Mean Discrepancy)[127]的遷移學(xué)習(xí)模型來將學(xué)習(xí)到的知識遷移到與北京降水特征不同的廣州地區(qū)。Yao等人[38]設(shè)計了一個可轉(zhuǎn)移存儲器TMU(Transferable Memory Unit),使得目標(biāo)模型能夠自適應(yīng)地從大量源模型中學(xué)習(xí)。TMU與微調(diào)不同,其證明了從單個或多個源雷達站點訓(xùn)練的RNN模型中蒸餾出知識的遷移學(xué)習(xí)方式要優(yōu)于微調(diào),甚至可以從多個其它的視頻運動數(shù)據(jù)集(如數(shù)字運動數(shù)據(jù)集Moving MNIST[128]和人體運動數(shù)據(jù)集KTH[129]、Human3.6M[130]等)蒸餾獲取有用的知識來幫助提升模型在降水預(yù)測任務(wù)上的性能。
將源域的時空動力學(xué)作為先驗知識能幫助學(xué)習(xí)和理解目標(biāo)域的分布。然而,當(dāng)目標(biāo)域數(shù)據(jù)足夠充沛時,這種知識遷移方式的作用可能就會下降[38]。
本節(jié)介紹了多種短臨降水預(yù)測模型,它們的優(yōu)缺點如表4所示。
Table 4 Advantages and disadvantages of different precipitation nowcasting models
本節(jié)主要介紹不同國家和地區(qū)的多個開源雷達數(shù)據(jù)集,并討論了它們的優(yōu)缺點。表5總結(jié)了這些數(shù)據(jù)集。
Table 5 Existing open radar datasets
在氣象研究中,通常涉及到4個概念以及它們之間的相互轉(zhuǎn)換關(guān)系。反射率因子Z與空間單位體積的雨滴大小和數(shù)量有關(guān),其單位為mm6/m3。雷達回波強度dBZ代表相對于Z的分貝,通常其值在0~70。RGB或者灰度雷達圖像的像素用P表示,其值在0~255。降雨量用R表示,其單位為mm/h。
Z、dBZ和P的計算方式如式(2)~式(4)所示:
Z=(a×Rb)
(2)
dBZ=10lg(Z)
(3)
(4)
其中,a和b由當(dāng)?shù)氐臍夂蝾愋痛_定[131]??傊?通過這些公式就可以完成四者之間的相互轉(zhuǎn)換。
HKO-7數(shù)據(jù)集是與TrajGRU模型一起發(fā)表的,數(shù)據(jù)來源于香港天文臺,涵蓋2009至2015年共7年的數(shù)據(jù)。雷達圖像由單部雷達從2 km高度采集,雷達覆蓋512×512 km2的區(qū)域,采集圖像的時間和空間分辨率分別為6 min和480×480像素。TrajGRU使用該數(shù)據(jù)集時對數(shù)據(jù)進行了去噪處理,而且只取用下雨天的數(shù)據(jù)(共有993 d)。筆者認為去噪過程繁瑣,且去除異常值后圖像會出現(xiàn)空洞(像素為0),也是一個異常值。另外,使用沒有降雨或者降雨小的數(shù)據(jù)進行訓(xùn)練時,梯度不會更新或者更新慢,并不會影響到整體模型的訓(xùn)練。因此,如果想要盡快使用該數(shù)據(jù)集進行訓(xùn)練,建議直接使用原始數(shù)據(jù)集。香港地區(qū)的Z-R關(guān)系[131]為Z=58.53×R1.056。
DWD-12數(shù)據(jù)集[28]是由德國氣象局采集制作的,包含2006至2017年共12年的數(shù)據(jù)。圖像由17部雷達拼接而成,圖像大小為900×900像素,覆蓋了900×900 km2的區(qū)域,數(shù)據(jù)集的時間分辨率 (時間間隔)為5 min。該數(shù)據(jù)集分辨率高、年份多、云層運動豐富(德國屬溫帶海洋性氣候,常年多雨),實屬可貴。德國地區(qū)的Z-R關(guān)系(通過查閱德國氣象臺官方網(wǎng)站獲取到)為Z=256×R1.42。
Shanghai[136]雷達回波數(shù)據(jù)集使用來自上海浦東的雙極化多普勒氣象雷達(WSR-88D)的組合反射率數(shù)據(jù)。該數(shù)據(jù)集包含2015年10月至2018年7月每6 min采集一次的氣象數(shù)據(jù),共有170 000幅回波圖?;夭▓D已進行去噪、去缺失預(yù)處理。
Brazil數(shù)據(jù)集[137]采集自巴西圣保羅州,由單部雷達采集完成,涵蓋2015~2019年共5年的數(shù)據(jù)。數(shù)據(jù)集中雷達圖大小為40×40像素,覆蓋240 km2的區(qū)域,其時間分辨率為15 min。該數(shù)據(jù)集并不是一個標(biāo)準(zhǔn)的雷達數(shù)據(jù)集,原因是尺寸太小,時間跨度太長,這不利于模型捕捉復(fù)雜的運動趨勢,增加了預(yù)測的難度,但其可作為一個快速實驗數(shù)據(jù)集來驗證模型性能。該地區(qū)的Z-R關(guān)系為Z=300×R1.4。
在2017年,深圳市氣象局和阿里巴巴合辦了CIKM AnalytiCup 2017氣象競賽,并發(fā)布了一個雷達數(shù)據(jù)集。競賽發(fā)布的雷達圖的尺寸為101×101像素,覆蓋101×101 km2范圍,雷達圖的時間分辨率為6 min。由于該競賽傳播范圍較廣、影響較大,Github上已有大量的模型和數(shù)據(jù)預(yù)處理代碼可供借鑒。
SRAD2018數(shù)據(jù)集同樣以競賽的方式發(fā)布,該數(shù)據(jù)集由深圳市氣象局和香港天文臺攜手制作,使用的是從2010年至2017年的每年3月15日至7月15日的數(shù)據(jù),其中每幅雷達圖的大小為501×501像素,占地500×500 km2,數(shù)據(jù)集的時間分辨率為6 min。
NJU-CPOL數(shù)據(jù)集[29]由南京大學(xué)制作,收集了2014~2019年的數(shù)據(jù),涵蓋了268個降水事件。數(shù)據(jù)采集自3 km高度,覆蓋256×256 km2的區(qū)域。數(shù)據(jù)集的空間分辨率為1 km,時間分辨率為6~7 min。
TAASRAD19數(shù)據(jù)集[138]采集自意大利阿爾卑斯山附近的地區(qū),涵蓋2010~2019年共19年的數(shù)據(jù)。數(shù)據(jù)由單部雷達每5 min采集一次,圖像大小為480×480像素,覆蓋240 km2的區(qū)域。由于該數(shù)據(jù)集數(shù)據(jù)規(guī)模過大,如果全部使用會導(dǎo)致模型訓(xùn)練時間過長,建議使用部分年份數(shù)據(jù)進行訓(xùn)練。
MeteoNet[132]是一個多模態(tài)數(shù)據(jù)集,包含地面觀測站、衛(wèi)星、雷達、地形和數(shù)值天氣預(yù)報數(shù)據(jù)。MeteoNet由法國氣象局制作,完整的數(shù)據(jù)涵蓋法國西北部和東南部2個地理區(qū)域。本文主要介紹其在Kaggle競賽上提供的雷達數(shù)據(jù)(西北部)。數(shù)據(jù)集的時間間隔為5 min,包含從2016~2018年的數(shù)據(jù)。雷達圖由5部雷達拼接而成,原始圖像大小為784×565像素,涵蓋550 km2的區(qū)域。總的來說,該數(shù)據(jù)集數(shù)據(jù)規(guī)模適中,且數(shù)據(jù)采集地法國也屬溫帶海洋性氣候,降雨豐富,是一個理想的雷達數(shù)據(jù)集。法國地區(qū)的Z-R關(guān)系為Z=200×R1.6。
SEVIR[133]是一個時空對齊的多模態(tài)數(shù)據(jù)集,包含超過10 000個天氣事件,每個事件由覆蓋384×384 km2的圖像序列組成,跨越4 h的時間。SEVIR由麻省理工學(xué)院收集制作,其中的降水風(fēng)暴事件發(fā)生在美國大陸,每5 min收集一次。具體來說,其包含5種模態(tài)的數(shù)據(jù):GOES-16衛(wèi)星的3個通道數(shù)據(jù)、NEXRAD雷達降水事件以及GOES-16衛(wèi)星收集的閃電事件。SEVIR將多種天氣傳感模態(tài)數(shù)據(jù)組合并對齊到一個單一的數(shù)據(jù)集中,供氣象學(xué)家、數(shù)據(jù)科學(xué)家和其他研究人員免費使用。這將有利于天氣傳感、短期預(yù)測和其他相關(guān)應(yīng)用研究。
RAIN-F[134]也是一個時空對齊的多模態(tài)數(shù)據(jù)集,由26 280幅圖像組成,包含9個與降水變量相關(guān)的不同大氣狀態(tài)變量(如溫度、濕度、風(fēng)向和風(fēng)速等),覆蓋韓國大陸大部分區(qū)域。RAIN-F的時間分辨率為1 h,數(shù)據(jù)來源包括雷達、衛(wèi)星和地面觀測站。之后的數(shù)據(jù)集RAIN-F+[141]在RAIN-F的基礎(chǔ)上增加了地球靜止衛(wèi)星Himawari-8的數(shù)據(jù),并去掉了缺失值較多的壓力要素數(shù)據(jù)。韓國地區(qū)的Z-R關(guān)系為Z=200×R1.6。該數(shù)據(jù)集時間間隔較長,預(yù)測難度較大。
國家氣象科學(xué)數(shù)據(jù)中心官方網(wǎng)站公開了自2015年9月29日以來全國172個雷達站點每6 min 的基本反射率和組合反射率圖像數(shù)據(jù)。
對模型預(yù)測出的雷達回波圖進行質(zhì)量評估是必要的,需要評估圖像是否清晰,對小雨或者大雨的預(yù)測是否準(zhǔn)確等。但是,單個度量指標(biāo)不可能覆蓋到方方面面,一般使用多個指標(biāo)來衡量模型的預(yù)測能力。
如果模型的訓(xùn)練使用的是像素P或者雷達回波強度dBZ,那么首先需要使用式(2)~式(4)將真實或者預(yù)測圖像中的像素值P或雷達回波強度dBZ轉(zhuǎn)換為降雨值R。給定降雨閾值τ,如果R≥τ,那么賦值為1;反之,賦值為0。然后計算出TP(prediction=1,truth=1)、FN(prediction=0,truth=1),FP(prediction=1,truth=0)和TN(prediction=0,truth=0)。最后,就可以計算4個常見的臨近降水預(yù)報統(tǒng)計量:命中率POD(Probability of Detection)[35]、空報率FAR(False Alarm Rate)[139]、臨界成功指數(shù)CSI(Critical Success Index)[140]和Heidke技巧評分HSS(Heidke Skill Score)。
命中率POD表示預(yù)測的真正有降水區(qū)域占實際降水區(qū)域的比重。POD值在0~1,其中POD=1時表示預(yù)測效果最好,POD=0時最差。POD的計算如式(5)所示:
(5)
空報率FAR表示在預(yù)測有降水但實際沒有降水的區(qū)域占預(yù)報有降水區(qū)域的比重。FAR值在0~1,其中FAR=1時表示預(yù)測效果最差,FAR=0時最好。FAR的計算如式(6)所示:
(6)
臨界成功指數(shù)CSI表示正確預(yù)測降水區(qū)域占實際或預(yù)測有降水的區(qū)域總數(shù)的比例。CSI值在0~1,其中CSI=1時表示預(yù)測效果最好,CSI=0時最差。CSI計算如式(7)所示:
(7)
Heidke技巧評分HSS表示去除隨機事件的影響后的預(yù)報準(zhǔn)確率。HSS的值為-∞~1,完美的預(yù)測應(yīng)該是HSS=1。HSS的計算如式(8)所示:
HSS=
(8)
由于計算簡單快捷,在氣象預(yù)測中經(jīng)常使用概率統(tǒng)計誤差指標(biāo)MAE、MSE和RMSE(Root Mean Squared Error)來衡量降水預(yù)測的準(zhǔn)確性,其計算分別如式(9)~式(11)所示;
(9)
(10)
(11)
其中,X和Y分別表示預(yù)測和真實雷達圖像,m×n為圖像的大小。這些指標(biāo)都是越小越好,為0時表明預(yù)測圖像和真實圖像最相似。
常用的計算機視覺指標(biāo)有PSNR(Peak Signal to Noise Ratio)和SSIM(Structure Similarity)[141]。峰值信噪比PSNR是峰值信號的能量與噪聲的平均能量之比,表示的時候通常取10倍的lg變成分貝(dB)。由于MSE為真實圖像與含噪圖像之差的能量均值,而兩者的差即為噪聲,因此PSNR也可以叫做峰值信號能量與MSE之比。其計算如式(12)所示:
(12)
其中,MAX2表示最大像素值的平方。PSNR最小為 0,最大為正無窮。PSNR越大表明2幅圖像之間的差異越小。但是,這種基于MSE的評價指標(biāo)并不能很好地按人眼的視覺感受來衡量2幅圖像的相似度,經(jīng)常出現(xiàn)評價結(jié)果與人的主觀感受不一致的情況。
與MSE和PSNR衡量絕對誤差不同,SSIM基于人眼能提取圖像中的結(jié)構(gòu)化信息假設(shè),相比傳統(tǒng)方式更符合人眼視覺感知。SSIM主要考量圖像的3個關(guān)鍵特征:亮度、對比度和結(jié)構(gòu)。其使用均值作為亮度估計,標(biāo)準(zhǔn)差作為對比度估計,協(xié)方差作為結(jié)構(gòu)相似程度的度量。其計算如式(13)所示:
(13)
其中,μx和μy分別代表真實圖像和預(yù)測圖像的均值,σx和σy分別代表真實圖像和預(yù)測圖像的方差,σxy是真實圖像和預(yù)測圖像的協(xié)方差,c1和c2是常數(shù)。SSIM的值在-1~1。當(dāng)SSIM=1時表示2幅圖像最相似。在MSE和PSNR相同的情況下,SSIM指標(biāo)更大的預(yù)測圖像更銳利、更清晰。然而PSNR和SSIM都只適合畫面復(fù)雜度低或完全對齊的圖像,當(dāng)圖像較為復(fù)雜或者發(fā)生錯位時,其評價將不再準(zhǔn)確。
損失函數(shù)的設(shè)計和選擇至關(guān)重要。MSE損失函數(shù)(L2)在回歸任務(wù)中占據(jù)統(tǒng)治地位,其處處可導(dǎo),而且梯度值是動態(tài)變化的,使模型能夠快速地收斂,然而平方項會放大離群點的損失,那么MSE會以犧牲其它樣本的誤差為代價,朝著減小離群點誤差的方向更新,這就會降低模型的整體性能。相比之下,MAE損失(L1)在處理離群點時更柔和,但其存在一個嚴重的問題:更新的梯度始終相同,即使對于一個很小的損失值,也會產(chǎn)生較大的梯度,這顯然不利于模型學(xué)習(xí)。通常會使用MSE和MAE的組合來一起優(yōu)化模型。
通常情況下,隨著降雨級別的增加,小雨、中雨、大雨和暴雨發(fā)生的次數(shù)越來越少,即降雨數(shù)據(jù)整體呈現(xiàn)出長尾分布的特征。如果使用常規(guī)的MSE或者MAE損失,那么它們對大雨和小雨的懲罰是相同的,這可能導(dǎo)致模型會忽略那些發(fā)生概率很小但危害很大的暴雨事件。Shi等人[62]提出了對不同雨量級別加權(quán)的損失函數(shù)B-MAE(Balanced Mean Absolute Error)和B-MSE(Balanced Mean Squared Error),其計算分別如式(14)和式(15)所示:
(14)
(15)
其中,Wi,j為每個像素的權(quán)重,大雨的權(quán)重更大。相比于使用MSE或者MAE損失,使用B-MSE或者B-MAE作為損失函數(shù)會使模型在度量較大雨量的指標(biāo)如CSI-30、HSS-30上表現(xiàn)得更好,但會降低模型對小雨的預(yù)測性能。Cao等人[142]提出了一種組合了加權(quán)和不加權(quán)的損失函數(shù),嘗試解決B-MSE或者B-MAE忽略小雨這一缺陷。該損失函數(shù)強制每一種降雨級別的像素的總權(quán)重為1,以達到既關(guān)注大雨又關(guān)注小雨的目的。
使用MSE或者MAE作為損失函數(shù)進行訓(xùn)練帶來的另一個缺陷是預(yù)測圖像會模糊,并且隨著外推步數(shù)的增加,預(yù)測圖像的模糊效應(yīng)愈發(fā)明顯。原因是MSE損失的結(jié)構(gòu)設(shè)計決定了其假定圖像中高頻細節(jié)特征是噪聲,最小化MSE誤差,將使得其僅僅通過平均圖像像素值就可以得到全局最優(yōu)的結(jié)果,因此無法重建出清晰銳利的圖像。一些研究工作嘗試在MSE損失的基礎(chǔ)上引入正則項來緩解預(yù)測的模糊性。
Tran等人[143]引入結(jié)構(gòu)相似度指標(biāo)SSIM懲罰預(yù)測來獲取更符合人類視覺的圖像(此外還有表2中的一些參考文獻)。Song等人[47]引入IOU(Intersection over Union)[144]來重點關(guān)注降雨區(qū)域,其在氣象上等同于CSI,需要指定某個降雨閾值來計算,等同于關(guān)注某個級別的降雨。IOU的計算如式(16)所示:
(16)
多個文獻(如表2和表3所示)引入基于梯度的銳度損失GDL來銳化圖像預(yù)測。其計算如式(17)所示:
|Yi,j-Yi-1,j‖α+‖Xi,j-1-
Xi,j|-|Yi,j-1-Yi,j‖α)
(17)
其中,α是一個大于或等于1的整數(shù)??傊?使用正則化手段在一定程度上緩解了模糊問題。然而,如何平衡常規(guī)的損失函數(shù)和正則項之間的權(quán)重是一個棘手的問題,需要進行大量的實驗來選擇合適的權(quán)重,這增加了模型訓(xùn)練的難度。
MSE損失函數(shù)假定數(shù)據(jù)服從高斯分布,導(dǎo)致其無法處理多峰分布數(shù)據(jù),并且給預(yù)測帶來了模糊性。為了克服這些局限性,許多研究工作將生成對抗訓(xùn)練(損失)引入到視頻預(yù)測任務(wù)中。GAN[36]是由2個相互競爭的學(xué)習(xí)系統(tǒng)組成的,分別稱為生成器(G)和判別器(D)。通過玩極小極大的游戲,就可以訓(xùn)練這2個系統(tǒng)。生成器旨在生成與目標(biāo)分布中的樣本盡可能相似的樣本;而判別器則負責(zé)將生成的樣本與目標(biāo)分布中的樣本區(qū)分開來。經(jīng)過良好的訓(xùn)練,生成器可以模擬目標(biāo)分布。換句話說,生成器產(chǎn)生的樣本可以近似地認為是來自目標(biāo)分布的樣本。GAN的損失函數(shù)如式(18)所示:
Ez~p(z)[log(1-D(G(z)))]
(18)
其中,E(·)表示期望,q(x)表示真實數(shù)據(jù)的分布,p(z)表示隨機噪聲的分布。盡管GAN能生成更清晰、真實的樣本,但訓(xùn)練GAN需要達到納什均衡,而只有在損失函數(shù)是凸函數(shù)的情況下才能保證梯度下降算法實現(xiàn)納什均衡[145]。另外,交替訓(xùn)練生成器和判別器將導(dǎo)致訓(xùn)練不穩(wěn)定和梯度消失等問題[146]。
除了GAN,大量的研究工作還使用變分自編碼器VAE[37]來建模未來的不確定性和生成不同可能的未來幀。VAE是一種基于貝葉斯變分推理技術(shù)的自編碼器。VAE認為普通自編碼器的隱空間沒有被很好地組織,不夠規(guī)則,其在訓(xùn)練過程中引入顯式的正則項,以避免模型過度擬合。該正則化項用于懲罰隱空間的分布與標(biāo)準(zhǔn)高斯之間的KL(Kulback-Leibler) 散度(相當(dāng)于引入了隨機噪聲)[147],其計算如式(9)所示:
(19)
其中,P(x)和Q(x)為2個概率分布。VAE增加了預(yù)測的多樣性,但難以評估,需要多次運行才能獲得令人滿意的結(jié)果[27]。
視頻預(yù)測是一個像素級別的時序預(yù)測任務(wù)。相比于計算機視覺領(lǐng)域中的其他任務(wù)(如:視頻分類、視頻語義分割),視頻預(yù)測更加復(fù)雜?;诶走_回波圖的短臨降水預(yù)測任務(wù)屬于視頻預(yù)測的一種,然而,由于云團的膨脹、消散和變形,它比一般的視頻預(yù)測問題更具挑戰(zhàn)性。盡管目前已有許多研究工作取得了不錯的成果,但模糊問題依然沒有完全解決。因此,如何更有效地應(yīng)對復(fù)雜的非線性時空變換是未來研究的重點。此外,在短臨降水預(yù)測領(lǐng)域還存在一些其它的問題亟待解決。接下來本文將從多個方面討論未來值得進一步探究的科研問題。
(1)數(shù)據(jù)和算力是開展深度學(xué)習(xí)研究的基礎(chǔ),只有具備充足的數(shù)據(jù)和強大的算力支持才有可能開展進一步的模型、算法研究。算力可以通過租賃、購買的方式獲取,而數(shù)據(jù)是無價的。目前,關(guān)于降水的開放雷達數(shù)據(jù)集也不是很多,多模態(tài)的數(shù)據(jù)集就更加稀少了。這些珍貴的數(shù)據(jù)能使科研工作者快速開展研究,而不必在繁瑣的數(shù)據(jù)收集和預(yù)處理過程中耗費大量時間[148]。因此,如能貢獻降水相關(guān)的數(shù)據(jù)集也是一項有意義的工作。
(2)目前關(guān)于多模態(tài)的降水模型較少。一是因為多模態(tài)數(shù)據(jù)難以獲取,二是因為時空分辨率需要對齊。盡管這些因素嚴重阻礙了多模態(tài)模型的發(fā)展,但多模態(tài)模型同時考慮了多種輸入源,更符合自然界中人類通過多種感官認知事物的規(guī)律。在其他研究領(lǐng)域,多模態(tài)模型是一個研究熱點方向,如使用圖像、文本和聲音進行視頻分類。但是,在短臨降水預(yù)測領(lǐng)域仍需進一步探索。
(3)盡管目前短臨降水預(yù)測領(lǐng)域的模型眾多,且能夠得到一些令人滿意的結(jié)果,但這些模型(RNN、GAN和VAE)都存在各自的缺點。當(dāng)參數(shù)量足夠大、超參數(shù)設(shè)置和訓(xùn)練方式足夠合理時,這些模型的性能會趨于飽和。即模型自身的架構(gòu)存在瓶頸,這可以通過組合或者集成預(yù)測來解決。然而,使用舊的架構(gòu)組合仍不能從根本上解決預(yù)測模糊的問題。最近,ViT[121]的提出似乎指明了未來研究的方向。其首次將NLP中最為經(jīng)典的Transfomer[76]結(jié)構(gòu)遷移到視覺領(lǐng)域,并逐步在圖像分類[149]、語義分割[150]、目標(biāo)檢測[151]、視頻分類[152,153]和視頻分割[154,155]等各個子任務(wù)下取得了與傳統(tǒng)模型相媲美甚至更好的結(jié)果。鑒于視頻預(yù)測任務(wù)的困難性,目前只有少數(shù)工作探索了ViT在天氣預(yù)測或視頻預(yù)測領(lǐng)域的應(yīng)用,如FourCastNet[120]和MaskViT[156]。此外,Rainformer[157]和Earthformer[158]等模型已經(jīng)嘗試將完全基于注意力的Transfomer架構(gòu)應(yīng)用到短臨降水預(yù)測領(lǐng)域。因此,基于注意力的模型或者與之前模型的組合將指引短臨降水預(yù)測領(lǐng)域未來的發(fā)展方向。
(4)訓(xùn)練資源受限是視頻預(yù)測領(lǐng)域一個棘手的問題。加寬或加深模型來提升模型性能以減緩模糊性的方法所占用的顯存總歸要達到顯卡所能承受的最大值。引入多尺度結(jié)構(gòu)是一個解決辦法,但這只是減緩了模型達到顯存瓶頸的速度。此外,還可以使用分布式數(shù)據(jù)并行技術(shù),如PyTorch的DDP(Distributed Data Parallel )[159],將批數(shù)據(jù)(Batches)分散到多個顯卡上。然而,RNN模型占用的顯存量越來越大,40 GB顯存甚至不能維持批大小 (Batch Size)為1時RNN模型的訓(xùn)練。分布式模型并行技術(shù)將模型的各個部分(如層)分散到不同的訓(xùn)練設(shè)備上,似乎是大模型最終的歸宿,但其復(fù)雜的工程實現(xiàn)對于非計算機專業(yè)的科研工作者可能不太友好。切塊(Patch)的使用的確緩解了訓(xùn)練RNN時資源受限的問題,但其作用機理不明確,缺點很多。在視覺任務(wù)中使用Self Attention將帶來巨大的顯存占用量,隨著圖像分辨率的增加,顯存占用量將呈平方級別增長。Patch的使用是能將Transfomer架構(gòu)遷移到視覺領(lǐng)域的根本原因,ViT利用Patch大大降低了訓(xùn)練的空間復(fù)雜度。此外,MAE[160]還通過完成類似BERT[161]一樣的完型填空(填塊)任務(wù)來迫使模型學(xué)習(xí)生成新的樣本。總之,Patch能降低顯存占用量,并且可能成為時空序列預(yù)測的新范式。
(5)MSE損失函數(shù)總是導(dǎo)致未來狀態(tài)的平均,很難處理未來的不確定性,GAN和VAE通過更改模型設(shè)計并在損失函數(shù)中加入正則項來約束求解方式,此外一些模型還在損失函數(shù)中引入額外的正則項,如SSIM和GDL等。這也給我們一些啟發(fā):正則項限制了神經(jīng)網(wǎng)絡(luò)求解空間的大小,使模型更容易得到近似解??傊?未來是否有更好的重建損失函數(shù)代替MSE以及是否有更強有力的正則約束是一個值得探討的問題。
(6)作為遷移學(xué)習(xí)的一種形式,預(yù)訓(xùn)練+微調(diào)的方式在NLP任務(wù)中廣泛應(yīng)用,一些基于Transfomer的大模型,如BERT和GPT[162-164],采用預(yù)訓(xùn)練的方式從大規(guī)模的文本數(shù)據(jù)中學(xué)習(xí)先驗知識,然后再在下游任務(wù)上微調(diào),它們似乎統(tǒng)一了NLP領(lǐng)域內(nèi)幾乎所有的任務(wù)。在CV領(lǐng)域,ViT及MAE的提出,使得CV和NLP模型之間的距離不再遙遠,預(yù)訓(xùn)練和大模型可能是未來CV模型的趨勢。此外,視頻預(yù)測領(lǐng)域的經(jīng)典Seq2Seq架構(gòu)也是從NLP領(lǐng)域遷移過來的,而目前NLP領(lǐng)域主流的模型并不是基于RNN的模型,而是基于更先進的Transfomer的模型。鑒于文本生成和視頻預(yù)測這2個任務(wù)的相似性,未來基于Transfomer變體的大模型可能是視頻預(yù)測領(lǐng)域的新寵兒。
本文主要從短臨降水預(yù)測問題中存在的模糊問題出發(fā),詳細闡述了不同的模型從不同的角度增強模型預(yù)測能力的方案。為了建模未來的不確定性,這些研究工作從模型架構(gòu)、訓(xùn)練方式、損失函數(shù)等不同方面對算法進行了改進。此外,本文還以圖像和表格的形式對方法和數(shù)據(jù)集進行了比較總結(jié),以便讀者能直觀地明白底層的細節(jié)。最后,本文為未來的研究方向和開放問題提供了一定的見解。總之,關(guān)于短臨降水預(yù)測的研究未來的發(fā)展空間還很大,需要氣象和計算機相關(guān)的科研人員共同探索。本文的目的是希望能對相關(guān)領(lǐng)域的研究人員和工程技術(shù)人員提供一些有益的幫助。