符冉迪,司 光,金 煒
(寧波大學(xué) 信息科學(xué)與工程學(xué)院,浙江 寧波 315211)
云在天氣預(yù)報、氣候監(jiān)測中扮演著重要的角色,不同類型的云反映了不同天氣形勢和大氣變化的情況,因而對于人類的生產(chǎn)生活來說,云的實(shí)時觀測及識別有著重要意義。靜止氣象衛(wèi)星具有覆蓋范圍廣、時間分辨率高等特點(diǎn),因此成為云分類研究中的重要手段。
傳統(tǒng)云分類方法主要有閾值法和聚類法。其中閾值法采用不同通道閾值實(shí)現(xiàn)云類識別,聚類法采用直方圖聚類、動態(tài)閾值聚類等進(jìn)行云分類。由于衛(wèi)星遙感圖像在不同時刻、地點(diǎn)受太陽輻射不同,傳統(tǒng)方法存在閾值難以確定的困難[1-2]。利用云圖多光譜特性構(gòu)造數(shù)據(jù)集,通過機(jī)器學(xué)習(xí)方法進(jìn)行云分類已經(jīng)被廣泛使用,韓?。?]等利用Cloud Sat資料,構(gòu)造支持向量機(jī)模型進(jìn)行云分類,取得較好結(jié)果;來旭[4]等首先通過無監(jiān)督學(xué)習(xí)對模型進(jìn)行預(yù)訓(xùn)練,再通過監(jiān)督學(xué)習(xí)對模型微調(diào),利用半監(jiān)督學(xué)習(xí)思想,實(shí)現(xiàn)了云分類;但傳統(tǒng)機(jī)器學(xué)習(xí)模型對噪聲數(shù)據(jù)敏感,容易受到噪聲數(shù)據(jù)、異常數(shù)據(jù)的影響;Kim[5]引入模糊理論,構(gòu)造模糊支持向量機(jī),對不同樣本賦予不同模糊隸屬度,減小了噪聲數(shù)據(jù)對模型的影響,使云分類模型更具魯棒性。機(jī)器學(xué)習(xí)方法簡單易行,但此類方法高度依賴人工特征提取,不同特征與特征組合會有不同識別結(jié)果,往往出現(xiàn)特征選擇困難,模型泛化能力差,識別精度低等問題[6]。近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,ALexNet、YOLO、U-Net等一系列深度網(wǎng)絡(luò)模型被提出,各種深度網(wǎng)絡(luò)在圖像識別、目標(biāo)檢測、圖像分割等二維圖像領(lǐng)域得到了廣泛的應(yīng)用。深度網(wǎng)絡(luò)模型不依賴人工特征提取,網(wǎng)絡(luò)本身對圖像有較強(qiáng)的特征學(xué)習(xí)能力,在遙感圖像識別領(lǐng)域的應(yīng)用也日益深入,Cai[7]等結(jié)合FY-2C衛(wèi)星圖像,利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)云圖特征并進(jìn)行云分類;毋立芳[8]等構(gòu)造FCN-CNN模型用于云檢測,結(jié)合不同網(wǎng)絡(luò)模型提高了識別準(zhǔn)確率;Rusyn[9]等使用U型網(wǎng)絡(luò)進(jìn)行云圖分類,引入跳躍連接解決梯度消失問題,加快模型訓(xùn)練速度并得到較好的分類結(jié)果。深度網(wǎng)絡(luò)結(jié)構(gòu)通過深層特征提取實(shí)現(xiàn)衛(wèi)星云圖分類,但是深度網(wǎng)絡(luò)更多地學(xué)習(xí)了圖像的整體特征,對圖像細(xì)節(jié)學(xué)習(xí)能力較差,而且在模型上采樣層,將小尺寸特征圖恢復(fù)為原始尺寸圖像過程中,存在圖像細(xì)節(jié)數(shù)據(jù)丟失,難以重構(gòu)原始圖像細(xì)節(jié)的問題[10]。因此深度網(wǎng)絡(luò)在圖像細(xì)節(jié)及圖像邊緣處容易發(fā)生誤判,影響模型識別精度。
針對上述問題,本文設(shè)計了一種基于深度模型與模糊支持向量機(jī)的集成學(xué)習(xí)分類方法,分別訓(xùn)練基于深度網(wǎng)絡(luò)和FSVM的云分類模型作為基分類器,并采用集成學(xué)習(xí)方法,將基分類模型分類結(jié)果進(jìn)行融合,利用不同模型間的互補(bǔ)性增加模型的魯棒性和可信度[11],提高云分類模型識別精度。
本文使用的數(shù)據(jù)來自Himawari-8靜止氣象衛(wèi)星,Himawari-8于2015年7月正式投入使用,搭載可見光和紅外掃描輻射計,作為新一代靜止氣象衛(wèi)星,Himawari-8無論是從云圖質(zhì)量、獲取波段數(shù)量、清晰度等都比上代衛(wèi)星有大幅改善[12]。Himawari-8空間分辨率為0.5~2 km,時間分辨率為10 min,衛(wèi)星波段數(shù)由原來的5通道擴(kuò)充到16通道,包括3個可見光波段,3個近紅外波段,10個紅外波段。表1為Himawari-8波段信息,衛(wèi)星各波段數(shù)據(jù)可以通過Himawari-8官網(wǎng)進(jìn)行下載。
表1 Hmawari-8相關(guān)波段基本信息Tab.1 Basic information of Himawari-8
本文云分類任務(wù)是后續(xù)海霧識別項(xiàng)目的基礎(chǔ),海霧識別中主要難點(diǎn)是在低層云霧中識別出海霧區(qū)域,因此海霧識別通常先剔除中高云與晴空區(qū)域,再從低層云霧中識別出海霧。本文云分類模型樣本集構(gòu)建時參考了Himawari-8衛(wèi)星的二級云分類產(chǎn)品,該云分類產(chǎn)品將云圖分為卷云(Cirrus)、卷層云(Cirro-stratus)、深對流云(Deep convection)、高積云(Alto-cumulus)、高層云(Alto-stratus)、雨層云(Nimbo-stratus)、積云(Cumulus)、層積云(Strato-cumulus)、層云(Stratus)。相關(guān)研究表明,積云、層積云、層云三類云底高度較低,且云粒子較小,容易與海霧混淆。而云產(chǎn)品其它云類云底高度往往距地面2 000~5 000 m,隨高度的變化,云頂溫度降低,云粒子半徑變大,在輻射特性、亮溫特性上與低云族有明顯差異,且彼此間容易相互轉(zhuǎn)化。本文云分類模型旨在識別出低層云霧,以便進(jìn)一步在后期項(xiàng)目中實(shí)現(xiàn)低云與海霧的區(qū)分。因此本文對Himawari-8衛(wèi)星云分類產(chǎn)品進(jìn)行合并。為了獲取準(zhǔn)確的標(biāo)注信息進(jìn)行樣本構(gòu)建,本文利用CALIPSO星載激光雷達(dá)分析不同云類分布特點(diǎn)。星載激光雷達(dá)能夠穿透云層及氣溶膠,獲取大氣垂直剖面結(jié)構(gòu)信息。本文利用CALIPSO星載激光雷達(dá)分析各類云分布情況,并結(jié)合氣象專家意見,分別將卷云、卷層云、深對流云、高積云、高層云、雨層云合并為中高云,將積云、層積云、層云合并為低云,最終獲得中高云、低云、晴空三類樣本。
Himawari-8具有較高的空間分辨率和時間分辨率,可以獲取豐富的波段信息。遙感輻射特性分析是云分類的基礎(chǔ),不同波段具有不同的輻射特性[13]。在可見光-近紅外波段,衛(wèi)星接收到的信號來自物體反射的太陽輻射,由入射到目標(biāo)的太陽輻射與目標(biāo)物的反射率決定。與晴空相比,云霧具有更高的反射率,且光學(xué)厚度越大,其可見光-近紅外波段的反射率越高,因此中高云反射率最高,低層云霧次之,晴空最低。中紅外波段位于太陽輻射光譜和地球大氣輻射光譜的重疊區(qū),因此白天衛(wèi)星在這一通道的測量輻射既有下墊面發(fā)射的長波輻射,也有下墊面反射的太陽輻射。云霧在中紅外通道反射的太陽輻射主要依賴于云霧粒子的大小,粒子越小其反射強(qiáng)度越大。低層云霧具有較小的粒子半徑,因此低層云霧在中紅外通道反射的太陽輻射要比中高云反射的太陽輻射大。遠(yuǎn)紅外波段衛(wèi)星接收到輻射信號主要來自目標(biāo)物自身發(fā)射的紅外輻射,由發(fā)射輻射物體本身的溫度決定。溫度越低,衛(wèi)星接收到的輻射值也越低。中高云高度高,溫度低,輻射亮溫明顯低于其他下墊面;而低層云霧高度較低,頂部溫度與晴空相近。綜上對各通道輻射特性,本文選取可見光通道(0.64μm),中紅外通道(3.9μm),遠(yuǎn)紅外通道(11.2μm)對應(yīng)云圖用于深度網(wǎng)絡(luò)訓(xùn)練;提取云圖輻射特征、亮溫特征用于FSVM樣本構(gòu)建。
除了衛(wèi)星通道數(shù)據(jù)外,云霧區(qū)以及其它下墊面在紋理特征上也存在較大的差異,中高云由于其云頂高度起伏較大,云粒子構(gòu)成復(fù)雜,亮度變化幅度較大,紋理較粗糙;低層云霧區(qū)的云粒子較小,頂部相對光滑,紋理更均勻,邊緣也較清晰[14]。本文利用可見光通道(0.64μm)數(shù)據(jù)提取了衛(wèi)星圖像灰度共生矩陣(Gray level Co-occurrence Matrix,GLCM)、局部二值模式(Local Binary Pattern,LBP)等紋理特征?;叶裙采仃嚦S糜诿枋鰣D像紋理特征,是一種與像素間距離和角度相關(guān)的矩陣函數(shù),能反映圖片在一定距離、一定角度等條件下紋理的變化幅度及變化速率。針對獲取的灰度共生矩陣,本文提取角二階距、對比度、熵以及逆差距作為灰度共生矩陣特征量。其中,角二階距反映了圖片灰度分布狀況、紋理粗細(xì)程度以及結(jié)構(gòu)特征;對比度度量矩陣中灰度值的分布情況以及圖片局部變化狀況,能夠反映圖片紋理的溝紋深淺以及圖片的清晰度;熵作為對系統(tǒng)混亂程度的度量,可以反映圖像紋理的復(fù)雜程度;逆差距是圖像局部平穩(wěn)性的度量,反映了圖像紋理的同質(zhì)性。本文選取7*7大小矩陣計算云圖灰度共生矩陣并提取相關(guān)特征,以此作為中心點(diǎn)像素的紋理特征。LBP通常用來描述圖片局部紋理特征,反映的是3*3圖片中心像素點(diǎn)與周圍像素點(diǎn)的關(guān)系,LBP特征具有灰度不變性和旋轉(zhuǎn)不變性等優(yōu)點(diǎn),且該特征簡單易算,因此得到了廣泛的使用。
基于深度網(wǎng)絡(luò)與FSVM集成學(xué)習(xí)的云分類模型框架如圖1所示,主要由以下幾個部分組成:首先是基于遙感衛(wèi)星數(shù)據(jù)的光譜分析與特征提??;接著,訓(xùn)練第一級分類器,分別利用云圖光譜特征、紋理特征用于FSVM模型訓(xùn)練,再通過不同通道云圖訓(xùn)練深度模型進(jìn)行云圖分類;最后采用集成學(xué)習(xí)方法,利用第二級分類將FSVM模型與深度模型輸出結(jié)果融合,得到最終云分類結(jié)果。
圖1 云分類模型框架Fig.1 Cloud classification model framework
U-Net網(wǎng)絡(luò)是一種端到端的的深度模型,網(wǎng)絡(luò)采用了Encode-Decode結(jié)構(gòu),整體可分為編碼層和解碼層兩個階段。編碼層通過卷積、池化進(jìn)行圖像特征提取,其中網(wǎng)絡(luò)淺層特征用來解決像素定位,較深的特征則用來像素分類;解碼層通過反卷積將特征圖還原到圖像原始尺寸。U-Net網(wǎng)絡(luò)編碼層和解碼層層數(shù)相同,采用跳躍連接(skip connection)加以連通。通過跳躍連接,編碼層獲取的淺層特征能在解碼過程中加以利用,提高圖像解碼時像素定位精度;此外跳躍連接能夠解決模型訓(xùn)練時出現(xiàn)的梯度消失問題,改善模型訓(xùn)練速度[15]。
利用U-Net進(jìn)行云分類的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。網(wǎng)絡(luò)的左半部分為編碼層,編碼層包含四次下采樣,其中每次下采樣包含兩次卷積操作,一次池化操作。通過下采樣逐層提取輸入云圖特征,特征圖尺寸不斷減小,通道數(shù)不斷增加。隨著層數(shù)的深入,模型也由云圖淺層特征逐步學(xué)習(xí)到深層特征。網(wǎng)絡(luò)右半部分為解碼層,目的是將云圖特征恢復(fù)為原始尺寸,特征圖通過上采樣,將云圖特征通道數(shù)減半,特征圖分辨率增加2倍。U-Net網(wǎng)絡(luò)利用跳躍連接將編碼部分和解碼部分結(jié)合,使模型上采樣能夠結(jié)合云圖高層次語義特征和低層次位置特征,從而達(dá)到更為精準(zhǔn)的識別結(jié)果。經(jīng)解碼層后,模型得到與輸入云圖相同尺寸的分類概率圖,并得到最終衛(wèi)星云圖分類結(jié)果。
圖2 U-Net結(jié)構(gòu)圖Fig.2 U-Net structure
傳統(tǒng)機(jī)器學(xué)習(xí)云分類模型利用衛(wèi)星多通道數(shù)據(jù)構(gòu)造樣本,通過模型訓(xùn)練實(shí)現(xiàn)云圖分類。但是衛(wèi)星云圖的接收過程會受到地面微波以及設(shè)備自身的影響,這些干擾會使衛(wèi)星云圖受到噪聲影響[16]。上述問題會導(dǎo)致建立的訓(xùn)練數(shù)據(jù)集難以達(dá)到理想的目標(biāo),主要表現(xiàn)為數(shù)據(jù)集中夾雜了一些錯誤標(biāo)注和噪聲數(shù)據(jù),如果不對這些數(shù)據(jù)進(jìn)行區(qū)分,采用傳統(tǒng)方式進(jìn)行訓(xùn)練,模型受到異常數(shù)據(jù)的影響,會使學(xué)習(xí)過程難以朝著正確的方向進(jìn)行,影響云分類準(zhǔn)確率,降低云分類模型泛化性能。模糊支持向量機(jī)引入模糊理論,根據(jù)不同樣本對分類所起作用大小為其賦予不同的隸屬度,使模型能夠很好的解決樣本噪聲影響。
模糊支持向量機(jī)引入模糊隸屬度用于衡量不同樣本在模型訓(xùn)練中的貢獻(xiàn),對于樣本集,(n為樣本數(shù)目),xi為數(shù)據(jù)集樣本點(diǎn),yi為分類標(biāo)簽,隸屬度si∈(0,1],F(xiàn)SVM優(yōu)化問題和約束條件如式(1)所示:
式中,w為權(quán)重向量,b為偏置,ξi為松弛變量,C為懲罰因子,為了解決上式中的優(yōu)化問題,通過拉格朗日函數(shù),將上式轉(zhuǎn)化為其對偶形式進(jìn)行求解最終得到最優(yōu)分類超平面決策函數(shù),實(shí)現(xiàn)分類任務(wù)。
模糊支持向量機(jī)對不同的樣本采用不同隸屬度,可以減少甚至忽略非重要樣本和噪聲數(shù)據(jù)對云分類的影響,實(shí)現(xiàn)對模糊信息的處理,使云分類模型訓(xùn)練更加合理。本文利用提取的光譜特征及紋理特征共28維特征構(gòu)造樣本并進(jìn)行FSVM分類模型訓(xùn)練。
由于不同模型提取的特征以及不同分類方法具有明顯的差異,單獨(dú)使用一種特征或者分類方法難以實(shí)現(xiàn)高精度分類。集成學(xué)習(xí)通過構(gòu)建多個分類器,并以集成方式完成學(xué)習(xí)任務(wù),不僅能夠?qū)崿F(xiàn)分類器之間的優(yōu)勢互補(bǔ),獲得比單一分類器更好的效果,還能減少對訓(xùn)練所需數(shù)據(jù)的依賴程度。本文采用Stacking策略進(jìn)行模型集成,該方法是一種基于多級分類思想的集成學(xué)習(xí)方法,首先利用初始訓(xùn)練數(shù)據(jù)學(xué)習(xí)出若干子分類器組成第一級基分類器,然后將第一級分類器的預(yù)測結(jié)果作為輸入,訓(xùn)練第二級元分類器,將第二級元分類器輸出作為模型最終結(jié)果。本文利用集成學(xué)習(xí)的思想,將深度網(wǎng)絡(luò)與FSVM分類器作為基分類模型,在此基礎(chǔ)上,構(gòu)造元分類模型對基分類模型結(jié)果進(jìn)行融合,集成學(xué)習(xí)通過在第一級分類結(jié)果的基礎(chǔ)上進(jìn)一步學(xué)習(xí),使模型準(zhǔn)確性和穩(wěn)定性得到了提升。
基于深度網(wǎng)絡(luò)與FSVM的集成學(xué)習(xí)模型流程如圖3所示,首先通過深度網(wǎng)絡(luò)和FSVM模型獲得不同類別分類結(jié)果,將不同分類模型結(jié)果拼接作為第二級分類器輸入,經(jīng)元分類器進(jìn)行第二級分類后,得到集成分類結(jié)果,再結(jié)合誤差反向傳播,經(jīng)不斷迭代學(xué)習(xí)得到最終分類模型。
圖3 基于集成學(xué)習(xí)的結(jié)果融合Fig.3 Fusion of results based on ensemble learning
集成學(xué)習(xí)模型具體流程如下:
(1)初始化權(quán)值,神經(jīng)網(wǎng)絡(luò)的權(quán)重初始化方法對模型的收斂速度和模型性能有著至關(guān)重要的影響,本文利用隨機(jī)方式進(jìn)行權(quán)值初始化。其中,w=(w11,w21,...,wkn),,n=1,2,…,N為分類類別數(shù),由于共有三類不同的云,故N=3。
k=1,2,…,K為第二級分類模型輸入數(shù)據(jù)維度,由于要將深度網(wǎng)絡(luò)和FSVM模型云分類結(jié)果進(jìn)行拼接,故K=6。
(2)對模型輸入加權(quán)求和。輸入數(shù)據(jù)中每個元素對模型的貢獻(xiàn)是有所差異的,因此在輸入到下一層網(wǎng)絡(luò)之前,要對每個元素進(jìn)行加權(quán)求和,加權(quán)求和公式為:,U=(u1,u2,...,nn),U為加權(quán)求和向量。
(3)將上一步加權(quán)求和結(jié)果輸入softmax函數(shù),y?=softmax(U),在多分類任務(wù)中,softmax函數(shù)將多個神經(jīng)元的輸出,映射到(0,1)區(qū)間內(nèi),即每一類別的分類概率,從而得到模型分類結(jié)果y?。
(4)計算輸出結(jié)果與標(biāo)注誤差。神經(jīng)網(wǎng)絡(luò)每次迭代的前向計算結(jié)果與真實(shí)值的差距,即真實(shí)值與預(yù)測值差別越,差別越大,Loss越大,模型優(yōu)化的目標(biāo)就是減小Loss,本文損失函數(shù)為交叉熵?fù)p失函數(shù),表達(dá)式為:。
(5)利用誤差反向傳播算法,迭代更新模型權(quán)值,直到模型誤差達(dá)到最小或迭代循環(huán)次數(shù)結(jié)束。
本文實(shí)驗(yàn)環(huán)境為64位版本的Ubuntu16.4操作系統(tǒng),CPU為Intel Core i7-7700,顯存為11G,顯卡為NVIDIA GeForce GTX1080Ti,使用的編程語言為Python,采用了tensorflow,Keras,Pandas,Numpy等模塊,實(shí)驗(yàn)在PyCharm平臺上進(jìn)行。
實(shí)驗(yàn)數(shù)據(jù)來自Himawari-8衛(wèi)星,本文選取從2017年4月5日到2020年6月13日,116.5°E-142.25°E,16.75°N-42.5°N,共960張云圖用于實(shí)驗(yàn),通過參考Himawari-8云分類產(chǎn)品與氣象專家的意見,選取中高云、低云、晴空樣本,并提取樣本的多通道光譜特征、GLCM與LBP紋理特征。
深度網(wǎng)絡(luò)U-Net模型利用標(biāo)注的云圖構(gòu)造樣本,將960張標(biāo)注云圖按照8∶2的比例劃分為訓(xùn)練集和測試集進(jìn)行訓(xùn)練;訓(xùn)練FSVM模型時,利用光譜特征、紋理特征共28維特征用于樣本構(gòu)建,共獲取約50 000組樣本,將樣本按8∶2的比例用于訓(xùn)練。
為了確定本文分類模型的識別效果,需要對識別結(jié)果進(jìn)行精度評價,本文使用命中率(POD),誤報率(FAR),臨界成功指數(shù)(CSI)來評價識別效果,各評價指標(biāo)如式(2)~式(4)所示:
其中,NH表示分類正確的像素點(diǎn)頻數(shù),NM表示本應(yīng)識別為A類,但錯誤識別為其它類別的像素點(diǎn)頻數(shù),NF表示本應(yīng)識別為其它類別,但錯誤識別為A類的像素點(diǎn)頻數(shù)。
為了測試本文基于深度網(wǎng)絡(luò)與FSVM集成學(xué)習(xí)模型在云分類任務(wù)中的有效性以及模型的泛化性能。本文分析了模型在訓(xùn)練集和測試集中的表現(xiàn),結(jié)果如表2所示??梢钥吹?,在不同類別中,模型訓(xùn)練和測試過程中均有較好的表現(xiàn),其中模型訓(xùn)練集和測試集平均命中率POD分別為0.920 4和0.924 5,平均誤報率FAR分別為0.064 3和0.079 6,平均臨界成功指數(shù)CSI分別為0.866 8和0.858 1,說明模型具有較高的識別精度。傳統(tǒng)模型訓(xùn)練中,模型在訓(xùn)練集中的表現(xiàn)通常大大優(yōu)于測試集,即模型存在過擬合現(xiàn)象,泛化能力較差。而本文云分類模型在訓(xùn)練集和測試集中均有較高精度,且對應(yīng)指標(biāo)差異較小,說明模型泛化能力較好,能夠有效進(jìn)行云類識別。
表2 深度網(wǎng)絡(luò)與FSVM集成學(xué)習(xí)模型在訓(xùn)練集和測試集的識別精度Tab.2 Results of the classification model based on ensemble learning by using deep network and FSVM in training set and test set mid-high cloud,low cloud and clear sky
為了驗(yàn)證本文集成分類方法的有效性,將單獨(dú)使用FSVM模型和U-Net模型與本文融合模型進(jìn)行對比,實(shí)驗(yàn)結(jié)果如表3所示。由表3可以看到,對于單獨(dú)的FSVM和U-Net模型,F(xiàn)SVM模型在低云和晴空的識別命中率更高,分別為0.865 6和0.945 1,而U-Net模型對中高云的識別命中率更高,命中率為0.961 7。集成學(xué)習(xí)對不同模型結(jié)果融合,將低云和晴空的命中率提高到0.871 7和0.958 9,中高云的命中率雖然沒有達(dá)到最高,但經(jīng)集成學(xué)習(xí)后,命中率也比單獨(dú)使用FSVM模型有所提升。此外,F(xiàn)SVM模型對中高云,晴空的誤判率較低,誤判率分別為0.054 5和0.041 1,而U-Net網(wǎng)絡(luò)對于低云的誤判率更低,為0.132 7,經(jīng)集成學(xué)習(xí)融合后,中高云,低云的誤判率分別達(dá)到最低的0.044 7和0.131 3,晴空的誤判率也在U-Net網(wǎng)絡(luò)的基礎(chǔ)上降低到0.062 8。對于臨界成功指數(shù),經(jīng)集成學(xué)習(xí)后,中高云,低云的臨界成功指數(shù)達(dá)到了最高的0.903 1和0.770 1,晴空臨界成功指數(shù)為0.901 1,雖未達(dá)到最高,但相比U-Net網(wǎng)絡(luò)也有較大的提升,且基本與FSVM模型臨界成功指數(shù)持平。
表3 集成學(xué)習(xí)前后模型云分類識別結(jié)果Tab.3 Cloud classification results of ensemble learning
為了更加直觀地展示本文方法的有效性,選取2017-05-03、2018-04-20、2019-04-17,UTC 02:00時刻云圖,使用不同方法進(jìn)行分類,分類結(jié)果如圖4所示。圖中(a)為可見光通道云圖,(b),(c),(d)分別為FSVM,U-Net以及本文方法分類結(jié)果,(e)為標(biāo)簽,圖中白色,灰色和黑色區(qū)域分別為中高云,低云,晴空。可以看到,在單獨(dú)使用分類模型進(jìn)行云分類時,F(xiàn)SVM模型容易將晴空區(qū)域錯分為低云,且在低云中高混合區(qū),傾向于將低云識別為高云;U-Net網(wǎng)絡(luò)能夠識別出云圖基本輪廓,但是在云類混合區(qū)邊緣、細(xì)節(jié)處識別不夠精確。而經(jīng)集成學(xué)習(xí)后,相比單獨(dú)使用FSVM或U-Net模型,本文方法改善了云圖邊界處和不同云類混合區(qū)的分類效果,利用不同模型間的互補(bǔ)性提高了模型的識別精度。
圖4 集成學(xué)習(xí)前后模型云分類識別結(jié)果圖Fig.4 Cloud classification results of ensemble learning
本文對不同云分類模型識別效果進(jìn)行比較,引入SVM模型與全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)。云分類識別結(jié)果如表4示,可以看到,SVM模型對晴空的識別命中率較低,并且對低云有較高的誤判率;而FCN模型對低云命中率較低,對晴空誤判率較高,兩者均不能較好地實(shí)現(xiàn)云分類。相比SVM模型和FCN模型,本文方法在不同云類、不同指標(biāo)中均有更好的表現(xiàn)。其中,中高云、低云、晴空的命中率分別為0.942 9,0.871 7,0.958 9;誤判率分別降到了0.044 7,0.131 3,0.062 8;臨界成功指數(shù)也達(dá)到了0.903 1,0.770 1,0.901 1。
表4 不同模型云分類識別結(jié)果Tab.4 Recognition results of different models
圖5為不同模型云分類結(jié)果,選取2020-02-12、2020-05-05、2020-05-06,UTC 02:00時刻云圖進(jìn)行識別。由圖5可知,SVM模型識別精度較低,不同類別錯分較為嚴(yán)重,原因可能為SVM模型對云圖噪聲敏感,訓(xùn)練過程中容易受到異常數(shù)據(jù)影響;FCN模型能夠?qū)W習(xí)云圖深層特征,但是FCN僅利用深層特征進(jìn)行上采樣,忽略了淺層特征,導(dǎo)致模型在云團(tuán)混合區(qū)識別效果不佳,且難以識別云圖細(xì)節(jié)。本文將不同分類模型融合,引入模糊隸屬度處理樣本噪聲、利用U-Net網(wǎng)絡(luò)將深層特征與淺層特征相結(jié)合,對比其它方法,本文融合模型在分類精度上有更好的表現(xiàn),對于云圖邊緣、細(xì)節(jié)處的識別也有更好的效果,進(jìn)一步證明了本文方法的有效性。
圖5 不同模型云分類識別結(jié)果圖Fig.5 Recognition results of different models
為了分析模型的計算效率,對比各方法在模型訓(xùn)練與模型測試中所需的時間。對不同模型耗時進(jìn)行統(tǒng)計,結(jié)果如表5所示,可以看到,在模型訓(xùn)練中,SVM模型耗時最短,為54.17s,其次是FSVM模型,運(yùn)行時間為88.31s;隨著深度學(xué)習(xí)方法模型的引入,模型訓(xùn)練時間大幅上升,其中FCN模型的訓(xùn)練時長為4 774.83s,U-Net模型為5 400.37s,本文集成學(xué)習(xí)方法為6 211.02s,原因主要為深度學(xué)習(xí)模型需要學(xué)習(xí)更多參數(shù),因此訓(xùn)練時間也更長。但是觀察模型測試時間可以發(fā)現(xiàn),相比訓(xùn)練時間,模型測試時間大幅下降,對于單張云圖分類任務(wù)中,SVM和FSVM模型所需時間分別為7.24s和8.79s,F(xiàn)CN和U-Net模型為0.32s和0.36s,即使本文融合方法,模型測試時間也僅為9.33s,說明模型耗時主要為模型參數(shù)的訓(xùn)練與學(xué)習(xí)。雖然本文融合模型相比其它單獨(dú)分類模型的測試時間更長,但單張云圖測試時長也僅為9.33s,也有較好的實(shí)時性能。
表5 不同模型運(yùn)行時間Tab.5 Time consumption of different models (s)
本文針對不同分類模型的特點(diǎn),結(jié)合集成學(xué)習(xí)的方法,提出了基于深度網(wǎng)絡(luò)與FSVM集成學(xué)習(xí)分類模型。首先構(gòu)造基分類器,利用Himawari-8多光譜特性,提取云圖光譜特征和圖像紋理特征,并進(jìn)行FSVM訓(xùn)練與學(xué)習(xí);然后利用多通道云圖,對深度網(wǎng)絡(luò)進(jìn)行訓(xùn)練。針對不同模型識別結(jié)果,采用集成學(xué)習(xí)的方法進(jìn)行分類結(jié)果融合。實(shí)驗(yàn)結(jié)果表明,相比單獨(dú)使用分類模型,本文提出的集成學(xué)習(xí)方法在眾多評價指標(biāo)中有更好的表現(xiàn)。其中,平均命中率、平均誤報率和、平均臨界成功指數(shù)分別達(dá)到0.924 5、0.079 6、0.858 1;而且與其它分類模型相比,本文方法也有更好的識別效果。在具體案例測試中,經(jīng)集成學(xué)習(xí)后,識別結(jié)果不僅在不同云類混合區(qū)有較高的識別精度,而且在云團(tuán)邊緣及細(xì)節(jié)處的識別也有較好的表現(xiàn)。這表明不同分類模型有著不同的分類特點(diǎn),充分利用不同模型識別優(yōu)勢有助于提升模型識別效果。如何選取合適的分類模型進(jìn)行融合,定量分析不同模型對識別結(jié)果的貢獻(xiàn),并進(jìn)一步提升云分類識別精度將是接下來的研究重點(diǎn)。