冼祥貴,尚振宏,袁梅宇,楊志鵬,強(qiáng)振平
(1. 昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2. 西南林業(yè)大學(xué)大數(shù)據(jù)與智能工程學(xué)院,云南 昆明 650224)
日冕物質(zhì)拋射是一種日冕物質(zhì)從太陽日冕層向行星際空間拋射的強(qiáng)烈空間天氣現(xiàn)象[1]。由于日冕物質(zhì)拋射具有巨大的速度和能量且與背景太陽風(fēng)在磁場、速度、溫度上存在差異,它在行星際空間傳播時(shí)引起太陽風(fēng)擾動(dòng),嚴(yán)重時(shí)甚至引起磁暴等極端空間天氣。這些會(huì)導(dǎo)致太空中的衛(wèi)星故障和數(shù)據(jù)丟失、地面電力系統(tǒng)崩潰及短波通信中斷等。為了預(yù)防日冕物質(zhì)拋射對人類生活的影響,實(shí)現(xiàn)對日冕物質(zhì)拋射的預(yù)報(bào)具有重要意義,而日冕物質(zhì)拋射檢測是預(yù)報(bào)的重要前提和基礎(chǔ)。
太陽和日光層天文臺(Solar and Heliospheric Observatory, SOHO)和日地關(guān)系天文臺(Solar Ter-restrial Relations Observatory, STEREO)等衛(wèi)星為人類提供了大量的日冕圖像資料。圖1(a)和圖1(b)是太陽和日光層天文臺提供的LASCO C2圖和LASCO C2圖的差分圖。日冕物質(zhì)拋射目標(biāo)在日冕圖像上表現(xiàn)為一個(gè)明亮、紋理復(fù)雜的增亮結(jié)構(gòu),且尾隨著一個(gè)亮度不足的暗區(qū)域。基于這些圖像資料,人們提出了多種方法檢測日冕物質(zhì)拋射的發(fā)生頻率、角度、速度、質(zhì)量和能量等特征?,F(xiàn)有的日冕物質(zhì)拋射檢測方法可以分為傳統(tǒng)檢測方法和基于學(xué)習(xí)的檢測方法兩類。有關(guān)日冕物質(zhì)拋射檢測方法的詳細(xì)介紹可以參考文[2]。
圖1 日冕圖像。(a)LASCO C2圖;(b)LASCO C2圖的差分圖
傳統(tǒng)檢測方法利用日冕圖像的灰度或紋理特征和空間域圖像處理方法實(shí)現(xiàn)日冕物質(zhì)拋射檢測。文[3-4]開發(fā)的CACTus通過霍夫變換和圖像形態(tài)學(xué)等方法對日冕物質(zhì)拋射進(jìn)行檢測,得到日冕物質(zhì)拋射事件的位置、角度和速度等信息。CACTus生成的目錄是第1個(gè)自動(dòng)檢測的日冕物質(zhì)拋射目錄。文[5-6]提出的SEEDS利用日冕圖像的灰度信息檢測日冕物質(zhì)拋射的前緣和后緣,生成的SEEDS目錄和CACTus目錄、CDAW目錄一起組成日冕物質(zhì)拋射的3大參考目錄,其中,CDAW是人工標(biāo)記的目錄。人工檢測日冕物質(zhì)拋射費(fèi)時(shí)費(fèi)力,且弱日冕物質(zhì)拋射檢測結(jié)果往往受人為因素的影響,利用計(jì)算機(jī)技術(shù)檢測日冕物質(zhì)拋射成為趨勢和發(fā)展方向。但是,傳統(tǒng)的日冕物質(zhì)拋射自動(dòng)檢測方法使用閾值的方式判斷,不能準(zhǔn)確識別日冕物質(zhì)拋射?;诤唵蔚拈撝捣治鲎R別日冕物質(zhì)拋射存在以下缺陷:(1)閾值難以選定;(2)選定的閾值難以兼顧強(qiáng)日冕物質(zhì)拋射和弱日冕物質(zhì)拋射。因此,當(dāng)強(qiáng)日冕物質(zhì)拋射檢測效果好時(shí),它們對特征不明顯的弱日冕物質(zhì)拋射檢測效果變差,且對日冕物質(zhì)拋射的角寬度和中心角等信息的檢測誤差大。
基于學(xué)習(xí)的檢測方法的思路是先使用機(jī)器學(xué)習(xí)方法訓(xùn)練日冕物質(zhì)拋射分類器,再使用分類器對日冕物質(zhì)拋射與背景信息進(jìn)行分類。文[7-8]提出基于AdaBoost的日冕圖像識別方法,該方法直接識別扇形區(qū)域的日冕物質(zhì)拋射。文[9]提出在極坐標(biāo)下檢測日冕物質(zhì)拋射的學(xué)習(xí)方法,該方法提取圖像的紋理、灰度和梯度方向直方圖(Histogram of Oriented Gradient, HOG)等特征,訓(xùn)練多特征融合的分類器進(jìn)行日冕物質(zhì)拋射檢測。然而,基于學(xué)習(xí)的檢測方法使用人為定義特征進(jìn)行建模,而日冕物質(zhì)拋射的圖像特征復(fù)雜多變,不同的日冕物質(zhì)拋射之間的特征差異大,導(dǎo)致人為定義特征對日冕物質(zhì)拋射的建模效果較差。
Faster R-CNN[10]是現(xiàn)階段最好的目標(biāo)檢測算法之一。基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),F(xiàn)aster R-CNN通過自主學(xué)習(xí)數(shù)據(jù)集的特征訓(xùn)練一個(gè)優(yōu)秀的目標(biāo)檢測網(wǎng)絡(luò)。Faster R-CNN在PASCAL VOC(Pattern Analysis, Statistical Modeling and Computational Learning)數(shù)據(jù)集[11]上檢測結(jié)果的平均準(zhǔn)確率(Mean Average Precision, MAP)高達(dá)73.2%,檢測效果良好,現(xiàn)已應(yīng)用到多種檢測場景[12-13]。Faster R-CNN的特征提取網(wǎng)絡(luò)能對日冕物質(zhì)拋射進(jìn)行較好建模,解決了現(xiàn)有日冕物質(zhì)拋射檢測方法存在的人為定義特征無法準(zhǔn)確表達(dá)的問題。另外,F(xiàn)aster R-CNN使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練的分類器比基于學(xué)習(xí)方法的分類器效果相對較好。基于以上原因,本文提出一種基于Faster R-CNN的日冕物質(zhì)拋射檢測方法。本文的主要內(nèi)容包括:(1)參考CDAW,SEEDS和CACTus等日冕物質(zhì)拋射目錄和通過人工校驗(yàn)標(biāo)注數(shù)據(jù)集,標(biāo)注了包含9 113幅日冕圖像的目標(biāo)檢測數(shù)據(jù)集;(2)針對日冕圖像的特點(diǎn)改進(jìn)Faster R-CNN模型,使其更適合日冕物質(zhì)拋射檢測。
隨著機(jī)器學(xué)習(xí)的發(fā)展和計(jì)算機(jī)硬件水平的提高,基于深度學(xué)習(xí)的目標(biāo)檢測算法層出不窮。在該類算法中,R-CNN(Region-based Convolutional Neural Networks)系列(Faster R-CNN是其中的突出代表)、SSD(Single Shot MultiBox Detector)[14]和YOLO(You Only Look Once)[15]是現(xiàn)有性能比較好的幾種算法。該類算法按處理流程主要分為單步檢測算法和雙步檢測算法。雙步檢測算法分兩步處理目標(biāo)檢測問題,先通過選擇性搜索算法或區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network, RPN)選取一定數(shù)量的候選框,然后通過分類網(wǎng)絡(luò)和回歸網(wǎng)絡(luò)確定目標(biāo)物體的類別和位置。由于候選框選取階段比較耗時(shí),雙步檢測算法實(shí)時(shí)性略差,但精度高。為了提高目標(biāo)檢測的實(shí)時(shí)性,文[14-15]分別提出了SSD和YOLO等單步檢測算法。這類算法不需要選取候選框,直接從原圖產(chǎn)生目標(biāo)的類別和位置,實(shí)時(shí)性好,但精度稍遜于雙步檢測算法。這兩類算法在自然圖像集上的檢測效果都遠(yuǎn)優(yōu)于傳統(tǒng)檢測方法。通過實(shí)驗(yàn)對比,F(xiàn)aster R-CNN在日冕圖像等非自然圖像的檢測魯棒性比SSD和YOLO好,我們選擇Faster R-CNN 作為基礎(chǔ)搭建日冕物質(zhì)拋射檢測網(wǎng)絡(luò)。
Faster R-CNN 是Fast R-CNN[16]的改進(jìn)算法。Fast R-CNN使用選擇性搜索算法選取候選框,這一步驟耗時(shí)長,是該方法實(shí)時(shí)性的瓶頸。Faster R-CNN用區(qū)域建議網(wǎng)絡(luò)代替選擇性搜索算法,提高了候選框選取的效率,而檢測精度不受影響。Faster R-CNN的模型框架如圖2,該網(wǎng)絡(luò)可以分為特征提取網(wǎng)絡(luò)、區(qū)域建議網(wǎng)絡(luò)和分類器3個(gè)模塊。
圖2 Faster R-CNN模型框架圖Fig.2 Faster R-CNN model framework
特征提取網(wǎng)絡(luò)使用卷積層 + 激活層 + 池化層提取圖像的特征圖,F(xiàn)aster R-CNN使用VGG16網(wǎng)絡(luò)[17]作為特征提取網(wǎng)絡(luò)。特征圖共享用于后續(xù)的區(qū)域建議網(wǎng)絡(luò)和分類器。
區(qū)域建議網(wǎng)絡(luò)用兩個(gè)分支處理特征提取網(wǎng)絡(luò)輸出的特征圖。一個(gè)分支結(jié)合錨點(diǎn)選取可能包含目標(biāo)的候選框,另一個(gè)分支生成候選框包含目標(biāo)的概率,結(jié)合兩個(gè)分支得到候選目標(biāo)的位置和置信度。錨點(diǎn)是區(qū)域建議網(wǎng)絡(luò)的精髓,是基于特征圖的每個(gè)特征點(diǎn)生成的一組矩形框。區(qū)域建議網(wǎng)絡(luò)設(shè)置9種錨點(diǎn),由3種尺寸和3種長寬比組合而成。3種尺寸為64 × 64,128 × 128和256 × 256,3種長寬比為1∶1,1∶2和2∶1。特征圖上每一個(gè)元素根據(jù)這9種錨點(diǎn)生成9個(gè)候選框,N×N特征圖生成N×N× 9個(gè)候選框。訓(xùn)練過程中隨機(jī)選擇128個(gè)正候選框和128個(gè)負(fù)候選框進(jìn)行訓(xùn)練。
分類器利用特征圖和區(qū)域建議網(wǎng)絡(luò),通過全連接層與softmax函數(shù)計(jì)算每個(gè)候選框的類別,輸出類別概率向量;同時(shí)利用邊框回歸反演獲得每個(gè)候選框的位置偏移量,得到更加精確的目標(biāo)位置。
Faster R-CNN對自然圖像數(shù)據(jù)的檢測效果比較好,但由于日冕圖像與自然圖像的差異,F(xiàn)aster R-CNN直接用于日冕圖像檢測的效果比較差,主要原因有:(1)本文數(shù)據(jù)集所用的日冕圖像的差分圖是灰度圖,色彩和紋理特征不如PASCAL VOC,COCO[18]等數(shù)據(jù)集中的自然圖像豐富;(2)日冕圖像中的日冕物質(zhì)拋射的目標(biāo)尺寸與自然圖像集的存在差異,使用針對自然圖像設(shè)置的原始錨點(diǎn)檢測效果較差。
基于上述原因,本文根據(jù)日冕圖像的特點(diǎn)在特征提取網(wǎng)絡(luò)和錨點(diǎn)參數(shù)方面改進(jìn)了Faster R-CNN,改進(jìn)后的模型如圖3。
圖3 本文改進(jìn)的Faster R-CNN模型框架。t-0表示當(dāng)前時(shí)刻,t-1表示前一時(shí)刻,t-2表示前第二時(shí)刻
在目標(biāo)檢測領(lǐng)域,VGG16網(wǎng)絡(luò)能提取目標(biāo)的抽象語義特征。但用于日冕圖像等非自然圖像特征提取時(shí),存在隨卷積深度的增長導(dǎo)致特征退化而丟失淺層特征的問題。而ResNet101[19]網(wǎng)絡(luò)通過引入殘差網(wǎng)絡(luò)可以解決卷積深度增長導(dǎo)致的特征退化問題。殘差網(wǎng)絡(luò)相對于普通網(wǎng)絡(luò)不同的是引入了跳躍連接,可以使上一個(gè)殘差塊的信息沒有阻礙地流入下一個(gè)殘差塊,提高信息流通,保留淺層特征,并且避免由于網(wǎng)絡(luò)過深引起的梯度消失和退化問題。日冕圖像含信息量比自然圖像少,隨著卷積深度增加容易退化,需要保留淺層特征。因此,本文算法選擇ResNet101網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)。
日冕圖像具有明顯的時(shí)間連續(xù)性,相鄰時(shí)刻的日冕圖像相似。圖4(a)和圖4(b)為2014年1月1日15時(shí)12分8秒和2014年1月1日15時(shí)24分5秒兩相鄰時(shí)刻的日冕圖像差分圖。由于日冕物質(zhì)隨時(shí)間向外拋射,相對前一時(shí)刻,后一時(shí)刻日冕物質(zhì)離太陽中心稍遠(yuǎn),且兩幅圖像的背景相似性較高。如圖4(c)和圖4(d),日冕圖像差分圖轉(zhuǎn)化為極坐標(biāo)圖后,相鄰兩幅圖像的日冕物質(zhì)拋射在水平方向基本重合,在垂直方向上,后一時(shí)刻的日冕物質(zhì)拋射稍微變高。由于相鄰時(shí)刻的日冕物質(zhì)拋射特征和位置相似,相鄰圖像的特征融合能加強(qiáng)目標(biāo)特征的表達(dá),準(zhǔn)確區(qū)分日冕物質(zhì)拋射與背景。為了更好地利用日冕圖像的時(shí)間序列相似性,加強(qiáng)日冕物質(zhì)拋射的特征建模,我們檢測某一時(shí)刻日冕圖像時(shí),將當(dāng)前時(shí)刻特征與前兩個(gè)時(shí)刻的特征融合。具體做法為3個(gè)時(shí)刻的日冕圖像經(jīng)過同一個(gè)特征提取網(wǎng)絡(luò)生成3幅特征圖,3幅特征圖由全連接層卷積融合成1幅新的特征圖,新的特征圖作為區(qū)域建議網(wǎng)絡(luò)和分類器的輸入。
圖4 相鄰日冕物質(zhì)拋射的差分圖及極坐標(biāo)圖。(a)2014年1月1日15時(shí)12分8秒的差分圖;(b)2014年1月1日15時(shí)24分5秒的差分圖;(c)(a)圖的極坐標(biāo)圖;(d)(b)圖的極坐標(biāo)圖
基于距離的聚類算法k-means[20]采用距離作為相似性的評價(jià)指標(biāo),即認(rèn)為兩個(gè)對象的距離越近,相似度越大。該算法認(rèn)為類簇是由距離靠近的對象組成的,因此把得到緊湊且獨(dú)立的類簇作為最終目標(biāo)。
Faster R-CNN中的原始錨點(diǎn)是針對自然圖像設(shè)置的,生成的矩形框面積較大,日冕物質(zhì)拋射的面積較小且長寬比差異較大,與原始錨點(diǎn)不匹配?;诒疚牡臄?shù)據(jù)集,我們對日冕物質(zhì)拋射的面積和長寬比進(jìn)行聚類,獲得面積和長寬比組合。根據(jù)k-means得到的聚類結(jié)果,本文設(shè)置了9種錨點(diǎn),為尺寸(16 × 16, 32 × 32和128 × 128)和長寬比(1∶1, 1∶2和1∶4)的組合。
目前還沒有關(guān)于深度學(xué)習(xí)及目標(biāo)檢測的日冕物質(zhì)拋射數(shù)據(jù)集,本文采用自制的數(shù)據(jù)集。本文從SOHO下載2007年6月~9月、2014年1月~4月共8個(gè)月時(shí)長的LASCO C2日冕圖像數(shù)據(jù)。LASCO C2圖像經(jīng)過圖形形態(tài)學(xué)、幀間差分、極坐標(biāo)轉(zhuǎn)化等處理后得到極坐標(biāo)差分圖。差分圖能更好地分辨日冕物質(zhì)拋射的運(yùn)動(dòng)趨勢,減少背景及噪聲、冕流等非日冕物質(zhì)拋射信息的影響。極坐標(biāo)圖相對于原始日冕圖像更有利于矩形框的標(biāo)注和檢測。因此,本文以日冕圖像的極坐標(biāo)差分圖作為檢測模型的輸入。
本文的數(shù)據(jù)集參考CDAW,SEEDS和CACTus 3大目錄的信息標(biāo)注日冕物質(zhì)拋射,并通過人工校驗(yàn)進(jìn)行微調(diào)。根據(jù)CDAW目錄對日冕物質(zhì)拋射種類的定義,我們將日冕物質(zhì)拋射分為強(qiáng)日冕物質(zhì)拋射和弱日冕物質(zhì)拋射。強(qiáng)日冕物質(zhì)拋射[21]是指日冕層在太陽劇烈活動(dòng)期間拋射的大量物質(zhì),在日冕圖像上表現(xiàn)為高亮區(qū)域面積較大、呈擴(kuò)張狀且擴(kuò)張速度較快、亮度特征明顯、拋射角寬度一般大于40°的日冕物質(zhì)拋射現(xiàn)象,類似CDAW目錄中種類標(biāo)記為空的日冕物質(zhì)拋射。弱日冕物質(zhì)拋射[21]是指太陽活動(dòng)前后期發(fā)生的日冕層拋射物質(zhì),在日冕圖像上表現(xiàn)為拋射物質(zhì)較少、高亮特征不明顯、拋射角寬度一般小于30°、呈現(xiàn)為小區(qū)域的暗團(tuán)或微亮的細(xì)條等日冕物質(zhì)拋射現(xiàn)象,類似CDAW目錄中種類標(biāo)記為弱或非常弱的日冕物質(zhì)拋射。如圖5,圖5(a)和圖5(b)圖的左子圖矩形框區(qū)域分別表示強(qiáng)日冕物質(zhì)拋射和弱日冕物質(zhì)拋射,右子圖為左子圖矩形框區(qū)域的放大圖。
表1為2007年6月1日~3日期間3大目錄的日冕物質(zhì)拋射標(biāo)記情況,共標(biāo)記了16個(gè)日冕物質(zhì)拋射事件,3大目錄同時(shí)都標(biāo)記的日冕物質(zhì)拋射事件有4個(gè)。3大目錄都較好地標(biāo)記了日冕物質(zhì)拋射事件,但它們之間存在較大差異且有各自的缺陷。如表1的日冕物質(zhì)拋射事件1,CDAW在2007年6月1日0時(shí)6分標(biāo)記了這個(gè)日冕物質(zhì)拋射事件,但CACTus和SEEDS沒有標(biāo)記。同時(shí)也存在CACTus或SEEDS標(biāo)記了某個(gè)日冕物質(zhì)拋射事件,而其他目錄沒有標(biāo)記的情況。如表1的日冕物質(zhì)拋射事件3,3大目錄都標(biāo)記了2007年6月1日7時(shí)30分起始的日冕物質(zhì)拋射事件,但3大目錄標(biāo)記的位置信息差異較大。有時(shí),某一目錄標(biāo)記為兩個(gè)在角度上相鄰的日冕物質(zhì)拋射事件,而另一個(gè)目錄將它們標(biāo)記為同一個(gè)日冕物質(zhì)拋射事件。另外,3大目錄標(biāo)記的一些日冕物質(zhì)拋射事件的位置與圖像中日冕物質(zhì)拋射的真實(shí)位置有差異。
表1 2007年6月1日~3日3大目錄CME檢測結(jié)果比較Table 1 Comparison with CME detection results of three Catalogs on June 1-3, 2007
針對上述問題,我們先利用3大目錄信息自動(dòng)生成目標(biāo)框,再使用lambelImg工具進(jìn)行手工調(diào)整。自動(dòng)生成和人工調(diào)整目標(biāo)框的步驟:(1)取并集,取3大目錄標(biāo)記的日冕物質(zhì)拋射信息的并集。(2)去重,當(dāng)某個(gè)日冕物質(zhì)拋射事件被兩個(gè)以上的目錄標(biāo)記時(shí),首先以CDAW的信息為準(zhǔn);當(dāng)CDAW沒有標(biāo)記時(shí)以SEEDS的信息為準(zhǔn),確定目錄信息后將其標(biāo)注于日冕圖像。(3)人工檢驗(yàn),當(dāng)3大目錄出現(xiàn)誤檢時(shí),手工將誤檢信息剔除;當(dāng)參考目錄給出的位置偏離日冕物質(zhì)拋射真實(shí)位置較大時(shí),進(jìn)行手工調(diào)整。手工調(diào)整時(shí),日冕物質(zhì)拋射目標(biāo)的邊緣設(shè)置為目標(biāo)區(qū)域塊的灰度值比圖像平均灰度值高5的像素,當(dāng)兩個(gè)目標(biāo)塊的邊緣距離小于10個(gè)像素點(diǎn)時(shí),兩個(gè)目標(biāo)塊歸為同一個(gè)日冕物質(zhì)拋射,邊緣重新設(shè)置為兩個(gè)目標(biāo)塊合并后的邊緣,最后沿邊緣標(biāo)注日冕物質(zhì)拋射的矩形目標(biāo)框。如圖6(a),3幅圖像分別表示2007年5月1日12時(shí)54分日冕圖像的CDAW,SEEDS和本文數(shù)據(jù)集的標(biāo)記結(jié)果,本文數(shù)據(jù)集的標(biāo)記結(jié)果主要參考CDAW目錄的信息并進(jìn)行微調(diào)產(chǎn)生。如圖6(b),3幅圖像分別表示2014年2月16日18時(shí)12分5秒日冕圖像的SEEDS,CACTus和本文數(shù)據(jù)集的標(biāo)記結(jié)果,CDAW在該日冕圖像上沒有標(biāo)記日冕物質(zhì)拋射,本文數(shù)據(jù)集的標(biāo)注結(jié)果主要參考SEEDS目錄的信息并進(jìn)行微調(diào)產(chǎn)生。如圖6(c),3幅圖像分別表示CDAW,SEEDS和CACTus的誤檢情況:第1幅圖為CDAW目錄在2007年5月2日11時(shí)6分日冕圖像上標(biāo)注的日冕物質(zhì)拋射區(qū)域,但此區(qū)域并未存在日冕物質(zhì)拋射;第2幅圖像為SEEDS目錄在2014年2月19日3時(shí)24分5秒日冕圖像檢測到的日冕物質(zhì)拋射區(qū)域,但此區(qū)域?qū)儆谝褣伾涞娜彰嵛镔|(zhì)留下的尾部,并非一個(gè)新的日冕物質(zhì)拋射;第3幅圖像顯示CACTus目錄在2014年2月19日4時(shí)24分5秒日冕圖像上檢測到的日冕物質(zhì)拋射區(qū)域,但該區(qū)域并未存在日冕物質(zhì)拋射。在人工校驗(yàn)階段,這些誤檢的日冕物質(zhì)拋射將剔除。
基于上述標(biāo)準(zhǔn),我們標(biāo)記了從SOHO下載的8個(gè)月時(shí)長的日冕圖像數(shù)據(jù),共包含19 524幅圖像,其中含有日冕物質(zhì)拋射的圖像有9 113幅,共標(biāo)注了1 537個(gè)日冕物質(zhì)拋射事件和13 599個(gè)標(biāo)注框。本文選取2007年7月~9月和2014年1月~3月的數(shù)據(jù)作為訓(xùn)練集,2014年4月的數(shù)據(jù)作為驗(yàn)證集,而2007年6月的數(shù)據(jù)作為測試集。訓(xùn)練集包含6 255幅圖像、128個(gè)強(qiáng)日冕物質(zhì)拋射事件和997個(gè)弱日冕物質(zhì)拋射事件;驗(yàn)證集包含1 983幅圖像、44個(gè)強(qiáng)日冕物質(zhì)拋射事件和195個(gè)弱日冕物質(zhì)拋射事件;測試集包含875幅圖像、22個(gè)強(qiáng)日冕物質(zhì)拋射事件和151個(gè)弱日冕物質(zhì)拋射事件。
本文模型在主頻2.6 GHz、內(nèi)存16.00 GB、搭載GTX1070顯卡的聯(lián)想電腦上訓(xùn)練完成。在ImageNet訓(xùn)練參數(shù)的基礎(chǔ)上,采用自制數(shù)據(jù)集對本文網(wǎng)絡(luò)進(jìn)行遷移(Finetune)訓(xùn)練。初始學(xué)習(xí)率設(shè)置為0.001,迭代到35 000次時(shí),學(xué)習(xí)率減小到0.000 1,最大迭代次數(shù)為70 000。為了評價(jià)模型的檢測效果,本文采用召回率、準(zhǔn)確率和平均準(zhǔn)確率等指標(biāo)進(jìn)行評估。這3個(gè)指標(biāo)都是強(qiáng)日冕物質(zhì)拋射和弱日冕物質(zhì)拋射兩個(gè)類別的平均值。
為了驗(yàn)證我們對Faster R-CNN改進(jìn)的有效性,本文設(shè)置了5組對比實(shí)驗(yàn),分別為Faster R-CNN,F(xiàn)aster R-CNN+ResNet101,F(xiàn)aster R-CNN+3個(gè)時(shí)刻特征融合、Faster R-CNN+錨點(diǎn)改進(jìn)和集合所有改進(jìn)的本文模型。在本文數(shù)據(jù)集的驗(yàn)證集上的實(shí)驗(yàn)結(jié)果如表2。
表2 模型改進(jìn)的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of model improvement
首先,我們分析不同改進(jìn)對召回率的影響。每一種改進(jìn)在召回率上都有所提高,錨點(diǎn)改進(jìn)對召回率提高效果最好,ResNet101網(wǎng)絡(luò)的提高較小。這是因?yàn)楦倪M(jìn)的錨點(diǎn)更匹配日冕物質(zhì)拋射的面積和長寬比。在準(zhǔn)確率指標(biāo)上,改進(jìn)的錨點(diǎn)一樣取得最好的提高效果,其他兩種改進(jìn)取得的提高效果也較明顯。最后,由于ResNet101保留了日冕圖像的淺層特征,3個(gè)時(shí)刻特征融合更是利用日冕圖像的時(shí)間相關(guān)性加強(qiáng)了當(dāng)前時(shí)刻的日冕物質(zhì)拋射特征,3種改進(jìn)的平均準(zhǔn)確率都提高10%以上,提高效果比較明顯。最終,集合了3種改進(jìn)的本文模型各個(gè)指標(biāo)都比Faster R-CNN有所提高,其中,召回率提高22.2%,準(zhǔn)確率提高19.7%,平均準(zhǔn)確率提高22.4%。這表明本文基于日冕圖像的特點(diǎn)對Faster R-CNN的改進(jìn)是有效的。
為了驗(yàn)證本文模型的檢測效果,我們分別用本文模型,F(xiàn)aster R-CNN,SSD和YOLO V3[22]等4類檢測模型對本文數(shù)據(jù)集的驗(yàn)證集進(jìn)行測試。實(shí)驗(yàn)結(jié)果如表3。
表3 4類檢測模型的實(shí)驗(yàn)結(jié)果
SSD和YOLO V3等一步檢測算法由于僅提取圖像的深層特征,缺少第2次邊框回歸等原因,檢測效果較差。Faster R-CNN也存在一步檢測算法的缺點(diǎn),但由于是兩步回歸,能通過第2步回歸提高檢測效果,具有更強(qiáng)的魯棒性。Faster R-CNN的檢測效果比SSD和YOLO V3略好,但比本文算法檢測效果差。本文模型擁有最好的檢測效果,平均準(zhǔn)確率為81.5%。
如圖7,一個(gè)日冕物質(zhì)拋射事件在極坐標(biāo)圖上表現(xiàn)為一系列水平方向有重合、垂直方向逐漸升高的具有明亮特征的目標(biāo)。另一方面,當(dāng)前時(shí)刻日冕圖像中的日冕物質(zhì)拋射與前一時(shí)刻圖像中的某個(gè)日冕物質(zhì)拋射在水平方向重合且在垂直方向升高時(shí),這兩個(gè)目標(biāo)屬于同一日冕物質(zhì)拋射事件。利用這個(gè)特征,我們在本文模型檢出的結(jié)果數(shù)據(jù)中定義日冕物質(zhì)拋射事件的認(rèn)證標(biāo)準(zhǔn):相鄰時(shí)刻圖像上的兩個(gè)目標(biāo)框在水平方向重疊率超過50%且在垂直方向隨時(shí)間升高,即可認(rèn)定這兩個(gè)目標(biāo)框?qū)儆谕粋€(gè)日冕物質(zhì)拋射事件,重疊率為兩個(gè)目標(biāo)框在水平方向的重疊寬度除以寬度較小的目標(biāo)框的水平寬度。根據(jù)認(rèn)證標(biāo)準(zhǔn),我們確定一個(gè)日冕物質(zhì)拋射事件包含多個(gè)日冕物質(zhì)拋射目標(biāo)框,如果這些目標(biāo)框超過三分之二為弱日冕物質(zhì)拋射目標(biāo),則該日冕物質(zhì)拋射事件為弱日冕物質(zhì)拋射,反之,認(rèn)為是強(qiáng)日冕物質(zhì)拋射。角寬度為該日冕物質(zhì)拋射事件多個(gè)目標(biāo)框右邊界的最大值與左邊界的最小值之差;中心角為該日冕物質(zhì)拋射事件多個(gè)目標(biāo)框左邊界的最小值加上角寬度的二分之一。根據(jù)定義,我們遍歷本文模型的檢測結(jié)果生成日冕物質(zhì)拋射目錄。本文2007年6月的日冕物質(zhì)拋射目錄發(fā)布于https://gitee.com/xian-xianggui/faster-rcnn-cme。
圖7 2007年6月9日16時(shí)54分起始的弱日冕物質(zhì)拋射事件前3幀的檢測效果,紅框?yàn)镃DAW檢測結(jié)果,黃框?yàn)镾EEDS檢測結(jié)果,白框?yàn)楸疚臄?shù)據(jù)集標(biāo)注結(jié)果,CACTus沒有檢測到此事件。(a)~(c)為16時(shí)54分、17時(shí)06分和17時(shí)30分的極坐標(biāo)差分圖;(e)~(f)為(a)~(c)對應(yīng)的日冕圖像差分圖
目前,學(xué)術(shù)界對日冕物質(zhì)拋射事件的定義并不明確,在日冕物質(zhì)拋射檢測的正確率方面也沒有統(tǒng)一的評價(jià)標(biāo)準(zhǔn)。本文標(biāo)注的數(shù)據(jù)集參考現(xiàn)有的CDAW,CACTus和SEEDS等3大日冕物質(zhì)拋射目錄,綜合了它們的優(yōu)點(diǎn),并通過人工校驗(yàn)進(jìn)行調(diào)整,具有一定的準(zhǔn)確性和全面性。以自制的數(shù)據(jù)集為參照標(biāo)準(zhǔn),我們對比了本文目錄與現(xiàn)有3大目錄的檢測效果。以2007年6月的數(shù)據(jù)集作為測試集,本文從兩方面對日冕物質(zhì)拋射檢測效果進(jìn)行評估:日冕物質(zhì)拋射事件數(shù)量的檢測和日冕物質(zhì)拋射事件參數(shù)的檢測。
4.3.1 日冕物質(zhì)拋射正確檢測數(shù)量
強(qiáng)日冕物質(zhì)拋射是活動(dòng)比較激烈的太陽活動(dòng),對太空天氣和人類生活的影響大,因此正確檢測強(qiáng)日冕物質(zhì)拋射非常重要。本文首先在強(qiáng)日冕物質(zhì)拋射正確檢測數(shù)量上與現(xiàn)有3大目錄進(jìn)行比較。另外,現(xiàn)有的檢測方法在弱日冕物質(zhì)拋射檢測上表現(xiàn)均不如強(qiáng)日冕物質(zhì)拋射。因此,提高對弱日冕物質(zhì)拋射的檢測正確率也是檢測方法改進(jìn)的重要目的。
由于日冕物質(zhì)拋射定義與背景冕流的影響,CDAW等人工標(biāo)記目錄和自動(dòng)檢測目錄得到同一個(gè)日冕物質(zhì)拋射事件的特征參數(shù)有差異。雖然不同目錄得到同一個(gè)日冕物質(zhì)拋射事件的參數(shù)有一定偏差,但從相關(guān)性可以確定為同一日冕物質(zhì)拋射事件。本文定義檢測正確的日冕物質(zhì)拋射事件為目錄標(biāo)記的日冕物質(zhì)拋射事件在水平方向的角度與數(shù)據(jù)集標(biāo)注的日冕物質(zhì)拋射事件的角度重疊率大于50%,且起始時(shí)刻與數(shù)據(jù)集標(biāo)注的起始時(shí)刻相差在1.5 h以內(nèi),則目錄標(biāo)記的該日冕物質(zhì)拋射事件認(rèn)定為一個(gè)檢測正確的日冕物質(zhì)拋射事件。如圖7為檢測正確的日冕物質(zhì)拋射:CDAW檢測到的日冕物質(zhì)拋射位置與數(shù)據(jù)集的重疊率為100%,且起始時(shí)間與數(shù)據(jù)集標(biāo)注的起始時(shí)間都是16時(shí)54分,即CDAW的檢測結(jié)果是正確的;SEEDS檢測的日冕物質(zhì)拋射位置與數(shù)據(jù)集的重疊率為100%,且起始時(shí)間與數(shù)據(jù)集標(biāo)注的起始時(shí)間相差12 min,即SEEDS的檢測結(jié)果也是正確的。
各個(gè)目錄正確的日冕物質(zhì)拋射數(shù)量對比結(jié)果如圖8。我們使用2007年6月的測試集共標(biāo)記了22個(gè)強(qiáng)日冕物質(zhì)拋射和151個(gè)弱日冕物質(zhì)拋射。強(qiáng)日冕物質(zhì)拋射檢測方面,CDAW,SEEDS和CACTus分別檢出22個(gè)、11個(gè)和9個(gè)。弱日冕物質(zhì)拋射檢測方面,CDAW,SEEDS和CACTus分別檢出127個(gè)、15個(gè)和11個(gè)。而本文算法檢出了22個(gè)強(qiáng)日冕物質(zhì)拋射和138個(gè)弱日冕物質(zhì)拋射。因此,在強(qiáng)日冕物質(zhì)拋射和弱日冕物質(zhì)拋射檢測方面,本文算法取得最好的效果。這是因?yàn)樵跇?biāo)注數(shù)據(jù)集時(shí)我們綜合了3個(gè)目錄的信息,標(biāo)注一些在CDAW沒有、但在SEEDS或CACTus目錄可以找到的日冕物質(zhì)拋射。如圖9,圖9(a)為本文方法和其他目錄對強(qiáng)日冕物質(zhì)拋射的檢測效果;圖9(b)為本文方法和其他目錄對弱日冕物質(zhì)拋射的檢測效果。
圖8 各個(gè)目錄正確的日冕物質(zhì)拋射數(shù)量的對比圖
圖9 本文方法檢測效果。(a)強(qiáng)日冕物質(zhì)拋射檢測效果;(b)弱日冕物質(zhì)拋射的檢測效果。紅框?yàn)镃DAW的檢測結(jié)果,黃框?yàn)镾EEDS的檢測結(jié)果,藍(lán)框?yàn)镃ACTus的檢測結(jié)果,白框?yàn)楸疚臋z測結(jié)果
4.3.2 日冕物質(zhì)拋射特征參數(shù)
日冕物質(zhì)拋射特征參數(shù)檢測的準(zhǔn)確性是評價(jià)日冕物質(zhì)拋射檢測算法的重要部分。本文以2007年6月測試集為基準(zhǔn),對比本文算法與其他3個(gè)目錄對日冕物質(zhì)拋射中心角和角寬度檢測的表現(xiàn)。日冕物質(zhì)拋射事件在極坐標(biāo)圖上表現(xiàn)為一系列水平方向有重合、垂直方向逐漸升高的具有明亮特征的目標(biāo)。本文取測試集標(biāo)注的多個(gè)目標(biāo)的最小左邊緣作為整個(gè)日冕物質(zhì)拋射事件的左邊緣,最大右邊緣作為整個(gè)日冕物質(zhì)拋射事件的右邊緣,左右邊緣的寬度即為日冕物質(zhì)拋射的角寬度,中心點(diǎn)的角度即為中心角。由此,本文得到測試集的各日冕物質(zhì)拋射事件的中心角和角寬度的參數(shù)。檢測結(jié)果顯示,本文算法與3大目錄同時(shí)標(biāo)記的強(qiáng)日冕物質(zhì)拋射有9個(gè),弱日冕物質(zhì)拋射有10個(gè)。本文以19個(gè)日冕物質(zhì)拋射事件為對象,以測試集的參數(shù)為標(biāo)準(zhǔn),統(tǒng)計(jì)本文目錄和3大目錄各自相對于測試集的中心角和角寬度的平均誤差。統(tǒng)計(jì)結(jié)果如圖10。
從圖10可以看出,本文算法和CDAW目錄的中心角和角寬度與測試集相差不大。本文目錄的中心角和角寬度平均誤差分別為3.3°和8.2°,CDAW目錄的為5.6°和10.4°,而SEEDS和CACTus目錄由于采用簡單閾值的方法判斷日冕物質(zhì)拋射,它們的中心角和角寬度的平均誤差相對較大。本文算法在日冕物質(zhì)拋射中心角和角寬度的檢測方面都比現(xiàn)有3大目錄更精確。
圖10 各個(gè)目錄的日冕物質(zhì)拋射參數(shù)的平均誤差Fig.10 Average error of CME parameters for each log
由于人為定義日冕物質(zhì)拋射特征和設(shè)定日冕物質(zhì)拋射分割閾值,現(xiàn)有的日冕物質(zhì)拋射檢測方法難以準(zhǔn)確建模及選取普適的閾值,存在檢測效果不佳的問題。因此,本文引入基于深度學(xué)習(xí)的目標(biāo)檢測模型檢測日冕物質(zhì)拋射。首先,參考CDAW,CACTus和SEEDS等目錄標(biāo)注日冕物質(zhì)拋射數(shù)據(jù)集,利用自制數(shù)據(jù)集訓(xùn)練的特征提取網(wǎng)絡(luò)能夠提取日冕物質(zhì)拋射的特征信息。另外,深度學(xué)習(xí)檢測模型自主訓(xùn)練分類器,避免了人為設(shè)定閾值的缺陷,因此本文算法對日冕物質(zhì)拋射有較好的檢測效果。以2007年6月的測試集為基準(zhǔn),本文算法有以下優(yōu)勢:(1)對強(qiáng)日冕物質(zhì)拋射和弱日冕物質(zhì)拋射的檢測正確率分別達(dá)到100%和91.4%,其中,對全部日冕物質(zhì)拋射的檢測準(zhǔn)確率為92.5%,分別比CDAW,SEEDS和CACTus高出6.4%,72%和81%;(2)能夠檢出CDAW目錄漏檢的弱日冕物質(zhì)拋射事件,我們檢出的CDAW漏檢的弱日冕物質(zhì)拋射有一部分是SEEDS或CACTus標(biāo)注的弱日冕物質(zhì)拋射,另一部分根據(jù)我們給出的弱日冕物質(zhì)拋射的定義可認(rèn)證為弱日冕物質(zhì)拋射;(3)在本文標(biāo)注的測試集上,本文算法檢出的日冕物質(zhì)拋射中心角和角寬度等參數(shù)比現(xiàn)有3大目錄更精確。
本文工作有兩個(gè)創(chuàng)新意義。首先,引入深度學(xué)習(xí)方法,自主提取日冕物質(zhì)拋射特征,能更好地表達(dá)日冕物質(zhì)拋射的特征,取得了較好的檢測效果。另外,參考CDAW,CACTus和SEEDS的日冕物質(zhì)拋射信息,我們標(biāo)注了目標(biāo)檢測的日冕物質(zhì)拋射數(shù)據(jù)集。這個(gè)數(shù)據(jù)集綜合了3大目錄的優(yōu)勢并經(jīng)過人工校驗(yàn)調(diào)整,能一定程度上正確反映日冕物質(zhì)拋射的發(fā)生情況,也可以為后續(xù)日冕物質(zhì)拋射的檢測提供參考。雖然本文對日冕物質(zhì)拋射檢測進(jìn)行了研究并取得了一定的進(jìn)展,但限于時(shí)間和知識面的關(guān)系,還可以進(jìn)行以下改進(jìn):(1)數(shù)據(jù)集的信息相對單一且沒有用到3大目錄的速度和加速度等參數(shù),后續(xù)可以加入這些信息;(2)本文算法沒有測量日冕物質(zhì)拋射事件的速度等特征,后續(xù)可以檢測這些日冕物質(zhì)拋射參數(shù)。