艾霖嬪 徐權(quán)峰 杜利婷 許婷婷 高獻(xiàn)軍 李廣平 周衛(wèi)紅,3
(1云南民族大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院 昆明 650500)
(2廣州大學(xué)天體物理中心 廣州 510006)
(3中國(guó)科學(xué)院天體結(jié)構(gòu)與演化重點(diǎn)實(shí)驗(yàn)室 昆明 650011)
星系是由恒星、恒星遺骸、暗物質(zhì)和星際氣體等物質(zhì)組成的引力束縛系統(tǒng).在星系天文學(xué)的傳統(tǒng)研究中,人們通常根據(jù)它的視覺(jué)形態(tài)來(lái)對(duì)星系進(jìn)行分類.星系的形態(tài)反映了星系的結(jié)構(gòu)等綜合物理特征,因而與星系的形成與演化過(guò)程有著密切的聯(lián)系.比如,研究表明,橢圓形態(tài)的星系更可能由星系的并合過(guò)程形成[1],因此,對(duì)星系按形態(tài)特征進(jìn)行分類,是星系天文學(xué)研究中的一個(gè)常規(guī)且重要的環(huán)節(jié).隨著大型巡天項(xiàng)目的巡天深度和探測(cè)效率不斷提升,巡天探測(cè)中得到的星系數(shù)目也在不斷增加,甚至達(dá)到了近億量級(jí),因此,對(duì)常規(guī)的數(shù)據(jù)處理方法提出了新的挑戰(zhàn).
早期,由于觀測(cè)技術(shù)以及觀測(cè)儀器的限制,星系的觀測(cè)數(shù)目也有限,用人眼便可完成對(duì)星系的形態(tài)分類,即目視法.著名的目視分類系統(tǒng)有哈勃系統(tǒng)[2]、德沃古勒系統(tǒng)[3]、葉凱士系統(tǒng)[4]等.在這些分類中哈勃音叉圖是目前使用最為廣泛的分類方法.但是,目視分類系統(tǒng)只適合星系圖像數(shù)據(jù)較少的情形,且有著較強(qiáng)的主觀性.隨著數(shù)字技術(shù)的發(fā)展,一些大天區(qū)巡天項(xiàng)目獲得大量的星系圖像.此時(shí)研究者已不能再依靠目視法來(lái)對(duì)星系的形態(tài)進(jìn)行大樣本的分類了,與此同時(shí)一些基于計(jì)算機(jī)的星系形態(tài)的替代分類方法出現(xiàn)了,其中包括了圖像輪廓的參數(shù)化擬合以及圖像特征的非參數(shù)測(cè)量?jī)煞N常用方法[5].對(duì)于參數(shù)化的輪廓擬合來(lái)說(shuō),該方法對(duì)星系的二維表面亮度輪廓進(jìn)行一維擬合,因此會(huì)丟失星系的旋臂在切向方向的圖像特征.此外,對(duì)高紅移星系而言,由于圖像的信噪比一般比較低,往往并不能對(duì)星系的圖像進(jìn)行很好的一維參數(shù)化輪廓擬合,特別在進(jìn)行核球和盤(pán)成份分解等復(fù)雜任務(wù)時(shí).為了解決參數(shù)化擬合對(duì)低信噪比圖像或者不規(guī)則星系圖像特征描述不足的缺點(diǎn),學(xué)者們提出了非參數(shù)化的測(cè)量方法.比如星系圖像中最為常用的非參數(shù)化特征包括了星系的結(jié)構(gòu)參數(shù)如C(聚集度指數(shù))[6]、A(非對(duì)稱指數(shù))[7]、G(基尼系數(shù))[8]等形態(tài)特征參數(shù).范海英[9]結(jié)合了參數(shù)化與非參數(shù)化星系形態(tài)特征的測(cè)量方法來(lái)計(jì)算星系的形態(tài)參數(shù),發(fā)現(xiàn)他們研究的COSMOS(Cosmic Evolution Survey)天區(qū)中紅移z~3的456顆LBG(Lyman Break Galaxy)星系的S′ersic指數(shù)(S′ersic指數(shù)大于等于2的時(shí)候,代表早型星系,否則為晚型星系)均較小,屬于晚型星系.
隨著斯隆數(shù)字巡天(Sloan Digital Sky Survey,SDSS)、暗能量巡天(The Dark Energy Survey,DES)等項(xiàng)目巡天深度和探測(cè)效率的不斷提升,星系圖像數(shù)據(jù)呈爆炸式增長(zhǎng),傳統(tǒng)的目視分類系統(tǒng)和參數(shù)化的輪廓擬合都無(wú)法滿足如此大規(guī)模的星系圖像數(shù)據(jù)處理需求.對(duì)于非參數(shù)化的圖像特征參數(shù)來(lái)說(shuō),雖然其測(cè)量較為簡(jiǎn)單,但是并不能有效地替代星系的形態(tài)特征這一經(jīng)典描述.幸運(yùn)的是,研究人員開(kāi)展了一項(xiàng)名為星系動(dòng)物園(Galaxy Zoo)的公眾科學(xué)計(jì)劃(詳見(jiàn)3.1節(jié)).這項(xiàng)科學(xué)計(jì)劃利用了公眾的力量對(duì)包含幾十萬(wàn)個(gè)星系圖像的樣本來(lái)進(jìn)行形態(tài)分類,從而提供了一個(gè)很好的可以利用機(jī)器學(xué)習(xí)來(lái)對(duì)星系圖像的形態(tài)特征進(jìn)行自動(dòng)分類的訓(xùn)練樣本.Hocking等[10]提出了一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)技術(shù),與傳統(tǒng)的無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法不同,該方法不經(jīng)過(guò)任何形式的預(yù)訓(xùn)練便可分離早期和晚期類型的星系,將基于機(jī)器的分類與星系動(dòng)物園的人工分類結(jié)果進(jìn)行比較,證明了人工和機(jī)器分類之間的良好一致性;Gauci等[11]基于機(jī)器學(xué)習(xí)開(kāi)發(fā)了不同的分類模型應(yīng)用于星系形態(tài)分類,進(jìn)行了比較分析包括Classification And Regression Tree(CART)、C4.5(可產(chǎn)生決策樹(shù)用作分類)、隨機(jī)森林和模糊邏輯算法.實(shí)驗(yàn)表明,使用這幾種算法的訓(xùn)練時(shí)間都不長(zhǎng),其中當(dāng)隨機(jī)森林的樹(shù)為50棵的時(shí)候,其分類精確率在幾種分類算法中是最高的;Barchi等[12]提出了兩種不同的星系形態(tài)學(xué)方法:一種基于非參數(shù)形態(tài)學(xué)和傳統(tǒng)機(jī)器學(xué)習(xí)算法,另一種基于深度學(xué)習(xí).實(shí)驗(yàn)結(jié)果是深度和傳統(tǒng)的機(jī)器學(xué)習(xí)方法準(zhǔn)確率都超過(guò)了94.5%;Cheng等[13]探索了無(wú)監(jiān)督機(jī)器學(xué)習(xí)在星系形態(tài)分類中的應(yīng)用,將特征提取與向量量化變分自動(dòng)編碼器(Vector Quantized Variational AutoEncoder,VQ-VAE)和層次聚類(Hierarchical Clustering,HC)相結(jié)合,在早期類型星系和晚期類型星系上均達(dá)到了87%的準(zhǔn)確率.
深度學(xué)習(xí)方面戴加明等[14]通過(guò)改進(jìn)殘差網(wǎng)絡(luò)(Residual network,ResNet)的殘差單元,得到一個(gè)名為ResNet-26的深度殘差網(wǎng)絡(luò)模型,對(duì)星系的形態(tài)特征進(jìn)行提取,以95.12%的精度驗(yàn)證了該模型對(duì)星系形態(tài)分類的有效性;Chen[15]基于Galaxy Zoo的Kaggle公共數(shù)據(jù)集(詳見(jiàn)3.1節(jié)),設(shè)計(jì)了一種用于星系形態(tài)圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò).該網(wǎng)絡(luò)包含8個(gè)卷積層、5個(gè)最大池化層、一個(gè)Flatten層、一個(gè)包含150個(gè)神經(jīng)元的全連接層,最終輸出了每個(gè)圖像類別的概率分布.結(jié)果表明該模型在驗(yàn)證集上余弦相似度(Cosine Similarity,CS)達(dá)到了-0.8652(越接近-1意味著預(yù)測(cè)類別和實(shí)際類別越接近),證實(shí)了該模型對(duì)于星系形態(tài)分類是非常有效的;Cavanagh等[16]開(kāi)發(fā)了一種新的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),以3類(橢圓、透鏡狀、螺旋形)和4類(加不規(guī)則)模式對(duì)星系形態(tài)進(jìn)行分類,在3類和4類分類方面都優(yōu)于現(xiàn)有模型,總體分類準(zhǔn)確率分別為83%和81%.并比較了所有4個(gè)類別之間雙向/二進(jìn)制分類的準(zhǔn)確性,表明橢圓和螺旋最容易區(qū)分,而螺旋和不規(guī)則最難區(qū)分.
近年來(lái)的研究成果表明,深度學(xué)習(xí)網(wǎng)絡(luò)逐漸成為海量天文數(shù)據(jù)處理分析的有效工具和方法,如何設(shè)計(jì)構(gòu)建、擴(kuò)展以及優(yōu)化高效的深度網(wǎng)絡(luò)模型,是深度學(xué)習(xí)方法應(yīng)用中的一個(gè)主要難點(diǎn)問(wèn)題.
以往對(duì)于深度網(wǎng)絡(luò)模型的優(yōu)化通常從增加卷積神經(jīng)網(wǎng)絡(luò)的深度、寬度以及增加輸入圖像的分辨率其中的一個(gè)維度著手,但這些模型擴(kuò)展方法具有任意性,還需要手動(dòng)調(diào)參,這不僅增加了網(wǎng)絡(luò)設(shè)計(jì)的難度,還不能保證網(wǎng)絡(luò)性能最優(yōu).
2019年谷歌大腦的研究人員Tan等[17]提出了一種新的針對(duì)網(wǎng)絡(luò)模型的深度、寬度、輸入圖像分辨率進(jìn)行統(tǒng)一縮放的方法.與以往對(duì)模型擴(kuò)展時(shí)任意對(duì)網(wǎng)絡(luò)深度、寬度以及輸入圖像分辨率擴(kuò)展不同,該方法使用復(fù)合系數(shù)對(duì)網(wǎng)絡(luò)模型的深度、寬度、輸入圖像分辨率進(jìn)行更加結(jié)構(gòu)化的統(tǒng)一縮放,谷歌大腦基于該縮放方法提出一系列的卷積神經(jīng)網(wǎng)絡(luò)模型,命名為EfficientNet.
擴(kuò)展網(wǎng)絡(luò)的性能取決于基線網(wǎng)絡(luò),因此一個(gè)構(gòu)架簡(jiǎn)單、干凈、容易擴(kuò)展、泛化的基線網(wǎng)絡(luò)至關(guān)重要.Tan等[17]通過(guò)自動(dòng)機(jī)器學(xué)習(xí)(Automated Machine Learning,AutoML)Mobile Neural Architecture Search(MNAS)框架進(jìn)行神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索,得到一個(gè)基線模型命名為EfficientNet-B0.EfficientNet-B0使用移動(dòng)翻轉(zhuǎn)瓶頸卷積(Mobile inverted Bottleneck Convolution,MBConv),繼續(xù)對(duì)EfficientNet-B0進(jìn)行縮放得到一系列擴(kuò)展模型-EfficientNet,圖1為EfficientNet-B0結(jié)構(gòu)圖.其中包含移動(dòng)翻轉(zhuǎn)瓶頸卷積模塊16個(gè)、卷積層2個(gè)、全局平均池化層以及分類層各1個(gè).進(jìn)行復(fù)合縮放首先需要進(jìn)行網(wǎng)格搜索,探索在固定的計(jì)算機(jī)內(nèi)存資源條件下EfficientNet-B0的網(wǎng)絡(luò)深度、寬度、輸入圖像分辨率縮放之間的聯(lián)系.發(fā)現(xiàn)常規(guī)卷積運(yùn)算的每秒浮點(diǎn)計(jì)算次數(shù)與網(wǎng)絡(luò)深度、寬度的平方、輸入圖像分辨率的平方成正比,即網(wǎng)絡(luò)深度翻倍會(huì)使每秒浮點(diǎn)計(jì)算次數(shù)翻倍,而網(wǎng)絡(luò)寬度或輸入圖像分辨率翻倍則會(huì)使每秒浮點(diǎn)計(jì)算次數(shù)增加4倍.如下式所示:
圖1 EfficientNet-B0模型的結(jié)構(gòu)圖Fig.1 Structure of EfficientNet-B0 model
其中d、w、r分別表示網(wǎng)絡(luò)深度、寬度、輸入圖像分辨率,φ是一個(gè)用戶指定的系數(shù),它規(guī)定了有多少資源可以用于模型縮放,α、β、γ是常數(shù),由網(wǎng)格搜索來(lái)確定,分別指定了如何將這些額外的資源分配給網(wǎng)絡(luò)寬度、深度和輸入圖像分辨率.最后,應(yīng)用這些系數(shù),將EfficientNet-B0擴(kuò)展到目標(biāo)模型大小或目標(biāo)計(jì)算成本.
在EfficientNet-B0的基礎(chǔ)上,根據(jù)寬度系數(shù)、深度系數(shù)分別對(duì)網(wǎng)絡(luò)的寬度、深度進(jìn)行縮放,得到不同的EfficientNet模型,分別命名為EfficientNet-B1至EfficientNet-B7.具體縮放比例如表1所示.
表1 EfficientNet-B0至EfficientNet-B7的縮放尺度Table 1 Scaling of EfficientNet-B0 to EfficientNet-B7
圖2為文獻(xiàn)[17]的模型擴(kuò)展圖,其中a是基線網(wǎng)絡(luò),b是對(duì)基線網(wǎng)絡(luò)的寬度進(jìn)行擴(kuò)展,c是對(duì)基線網(wǎng)絡(luò)的深度進(jìn)行擴(kuò)展,d是對(duì)基線網(wǎng)絡(luò)的輸入圖像分辨率進(jìn)行擴(kuò)展,e是對(duì)基線網(wǎng)絡(luò)用復(fù)合系數(shù)進(jìn)行統(tǒng)一的擴(kuò)展.
圖2 EfficientNet的擴(kuò)展圖[17]Fig.2 Expansion diagram of EfficientNet[17]
Galaxy Zoo是一個(gè)志愿者科學(xué)計(jì)劃,邀請(qǐng)志愿者在網(wǎng)站上對(duì)星系形態(tài)進(jìn)行分類.多個(gè)志愿者經(jīng)過(guò)多次識(shí)別同一張星系圖像,同一張星系圖像的分類結(jié)果經(jīng)過(guò)多名志愿者的判斷若存在差異,天文學(xué)家將對(duì)這張星系圖像做出專業(yè)而統(tǒng)一的判斷.
為進(jìn)一步提高星系圖像分類的準(zhǔn)確率,星系動(dòng)物園管理者將星系動(dòng)物園1升級(jí)為星系動(dòng)物園2(Galaxy Zoo 2,GZ2),該階段致力于利用計(jì)算機(jī)的力量提升星系形態(tài)分類的準(zhǔn)確率.管理者舉辦了一場(chǎng)比賽,該比賽依托Kaggle平臺(tái).志愿者在星系動(dòng)物園1階段完成的對(duì)星系形態(tài)進(jìn)行分類的成果,在這一階段被用于訓(xùn)練網(wǎng)絡(luò).該比賽被命名為Galaxy Zoo-the Galaxy Challenge,其比賽數(shù)據(jù)采用SDSS發(fā)布的Data Release 7(DR7)數(shù)據(jù)集的星系圖像,共61578張.本文針對(duì)Galaxy Zoo-the Galaxy Challenge中的5類星系(圓形星系、中間星系、雪茄狀星系、側(cè)向星系和旋渦星系)應(yīng)用EfficientNet對(duì)其進(jìn)行分類研究,進(jìn)一步提高這5類星系的形態(tài)分類準(zhǔn)確率.
基于GZ2數(shù)據(jù)選取規(guī)則,在選取實(shí)驗(yàn)數(shù)據(jù)時(shí),為了應(yīng)對(duì)雪茄狀、中間、圓形星系得到的樣本數(shù)量較少的問(wèn)題,我們采取了與文獻(xiàn)[14]相同的方法,即將任務(wù)7(GZ2中有11個(gè)分類問(wèn)題,其中任務(wù)7的問(wèn)題為:星系有多圓?對(duì)應(yīng)回答有3個(gè)分別為:非常圓、介于兩者之間、雪茄形的)對(duì)應(yīng)的3個(gè)響應(yīng)的投票分?jǐn)?shù)從0.8降到了0.5.基于此,選取出來(lái)的星系圖像數(shù)量如表2所示,0到4分別表示圓形星系、中間星系、雪茄狀星系、側(cè)向星系和旋渦星系(下同).
表2 樣本集中5類星系數(shù)量Table 2 Number of 5 types of galaxies in the sample
選取出來(lái)的彩色星系圖像如圖3所示,從左至右依次為:圓形星系、中間星系、雪茄狀星系、側(cè)向星系和旋渦星系.
圖3 各類星系的彩色圖像(從左至右,它們的標(biāo)簽依次為:圓形星系、中間星系、雪茄狀星系、側(cè)向星系和旋渦星系.)Fig.3 Color images of various galaxies(from left to right,their labels are:completely round smooth,in-between smooth,cigar-shaped smooth,edge-on and spiral.)
圖4為本文圖像預(yù)處理的流程圖.基于5種星系的選取規(guī)則得到的星系圖像是彩色圖像,我們數(shù)據(jù)預(yù)處理的第1步是將彩色星系圖像轉(zhuǎn)化為灰度圖像,再對(duì)灰度圖像進(jìn)行開(kāi)運(yùn)算,即先進(jìn)行腐蝕(Erosion)運(yùn)算,再進(jìn)行膨脹(Dilation)運(yùn)算.開(kāi)運(yùn)算能夠除去孤立的小點(diǎn),而總的位置和形狀不變.其中腐蝕運(yùn)算將圖像中的高亮部分腐蝕掉,領(lǐng)域縮減,效果圖擁有比原圖更小的高亮區(qū)域,操作的時(shí)候表現(xiàn)為相鄰區(qū)域用極小值代替,高亮區(qū)域減少.而膨脹運(yùn)算是圖像中的高亮部分進(jìn)行膨脹、領(lǐng)域擴(kuò)張,效果圖擁有比原圖更大的高亮區(qū)域,操作的時(shí)候表現(xiàn)為相鄰區(qū)域用極大值代替,高亮區(qū)域增加.整體表現(xiàn)為除去較小的明亮細(xì)節(jié),保持整體的灰度級(jí)和較大的明亮區(qū)域不變,去除噪聲.
圖4 星系圖像預(yù)處理流程圖Fig.4 The data-flow diagram of Galaxy images pre-processing
從星系的圖像可以看出,星系一般位于圖像中間,所以我們對(duì)開(kāi)運(yùn)算后的圖像進(jìn)行了中間裁剪,裁剪到212×212.這樣可以進(jìn)一步消除噪聲,裁剪后的5類星系圖像按照9:1[14]的比例隨機(jī)被劃分為訓(xùn)練集和測(cè)試集.
在我們的實(shí)驗(yàn)中用于EfficientNet的數(shù)據(jù)來(lái)源相同,訓(xùn)練集、測(cè)試集比例都為9:1,EfficientNet-B0至EfficientNet-B7準(zhǔn)確率的對(duì)比如表3所示.通過(guò)表3可以看出EfficientNet-B0至EfficientNet-B7的準(zhǔn)確率都達(dá)到了92%以上,在EfficientNet-B5上我們獲得了最高的準(zhǔn)確率為96.76%,說(shuō)明Efficient-Net-B5對(duì)基線網(wǎng)絡(luò)的縮放比例對(duì)于星系的形態(tài)分類而言更加有效.
表3 不同EfficientNet模型在星系圖像上總體分類準(zhǔn)確率Table 3 Overall classification accuracy of different EfficientNet models on galaxy images
表4為EfficientNet-B5在各類星系中的分類效果,我們采用準(zhǔn)確率、精確率、召回率以及F1分?jǐn)?shù)來(lái)衡量EfficientNet-B5的分類性能.可以看出采用EfficientNet-B5對(duì)5類星系形態(tài)進(jìn)行分類,各類的分類準(zhǔn)確率都在98%以上,而精確率、召回率以及F1分?jǐn)?shù)除雪茄狀星系外也都在95%以上,雪茄狀星系可能由于數(shù)據(jù)量過(guò)少導(dǎo)致精確率、召回率以及F1分?jǐn)?shù)沒(méi)有其他幾類星系高.5類星系的平均分類準(zhǔn)確率為96.76%,平均精確率為96.67%,平均召回率為96.76%,平均F1分?jǐn)?shù)為96.71%,全部在96%以上,說(shuō)明了EfficientNet-B5對(duì)星系的形態(tài)分類而言有著很好的泛化能力.
表4 EfficientNet-B5在各類星系中的分類效果Table 4 Classification effect of EfficientNet-B5 in various galaxies
表5是測(cè)試數(shù)據(jù)集在EfficientNet-B5上的混淆矩陣,其中行為真實(shí)分類,列為預(yù)測(cè)類別.可以看出分類正確的圓形星系、中間星系以及漩渦星系數(shù)量分別為825、779和774,而這3類星系中分類錯(cuò)誤時(shí)也均是錯(cuò)分給了彼此,并沒(méi)有被錯(cuò)分為雪茄狀星系和側(cè)向星系.對(duì)于雪茄狀星系和側(cè)向星系而言,正確分類的數(shù)量分別為36和372.其中,雪茄狀星系分別有4、15和3個(gè)被錯(cuò)分為中間星系、側(cè)向星系和旋渦星系,而側(cè)向星系分別有3、13和2個(gè)被錯(cuò)分為中間星系、雪茄狀星系以及旋渦星系.我們分析認(rèn)為圓形星系、中間星系和旋渦星系在形態(tài)上存在一定的相似性,所以被錯(cuò)誤地分給了彼此.對(duì)于雪茄狀星系和側(cè)向星系則可能由于這兩類星系數(shù)據(jù)量太少,導(dǎo)致網(wǎng)絡(luò)并沒(méi)有很好地學(xué)習(xí)到它們的形態(tài)特征而導(dǎo)致了分類結(jié)果不佳.
表5 EfficientNet-B5在不同形態(tài)的星系分類中的混淆矩陣Table 5 Confusion matrix of EfficientNet-B5 in the classification of galaxies with different morphologies
由于本文與ResNet-26[14]采用的實(shí)驗(yàn)數(shù)據(jù)來(lái)源相同,且都是對(duì)圓形星系、中間星系、雪茄狀星系、側(cè)向星系和旋渦星系進(jìn)行形態(tài)分類,所以將本文實(shí)驗(yàn)結(jié)果與ResNet-26的實(shí)驗(yàn)結(jié)果作了對(duì)比,如表6所示.得益于EfficientNet模型從網(wǎng)絡(luò)寬度、網(wǎng)絡(luò)深度以及輸入圖像分辨率3個(gè)維度的綜合優(yōu)化,能看出相對(duì)于ResNet-26通過(guò)擴(kuò)寬網(wǎng)絡(luò)的寬度、減少網(wǎng)絡(luò)深度來(lái)優(yōu)化網(wǎng)絡(luò),EfficientNet-B5的準(zhǔn)確率、精確率、召回率以及F1值都有了較大的提升,從表6的結(jié)果來(lái)看同時(shí)從3個(gè)維度進(jìn)行優(yōu)化能進(jìn)一步提升網(wǎng)絡(luò)的性能.
表6 EfficientNet-B5與ResNet-26模型的分類結(jié)果對(duì)比Table 6 Comparison of the classification results between EfficientNet-B5 and ResNet-26
為驗(yàn)證本文模型在低信噪比星系圖像上的泛化能力,我們往原始星系圖像上添加了不同程度的高斯噪聲,分別為5%、10%、20%、50%.再對(duì)添加了噪聲的星系圖像使用本文預(yù)處理方法,并用之前訓(xùn)練好的網(wǎng)絡(luò)來(lái)進(jìn)行分類測(cè)試,結(jié)果如表7所示.由于噪聲的添加,模型提取到的星系形態(tài)特征受到影響,與未加噪聲的星系圖像分類效果相比整體有所下降.但添加了高斯噪聲的整體分類精度穩(wěn)定在80%附近,說(shuō)明EfficientNet-B5對(duì)于低信噪比星系圖像分類效果穩(wěn)定,有著不錯(cuò)的泛化能力.
表7 不同程度高斯噪聲下的分類結(jié)果對(duì)比Table 7 Comparison of classification results under different levels of Gaussian noise
本文鑒于深度學(xué)習(xí)在天文數(shù)據(jù)中的應(yīng)用越來(lái)越廣泛,但深度網(wǎng)絡(luò)存在網(wǎng)絡(luò)設(shè)計(jì)難度大、調(diào)參難的問(wèn)題,將同時(shí)從網(wǎng)絡(luò)的寬度、深度以及輸入圖像分辨率3個(gè)維度綜合優(yōu)化后的EfficientNet應(yīng)用于星系形態(tài)的分類研究,通過(guò)實(shí)驗(yàn)可以看出:
(1)EfficientNet-B0至EfficientNet-B7的準(zhǔn)確率都達(dá)到了92%以上,其中EfficientNet-B5上獲得了最高的準(zhǔn)確率為96.76%,可見(jiàn)EfficientNet-B5對(duì)基線網(wǎng)絡(luò)的縮放比例對(duì)于星系的形態(tài)分類而言更加有效;
(2)ResNet-26通過(guò)擴(kuò)寬網(wǎng)絡(luò)的寬度、減少網(wǎng)絡(luò)深度來(lái)優(yōu)化網(wǎng)絡(luò),而EfficientNet同時(shí)對(duì)網(wǎng)絡(luò)寬度、網(wǎng)絡(luò)深度以及輸入圖像分辨率進(jìn)行縮放來(lái)優(yōu)化網(wǎng)絡(luò),從兩者的對(duì)比結(jié)果來(lái)看,同時(shí)對(duì)3個(gè)維度進(jìn)行優(yōu)化能進(jìn)一步提升網(wǎng)絡(luò)的性能;
(3)EfficientNet-B5對(duì)于低信噪比星系圖像的分類精度波動(dòng)不大,穩(wěn)定在80%附近,說(shuō)明該模型對(duì)于低信噪比星系圖像也有著較好的泛化能力.
隨著大型巡天項(xiàng)目巡天深度和探測(cè)效率的不斷提升,積累的海量天文數(shù)據(jù)對(duì)其處理方法提出了新的挑戰(zhàn).本文鑒于深度網(wǎng)絡(luò)存在網(wǎng)絡(luò)設(shè)計(jì)難度大、調(diào)參難的問(wèn)題,將EfficientNet應(yīng)用于星系的形態(tài)分類,希望進(jìn)一步提高星系的形態(tài)分類精度.其中EfficientNet-B0至EfficientNet-B7的準(zhǔn)確率都達(dá)到了92%以上,在EfficientNet-B5中平均準(zhǔn)確率達(dá)到96.76%,平均精確率達(dá)到96.67%,平均召回率達(dá)到96.76%,平均F1分?jǐn)?shù)達(dá)到96.71%,相對(duì)于ResNet-26有了較大的提升,證明了EfficientNet可以應(yīng)用于星系的形態(tài)分類中,同時(shí)該模型對(duì)于低信噪比星系圖像也有著不錯(cuò)的泛化能力.本文采用的EfficientNet模型對(duì)未來(lái)更多大型巡天項(xiàng)目望遠(yuǎn)鏡的后續(xù)數(shù)據(jù)分析提供了更多可能,例如我國(guó)計(jì)劃于2023年發(fā)射的中國(guó)空間站望遠(yuǎn)鏡(China Space Station Telescope,CSST)以及大型綜合巡天望遠(yuǎn)鏡(Large Synoptic Survey Telescope,LSST).在未來(lái)的工作中我們將用EfficientNet進(jìn)行不同于本文形態(tài)的星系圖像分類研究,研究EfficientNet中網(wǎng)絡(luò)結(jié)構(gòu)對(duì)其形態(tài)分類效果的影響,進(jìn)一步驗(yàn)證EfficientNet對(duì)于星系形態(tài)分類的有效性.