李良 蔡少鋒 謝耀榮 蘇建華 薛媛 謝耀斌
摘? 要: 序列數(shù)據(jù)處理在天體光譜分類(lèi)領(lǐng)域是一項(xiàng)非常重要的任務(wù),但是傳統(tǒng)的處理方式成本高、效率低。通過(guò)構(gòu)造一種以focal loss作為損失函數(shù)的多分支一維卷積神經(jīng)網(wǎng)絡(luò)對(duì)LAMOST部分序列數(shù)據(jù)進(jìn)行了分類(lèi),并采用MarcoF1分?jǐn)?shù)作為評(píng)價(jià)指標(biāo)。結(jié)果表明該模型取得了理想的實(shí)驗(yàn)效果,并且focal loss損失函數(shù)(其在不平衡數(shù)據(jù)分類(lèi)任務(wù)中對(duì)困難樣本增加權(quán)重)相比傳統(tǒng)的交叉熵?fù)p失函數(shù)也有更好的預(yù)測(cè)精度。
關(guān)鍵詞: 序列數(shù)據(jù); 神經(jīng)網(wǎng)絡(luò); 多分支結(jié)構(gòu); 一維卷積; 損失函數(shù)
中圖分類(lèi)號(hào):TP389.1? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2023)04-44-04
Abstract: Sequence data processing is a very important task in the field of celestial spectral classification, but the traditional processing method is costly and inefficient. A multi branch one-dimensional convolutional neural network with focal loss as the loss function is constructed to classify partial sequence data of LAMOST, and MarcoF1 score is used as the evaluation index. The results show that the model achieves ideal experimental results, and the focal loss function, which adds weight to difficult samples in unbalanced data classification tasks, has better prediction accuracy than the traditional cross entropy loss function.
Key words: sequence data; neural network; multi-branch structure; one-dimensional convolution; loss function
0 引言
在天體光譜等工程領(lǐng)域[1-2]會(huì)產(chǎn)生海量的數(shù)據(jù)。這些數(shù)據(jù)具有相似的特征,或者說(shuō)存在某一維度的序列關(guān)系,因此被統(tǒng)稱(chēng)為序列數(shù)據(jù)。傳統(tǒng)的序列數(shù)據(jù)處理算法采用人工或半人工的模板匹配的方式[3-4],難以取得理想的效果。近年來(lái)很多學(xué)者開(kāi)始將機(jī)器學(xué)習(xí)方法應(yīng)用于序列數(shù)據(jù)處理。以天體光譜分類(lèi)為例,覃冬梅等[5]提出使用主成分分析的方法對(duì)天體光譜的有效特征進(jìn)行提取、降維,然后使用KNN分類(lèi)器對(duì)降維后的數(shù)據(jù)分類(lèi);Almeida等[6]利用k-means方法對(duì)SDSS數(shù)據(jù)的所有恒星光譜和星系光譜進(jìn)行無(wú)監(jiān)督分類(lèi);蔡江輝等[7]在頻繁模式樹(shù)的基礎(chǔ)上提出分類(lèi)模式樹(shù)的概念,研究加權(quán)頻繁模式樹(shù)來(lái)搜尋天體光譜的特征和參數(shù)之間的關(guān)系模式進(jìn)行光譜分類(lèi)。
基于神經(jīng)網(wǎng)絡(luò)方法的深度學(xué)習(xí)技術(shù)已在物體分類(lèi)、分割和檢測(cè)等領(lǐng)域顯示出了其強(qiáng)大的性能。本文從基礎(chǔ)神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)出發(fā),提出了面向序列數(shù)據(jù)分類(lèi)的多分支一維卷積神經(jīng)網(wǎng)絡(luò)模型,并采用了focal loss緩解了類(lèi)別不平衡問(wèn)題,最終實(shí)現(xiàn)了極佳的分類(lèi)效果。
1 網(wǎng)絡(luò)模型
1.1 一維卷積
神經(jīng)網(wǎng)絡(luò)技術(shù)歷經(jīng)多年演變,已由最開(kāi)始的單個(gè)感知機(jī)發(fā)展到現(xiàn)在的深度前饋神經(jīng)網(wǎng)絡(luò),在語(yǔ)音識(shí)別和圖像分類(lèi)等任務(wù)中取得了巨大成功[8-9]。
現(xiàn)在常用的卷積神經(jīng)網(wǎng)絡(luò)技術(shù)適用于圖像識(shí)別領(lǐng)域,并且可以根據(jù)其卷積核的維度可以分為一維卷積、二維卷積和三維卷積。其中三維卷積適用于立體圖像識(shí)別,二維卷積適用于平面圖像的識(shí)別。對(duì)于序列數(shù)據(jù)分類(lèi)的任務(wù),可以將其視為一維圖像特征序列。因此適用于一維卷積,其原理如圖1所示。
1.2 多分支結(jié)構(gòu)
GoogLeNet是Google團(tuán)隊(duì)提出的一種神經(jīng)網(wǎng)絡(luò)模型,在ImageNet挑戰(zhàn)賽中取得了優(yōu)異的成績(jī)。其核心的神經(jīng)網(wǎng)絡(luò)模型Inception模塊采用了多分支卷積的結(jié)構(gòu),隨后逐步發(fā)展完善了多個(gè)版本[10-12],其結(jié)構(gòu)如圖2所示。
受到Inception模塊的啟發(fā),本文在處理序列數(shù)據(jù)分類(lèi)任務(wù)時(shí)也構(gòu)建了一種多分支結(jié)構(gòu)。通過(guò)三個(gè)不同大小一維卷積核的處理,該結(jié)構(gòu)能夠從多種不同跨度的區(qū)間提取有效特征,具有更強(qiáng)的特征解析能力。
1.3 Focal loss
Focal loss由何愷明等[13]提出,最初用于解決圖像檢測(cè)算法中數(shù)據(jù)不平衡造成的模型性能下降。用于多分類(lèi)問(wèn)題的原始交叉熵?fù)p失函數(shù)如下:
為了處理多分類(lèi)問(wèn)題中數(shù)據(jù)極端不平衡問(wèn)題,focal loss引入了一個(gè)權(quán)值項(xiàng),以實(shí)現(xiàn)對(duì)少數(shù)樣本類(lèi)和個(gè)別困難樣本的重視,focal loss損失函數(shù)的形式如下:
其中,[γ]為調(diào)整權(quán)值偏重程度的超參,[p]為模型輸出的概率值。本文采用了focal loss損失函數(shù)替代了原有的交叉熵?fù)p失函數(shù),大大改善了因樣本類(lèi)別不平衡而造成的模型性能損失。
1.4 網(wǎng)絡(luò)結(jié)構(gòu)
本文基于神經(jīng)網(wǎng)絡(luò)方法并結(jié)合上述幾種模塊提出了面向序列數(shù)據(jù)分類(lèi)任務(wù)的多分支一維卷積神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)如圖3所示。該網(wǎng)絡(luò)包括三個(gè)一維卷積分支進(jìn)行特征提取,然后三個(gè)分支的特征被組合在一起輸出分類(lèi)結(jié)果,最后由focal loss損失函數(shù)指導(dǎo)整個(gè)網(wǎng)絡(luò)完成訓(xùn)練。
2 數(shù)據(jù)與實(shí)驗(yàn)
2.1 數(shù)據(jù)集
為了證明本文提出的網(wǎng)絡(luò)模型的有效性,來(lái)自于中國(guó)科學(xué)院國(guó)家天文臺(tái)的LAMOST數(shù)據(jù)集被用于實(shí)驗(yàn)驗(yàn)證。LAMOST數(shù)據(jù)集[14-15]是一個(gè)公開(kāi)數(shù)據(jù)集,目前已被廣泛用于序列數(shù)據(jù)分類(lèi)實(shí)驗(yàn)。該數(shù)據(jù)集中的每一條光譜提供了3690-9100埃的波長(zhǎng)范圍內(nèi)的一系列輻射強(qiáng)度值,旨在對(duì)恒星、星系、類(lèi)星體和未知天體四種天體結(jié)構(gòu)進(jìn)行分類(lèi)。
圖4給出了數(shù)據(jù)集中的部分?jǐn)?shù)據(jù),前2600列代表某個(gè)波段的輻射強(qiáng)度,type表示天體的類(lèi)別,其中star、galaxy、qso和unknown分別代表恒星、星系、類(lèi)星體和未知天體。
圖5所示的是對(duì)每種不同的星體類(lèi)別隨機(jī)選取四個(gè)不同樣本所做的輻射波段-強(qiáng)度圖,從圖5中可以看出,雖然數(shù)據(jù)的分布特征不盡相同,但同種類(lèi)別的數(shù)據(jù)的分布范圍和趨勢(shì)有相似特點(diǎn),說(shuō)明數(shù)據(jù)具有可分性。
2.2 評(píng)價(jià)指標(biāo)
表1給出了四種不同類(lèi)別星體的數(shù)量,從表1中可以看出star約占整個(gè)數(shù)據(jù)的92%,是qso的314倍,因此,LAMOST數(shù)據(jù)集屬于極端不平衡的數(shù)據(jù)集。所以準(zhǔn)確率不適用于LAMOST數(shù)據(jù)分類(lèi),本文采取Van Rijsbergen提出的F1得分作為評(píng)價(jià)指標(biāo)[16]。F1得分是精確率和召回率的調(diào)和平均數(shù),能夠綜合評(píng)價(jià)精確率和召回率對(duì)分類(lèi)結(jié)果的影響。某一類(lèi)別的F1分?jǐn)?shù)計(jì)算方式如下:
在單個(gè)類(lèi)別的[F1]分?jǐn)?shù)的基礎(chǔ)上,可以進(jìn)一步引入[MarcoF1]分?jǐn)?shù)。該指標(biāo)由每個(gè)類(lèi)別的[F1]分?jǐn)?shù)的算術(shù)平均值計(jì)算得出,可以綜合衡量所有類(lèi)別的結(jié)果質(zhì)量,其形式如下:
2.3 實(shí)驗(yàn)設(shè)置
為了判斷模型在對(duì)數(shù)據(jù)集預(yù)測(cè)效果的好壞,本文從40000條數(shù)據(jù)中隨機(jī)選取30%作為測(cè)試集,其余部分作為訓(xùn)練集參與模型訓(xùn)練。
除此之外,為了證明所提出的模型相比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型對(duì)天文數(shù)據(jù)分類(lèi)等任務(wù)具有更優(yōu)的效果,本文還設(shè)計(jì)了全連接神經(jīng)網(wǎng)絡(luò)和單分支的一維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)比實(shí)驗(yàn)。
其中全連接網(wǎng)絡(luò)包含兩個(gè)隱藏層,每個(gè)隱藏層都有512個(gè)神經(jīng)元。單分支一維卷積神經(jīng)網(wǎng)絡(luò)有三個(gè)隱藏層,第一層由64個(gè)卷積核構(gòu)成的卷積層,第二層是最大池化層,第三層是包含64個(gè)神經(jīng)元的全連接層。
2.4 結(jié)果討論
表2給出了三種模型分別在log loss和focal loss下在測(cè)試集上的[MarcoF1]得分。
從模型上看,采用一維卷積無(wú)論是以log loss還是以focal loss作為損失函數(shù),預(yù)測(cè)效果都明顯優(yōu)于作為基線模型的全連接神經(jīng)網(wǎng)絡(luò),說(shuō)明一維卷積方法更加適用于天體光譜這種序列數(shù)據(jù)。而本文提出的網(wǎng)絡(luò)模型在此基礎(chǔ)上有了進(jìn)一步提升,這表明多分支一維卷積網(wǎng)絡(luò)能夠從多種不同跨度的區(qū)間提取有效特征,進(jìn)而更好地預(yù)測(cè)天體類(lèi)別。
從損失函數(shù)上來(lái)看,在使用同一模型的基礎(chǔ)上,focal loss作為損失函數(shù)相比于以log loss作為損失函數(shù)均有一定程度的提升。該結(jié)果表明在不平衡數(shù)據(jù)分類(lèi)任務(wù)中通過(guò)在損失函數(shù)中對(duì)困難樣本增加額外權(quán)重,能使損失函數(shù)傾向于優(yōu)化難分樣本從而提高預(yù)測(cè)的精度。
3 結(jié)束語(yǔ)
為了對(duì)海量的序列數(shù)據(jù)進(jìn)行精準(zhǔn)自動(dòng)分類(lèi),本文提出了一種多分支一維卷積神經(jīng)網(wǎng)絡(luò),并在一個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。首先,通過(guò)三個(gè)不同尺度的一維卷積核從不同跨度對(duì)數(shù)據(jù)提取特征,然后通過(guò)三個(gè)全連接層對(duì)四種目標(biāo)類(lèi)型進(jìn)行分類(lèi)。除此之外本文還使用了focal loss解決了log loss在不平衡數(shù)據(jù)集難以訓(xùn)練少數(shù)類(lèi)別數(shù)據(jù)的問(wèn)題。實(shí)驗(yàn)結(jié)果表明該網(wǎng)絡(luò)能夠有效提取LAMOST數(shù)據(jù)集的特征,顯著提高了天梯分類(lèi)等序列數(shù)據(jù)分類(lèi)任務(wù)的準(zhǔn)確率,具有優(yōu)秀的應(yīng)用價(jià)值。
參考文獻(xiàn)(References):
[1] 谷建偉,周梅,李志濤,等.基于數(shù)據(jù)挖掘的長(zhǎng)短期記憶網(wǎng)絡(luò)模型油井產(chǎn)量預(yù)測(cè)方法[J].特種油氣藏,2019,26(2):77
[2] 艾麗雅.天體光譜的分類(lèi)算法研究[D].鞍山:遼寧科技大學(xué)碩士學(xué)位論文,2016
[3] Liu C, Cui W Y, Zhang B, et al. Spectral classification of stars based on LAMOST spectra[J].Research in Astronomy and Astrophysics,2015,15(8):1137
[4] Gray R O, Corbally C J, De Cat P, et al. LAMOST observations in the Kepler field: spectral classification with the MKCLASS code[J]. The Astronomical Journal,2015,151(1):13
[5] 覃冬梅,胡占義,趙永恒.一種基于主分量分析的恒星光譜快速分類(lèi)法[J].光譜學(xué)與光譜分析,2003(1)
[6] Almeida J S, Aguerri J A L, Munoz-Tunón C, et al.Automatic unsupervised classification of all sloan digital sky survey data release 7 galaxy spectra[J]. The Astrophysical Journal,2010,714(1):487
[7] 趙旭俊,蔡江輝,張繼福,等.基于分類(lèi)模式樹(shù)的恒星光譜自動(dòng)分類(lèi)方法[J].光譜學(xué)與光譜分析,2013,33(10):2875-2878
[8] Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors[J]. nature,1986,323(6088):533-536
[9] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE,1998,86(11):2278-2324
[10] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2015:1-9
[11] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]//International conference on machine learning. PMLR,2015:448-456
[12] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C] // Proceedings of the IEEE conference on computer vision and pattern recognition,2016:2818-2826
[13] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense? object detection[C]//Proceedings of the IEEE international conference on computer vision,2017:2980-2988
[14] Zhao G, Zhao Y H, Chu Y Q, et al. LAMOST spectral survey—An overview[J]. Research in Astronomy and Astrophysics,2012,12(7):723
[15] Cui X Q, Zhao Y H, Chu Y Q, et al. The large sky area multi-object fiber spectroscopic telescope (LAMOST)[J]. Research in Astronomy and Astrophysics,2012,12(9):1197
[16] Van Rijsbergen C. Information Retrieval. Dept. of Computer Science, University of Glasgow[J]. Google Scholar Google Scholar Digital Library Digital Library,1979
作者簡(jiǎn)介:李良(1970-),男,四川成都人,西南石油大學(xué)學(xué)士,高級(jí)工程師,主要研究方向:大數(shù)據(jù)應(yīng)用研究與開(kāi)發(fā)。
通訊作者:謝耀榮(1962-),男,甘肅甘谷人,西南石油大學(xué)學(xué)士,高級(jí)工程師,主要研究方向:數(shù)字化與大數(shù)據(jù)應(yīng)用。