許婷婷,張靜敏,杜利婷,周衛(wèi)紅,2
(1.云南民族大學 數學與計算機科學學院,云南 昆明650500;2.中國科學院 天體結構與演化重點實驗室,云南 昆明 650011)
大天區(qū)面積多目標光纖光譜天文望遠鏡LAMOST (large sky area multi-object fiber spectroscopic telescope)是一架視場為5°橫臥于南北方向的中星儀式反射施密特望遠鏡,也稱為郭守敬望遠鏡,是當今世界上光譜獲取率最高的天文望遠鏡,最多可同時獲得4 000個天體光譜.截止2017年12月31日,包含先導巡天及正式巡天5年的LAMOST DR5數據集正式發(fā)布,其中包括4 154個觀測天區(qū),共發(fā)布了901萬條光譜,高質量光譜數(S/N>10)達到了777萬條,恒星參數534萬組,是世界上最大的、有傳承價值的天體光譜數據庫,為研究銀河系的形成和演化提供了基礎性數據.在這些已獲得的光譜數據中,有很多是光譜型未知或者是現有分類可信度低的光譜數據,因此對這些光譜數據進行分析研究,從中獲得有價值的信息,提高LAMOST望遠鏡的科學產出,這是非常有必要的一項工作.
鑒于LAMOST海量的光譜數據,引入計算機程序進行自動或者半自動的分析處理顯得尤為重要.隨著光譜觀測在天文上的廣泛開展,學者們對光譜分類的方法及在天文上的應用進行了大量研究.較早的有吳永東[1]應用空間選擇性濾波、多尺度形態(tài)濾波等技術對類星體光譜進行識別.邱波[2]圍繞著求紅移和自動分類這2個中心問題進行,并基于粗集方法的光譜分類規(guī)則挖掘.覃冬梅、胡占義、趙永恒等[3-4]提出了2種快速的恒星光譜型分類方法,一種是基于主成分分析方法利用最近鄰分類器構建分類樹進行光譜分類;另一種方法是結合主成分分析方法提出一種新的基于支撐矢量機的非活動天體與活動天體的自動分類方法.羅阿理[5]采用支持向量機(SVM)方法對星系的分類問題進行了研究.趙瑞珍等[6]采用基于稀疏表示的方法進行譜線自動提取的研究.
與美國的SDSS巡天項目相比較,LAMOST沒有配套的測光觀測,只有光譜數據,在進行自動分類時不能借助色指數,對分類識別增加了難度,雖然LAMOST的pipeline對光譜進行了初步的分類[7],但由于多種原因一些恒星的分類識別結果還不是十分理想.此后,劉超等[8]對LAMOST光譜的進一步分類研究,發(fā)現由于巨星中B型以及早期的K型光譜與A型以及晚型的G型光譜非常相似導致分類困難,尚未解決的主要問題包括巨星中的OB,K, 亞巨星支的A,G的分類精度非常低,分類識別方法和結果仍然有待完善.由以上分析可知,LAMOST光譜中還存在一些不能確定的類型或者分類可信度低的光譜數據,針對這一問題,計劃將人工智能的最新成果用于光譜數據的分類識別中,即采用深度學習的方法對天體光譜數據進行分類研究并結合天體物理理論進行描述.
深度學習概念起源于人工神經網絡,作為機器學習中的一個新領域由Hinton等[9]于2006 年提出,通過對人腦機制的模仿來解釋圖像、文本和語音等數據,訓練和學習類似于人腦的神經網絡.由于深度學習的優(yōu)勢在于樣本越大,分類精度越高,得益于LAMOST光譜數據的大樣本優(yōu)勢,有理由相信將深度學習方法應用于LAMOST光譜數據的分類會取得較好結果.
從LAMOST 巡天項目發(fā)布的DR5數據庫中隨機選取30 000條恒星光譜,所選取的數據已被LAMOST Pipeline分為F、G、K 3種型星,每種型星樣本均為10 000條光譜.首先,需要對原始光譜數據進行預處理,對于給定的光譜集合:
其中,Xi=(x1,x2,…,xd)∈Rd表示第i條光譜向量,xi是給定波長下的流量值;οi=(ο1,ο2,…,οm)∈Rm是每條光譜對應的標簽向量.值得注意的是,在不同波長下,流量頻譜變化很大,即原始數據不同維度的值差異很大.
為了降低其計算復雜度且不影響光譜分類精確率,需要對原始數據進行歸一化處理,本文采用的歸一化方法是:min-max標準化,也稱為離差標準化,是對原始數據的線性變換,使結果值映射到[0,1]之間.轉換函數如下:
其中,xmax為每條光譜樣本數據的最大值,xmin為每條光譜樣本數據的最小值.
深度信念網絡(deep belief networks, DBN)是由受限玻爾茲曼機(restricted boltzmann machine, RBM)結構堆疊而成的深度學習模型.由于受限玻爾茲曼機只具有2層結構,所以從嚴格意義上說并不是一種真正的深度學習模型,然而它可用來作為基本模塊構造自編碼器、深層信念網絡、深層玻爾茲曼機等許多其他深層模型[10].深度信念網絡是一種深度學習的生成模型,又譯為深層信念網絡,由Geoffrey Hinton 及其合作者在 2006 年提出,其結構示意圖如圖1所示.DBN的神經元可以分為顯性神經元和隱性神經元,顯性神經元用于數據的輸入,隱性神經元用于數據特征的提取.
在用傳統(tǒng)方法構造光譜分類器時,光譜特征的提取和選擇是非常重要的一項工作.可通過測量特征譜線的參量,例如譜線的線心深度、等值寬度、特征譜線最大相對強度、特征譜線的特征波長、特征譜線的輻射強度度量等作為特征,以降低光譜數據的維度.深度信念網絡(DBN)因其本身構造的特殊性,能夠對數據的特征進行分層學習,也就是結構本身就具有良好的降維功能,使得大數據中的有效特征能夠直接通過模型本身進行提取.而本文所采用的是維度較高的光譜數據,只需要設計深度信念網絡中各層網絡的選取與構造,從而獲取更好的特征學習能力.
1) DBN的預訓練過程:分別對每一層受限玻爾茲曼機(RBM)網絡進行單獨無監(jiān)督地訓練,使其數據的特征在不同空間的映射過程中,都盡量保留光譜數據的特征信息.
2) DBN的反向微調過程:在DBN的結構中,前面的每一層RBM網絡都只能使得自身層內的權值對該層特征向量映射達到最優(yōu),并不是對整個DBN的特征向量映射達到最優(yōu).因此需要設置最后一層BP網絡層,將錯誤的信息自頂向下傳播至每一層RBM層,再全局微調整個DBN網絡.這樣的訓練過程使DBN克服了BP網絡因隨機初始化權值參數而容易陷入局部最優(yōu)和時間復雜度高的問題.
深度信念網絡中RBM的層數越多對應的學習次數也越多,得到的光譜數據特征也更具有代表意義.在本實驗中,經過反復嘗試,當RBM層數為3層時,光譜數據的有效特征已經能夠被有效提取,因此DBN中的受限玻爾茲曼機層數為3層.DBN模型節(jié)點數分別為3 909-500-500-2 000-3.其中,3 909個輸入單元表示輸入的光譜數據維度,受限玻爾茲曼機層的神經元個數分別為500,500,2 000,3個輸出節(jié)點表示光譜輸出光譜類別數目.訓練中為了避免過擬合和欠擬合的情況經實驗調參將迭代次數設為200次,學習率為默認值0.1,其分類模型結構如圖2所示:
1) 實驗環(huán)境在Intel i5處理器下進行,實驗平臺為Matlab 2014b.
2) 實驗樣本數據樣本來源于劉超、崔文元[8]等采用27種線指數特征基于支持向量機方法對LAMOST光譜數據進行自動分類研究的文章,本文從參考文獻[8]中選取F、G、K樣本共計1 667條光譜數據(光譜信噪比大于20),其中F型光譜309條,G型光譜1 121條,K型光譜237條,分別標記為1、2、3.在本實驗中將該樣本分為訓練集和測試集,其中訓練集1 200條光譜,測試集467條光譜.
3) 方法分析與比較文獻[8]中,選取27種Lick線指數來描述光譜特征,在對高維數據進行降維時能夠較完整地保留光譜信息,并基于支持向量機進行分類研究,結果顯示對G型光譜能夠很好的分類,但對于F和K光譜分類效果并不十分理想.而深度信念網絡模型最大的優(yōu)勢在于對光譜數據特征的分層學習,本身就具備降維功能,能夠很好的提取光譜數據的顯示特征,從而更好地進行特征學習和分類實驗.基于以上樣本和本文分類模型進行分類實驗,并將分類結果與劉超、崔文元等的文章結果進行對比分析,結果見表1.
表1 分類結果比較 %
1)實驗環(huán)境在Intel i5處理器下進行,實驗平臺為Matlab 2014b.
2)樣本數據考慮到實驗1中樣本數據較少,為了體現深度神經網絡大樣本的優(yōu)勢,本實驗選取的樣本總數為30 000條光譜,維度為3 909,分別為F、G、K型.僅對數據進行了歸一化處理,未限制光譜的信噪比值,樣本標簽分別為1、2、3,且在實驗中將樣本分為訓練集和測試集,其中訓練集27 000條光譜,測試集3 000條光譜.
3)方法分析與比較 王可等[11]采用深度神經網絡對F、G、K 3種型星的分類結果進行比較,樣本為50 000條.文章采用深度神經網絡分類模型,節(jié)點設計為721-400-800-1 200-2 000-3,即有4個隱含層的分類器模型.本實驗同樣采用深度學習模型,但與其不同的是深度信念網絡結構由受限玻爾茲曼機堆疊而成,不需要對光譜進行降維,應用該模型對高維光譜數據的特征分層學習能力,盡可能保留有效特征以提升分類精確度.
基于以上模型和數據進行分類實驗,需要說明的是:雖然參考文獻的數據集與本實驗的數據集不完全一樣,但均來自于LAMOST DR5,且樣本都是在不限制信噪比的前提下隨機選取.將結果與參考文獻[11]進行比較,結果見表2(注:PILDNN是指基于偽逆學習算法的深度神經網絡).
表2 分類結果比較
本文基于LAMOST巡天項目發(fā)布的海量數據的優(yōu)勢,將深度學習中的模型用于恒星F、G、K光譜數據中,由以上2個對比實驗可以看出.
1)深度信念網絡模型充分體現了大樣本的優(yōu)勢.實驗1的樣本數據量少,尤其F和K型光譜,因此分類效果明顯低于實驗2的大樣本數據的分類結果.
2)深度信念網絡分類模型與其他算法相比較,該模型通過受限玻爾茲曼機層學習、訓練各個參數的權值,并根據目標函數值經誤差反饋對參數數值進行微調,使得對于天體光譜的總體分類精確率有明顯提升;
3)深度信念網絡模型具有較強的學習能力,可以從高維的原始數據中提取差別較大的低維特征,不需要對數據進行降維就可直接開始訓練分類模型,不僅能夠更全面的考慮到光譜信息量,而且能夠較為準確的對光譜數據進行分類識別.
針對分類可信度較低的F、G和K3種型星,采用深度信念網絡進行大樣本分類實驗,結果表明該方法通過分層提取光譜數據特征的方法,具有很好的魯棒性,且分類效果優(yōu)于其他分類模型.深度學習方法雖然在大樣本數據分類識別時具有較大優(yōu)勢,但是該方法計算量巨大,對計算資源具有較高要求,因此,還需要優(yōu)化算法以解決計算復雜度高的問題.在接下來的工作中,我們會繼續(xù)選取分類精度低或光譜型未知的光譜作為分類搜尋的候選體,進行自動分類和數據挖掘研究,進一步完備各型巨星樣本,研究成果可以為銀河系結構和動力學研究提供更好的支持.