国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于堆疊降噪自編碼的恒星/星系分類研究?

2016-06-27 08:14:07秦浩然林基明王俊義
天文學(xué)報(bào) 2016年3期
關(guān)鍵詞:星系恒星正確率

秦浩然林基明王俊義

(1桂林電子科技大學(xué)廣西信息科學(xué)實(shí)驗(yàn)中心桂林541004)

(2桂林電子科技大學(xué)廣西密碼學(xué)與信息安全重點(diǎn)實(shí)驗(yàn)室桂林541004)

基于堆疊降噪自編碼的恒星/星系分類研究?

秦浩然1?林基明1?王俊義2

(1桂林電子科技大學(xué)廣西信息科學(xué)實(shí)驗(yàn)中心桂林541004)

(2桂林電子科技大學(xué)廣西密碼學(xué)與信息安全重點(diǎn)實(shí)驗(yàn)室桂林541004)

近年來,深度學(xué)習(xí)算法以其適應(yīng)性強(qiáng)、準(zhǔn)確率高、結(jié)構(gòu)復(fù)雜等特性在數(shù)據(jù)挖掘算法中異軍突起,但是在天文信息學(xué)中深度學(xué)習(xí)算法還鮮有問津.針對斯隆數(shù)字巡天(Sloan Digital Sky Survey,SDSS)恒星/星系分類中普遍存在的亮源集分類正確率高但暗源集分類正確率低等問題,引入了深度學(xué)習(xí)中較新的研究成果—堆疊降噪自編碼(stacked denoising autoencoders,SDA)神經(jīng)網(wǎng)絡(luò)和dropout微調(diào)技術(shù).從SDSS釋放出的帶有光譜證認(rèn)(spectroscopic measurements)的測光數(shù)據(jù)中分別隨機(jī)抽取DR7(Data Release 7)和DR12(Data Release 12)的亮源集和暗源集并對其進(jìn)行預(yù)處理,再分別對它們的亮源集和暗源集做不放回隨機(jī)抽樣,得到它們亮源和暗源的訓(xùn)練集和測試集.最后用這些訓(xùn)練集分別訓(xùn)練得到了DR7和DR12亮源和暗源的SDA模型,并將SDA在DR12測試集上的測試結(jié)果與支持向量機(jī)軟件包(Library for Support Vector Machines,LibSVM)、J48決策樹(J48)、邏輯模型樹(Logistic Model Trees,LMT)、支持向量機(jī)(Support Vector Machine,SVM)、邏輯回歸(Logistic Regression)、單層決策樹算法(Decision Stump)上的測試結(jié)果進(jìn)行比較,同時將SDA在DR7測試集上的測試結(jié)果與6種決策樹的測試結(jié)果進(jìn)行比較.仿真表明SDA在SDSS-DR7和最新SDSS-DR12的暗源集上的分類性能明顯優(yōu)于其他算法,尤其是在使用完備函數(shù)(completeness function,CP)作為衡量指標(biāo)時,SDA相比決策樹算法在SDSS-DR7暗源集正確率提高了15%左右.

方法:數(shù)據(jù)分析,技術(shù):測光,星系:基本參數(shù),恒星:基本參數(shù),宇宙學(xué):觀測

1 引言

在過去30多年中,隨著先進(jìn)數(shù)字CCD(Charge-coupled Device)探測器的使用,并結(jié)合快速發(fā)展的計(jì)算力和數(shù)據(jù)存儲技術(shù),天文數(shù)據(jù)的獲取經(jīng)歷了一場革命性的變化,預(yù)計(jì)每年產(chǎn)生的數(shù)據(jù)量將可能達(dá)到TB級,而面對如此龐大的數(shù)據(jù)量如何進(jìn)行有效的數(shù)據(jù)分析將變得尤為重要.恒星/星系分類是天文數(shù)據(jù)分析的基本內(nèi)容之一,人們對它的研究可以追溯到18世紀(jì)[1].到目前為止很多方法已經(jīng)被廣泛應(yīng)用于恒星/星系分類中,它們主要包括了基于形態(tài)、啟發(fā)式分割和機(jī)器學(xué)習(xí)等方法.從形態(tài)上區(qū)分恒星/星系是一種最普遍的方法[2-5],它們主要是利用恒星與星系所表現(xiàn)出的不同形態(tài)(恒星的形態(tài)通常為點(diǎn)源,而星系的形態(tài)為展源)來進(jìn)行分類.這些方法對于亮的恒星/星系分類非常有效,原因是從亮源中獲得的形態(tài)信息的信噪比很高,但是從暗源得到的形態(tài)信息包含很大噪聲,致使這種方法的效果大大降低.另外一種比較普遍的恒星/星系分類方法是基于可觀測圖像的屬性和相關(guān)統(tǒng)計(jì)特征進(jìn)行啟發(fā)式分割[6-8],這種分類方法的優(yōu)點(diǎn)是非常容易被定義和仿真,但它也有很多的不足,如分割的選擇本質(zhì)上是帶有任意性的.機(jī)器學(xué)習(xí)方法是一類現(xiàn)在非常熱門的自動分類方法,主要包括決策樹、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)和聚類等方法,它們可以有效杜絕啟發(fā)式分割隨意性的問題,如嚴(yán)太生等人將自動聚類算法(Auto Class)應(yīng)用于恒星/星系分類[9];Vasconcellos等人用13種不同的決策樹算法對SDSS數(shù)據(jù)進(jìn)行了恒星/星系分類研究,使亮源分類的完備性都達(dá)到了99%左右,而暗源分類的完備性為78%左右[10];Malek等人提出一種改進(jìn)的支持向量機(jī)(SVM)的方法并取得了良好的效果[11].但是這些自動算法都存在一些共同問題,比如它們都很難處理樣本空間范圍之外的恒星/星系數(shù)據(jù),即模型的泛化能力不夠強(qiáng),它們對于亮源分類都有著很高的正確率,但對于暗源分類正確率偏低.盡管各種各樣的算法被用來解決這個問題,但是由于不同的實(shí)驗(yàn)?zāi)康?算法速度、自動化程度、單類概率和整體概率等)和信息(形態(tài)、顏色、是否使用類標(biāo)簽),直到現(xiàn)在都沒有一種公認(rèn)的有效方法.

本文研究了基于SDA的恒星/星系分類算法,使用SQL(Structured Query Language)從SDSS釋放數(shù)據(jù)集中下載帶光譜證認(rèn)參數(shù)(spectroscopic measurements)的測光數(shù)據(jù)(本文所使用的數(shù)據(jù)為SDSS-DR7和SDSS-DR12),將得到的數(shù)據(jù)根據(jù)星等值范圍不同分別進(jìn)行不放回隨機(jī)抽樣得到亮源和暗源集,并對抽樣得到的數(shù)據(jù)集進(jìn)行預(yù)處理使其適合于SDA輸入.又對暗源集和亮源集做不放回隨機(jī)抽樣分別得到它們的訓(xùn)練集和測試集.最后使用得到的訓(xùn)練集訓(xùn)練SDA模型的眾多參數(shù)以選擇最優(yōu),在模型微調(diào)階段加入dropout微調(diào)技術(shù)來微調(diào)整個模型以增加模型的魯棒性.在對比分析試驗(yàn)中,使用SDSS-DR12亮源和暗源的訓(xùn)練集和測試集分別在支持向量機(jī)軟件包(Library for Support Vector Machines,LibSVM)、J48決策樹(J48)、邏輯模型樹(Logistic Model Trees,LMT)、單層決策樹算法(Decision Stump)、支持向量機(jī)(Support Vector Machine,SVM)、邏輯回歸(Logistic Regression)算法上做訓(xùn)練和測試,在使用整體分類正確率作為性能指標(biāo)的情況下,SDA在暗源集的正確率明顯優(yōu)于其他算法.最后使用SDSS-DR7數(shù)據(jù)跟Vasconcellos等人使用的決策樹算法[10]做比較.使用DR7亮星和暗源的訓(xùn)練集和測試集分別在各種決策樹算法上做訓(xùn)練和測試并使用完備函數(shù)作為性能指標(biāo),結(jié)果表明SDA在亮源和暗源集的正確率都優(yōu)于決策樹,特別是暗星正確率提高了15%左右.

2 SDSS數(shù)據(jù)和恒星/星系分類

SDSS是斯隆數(shù)字巡天計(jì)劃(Sloan Digital Sky Survey)的簡稱[12].該巡天計(jì)劃覆蓋北天球的一半天區(qū)和少部分南天球天區(qū),是迄今為止最大規(guī)模的星系圖像和光譜巡天項(xiàng)目.SDSS的CCD測光系統(tǒng)利用6組CCD同時對天體進(jìn)行5個波段(u,g,r,i,z)的測量,5個波段相應(yīng)的中心波長分別為3551?A,4686?A,6165?A,7481?A和8931?A.目前SDSS最新公布的SDSS-DR12,其數(shù)據(jù)容量超過了100 TB,包含了對近5億個恒星和星系的精確測光數(shù)據(jù),而對其中300多萬個恒星/星系數(shù)據(jù)進(jìn)行了光譜證認(rèn),使得這300多萬個恒星/星系數(shù)據(jù)的天體類別得到了確認(rèn).因此,SDSS中包含的精確海量測光數(shù)據(jù)和光譜數(shù)據(jù)集,為研究各種恒星/星系分類算法提供了很好的數(shù)據(jù)支持.

SDSS的天體基本測光參數(shù)包括星等、顏色、輪廓、大小等;而光譜基本參數(shù)包括紅移、光譜型等.其中,光譜數(shù)據(jù)集分為兩種類型:一種是同時帶光譜證認(rèn)參數(shù)(spectroscopic measures)和測光參數(shù)(photometric measures)數(shù)據(jù)集,另外一種是只帶有測光參數(shù)的數(shù)據(jù)集.SDSS中提供的第1種帶光譜證認(rèn)的測光數(shù)據(jù)集僅有300多萬條,僅占SDSS-DR12測光數(shù)據(jù)中5億多個天體數(shù)據(jù)記錄中的極小一部分.如何對沒有光譜證認(rèn)的SDSS測光天體進(jìn)行分類?本文提出的SDA恒星/星系分類模型可能會是一種有效的方法來解決未知天體類型的分類問題.

3 堆疊降噪自編碼

深度學(xué)習(xí)成為研究熱點(diǎn)起始于2006年,當(dāng)時Hinton和他的學(xué)生提出了用深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)構(gòu)建深層結(jié)構(gòu),并通過逐層地對受限玻爾茲曼機(jī)(Restricted Boltzmann Machines,RBM)訓(xùn)練來初始化網(wǎng)絡(luò)參數(shù),最終在手寫數(shù)字識別訓(xùn)練集上達(dá)到了很好的效果[13].緊接著Bengio等人提出了一種基于自編碼構(gòu)造的深度結(jié)構(gòu)(堆疊自編碼,SA)[14].這些方法都是在利用隨機(jī)梯度下降進(jìn)行監(jiān)督學(xué)習(xí)之前,先對網(wǎng)絡(luò)參數(shù)進(jìn)行初始化,使其處于最優(yōu)值附近,這樣有效改善了直接計(jì)算網(wǎng)絡(luò)參數(shù)帶來的遭遇局部較差點(diǎn)的問題.這些方法在對網(wǎng)絡(luò)每層初始化的時候都用到了非監(jiān)督的學(xué)習(xí)方法,尤其是在帶標(biāo)簽的數(shù)據(jù)比較稀少的時候,非監(jiān)督學(xué)習(xí)更能發(fā)揮較大的作用,堆疊降噪自編碼正是在堆疊自編碼的基礎(chǔ)上發(fā)展而來的.

3.1 傳統(tǒng)自編碼

自編碼網(wǎng)絡(luò)是構(gòu)成堆疊自編碼網(wǎng)絡(luò)的基礎(chǔ),它可以看作是一個3層的神經(jīng)網(wǎng)絡(luò),由輸入層、隱藏層和輸出層組成,并分為編碼和解碼兩個階段.編碼階段:從輸入層x到隱藏層y的映射被認(rèn)為是編碼,它一般由非線性函數(shù)來實(shí)現(xiàn):

s是一個非線性激活函數(shù),一般為sigm函數(shù)、tanh函數(shù)和max(0,x)函數(shù).θ={W,b},其中W代表權(quán)重矩陣,b代表偏差向量.解碼階段:解碼階段是輸出層z通過隱藏層y來重構(gòu)輸入層x的階段,從隱藏層到輸出層的映射稱為解碼.這個映射為:這里θ′={W′,b′},θ′中的W′和b′可以看作是編碼階段θ中W和b的轉(zhuǎn)置,也可以當(dāng)做完全不同的參數(shù).值得說明的是,當(dāng)它們被看作是轉(zhuǎn)置的時候,這里的編碼和解碼就非常類似于DBN網(wǎng)絡(luò)的訓(xùn)練過程.

通常z并不被當(dāng)做是x精確的恢復(fù),而是作為概率項(xiàng)p(X|Z=z)的參數(shù).由此可以得出重組誤差L(x,z).根據(jù)數(shù)據(jù)特征,重組誤差常采用以下兩種形式:

3.2 降噪自編碼

從信息論的角度看,最小化重組誤差是為了在自編碼過程中最大限度地保留輸入量x的信息,但是僅僅只保留信息是不夠的.如果只為了保留x的信息,設(shè)編碼映射為y=x將達(dá)到最好效果,但顯然這是無用的.我們需要的是通過得到有用的特征y來保留輸入信息,降噪自編碼是一種有效的方法[15],降噪的目的是為了提取更加有用的特征.首先,對原始輸入x進(jìn)行加噪表示為?x,加噪是通過隨機(jī)映射產(chǎn)生的,即:?x~qD(?x|x).然后,加噪輸入向量?x通過輸入編碼被映射到隱藏層,再通過z=gθ(y)得到輸出向量.整個過程如圖1所示,這里需要特別說明的是這里的輸出向量z是盡可能地恢復(fù)原始輸入向量x而并非?x.

圖1 加噪(掩蔽噪聲)自編碼Fig.1 The corruption(masking noise)autoencoders

3.3 堆疊降噪自編碼

用堆疊降噪自編碼初始化深度網(wǎng)絡(luò)類似于在深度置信網(wǎng)絡(luò)中堆疊受限玻爾茲曼機(jī)和傳統(tǒng)的堆疊自編碼.堆疊降噪自編碼的具體過程為:首先,把深層網(wǎng)絡(luò)的輸入層和第1個隱藏層作為降噪自編碼的輸入和隱藏層進(jìn)行降噪自編碼(如上節(jié)所述),用訓(xùn)練后的參數(shù)來初始化深層結(jié)構(gòu)中輸入層到第1隱藏層的參數(shù),然后再用原始輸入向量(不加噪)作為輸入前向傳播,從而得到了第1層特征向量.接著再把深層網(wǎng)絡(luò)中第1隱藏層和第2隱藏層作為降噪自編碼網(wǎng)絡(luò)的輸入層和隱藏層進(jìn)行降噪自編碼,以此堆疊進(jìn)行并最終達(dá)到對整個深層網(wǎng)絡(luò)的初始化.需要注意的是輸入到下一個降噪自編碼輸入層的向量是利用輸入無噪聲向量和之前降噪自編碼得到的參數(shù)前向傳導(dǎo)得到的,圖2給出了加噪自編碼網(wǎng)絡(luò)的第1次堆疊過程.

圖2 加噪自編碼網(wǎng)絡(luò)第1次堆疊過程Fig.2 The first stacked process of corruption autoencoder network

3.4 微調(diào)堆疊降噪自編碼網(wǎng)絡(luò)

當(dāng)堆疊降噪自編碼被建立之后,它的最高層輸出可以被用來作為監(jiān)督學(xué)習(xí)算法的輸入層,例如支持向量機(jī)、邏輯回歸、softmax分類器等.此時,深度學(xué)習(xí)算法就可以利用監(jiān)督學(xué)習(xí)(一般為隨機(jī)梯度下降算法)對網(wǎng)絡(luò)進(jìn)行參數(shù)微調(diào).當(dāng)對參數(shù)微調(diào)時,我們不得不面對一個新的問題—模型過擬合.dropout是一個有效解決模型過擬合問題的技術(shù)[16],它的關(guān)鍵思想是隨機(jī)地從一個深層網(wǎng)絡(luò)中去掉節(jié)點(diǎn)(連同與他們連接),這些節(jié)點(diǎn)包括了輸入層和隱藏層的所有節(jié)點(diǎn).對于每個訓(xùn)練樣本以及它們被傳到深層網(wǎng)絡(luò)中的每個節(jié)點(diǎn),dropout都是獨(dú)立進(jìn)行的.所以對于有n個節(jié)點(diǎn)的深層網(wǎng)絡(luò)相當(dāng)于生成了2n個子網(wǎng)絡(luò),但全部子網(wǎng)參數(shù)是共享的,也就是總的參數(shù)并沒有改變,注意在測試階段不需要加入dropout.

4 實(shí)驗(yàn)

實(shí)驗(yàn)使用SQL查詢語言從SDSS巡天獲取了所需要的SDSS-DR7和SDSS-DR12測光數(shù)據(jù)集(見附錄1),我們選擇了13個SDSS測光參數(shù)和1個光譜參數(shù).本文中我們并不討論在SDSS眾多的測量屬性中到底哪些屬性集可以產(chǎn)生最精確的恒星/星系分類,而是重點(diǎn)選擇了那些已知的或者認(rèn)為與天體分類有密切關(guān)聯(lián)的屬性集作為我們算法所需的輸入?yún)⒘考?這些屬性主要包括psfMag、 fiberMag、petroMag、petroRad、modelMag、petroR50、petroR90、lnLStar、lnLExp、lnLDeV、mRrCc、mE1和mE2,實(shí)驗(yàn)中所用的是r波段數(shù)據(jù),詳細(xì)的描述見參考文獻(xiàn)[10].仿真工具我們使用的是matlab工具箱中的深度學(xué)習(xí)工具箱(Deep Learn Toolbox-master)和WEKA(Waikato Environment for Knowledge Analysis)數(shù)據(jù)挖掘軟件.實(shí)驗(yàn)1研究了最新的SDSS-DR12數(shù)據(jù),首先去除掉所提取的SDSS-DR12數(shù)據(jù)中帶缺值的數(shù)據(jù),再根據(jù)屬性modelMag等值的不同將其分為兩類數(shù)據(jù)集.具體過程是使用不放回隨機(jī)抽樣的方法抽取modelMag值為14.0–19.0和22.0–22.5之間的數(shù)據(jù),把他們分別記為亮源集和暗源集.抽樣結(jié)果:亮星集包含了4萬個恒星和4萬個星系數(shù)據(jù),暗源集包含5200個恒星和5200個星系數(shù)據(jù)(SDSSDR12中暗源波段恒星和星系總的數(shù)據(jù)只有14000條),再對亮源和暗源數(shù)據(jù)集各屬性做歸一化預(yù)處理.我們再從亮源集中隨機(jī)抽取10000個恒星和10000個星系作為訓(xùn)練集,余下的作為測試集,從暗源集中隨機(jī)抽取4000個恒星和4000個星系作為訓(xùn)練集,余下作為測試集.然后比較SDA與其他機(jī)器學(xué)習(xí)算法在測試集上的分類正確率,這些算法包括LibSVM、J48、LMT、Decision Stump、SVM、Logistic Regression.實(shí)驗(yàn)1用到的測試指標(biāo)為測試集中恒星/星系整體分類正確率:

其中Nga?ga表示測試中將測試集中星系分為星系的數(shù)量,Nst?st是測試集中恒星分為恒星的數(shù)量,Ngalaxy和Nstar分別表示測試集中星系和恒星的總數(shù),測試集實(shí)驗(yàn)結(jié)果如表1所示.最后在實(shí)驗(yàn)1中SDA使用的具體參數(shù)范圍為:網(wǎng)絡(luò)結(jié)構(gòu)是13-100-100-2,預(yù)訓(xùn)練學(xué)習(xí)率是0.1、0.01、0.005、0.001,預(yù)訓(xùn)練迭代次數(shù)是10、20、50、100,加噪噪聲為掩蔽噪聲,噪聲系數(shù)為0.1、0.25、0.5,輸出函數(shù)為Softmax函數(shù),微調(diào)dropout系數(shù)為0、0.1、0.25、0.5,微調(diào)學(xué)習(xí)率為0.5、0.1、0.05、0.01,微調(diào)迭代次數(shù)為50、100、500、2000、5000.

表1SDSS-DR12恒星/星系分類正確率Table 1 The accuracy rate of SDSS-DR12 star/galaxy classi fication

實(shí)驗(yàn)1結(jié)果說明在兩個測試集中SDA的正確率都優(yōu)于其余的機(jī)器學(xué)習(xí)算法,在亮源集部分由于整體的正確率都比較高,所以只是略優(yōu)于其他算法,在暗源集部分SDA明顯優(yōu)于其他機(jī)器學(xué)習(xí)算法.Vasconcellos等人用決策樹對SDSS-DR7數(shù)據(jù)進(jìn)行了恒星/星系分類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果顯示在亮源集都取得了很高的正確率,但是在暗源集(modelMag值取20.5–21.0)正確率普遍偏低.作為比較實(shí)驗(yàn)2,我們將SDA在SDSSDR7亮源集(modleMag取值范圍14.0–19.0)與暗源集(modleMag取值范圍20.5–21.0,等值范圍不同于SDSS-DR12)分類效果與決策樹的分類效果進(jìn)行比較.首先去除掉所提取的SDSS-DR7數(shù)據(jù)中帶缺值的數(shù)據(jù),再從亮源中隨機(jī)抽取10000條恒星和10000條星系作為亮源訓(xùn)練集,抽取10000條星系數(shù)據(jù)和10000條恒星數(shù)據(jù)作為亮源測試集.接下來從暗源中隨機(jī)抽取1000條恒星和1000條星系數(shù)據(jù)作為暗源測試集,剩余的315條暗源星系和920條恒星數(shù)據(jù)作為暗源測試集(暗源部分總的數(shù)據(jù)只有3000多條)并做歸一化預(yù)處理,此外SDA網(wǎng)絡(luò)的具體參數(shù)范圍與實(shí)驗(yàn)1保持一致.為了保持與Vasconcellos等人所使用的測試指標(biāo)保持一致,實(shí)驗(yàn)2我們使用完備函數(shù)(completeness function,CP)作為測試指標(biāo):

測試集分類正確率如表2所示.

表2SDSS-DR7星系分類正確率Table 2 The accuracy rate of SDSS-DR7 galaxy classi fication

實(shí)驗(yàn)2結(jié)果說明在SDSS-DR7中SDA的恒星/星系分類性能優(yōu)于決策樹算法,其中亮源集部分正確率略優(yōu)于決策樹算法,而暗源集部分分類正確率遠(yuǎn)高于決策樹算法,平均提高了15%左右.說明了SDA克服了決策樹算法的不足,抓住了數(shù)據(jù)中隱藏的規(guī)律,不僅可以用于已出現(xiàn)過的數(shù)據(jù),還可以用到未出現(xiàn)的數(shù)據(jù)中,具有很強(qiáng)的泛化能力.SDA性能優(yōu)于傳統(tǒng)算法的原因可能有以下幾點(diǎn):多層結(jié)構(gòu)有更好的非線性函數(shù)逼近能力;利用非監(jiān)督學(xué)習(xí)獲得了更多的數(shù)據(jù)信息;逐層非監(jiān)督初始化預(yù)處理為全局優(yōu)化提供了較好的初始化參數(shù);使用SDA消除了測量誤差造成的數(shù)據(jù)噪聲,并提取了更有效的特征.

5 總結(jié)與展望

本文通過使用SDA算法來研究SDSS恒星/星系分類問題,實(shí)驗(yàn)結(jié)果表明不管在新版的SDSS-DR12或者在SDSS-DR7上,相比于其他算法SDA都取得了很好的效果.盡管SDA表現(xiàn)優(yōu)于其他算法,但是在暗源集的正確率還有待于進(jìn)一步的提高.解決這個問題的方法我們認(rèn)為有兩個:第一,提高觀測技術(shù)獲取更多準(zhǔn)確有效的暗源數(shù)據(jù),大部分算法在暗源集表現(xiàn)不好的原因之一是受限于暗源數(shù)據(jù)集小和信號信噪比低;第二,算法改進(jìn),改進(jìn)SDA的激活函數(shù)可能會是一個有效的方法.最后,雖然用SDA提高了分類正確率,但當(dāng)實(shí)際應(yīng)用的時候還會遇到數(shù)據(jù)量過大且處理速度太慢,難以滿足實(shí)時性的問題.解決這個問題的途徑可以依靠分布式平臺對算法進(jìn)行并行化改造,現(xiàn)在已經(jīng)出現(xiàn)了基于深度學(xué)習(xí)的分布式工具,例如基于spark分布式平臺的深度學(xué)習(xí)訓(xùn)練庫OpenDL.接下來需要做的研究是將基于天文數(shù)據(jù)的深度學(xué)習(xí)算法和分布式處理工具相結(jié)合,做到準(zhǔn)確性和效率的雙提高,相信它將會極大地推動天文信息學(xué)的發(fā)展.

[1]Messier C.Connoissance des Temps for 1784,1781:227-267

[2]Sebok W L.AJ,1979,84:1526

[3]Kron R G.ApJS,1980,43:305

[4]Yee H K C.PASP,1991,103:396

[5]Henrion M,Mortlock D J,Hand D J,et al.MNRAS,2011,412:2286

[6]Leauthaud A.ApJS,2007,172:219

[7]MacGillivray H T,Martin R,Pratt N,et al.MNRAS,1976,176:265

[8]Heydon-Dumbleton N H,Collins C A,MacGillivray H T.MNRAS,1989,238:379

[9]嚴(yán)太生,張彥霞,趙永恒,等.中國科學(xué)G輯,2009,39:1794

[10]Vasconcellos E C,De Carvalho R R,Gal R R.AJ,2010,141:189

[11]Malek K,Solarz A,Pollo A,et al.A&A,2013,557:906

[12]York D G.AJ,2000,120:1579

[13]Hinton G E,Osindero S,Yw T.Neural Computation,2006,18:1527

[14]Bengio Y,Lamblin P,Larochelle H,et al.NIPS,2006:153

[15]Vincent P,Larochelle H,Bengio Y,et al.ACM,2008:1096

[16]Dahl G E,Sainath T N,Hinton G E.ICASSP,2013:8609

附錄

SELECT

p.objID,p.ra,p.dec,s.specObjID,

p.psfMag-r,p.modelMag-r,p.petroMag-r,

p. fiberMag-r,p.petroRad-r,p.petroR50-r,

p.petroR90-r,p.lnLStar-r,p.lnLExp-r,

p.lnLDeV-r,p.mE1-r,p.mE2-r,p.mRrCc-r,

p.type-r,p.type,s.Class

INTO MyDB.SDSS-DR12-TRAIN-R13-23

FROM PhotoObj AS p

JOIN SpecObj AS s ON s.bestobjid=p.objid

WHERE

p.modelMag-r BETWEEN 13.0 AND 23.0 AND

s.Class in(’GALAXY’,’STAR’)AND

p.psfMag-r!=-9999 AND

p.modelMag r!=-9999 AND

p.petroMag r!=-9999 AND

p. fiberMag r!=-9999 AND

p.petroRad r!=-9999 AND

p.petroR50r!=-9999 AND

p.petroR90r!=-9999 AND

p.lnLStar r!=-9999 AND

p.lnLExp r!=-9999 AND

p.lnLDeV r!=-9999 AND

p.mE1r!=-9999 AND

p.mE2-r!=-9999 AND

p.mRrCc-r!=-9999

Stacked Denoising Autoencoders Applied to Star/Galaxy Classi fication

QIN Hao-ran1LIN Ji-ming1WANG Jun-yi2
(1 Guangxi Experiment Center of Information Science,Guilin University of Electronic Technology, Guilin 541004)
(2 Guangxi Key Laboratory of Cryptography and Information Security,Guilin University of Electronic Technology,Guilin 541004)

In recent years,the deep learning has been becoming more and more popular because it is well-adapted,and has a high accuracy and complex structure,but it has not been used in astronomy.In order to resolve the question that the classi fication accuracy of star/galaxy is high on the bright set,but low on the faint set of the Sloan Digital Sky Survey(SDSS),we introduce the new deep learning SDA(stacked denoising autoencoders)and dropout technology,which can greatly improve robustness and antinoise performance.We randomly selected the bright source set and faint source set from DR12 and DR7 with spectroscopic measurements,and preprocessed them.Afterwards, we randomly selected the training set and testing set without replacement from the bright set and faint set.At last,we used the obtained training set to train the SDA model of SDSS-DR7 and SDSS-DR12.We compared the testing result with the results of Library for Support Vector Machines(LibSVM),J48,Logistic Model Trees(LMT), Support Vector Machine(SVM),Logistic Regression,and Decision Stump algorithm on the SDSS-DR12 testing set,and the results of six kinds of decision trees on the SDSSDR7 testing set.The simulation shows that SDA has a better classi fication accuracy than other machine learning algorithms.When we use completeness function as the test parameter,the test accuracy rate is improved by about 15%on the faint set of SDSS-DR7.

methods:data analysis,techniques:photometric,galaxies:fundamental parameters,stars:fundamental parameters,cosmology:observations

P152;

:A

10.15940/j.cnki.0001-5245.2016.03.010

2015-07-15收到原稿,2015-12-22收到修改稿

?國家自然科學(xué)基金項(xiàng)目(61261017)、廣西自然科學(xué)基金項(xiàng)目(2014GXNSFAA118387)、廣西信息科學(xué)實(shí)驗(yàn)中心項(xiàng)目(KF1408)及桂林電子科技大學(xué)研究生教育創(chuàng)新計(jì)劃項(xiàng)目(YJCXS201517)資助

?19888nba@163.com

?linjm@guet.edu.cn

猜你喜歡
星系恒星正確率
跟著星系深呼吸
迄今發(fā)現(xiàn)的最大星系
軍事文摘(2022年10期)2022-06-15 02:29:38
(18)刺殺恒星
門診分診服務(wù)態(tài)度與正確率對護(hù)患關(guān)系的影響
恒星的演化
恒星不恒
奧秘(2018年10期)2018-10-25 05:38:56
星系大碰撞
生意
品管圈活動在提高介入手術(shù)安全核查正確率中的應(yīng)用
生意
故事會(2016年15期)2016-08-23 13:48:41
上饶县| 巴彦淖尔市| 宽甸| 侯马市| 河北省| 莒南县| 东海县| 环江| 宜阳县| 清原| 铁力市| 马山县| 格尔木市| 五原县| 余干县| 乐业县| 横山县| 南华县| 奇台县| 宁武县| 西青区| 泽普县| 理塘县| 濮阳县| 德化县| 大同县| 富平县| 梁山县| 兴海县| 株洲县| 诸城市| 顺义区| 临桂县| 大厂| 五常市| 德钦县| 乌拉特前旗| 三亚市| 南充市| 江北区| 永平县|