黃 超 馬月華 趙海斌 盧曉平
(1中國科學(xué)院紫金山天文臺 南京 210008) (2中國科學(xué)院行星科學(xué)重點(diǎn)實(shí)驗(yàn)室 南京 210008) (3中國科學(xué)院大學(xué) 北京 100049) (4澳門科技大學(xué)月球與行星科學(xué)實(shí)驗(yàn)室—中國科學(xué)院月球與深空探測重點(diǎn)實(shí)驗(yàn)室伙伴實(shí)驗(yàn)室 澳門 000853) (5澳門科技大學(xué)資訊科技學(xué)院 澳門 000853)
隨機(jī)森林算法實(shí)現(xiàn)小行星分類?
黃 超1,2,3馬月華1,2?趙海斌1,2,4盧曉平5
(1中國科學(xué)院紫金山天文臺 南京 210008) (2中國科學(xué)院行星科學(xué)重點(diǎn)實(shí)驗(yàn)室 南京 210008) (3中國科學(xué)院大學(xué) 北京 100049) (4澳門科技大學(xué)月球與行星科學(xué)實(shí)驗(yàn)室—中國科學(xué)院月球與深空探測重點(diǎn)實(shí)驗(yàn)室伙伴實(shí)驗(yàn)室 澳門 000853) (5澳門科技大學(xué)資訊科技學(xué)院 澳門 000853)
隨著小行星光譜和測光數(shù)據(jù)不斷增加,以此為基礎(chǔ)已有多種分類方法對小行星進(jìn)行分類.使用隨機(jī)森林算法對Sloan D igital Sky Survey(SDSS)M oving Ob ject Catalogue(MOC)的觀測結(jié)果進(jìn)行小行星分類.根據(jù)小行星g、r、i、z 4個(gè)波段的星等,結(jié)合Tholen、Bus、Lazzaro、DeM eo等人已有的分類工作和主成分分析,對多達(dá)48642顆的小行星進(jìn)行了分類,實(shí)現(xiàn)了大數(shù)據(jù)集的小行星類別判定,把這些小行星分為8個(gè)類別(C、X、S、B、D、K、L和V).
小行星:普通,譜線:輪廓,方法:隨機(jī)森林算法
小行星是太陽系中重要的小天體,對其觀測研究已經(jīng)成為當(dāng)代天文學(xué)中的一個(gè)活躍領(lǐng)域.獲得小行星確切的組成成分,能更加深入地了解在太陽系形成時(shí)期的環(huán)境條件及演化過程.太陽系中地球、火星等類地行星,由于其本身的演化過程和大氣環(huán)境等因素的影響,已經(jīng)很難在此類行星上發(fā)現(xiàn)太陽系早期形成所留下的證據(jù),而小行星作為類地行星形成時(shí)期的組成成分,特別是處于主帶和特洛伊帶的小行星,依然保持著數(shù)十億年前的狀態(tài),留下了太陽系早期形成時(shí)期的重要證據(jù)[1].小行星測光數(shù)據(jù)分析是研究小行星組成成分的一種重要手段,也為小行星分類方法的研究提供了一個(gè)重要的依據(jù).
1929年,Bobrovnikoff[2]發(fā)表了對小行星光譜測量的研究報(bào)告,但是受當(dāng)時(shí)技術(shù)發(fā)展的限制,光譜測量效率低下且不夠精確.20世紀(jì)50年代中期,隨著UBV光度測量的使用,研究人員擁有了大量小行星的分光觀測資料.利用這些資料,Wood等[3]、Chapman等[4]獲得了小行星光譜的反射特性,并以此把小行星分為了兩個(gè)大類,一類即為“S”類小行星,另一類為“C”類小行星.Zellner[5]發(fā)現(xiàn)小行星反射率有著雙峰分布的特點(diǎn),由此把小行星分為暗碳質(zhì)和亮石質(zhì)兩個(gè)大類.隨后幾年,越來越多的科研項(xiàng)目投入到了小行星光學(xué)特性的研究中,為20世紀(jì)70年代中期提出一種更為精確且嚴(yán)格的小行星分類法提供了可能性.Chapman等[6]在分析了一些小行星光度測量的反照率后,進(jìn)一步把小行星細(xì)分為“C”、“S”、“U”3類:“C”代表暗的碳質(zhì)類;“S”代表具有石質(zhì)類特性;“U”代表還不能確定類別.不同類別小行星在一定意義上揭示了其物質(zhì)組成成分的不同.
我們結(jié)合已有的分類結(jié)果,用隨機(jī)森林算法對Sloan Digital Sky Survey(SDSS) Moving Ob ject Catalogue(MOC)1h ttp://sbn.psi.edu/p ds/resou rce/sdssm oc.h tm l觀測的大部分小行星進(jìn)行類別判定.SDSS使用美國新墨西哥州阿帕奇天文臺的2.5m口徑望遠(yuǎn)鏡作為觀測設(shè)備,望遠(yuǎn)鏡的測光系統(tǒng)使用了多個(gè)波段濾光片,分別為u、g、r、i、z波段,中心波長分別為:3551、4686、6166、7480和8932[7].該巡天項(xiàng)目觀測成果豐碩,得到了大量高精度的觀測數(shù)據(jù).葉嘉暉等[8?9]利用主成分分析法對SDSS的數(shù)據(jù)進(jìn)行了小行星分類,有效區(qū)分了S大類和C大類小行星反射率特點(diǎn),但受主成分分析方法的限制,得到的數(shù)據(jù)分辨率不高,只把小行星分作了兩個(gè)大類.隨機(jī)森林算法能克服該方法的局限性,能以更高精度識別出不同小行星反射率的特點(diǎn),從而分出多個(gè)類別.
傳統(tǒng)的分類模型存在容易出現(xiàn)過擬合、精度不高等缺點(diǎn)[10],很多研究者開始集合多個(gè)分類模型來提高分類的精度.根據(jù)訓(xùn)練集創(chuàng)建一組基分類模型,然后對每個(gè)基分類模型得到的預(yù)測值進(jìn)行投票來最終決定預(yù)測值.
隨機(jī)森林算法正是這樣一種包含一組基分類模型的算法,利用bootstrap重抽樣方法在原始樣本中抽取若干樣本,對每個(gè)樣本都進(jìn)行決策樹建模.通過訓(xùn)練集的訓(xùn)練,每棵決策樹產(chǎn)生一個(gè)類別的判定準(zhǔn)則.對于每一個(gè)需要判定類別的小行星,每棵決策樹會(huì)產(chǎn)生一個(gè)分類結(jié)果,最終,采用多數(shù)表決的方法作為預(yù)測結(jié)果輸出.
隨機(jī)森林優(yōu)越的分類性能使其在學(xué)術(shù)研究中得到了廣泛的應(yīng)用,我們使用R語言軟件包random Forest來實(shí)現(xiàn).通過訓(xùn)練集的訓(xùn)練,隨機(jī)森林能識別出訓(xùn)練集中不同類別小行星反射光譜特點(diǎn),對比未知類別小行星的反射光譜,實(shí)現(xiàn)分類.
2.1 數(shù)據(jù)處理
在SDSS MOC觀測數(shù)據(jù)中,去除了有較大觀測誤差的個(gè)體,且只選取已得到編號的小行星,這樣得到了48642顆小行星.對于一顆小行星,我們用g、r、i、z、v 5個(gè)波段的星等求得色指數(shù)(由于u波段的星等數(shù)據(jù)相對于其他波段誤差顯著過大,參照以往對SDSS數(shù)據(jù)進(jìn)行小行星分類的方法,采用了SDSSMOC數(shù)據(jù)中提供的v波段星等,v波段的星等由g和r波段的星等計(jì)算得出).由以下色指數(shù)計(jì)算公式[11],求得:
上式中g(shù)、r、i、z、v分別指該波段星等,Cg?v、Cv?r、Cv?i、Cv?z分別為計(jì)算得到的色指數(shù).
在計(jì)算相對反射率時(shí),利用M isra等人的結(jié)果[11],小行星相對反射率的計(jì)算公式為:
Fg、Fr、Fi、Fz分別為g、r、i、z波段的相對反射率.我們利用以上式子得到的相對反射率對小行星進(jìn)行分類.
2.2 訓(xùn)練集的選取
在選取訓(xùn)練集的過程中,參考了Tholen[12]、Bus等[13]、Lazzaro等[14]、DeMeo等[15]的分類結(jié)果,在SDSS的數(shù)據(jù)中找出了210顆已有分類結(jié)果的小行星.但是有些類別的小行星只根據(jù)SDSS的星等數(shù)據(jù)不能得到區(qū)分:比如在Bus分類的26個(gè)類別中, C和Ch類在0.7μm處的吸收峰特征有所不同,然而這些特點(diǎn)在SDSS數(shù)據(jù)中得不到體現(xiàn),我們不能依據(jù)SDSS的數(shù)據(jù)區(qū)分出C和Ch類.因此,我們把這210顆小行星分作了8個(gè)類別,這8個(gè)類別與Bus分類結(jié)果的對應(yīng)關(guān)系見表1.
要對48642顆小行星分類,如果只以這210顆小行星作為訓(xùn)練集,數(shù)量太少,不能得到一個(gè)預(yù)期的分類結(jié)果,因此需要擴(kuò)充訓(xùn)練集的小行星數(shù)量.小行星分類的依據(jù)是相對反射率,就是把相對反射率相似的小行星分為一類.我們使用主成分分析法,選取相對反射率與已知分類小行星相似的小行星,判定其類別.
主成分分析為數(shù)學(xué)變換方法的一種,把相關(guān)變量轉(zhuǎn)換成互不相關(guān)的變量,轉(zhuǎn)換后的變量以方差大小排列,方差最大的作為第1個(gè)變量,命名為第1主成分(PC1),方差次大的作為第2個(gè)變量,命名為第2主成分(PC2),以此類推.方差越大,變量包含的信息越多,因此,由主成分分析得到的第1主成分包含原變量的主要信息.通過主成分分析,我們就能以少數(shù)幾個(gè)主成分變量替代原先多個(gè)變量,實(shí)現(xiàn)降維.
在小行星色指數(shù)研究中,計(jì)算主成分的公式為:
PC為主成分,C為色指數(shù),B是色指數(shù)均值,E是色指數(shù)協(xié)方差矩陣的特征向量.由此得到的第1主成分反映了反射光譜的顏色特征.
表1 本文的分類與Bus分類的對應(yīng)關(guān)系Tab le 1 Ou r taxonom ic system com pared to the Bus taxonom ic system
對48642顆小行星進(jìn)行主成分分析后,我們得到的第1主成分和第2主成分包含了95.98%的相對反照率信息(見表2),第1主成分和第2主成分基本就代表了相對反照率的全部信息,并以此作出圖1,從圖1中我們可以明顯地看出小行星雙峰分布的特點(diǎn).
表2 本文計(jì)算得到的主成分包含信息百分比Tab le 2 Percen tage o f varian ce accoun ted by the p rincipal com p onen t
結(jié)合得到的第1、第2主成分,選取出PC1和PC2與上文已知分類小行星相近的個(gè)體,并結(jié)合它們相對反射率的特點(diǎn),我們又選出910顆小行星,進(jìn)行了類別的判定(訓(xùn)練集中小行星在PC空間的分布見圖2).以這樣的方式,我們把訓(xùn)練集擴(kuò)充到了1120顆.
在以訓(xùn)練集訓(xùn)練分類模型時(shí),我們嘗試選取了500到1000棵決策樹的隨機(jī)森林進(jìn)行訓(xùn)練,發(fā)現(xiàn)決策樹超過600棵后分類模型就不再顯著地改進(jìn),我們把決策樹設(shè)定為600棵.訓(xùn)練集訓(xùn)練好模型后,我們得到了一個(gè)隨機(jī)森林的分類模型,就可以對余下的絕大部分小行星進(jìn)行分類.得到的分類結(jié)果見表3和圖3.
圖1 通過PC 1和PC 2空間分布圖能看到明顯的雙峰結(jié)構(gòu)Fig.1 The b im oda l structu re o f asteroids show n in the PC space
圖2 訓(xùn)練集中的小行星在PC空間的分布Fig.2 The d istribu tion o f asteroids of the train ing sets in the PC space
表3 各類別小行星所含數(shù)量Tab le 3 Percen tages o f asteroid s c lassified in to each asteroid typ e
圖3 分類結(jié)果在PC空間中的分布,從中可以看到每個(gè)類別的小行星都聚集成類Fig.3 The d istribu tion of d ifferent classes of asteroids in the PC space,in w h ich each class of asteroids are clustered
為了與已有的小行星分類結(jié)果進(jìn)行對比,我們根據(jù)每個(gè)類別小行星在各個(gè)波段反射率的均值,做出了小行星的反射光譜圖,見圖4.可以看到,每個(gè)類別的小行星反射光譜與已有分類結(jié)果的小行星反射光譜特點(diǎn)基本保持一致:S類小行星反射光譜有明顯的波峰、C和X類小行星反射光譜比較平坦等,表明我們的分類取得了較好的結(jié)果.
基于g,r,i和z波段獲得的星等數(shù)據(jù),用隨機(jī)森林算法實(shí)現(xiàn)了大數(shù)據(jù)量的小行星分類.通過得到的分類結(jié)果,可以看出隨機(jī)森林算法準(zhǔn)確地分辨了每個(gè)類別小行星相對反射率的特點(diǎn).
但是,有些類別的分類結(jié)果還需要后續(xù)的改進(jìn).比如K類小行星,由于訓(xùn)練集中該類別小行星數(shù)量較少,且與S和X類小行星相對反射率特點(diǎn)區(qū)分度不高,隨機(jī)森林模型對于該類別的小行星分類結(jié)果有一定的彌散.
對于大量小行星觀測數(shù)據(jù),通過主成分分析法,在PC空間中劃分區(qū)域來實(shí)現(xiàn)小行星分類的方法效率不高,隨機(jī)森林算法能高效率地實(shí)現(xiàn)大數(shù)據(jù)量小行星的分類.隨著小行星觀測數(shù)據(jù)量的不斷增加,隨機(jī)森林算法的快速分類應(yīng)用價(jià)值更能得到體現(xiàn).
圖4 8個(gè)類別小行星相對反射光譜圖Fig.4 The relative reflectance spectra of the eigh t classes o f asteroids
[1]Ga ffey M J,Bu rb ine T H,P iatek J L,et a l.Icarus,1993,106:573
[2]Bob rovnikoff N T.Lick Observatory Bu lletin,1929,14:18
[3]W ood J H,K u iper G P.A p J,1963,137:1279
[4]Chapm an C R,Johnson T V,M cCord T B.NASA Specia l Pub lication,1971,267:51
[5]Zellner B.Bu lletin of the Am erican A stronom ica l Society,1973,5:388
[6]Chapm an C R,M orrison D,Zellner B.Icarus,1975,25:104
[7]Ivezi′cˇZ,Tabachn ik S,Ra fikov R,et a l.A J,2001,122:2479
[8]葉嘉暉,趙海斌,李彬.天文學(xué)報(bào),2015,56:243
[9]Ye J H,Zhao H B,Li B.ChA&A,2016,40:54
[10]方匡南,吳見彬,朱建平,等.統(tǒng)計(jì)與信息論壇,2011,26:32
[11]M isra A,Bus S J.BAAS,2008,40:508
[12]Tho len D J.A steroid Taxonom ic C lassifications.Tucson:Un iversity o f A rizona P ress,1989
[13]Bus S J,B inzel R P.Icarus,2002,158:146
[14]Lazzaro D,Angeli C A,Carvano J M,et a l.Icarus,2004,172:179
[15]DeM eo F E,B inzel R P,Slivan S M,et al.Icarus,2009,202:160
Spectral C lassification of A steroids by Random Forest
HUANG Chao1,2,3MA Yue-hua1,2ZHAO Hai-bin1,4LU Xiao-ping5
(1 Pu rp le M oun tain O bserva to ry,Chinese A cadem y o f Scien ces,Nan jing 210008) (2 K ey Laboratory for P lanetary Science,Chinese A cadem y of Sciences,Nan jing 210008) (3 Un iversity o f Chinese A cadem y o f Scien ces,Beijing 100049) (4 Lunar and P lanetary Scien ce Laboratory,M acau Un iversity o f Scien ce and Techno logy—Par tner Labo ra to ry o f K ey Labo ra tory o f Luna r an d D eep Space Exp lora tion,Chinese A cadem y o f Scien ces, M acau 000853) (5 Facu lty o f In fo rm a tion Techno logy,M acau Un iversity o f Scien ce an d Techno logy,M acau 000853)
W ith the increasing asteroid spectral and photometric data,a variety of classification methods for asteroids have been proposed.This paper classifies asteroids based on theobservationsof Sloan Digital Sky Survey(SDSS)Moving Ob ject Catalogue (MOC)by using the random forest algorithm.W ith the training data derived from the taxonom ies of Tholen,Bus,Lazzaro,DeMeo,and Principal Component Analysis,we classify 48642 asteroids according to g,r,i,and z SDSS magnitudes.In this way, asteroids are divided into 8 spectral classes(C,X,S,B,D,K,L,and V).
asteroids:general,line:profiles,methods:random forest
P185;
A
10.15940/j.cnki.0001-5245.2016.05.003
2016-03-28收到原稿,2016-04-22收到修改稿
?國家自然科學(xué)基金項(xiàng)目(11573075,11403107,11273067)、江蘇省自然科學(xué)基金項(xiàng)目(BK 20141045)、澳門科學(xué)技術(shù)發(fā)展基金項(xiàng)目(095/2013/A 3)、紫金山天文臺小行星基金會(huì)及澳門科技大學(xué)月球與行星科學(xué)實(shí)驗(yàn)室—中國科學(xué)院月球與深空探測重點(diǎn)實(shí)驗(yàn)室伙伴實(shí)驗(yàn)室資助
?yhm a@pm o.ac.cn