国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

兩種監(jiān)督機(jī)器學(xué)習(xí)算法在Fermi BCU分類評估中的應(yīng)用*

2019-10-10 03:01:58朱柯睿周瑞鑫康世舉毛慰明
關(guān)鍵詞:變體參量準(zhǔn)確率

朱柯睿, 周瑞鑫, 康世舉, 毛慰明

(1.云南師范大學(xué) 物理與電子信息學(xué)院,云南 昆明650092;2.六盤水師范學(xué)院 電氣工程學(xué)院,貴州 六盤水 553004)

費(fèi)米大面積望遠(yuǎn)鏡(Fermi LAT)于2008年發(fā)射后長期用于高能伽馬射線波段的觀測.根據(jù)2008年到2016年在50 MeV到1 TeV能段的觀測數(shù)據(jù),F(xiàn)ermi團(tuán)隊(duì)最近發(fā)布Fermi-LAT第四期源目錄(4FGL),有5 065個伽馬射線源,其中3 131個為耀變體[4],包括1 116個蝎虎天體、686個平譜射電類星體和1 329個未知類型的耀變體.4FGL同時給出了很多直接觀測數(shù)據(jù),例如七個不同波段的流量增加冪律和對數(shù)拋物線型譜參數(shù)等.與3FGL[5]中被證認(rèn)的1 420個耀變體中有402個BCUs相比,4FGL樣本量大大增加了,同時未確定樣本也更多了.對BCU的類型證認(rèn)是一項(xiàng)有意義的工作,但是由于天文觀測的局限性,從觀測上直接證認(rèn)存在很多困難.

近年來,天文學(xué)數(shù)據(jù)急劇膨脹,復(fù)雜性快速上升,常規(guī)的統(tǒng)計(jì)方法在數(shù)據(jù)挖掘和分析領(lǐng)域存在困難.機(jī)器學(xué)習(xí)作為一種新的數(shù)據(jù)分析處理手段,主要分為監(jiān)督機(jī)器學(xué)習(xí)(SML)和非監(jiān)督機(jī)器學(xué)習(xí)(USML),在分類、回歸、模型構(gòu)建領(lǐng)域有較好運(yùn)用[6].監(jiān)督機(jī)器學(xué)習(xí)中,有邏輯回歸、貝葉斯網(wǎng)絡(luò)、決策樹、隨機(jī)森林、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)和高斯有限混合模型等大量算法可供選擇.在天文學(xué)領(lǐng)域中,SML分類算法被廣泛應(yīng)用,例如Doert等人將隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)用于在2FGL無相關(guān)源中尋找AGN候選體[7],Saz Parkinson P M等人將隨機(jī)森林和邏輯回歸用于3FGL未證認(rèn)樣本的分類[8]等.本文選用監(jiān)督機(jī)器學(xué)習(xí)領(lǐng)域的高斯混合有限模型(Mclust)和邏輯回歸(LR)算法,對4FGL中1 329個Fermi BCUs樣本的分類進(jìn)行評估.

1 監(jiān)督機(jī)器學(xué)習(xí)分類方法

在監(jiān)督機(jī)器學(xué)習(xí)領(lǐng)域,數(shù)據(jù)集包含對象及其特征參量和目標(biāo)參量.特征參量一般是指可測量且可用來衡量對象特性的參量,而目標(biāo)參量主要指類型 (在分類算法中,也被稱為標(biāo)簽)[6].本文中,對象為4FGL中的耀變體源及其參量;而特征參量為源的各種觀測量,如譜特征、流量等;目標(biāo)參量為其分類,如FSRQ和BL Lac.為了實(shí)現(xiàn)分類的目標(biāo),數(shù)據(jù)集中的已知標(biāo)簽的樣本將進(jìn)一步劃分為訓(xùn)練集和測試集.訓(xùn)練集將被用來訓(xùn)練算法模型以確定分類評判標(biāo)準(zhǔn),而測試集將被用來測試算法模型的準(zhǔn)確率和穩(wěn)定性.將未知樣本的特征參量代入模型中,即可獲得其分類.

為了在算法上實(shí)現(xiàn)分類,將在R語言的環(huán)境下工作.高斯有限混合模型(Mclust)是R語言提供的一種基于高斯混合模型的聚類算法的程序庫,常用于密度估計(jì)或判別分析.而邏輯回歸(LR)又稱logistic回歸分析,是使用廣義的線性回歸模型來進(jìn)行二元變量分類的一種算法,在數(shù)據(jù)挖掘、分類判別領(lǐng)域有較好的運(yùn)用.

2 樣本選取

根據(jù)費(fèi)米第四期源目錄,樣本選取了1 116個蝎虎天體(標(biāo)簽為“bll”)、686個平譜射電類星體(標(biāo)簽為“fsrq”)和1 329個未確定類別耀變體.在4FGL目錄給出的觀測參量中,除去坐標(biāo)、誤差、歷史數(shù)據(jù)、字符串、缺失數(shù)據(jù)等無效數(shù)據(jù)外,共有28個參量.為了評估各個參量在BL Lac和FSRQ兩類樣本中的分布差異,采用雙樣本檢驗(yàn)中的K-S檢驗(yàn)(Kolmogorov-Smirnov test,用以評價(jià)兩類樣本的分布是否存在顯著性差異的手段,方法等更多細(xì)節(jié)可見文獻(xiàn)[9]),根據(jù)K-S檢驗(yàn)結(jié)果,按照D≥0.5參數(shù)選擇標(biāo)準(zhǔn),選擇了8個參數(shù)(見表1)作為數(shù)據(jù)集的特征參量選用.表1中,第一列是測試參數(shù)名稱;第二列是K-S 檢驗(yàn)中的統(tǒng)計(jì)值D;第三列是各參數(shù)在K-S檢驗(yàn)中在兩類樣本遵從同一分布的概率p.

表1 被選用參數(shù)K-S檢驗(yàn)的結(jié)果

3 結(jié) 果

在訓(xùn)練集和測試集劃分時,為了保證結(jié)果的唯一性和可重復(fù)性,在數(shù)據(jù)集隨機(jī)分類時給定了確定的隨機(jī)因子(123),以保證樣本劃分的穩(wěn)定性,進(jìn)而保證分類結(jié)果的穩(wěn)定性.1 116個BL Lacs和686個FSRQs將按7∶3的比例隨機(jī)地(隨機(jī)因子為123)分為訓(xùn)練集和測試集,1 329個BCU將作為預(yù)測集,選定的8個參數(shù)將作為特征參量.實(shí)現(xiàn)高斯混合有限模型調(diào)用“mclust”函數(shù)庫,模型構(gòu)建類型為“mclustDA”(算法更多細(xì)節(jié)見文獻(xiàn)[10]).“glm”是R提供關(guān)于線性回歸模型的函數(shù)庫,將回歸函數(shù)模式為“l(fā)ogit”即可實(shí)現(xiàn)邏輯回歸分類,本文選用的分類閾值為0.5(算法更多細(xì)節(jié)見文獻(xiàn)[11]).根據(jù)輸入的數(shù)據(jù)集,分類器算法分別給出了1 329個Fermi BCU樣本的分類 (篇幅受限,論文僅給出部分源可能的分類結(jié)果,如有需要,請與作者聯(lián)系),部分分類結(jié)果見表2.表2中,第一列是4FGL的源名稱;第二列是源的別稱;第三列是源在4FGL中的分類;第四、五列分別是兩種分類算法給出的分類結(jié)果.

表2 部分BCU的分類結(jié)果

圖1為測試結(jié)果的誤差分布圖,其中左圖為Mclust測試結(jié)果,右圖為LR測試結(jié)果(縱坐標(biāo)為真值,橫坐標(biāo)為預(yù)測值,真值與預(yù)測值不同即為誤判情況).根據(jù)測試結(jié)果,Mlcust算法的總體準(zhǔn)確率達(dá)到85.95%,對于BL Lac和FSRQ的準(zhǔn)確率分別為88.63%和81.31%;Mclust給出BL Lac型候選體810個,F(xiàn)SRQ型候選體519個(見表3);而LR分類器的總體準(zhǔn)確率達(dá)到89.46%,對于BL Lac和FSRQ的準(zhǔn)確率分別為92.31%和84.72%;LR共給出BL Lac型候選體819個,F(xiàn)SRQ候選體510個,詳細(xì)結(jié)果列在表3中.表3中,第一列是分類算法名稱;第二、三列分別是給出BL Lac和FSRQ候選體個數(shù);第四、五、六列分別是針對BL Lac、FSRQ和整體樣本的準(zhǔn)確率.

圖1 誤差分布

表3 分類結(jié)果及算法模型準(zhǔn)確率

為了更直觀地看出各個參數(shù)在不同耀變體類型上分布的差異,通過“plot mclustDA”函數(shù)給出了已知的兩類樣本在部分不同參數(shù)空間中的散點(diǎn)圖(圖2).圖2左圖為訓(xùn)練集散點(diǎn)圖,右圖為測試集散點(diǎn)圖,其中藍(lán)色點(diǎn)為BL Lac型樣本,紅色點(diǎn)為FSRQ型樣本.從散點(diǎn)圖中可以看出,兩類耀變體的相關(guān)參數(shù)分布不同,在耀變體序列的演化中具有明顯差異,即在分類器中,蝎虎天體和平譜射電類星體是可以區(qū)分的.

圖2 兩類樣本在部分不同參數(shù)空間中的散點(diǎn)圖

從結(jié)果可見,LR算法的準(zhǔn)確率略高于Mclust算法,且兩種算法給出的不同類型候選體的數(shù)目并沒有較大差異.結(jié)合兩種算法的結(jié)果,有731個樣本被兩種分類器同時認(rèn)為屬于BL Lac類型,而有432個被同時分類為FSRQ類型(詳細(xì)分類結(jié)果如有需要,可以聯(lián)系作者),在一定程度上,可以認(rèn)為此結(jié)果具有較高的置信度.

4 討 論

從文中可以看出,BL Lac和FSRQ兩類耀變體在很多參數(shù)空間的分布都有較大的區(qū)別.例如,無論是冪律模型和對數(shù)拋物線模型還是指數(shù)截?cái)鄡缏赡P?,BL Lac顯示出了相對FSRQ較小的譜指數(shù),這也意味著BL Lac的譜顯得較硬.此外,相對于FSRQs,BL Lacs具有更小的流量、更弱的光變以及更低的峰值頻率[12].這也間接說明了BL Lac和FSRQ輻射產(chǎn)生的不同的物理機(jī)制[13-16].

本文所用的數(shù)據(jù)僅為4FGL提供的源及其參量,并沒有加入外部數(shù)據(jù).本文得到的結(jié)果僅為將數(shù)據(jù)集代入程序所得的結(jié)果.訓(xùn)練集和測試集劃分不同(不同的比例,不同的隨機(jī)因子),特征參量的選取不同可能會導(dǎo)致結(jié)果的不同.因此,本文的結(jié)果僅針對本文中提出的數(shù)據(jù)和參量.

此外,對于參數(shù)的選擇,只選用了一種簡單的方式給出選擇標(biāo)準(zhǔn),并沒有對參數(shù)個數(shù)對算法準(zhǔn)確率的影響進(jìn)行深入的探討.而監(jiān)督機(jī)器學(xué)習(xí)領(lǐng)域有很多算法,本文只使用了其中的高斯混合有限模型和邏輯回歸算法,少數(shù)幾種算法的分類結(jié)果可能存在一定的局限性,如果將多種算法(例如神經(jīng)網(wǎng)絡(luò),隨機(jī)森林,支持向量機(jī)等)同時運(yùn)用,然后對各種分類器的分類結(jié)果進(jìn)行綜合考慮,可能會得到具有更高置信度的結(jié)果.

猜你喜歡
變體參量準(zhǔn)確率
基于DDPG算法的變體飛行器自主變形決策
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
非仿射參數(shù)依賴LPV模型的變體飛行器H∞控制
耀變體噴流高能電子譜的形成機(jī)制
環(huán)形光的形成與參量的依賴關(guān)系
含雙參量的p-拉普拉斯邊值問題的多重解
鎖定放大技術(shù)在參量接收陣中的應(yīng)用
肥西县| 达尔| 昌江| 延安市| 宁津县| 民和| 昌邑市| 榆社县| 垫江县| 德清县| 湘潭县| 双柏县| 塘沽区| 厦门市| 宜宾县| 焉耆| 枝江市| 南木林县| 门源| 台北市| 香港 | 县级市| 南汇区| 正定县| 六盘水市| 龙南县| 天峻县| 紫金县| 卓尼县| 郑州市| 张家口市| 清涧县| 五台县| 新昌县| 兴宁市| 会理县| 离岛区| 海兴县| 鄯善县| 天峨县| 菏泽市|