代慧梅 梅 盈,2 王 威 鄧 輝 王 鋒,2?
(1昆明理工大學(xué)云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室昆明650505)(2中國科學(xué)院云南天文臺昆明650011)(3中國科學(xué)院國家天文臺北京100012)
一種基于支持向量機(jī)的射電可見度數(shù)據(jù)自動標(biāo)注方法?
代慧梅1梅 盈1,2王 威3鄧 輝1王 鋒1,2?
(1昆明理工大學(xué)云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室昆明650505)
(2中國科學(xué)院云南天文臺昆明650011)
(3中國科學(xué)院國家天文臺北京100012)
對中國明安圖超寬頻譜射電日像儀(Mingantu Ultrawide Spectral Radioheliograph,MUSER)觀測所得到的可見度數(shù)據(jù)進(jìn)行標(biāo)注(Flag),以剔除數(shù)據(jù)中的異常值是后續(xù)成圖處理的一個(gè)重要工作.研究中利用支持向量機(jī)(Support Vector Machine,SVM)技術(shù)建立可信可見度數(shù)據(jù)標(biāo)記模型,進(jìn)而利用模型對可見度數(shù)據(jù)測試樣本集進(jìn)行測試標(biāo)注.結(jié)果表明,該方法與傳統(tǒng)基于統(tǒng)計(jì)的方法相比準(zhǔn)確率有明顯改進(jìn),可較好地判斷出故障天線,對MUSER故障天線引起的可見度數(shù)據(jù)失真標(biāo)記正確率可達(dá)到86%左右,且不受太陽爆發(fā)活動對數(shù)據(jù)的影響.
太陽:活動,太陽:射電輻射,恒星:成像,方法:數(shù)據(jù)分析,技術(shù):其他
明安圖超寬頻譜射電日像儀(Mingantu Ultrawide Spectral Radioheliograph,MUSER)是我國自行研制的可以同時(shí)以高時(shí)間、空間和頻率分辨率對太陽進(jìn)行射電頻譜成像的設(shè)備[1].MUSER項(xiàng)目分為兩期完成:第1期MUSER-I(低頻陣)由40面4.5 m口徑的拋物面天線及其接收設(shè)備組成,在64個(gè)頻點(diǎn)上成像;第2期MUSER-II(高頻陣)由60面2 m口徑的拋物面天線及其接收設(shè)備組成,在528個(gè)頻點(diǎn)上成像[2].
與光學(xué)望遠(yuǎn)鏡直接成像不同,射電望遠(yuǎn)鏡主要是接收天體射電信號的強(qiáng)度、相位及偏振等信息,進(jìn)而通過后續(xù)處理實(shí)現(xiàn)成圖.在觀測中,觀測數(shù)據(jù)通常會受到各種因素(例如電磁干擾等)的影響.此外,天線故障、饋源故障、通道差錯(cuò)、系統(tǒng)增益等數(shù)據(jù)接收設(shè)備故障也會導(dǎo)致觀測數(shù)據(jù)的異常.在觀測數(shù)據(jù)的處理過程中,對這些異常數(shù)據(jù)進(jìn)行判斷、標(biāo)注和剔除是射電觀測數(shù)據(jù)處理的重要工作.
在射電研究領(lǐng)域初期,對于射電天文數(shù)據(jù)的異常處理一般靠人工進(jìn)行記錄比對.但隨著觀測數(shù)據(jù)的日益龐大,人工處理已經(jīng)完全不切實(shí)際.隨著對領(lǐng)域研究的逐漸深入,為了高效地對失真數(shù)據(jù)進(jìn)行評估和標(biāo)注,各望遠(yuǎn)鏡觀測項(xiàng)目根據(jù)其陣列方式、天線數(shù)量、基線長度等性能參數(shù)指標(biāo),均分別建立了匹配其數(shù)據(jù)特征的數(shù)據(jù)標(biāo)記模型.如在阿塔卡瑪毫米/亞毫米波陣列望遠(yuǎn)鏡(Atacama Large Millimeter/submillimeter Array, ALMA)[3?4]中,為了標(biāo)記失真數(shù)據(jù),研究者們采用了CASA(Common Astronomy Software Applications)里的TFCrop、RFlag等方法;為了實(shí)現(xiàn)巨米波射電望遠(yuǎn)鏡(Giant Metrewave Radio Telescope,GMRT)[5?6]失真觀測數(shù)據(jù)的自動標(biāo)記,Prasad和Chengalur通過研究分析采用了FLAGCAL[7].
顯而易見,在MUSER進(jìn)入試觀測以后,為了實(shí)現(xiàn)自動數(shù)據(jù)處理,自動剔除由于天線故障引起的失真可見度數(shù)據(jù),提高數(shù)據(jù)的準(zhǔn)確性和可靠性,是后續(xù)MUSER數(shù)據(jù)網(wǎng)格化、潔化成圖處理的重要前導(dǎo)工作.在前期研究工作中曾利用GMRT里面的VSR(Vector to Scalar Ratio)標(biāo)記算法及ABC(Antenna/Baseline/Channel)標(biāo)記算法對MUSER數(shù)據(jù)標(biāo)記進(jìn)行了嘗試,結(jié)果令人不滿意.
本文在利用模式識別技術(shù),結(jié)合現(xiàn)有開源軟件包LIBSVM的基礎(chǔ)上,利用支持向量機(jī)技術(shù)(Support Vector Machine,SVM)[8]研究了可見度數(shù)據(jù)的異常標(biāo)記方法,通過已知基線損壞情況構(gòu)造訓(xùn)練集.隨后的一系列實(shí)驗(yàn)結(jié)果表明,SVM技術(shù)可以較好地實(shí)現(xiàn)對MUSER觀測中異常數(shù)據(jù)的自動標(biāo)記.
支持向量機(jī)[8?9]是一種監(jiān)督式學(xué)習(xí)的方法,是在統(tǒng)計(jì)學(xué)習(xí)的基礎(chǔ)上發(fā)展起來的一種新的機(jī)器學(xué)習(xí)方法,它是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,避免了局部極小點(diǎn)(支持向量機(jī)是一種凸二次優(yōu)化問題,能夠保證極值點(diǎn)是全局最優(yōu)解),通常用來進(jìn)行模式分類以及回歸分析.本文采用SVM對MUSER可見度數(shù)據(jù)進(jìn)行評估,就是用到了SVM的分類思想,即SVM通過最大化決策邊界的邊緣來找到最優(yōu)超平面.
簡單來說,假設(shè)輸入數(shù)據(jù)為{yi,xi},i=1,2,···,k.yi∈{?1,1}為類標(biāo)簽,xi∈Rn為輸入向量,k為樣本長度,n為向量特征的維度.在訓(xùn)練樣本線性可分時(shí),SVM尋找最優(yōu)超平面問題可簡化為求:
其中,w為權(quán)值矢量.在解決實(shí)際問題時(shí),碰到的大都是線性不可分的情況.對于這一點(diǎn),SVM里面的核函數(shù)K(xi,xj)會把輸入{yi,xi}從低維空間映射到高維空間.這時(shí)候, SVM尋找最優(yōu)超平面問題轉(zhuǎn)化為:
其中,i=1,2,···,k;ai是拉格朗日多項(xiàng)式;C是常數(shù).
經(jīng)過一系列計(jì)算,得到最優(yōu)解a?,最優(yōu)權(quán)重向量w?和最優(yōu)偏置向量b?.對于未知分類向量x,最終最優(yōu)分類函數(shù)為:
例如,對于線性可分情況的分類問題,通俗地講,就是用一條直線把屬于不同類別的樣本點(diǎn)分開.以平面坐標(biāo)系中的直線方程為例說明,平面坐標(biāo)系中直線方程為Ax+By+c=0,引入向量概念后,方程可以寫成{A,B}·{x,y}+c=0,其中{A,B}就是方程的法向量,再把直線方程進(jìn)行簡化,得到w·x+b=0的形式.當(dāng)我們輸入{yi,xi},規(guī)定xi屬于第1類時(shí),yi為1;xi屬于第2類時(shí),yi為?1.對此兩類問題,則直線兩側(cè)的樣本點(diǎn)分為正類和負(fù)類,進(jìn)一步用符號函數(shù)的方式推斷點(diǎn)x所對應(yīng)的類別的決策函數(shù)即為y=f(x)=sgn(w·x+b),根據(jù)符號函數(shù)的定義,y的取值要么為1,要么為?1.此時(shí)的分類問題為:對于任意給定的x,根據(jù)訓(xùn)練集預(yù)測出結(jié)果屬于正類或是負(fù)類.僅通過訓(xùn)練集信息解不出參數(shù)w和b,為使f(x)對原有樣本預(yù)測誤差最小,可將問題轉(zhuǎn)化為期望誤差最小、經(jīng)驗(yàn)風(fēng)險(xiǎn)最小,最后結(jié)合統(tǒng)計(jì)學(xué)習(xí)理論又將問題轉(zhuǎn)化為結(jié)構(gòu)風(fēng)險(xiǎn)最小,選取恰當(dāng)置信范圍,得到經(jīng)驗(yàn)風(fēng)險(xiǎn)最小的函數(shù)即為最優(yōu)函數(shù).
現(xiàn)如今支持向量機(jī)已被廣泛應(yīng)用到各行各業(yè)中[10?11].在天文學(xué)領(lǐng)域中也有SVM的身影,例如利用SVM從分光光度法推斷天體物理參數(shù)[12],利用SVM模型進(jìn)行自動化短期太陽耀斑爆發(fā)的預(yù)測[13]等.但是在射電天文領(lǐng)域,利用SVM進(jìn)行天線陣列故障情況判斷以剔除異常數(shù)據(jù)還沒有開展過相應(yīng)的研究工作.
MUSER觀測中可見度數(shù)據(jù)進(jìn)行標(biāo)注這一問題的實(shí)質(zhì),可以看成是一個(gè)分類問題,可信數(shù)據(jù)以及由天線故障造成的失真數(shù)據(jù)各屬一類.本文重點(diǎn)研究如下3個(gè)關(guān)鍵問題:
(1)SVM方法是否可以用于射電可見度數(shù)據(jù)的判斷?
(2)所獲得的模型是否魯棒,是否會受到太陽活動影響?
(3)小樣本訓(xùn)練出來的模型能否適用于較大樣本的測試集數(shù)據(jù),滿足全天觀測的需要?
為加快研究工作,在研究中直接采用開源的SVM軟件庫LIBSVM作為底層開發(fā)包.LIBSVM是臺灣林智仁(Chih-Jen Lin)教授2001年開發(fā)的一套支持向量機(jī)軟件庫,這套庫程序小,運(yùn)用靈活,開源且易于擴(kuò)展,可以很方便地對數(shù)據(jù)做分類或回歸.在LIBSVM基礎(chǔ)上,根據(jù)MUSER實(shí)際需求,進(jìn)行了相關(guān)修改,在訓(xùn)練時(shí)采用網(wǎng)格遍歷的方式選取出合適的最優(yōu)懲罰因子c和核函數(shù)參數(shù)γ,利用綜合性能最優(yōu)的徑向基函數(shù)RBF[14]對觀測數(shù)據(jù)進(jìn)行訓(xùn)練建模,得到SVM庫,以此為隨后判斷數(shù)據(jù)可靠性與否進(jìn)行評估及數(shù)據(jù)標(biāo)注校正作鋪墊.實(shí)驗(yàn)過程中所用到的樣本訓(xùn)練集和待分類的測試樣本集都是MUSER陣列實(shí)際觀測所得到的數(shù)據(jù).基于SVM的MUSER可見度數(shù)據(jù)評估過程如圖1所示.
圖1 可見度數(shù)據(jù)評估標(biāo)注流程圖Fig.1 The flowchart of visibility evaluation and flag
3.1 數(shù)據(jù)來源
根據(jù)科學(xué)目標(biāo)要求,MUSER天線的排列選用了綜合性能最優(yōu)的螺旋陣列.天線成像視場0.5?–7?,其中最長基線達(dá)3 km.各天線與后端數(shù)字接收設(shè)備間的信號傳輸通過光纖完成.在本文中,以MUSER-I所獲得的觀測數(shù)據(jù)作為研究對象.MUSER-I整體呈現(xiàn)出三臂螺旋結(jié)構(gòu),是由中心IA0號天線和A軸編號IA1-IA13、B軸編號IB1-IB13以及C軸編號IC1-IC13的天線共同構(gòu)成的以中心天線為軸的近似同心圓.為了方便后續(xù)數(shù)據(jù)計(jì)算,研究中將中心天線編號0,A軸天線編號1-13,B軸天線編號14-26,C軸天線編號27-39.
由綜合孔徑成像原理,對于一個(gè)由n面天線構(gòu)成的天線陣,可以構(gòu)成n(n-1)/2架干涉儀,因此得到n(n-1)/2條基線,也可以在空間頻率平面得到n(n-1)/2個(gè)(u,v)空間頻率域上的點(diǎn).這些點(diǎn)的分布即UV覆蓋,實(shí)驗(yàn)中研究的觀測可見度數(shù)據(jù)就是這些UV覆蓋上的點(diǎn).MUSER-I有40面天線,共有780條基線,一次數(shù)據(jù)采集可以獲得780個(gè)可見度數(shù)據(jù).
MUSER每3 ms接收1幀一個(gè)極化下的16個(gè)通道的可見度數(shù)據(jù),在25 ms內(nèi)完成兩個(gè)極化下的64個(gè)通道的8個(gè)數(shù)據(jù)幀的采集.
3.2 數(shù)據(jù)預(yù)處理
在數(shù)據(jù)處理過程中,根據(jù)原始觀測數(shù)據(jù)中的可見度數(shù)據(jù)計(jì)算出振幅和相位信息,作為判斷數(shù)據(jù)是否異常的特征值.
幅值A(chǔ)按如下計(jì)算公式計(jì)算:
相位φ的計(jì)算公式如下:
其中,R和I分別代表可見度數(shù)據(jù)的實(shí)部與虛部.
根據(jù)現(xiàn)場記錄,研究中選擇了2014年11月11日的觀測數(shù)據(jù)進(jìn)行分析與實(shí)驗(yàn),人工記錄當(dāng)日存在故障的天線編號分別為:4、7、10、11、12、13、16、17、18、19、24、25、26、36、38、39.在已知上述故障天線的情況下,針對MUSER數(shù)據(jù)特征,按照一旦天線故障則其對應(yīng)的基線都標(biāo)注為異常的原則,結(jié)合LIBSVM軟件包對樣本格式的要求,構(gòu)建了相應(yīng)的訓(xùn)練集及測試集,提取出來的樣本數(shù)據(jù)集示例見表1.由于樣本取的都是天線的互相關(guān)值,最終確定樣本集特征維有通道channel,天線ant1,天線ant2,振幅A,相位φ.其中Label是類別標(biāo)簽,取值+1表示該組天線ant1和ant2都是正常工作的,取值?1表示其中至少有1面天線發(fā)生故障.
表1 樣本數(shù)據(jù)集示例Table 1 Examples of sample set
由于樣本中幅值波動較大,為保證程序在運(yùn)行時(shí)收斂速度更快,在進(jìn)行訓(xùn)練前,對準(zhǔn)備好的訓(xùn)練集進(jìn)行了歸一化處理,對于同一訓(xùn)練模型下的測試集,利用保存的規(guī)則進(jìn)行相同幅度縮放.
eID芯片DS2431的頁讀操作與頁寫操作類似,不過只需一個(gè)步驟,通過發(fā)送“Read Memory”命令,讀取相應(yīng)頁地址內(nèi)的數(shù)據(jù)。
3.3 模型建立及測試
3.3.1 樣本集訓(xùn)練
研究中構(gòu)建了爆發(fā)太陽模型和寧靜太陽模型兩組訓(xùn)練樣本集.為使樣本分布均勻,兩組模型的訓(xùn)練集都是取連續(xù)3 min觀測數(shù)據(jù)的前6組(共18幀780×18條記錄)拼接而成.爆發(fā)太陽的訓(xùn)練集主要分別選取了2014年11月11日12時(shí)20分的太陽爆發(fā)數(shù)據(jù)、2014年11月11日12時(shí)21分寧靜太陽數(shù)據(jù)、2014年11月11日12時(shí)22分寧靜太陽數(shù)據(jù)前6幀,經(jīng)過數(shù)據(jù)預(yù)處理后組成一個(gè)18幀的樣本訓(xùn)練集train_20+21+22-scale;寧靜太陽訓(xùn)練集train_21+22+23_scale則由2014年11月11日12時(shí)21分寧靜太陽數(shù)據(jù)、2014年11月11日12時(shí)22分寧靜太陽數(shù)據(jù)、2014年11月11日12時(shí)23分寧靜太陽數(shù)據(jù)中前6幀合并而成.相應(yīng)地,分別以現(xiàn)有觀測數(shù)據(jù)2014年11月11日12時(shí)20?23、25、26分?jǐn)?shù)據(jù)選取不同幀數(shù)作為模型測試集,測試分類器性能.
訓(xùn)練數(shù)據(jù)時(shí),一般要有優(yōu)化的參數(shù)懲罰系數(shù)c和徑向基系數(shù)γ.c過大或者過小,都會使模型的泛化能力變差,γ的取值則影響能否在特征空間中找到最優(yōu)超平面.現(xiàn)有的對于SVM尋參的過程都是基于經(jīng)驗(yàn)的,為較準(zhǔn)確找到c和γ,研究中利用網(wǎng)格化處理訓(xùn)練集,得到爆發(fā)太陽組和寧靜太陽組最優(yōu)c均為8192,最優(yōu)γ均為8.
結(jié)合尋找到的c和γ,采用徑向基函數(shù)RBF,對兩個(gè)樣本訓(xùn)練集分別進(jìn)行訓(xùn)練,最后得到爆發(fā)太陽組和寧靜太陽組兩個(gè)模型:train_20+21+22-18_scale.model、train_21+22+23 -18_scale.model.
3.3.2 模型測試
對所建模型進(jìn)行驗(yàn)證,主要是用到LIBSVM里面的svm-predict文件,把測試集以參數(shù)形式放到模型中,可以得到通過模型的預(yù)測標(biāo)注文件,該文件存放的是真正的預(yù)測結(jié)果.考慮到通過原始svm-predict進(jìn)行的預(yù)測輸出,只是有一個(gè)單一的關(guān)于基線數(shù)據(jù)的類標(biāo)簽,并沒有其對應(yīng)的天線信息,因此很難從中看出天線故障情況.為了使預(yù)測輸出更適用于MUSER數(shù)據(jù),便于隨后對可見度數(shù)據(jù)進(jìn)行評估判別,在實(shí)驗(yàn)中對原始svm-predict進(jìn)行一些修改,使輸出結(jié)果中有相應(yīng)標(biāo)記類標(biāo)簽的MUSER陣列天線信息.
為了研究太陽活動對模型的影響,在爆發(fā)太陽組模型中,測試集都是寧靜太陽可見度數(shù)據(jù);在寧靜太陽組模型中,有太陽爆發(fā)的測試集test_1220_scale和其余寧靜太陽的測試集.
為測試小樣本數(shù)據(jù)訓(xùn)練得到的分類器能否對較大樣本測試數(shù)據(jù)進(jìn)行評估,在爆發(fā)太陽組模型和寧靜太陽組模型中,樣本測試集均選取了10幀數(shù)據(jù)(共780×10條記錄)和100幀數(shù)據(jù)(共780×100條記錄),這里不一一列舉.
3.4 結(jié)果分析與討論
3.4.1 方法可行性驗(yàn)證
兩組模型下相應(yīng)測試集完成預(yù)測標(biāo)注.爆發(fā)太陽組模型train 20+21+22-18scale. model下,相應(yīng)的測試集標(biāo)注結(jié)果見表2、表3.
表2 爆發(fā)太陽模型組10幀樣本測試準(zhǔn)確率Table 2 Accuracies of 10 frames of test sample sets in the modeling group for solar eruption
表3 爆發(fā)太陽模型組100幀樣本測試準(zhǔn)確率Table 3 Accuracies of 100 frames of test sample sets in the modeling group for solar eruption
寧靜太陽組模型train_21+22+23-18_scale.model下,相應(yīng)的測試集標(biāo)注結(jié)果見表4、表5.
表4 寧靜太陽模型組10幀樣本測試準(zhǔn)確率Table 4 Accuracies of 10 frames of test sample sets in the modeling group for quiet Sun
表5 寧靜太陽模型組100幀樣本測試準(zhǔn)確率Table 5 Accuracies of 100 frames of test sample sets in the modeling group for quiet Sun
分析對比表2和表4,表3和表5,可以發(fā)現(xiàn)在相同樣本容量下,無論是以太陽爆發(fā)數(shù)據(jù)建立的模型還是以寧靜太陽可見度數(shù)據(jù)建立的模型,訓(xùn)練集預(yù)測標(biāo)注最終正確率均維持在86%左右;由表4或表5中的數(shù)據(jù),可以看出寧靜太陽模型下,爆發(fā)數(shù)據(jù)測試集和寧靜太陽測試集經(jīng)過模型后的準(zhǔn)確率大致相同,都維持在86%左右.
對表2和表3、表4和表5分別進(jìn)行對比,發(fā)現(xiàn)容量為10幀的測試樣本和容量為100幀的測試樣本在18幀模型下預(yù)測出來的結(jié)果基本穩(wěn)定在86%左右.
綜合以上數(shù)據(jù),再與前期利用VSR等算法得出的標(biāo)記準(zhǔn)確率0.667相比,我們可以發(fā)現(xiàn),SVM方法基本能夠?qū)USER可見度數(shù)據(jù)進(jìn)行有效評估,并且該方法大致不受太陽活動的影響.對于小樣本訓(xùn)練得到的SVM模型,一定范圍內(nèi)可以對相較之大的樣本進(jìn)行預(yù)測標(biāo)記.
3.4.2 故障天線判斷分析
在對可見度數(shù)據(jù)標(biāo)注的基礎(chǔ)上,為進(jìn)一步給出對故障天線的判斷,研究中采用了對故障數(shù)據(jù)的統(tǒng)計(jì)方法.通過對每一組測試集預(yù)測出來的故障標(biāo)注結(jié)果進(jìn)行統(tǒng)計(jì),根據(jù)各天線的標(biāo)注比例反推出故障天線的編號.表6給出了測試集test_1225-10_scale在爆發(fā)太陽模型下的統(tǒng)計(jì)結(jié)果.其中,標(biāo)注百分比F按F=S/(2×T)計(jì)算(S代表樣本測試集中單個(gè)天線被標(biāo)注的次數(shù),T代表樣本測試集中所有天線被標(biāo)注出的總次數(shù)).
表6 爆發(fā)太陽模型下2014年11月11日12點(diǎn)25分?jǐn)?shù)據(jù)天線標(biāo)記結(jié)果Table 6 Flagged antennas at 12:25 on November 11,2014 in the modeling group for solar eruption
研究中,也對其他模型進(jìn)行了同樣的統(tǒng)計(jì),結(jié)果和表6類似,通過分析統(tǒng)計(jì)結(jié)果中每面天線標(biāo)注的百分比,得到一個(gè)結(jié)果,無論模型是基于太陽活動數(shù)據(jù)或是寧靜太陽數(shù)據(jù)建立的,測試樣本集是寧靜太陽的或是爆發(fā)的,每個(gè)表中都出現(xiàn)的一個(gè)共性特征是:編號為0、4、7、10、11、12、13、15、16、17、18、19、24、25、26、27、36、38、39的天線被標(biāo)注的百分比均高于2.50.而已知故障的天線編號為:4、7、10、11、12、13、16、17、18、19、24、25、26、36、38、39,通過與已知故障天線編號進(jìn)行比對,可以發(fā)現(xiàn)通過該方法建立的模型標(biāo)注出了絕大多數(shù)的故障天線,可以滿足對MUSER數(shù)據(jù)可靠與否的評估.除此之外,通過一系列統(tǒng)計(jì)判別,采用SVM方法還能夠找到失真數(shù)據(jù)對應(yīng)的故障天線,便于后期的校正工作.因此,實(shí)驗(yàn)過程中把壞損標(biāo)記2.5%作為分類的閾值,壞損標(biāo)記高于2.5%認(rèn)為是故障天線,壞損標(biāo)記低于2.5%認(rèn)定為正常工作天線.
以上統(tǒng)計(jì)結(jié)果充分說明基于統(tǒng)計(jì)的故障天線判斷方法是可信的.
本文針對中國太陽射電日像儀數(shù)據(jù)處理要求,找到了一種基于支持向量機(jī)技術(shù)的MUSER可見度數(shù)據(jù)異常的標(biāo)注方法,可以獲得約86%的較高的準(zhǔn)確率,同時(shí),也可以在進(jìn)一步統(tǒng)計(jì)的基礎(chǔ)上標(biāo)注出具體的故障天線.方法已經(jīng)應(yīng)用于MUSER的數(shù)據(jù)處理中,并取得了較好的效果.除此之外,本方法也為射電觀測數(shù)據(jù)在異常檢測方面提供了一種新思路.
[1]Yan Y,Zhang J,Wang W,et al.EM&P,2009,104:97
[2]高姣姣,王鋒,戴偉,等.天文研究與技術(shù),2013,10:365
[3]Brown R L,Wild W,Cunningham C.AdSpR,2004,34:555
[4]Thompson A R,Moran J M,Swenson JR G W.Interferometry and Synthesis in Radio Astronomy. 2nd Edition.New York:John Wiley&Sons,2001:12-23
[5]Swarup G.IJRSP,1990,19:493
[6]Begum A,Brogan C L,Karachentsev I D,et al.MNRAS,2008,386:1667
[7]Prasad J,Chengalur J.ExA,2012,33:157
[8]肖建華.智能模式識別方法.廣州:華南理工大學(xué)出版社,2006:113-119
[9]雷雨,趙丹寧.天文學(xué)報(bào),2014,55:216
[10]高媛媛,劉強(qiáng)國.四川理工學(xué)院學(xué)報(bào):自然科學(xué)版,2010,23:531
[11]曾鳴,林磊,程文明.計(jì)算機(jī)工程與應(yīng)用,2013,49:7
[12]Liu C,Bailer-Jones C A L,Sordo R,et al.MNRAS,2012,426:2463
[13]Qahwaji R,Colak T.SoPh,2007,241:195
[14]黨建武,劉云伍,王陽萍,等.計(jì)算機(jī)應(yīng)用,2011,31:1010
A Radio Visibility Data Auto-Flag Method Based on Support Vector Machine
DAI Hui-mei1MEI Ying1,2WANG Wei3DENG Hui1WANG Feng1,2
(1 Computer Technology Application Key Lab of Yunnan Province,Kunming University of Science and Technology,Kunming 650505)
(2 Yunnan Observatories,Chinese Academy of Sciences,Kunming 650011)
(3 National Astronomical Observatories,Chinese Academy of Sciences,Beijing 100012)
The Mingantu Ultrawide Spectral Radioheliograph(MUSER)has entered the trial observation stage.After the construction of data acquisition and real-time storage system,it is urgent to automatically flag and eliminate abnormal visibility data so as to improve the image quality.In this paper,according to the observational records, we create a credible visibility set,and further obtain a corresponding model by using support vector machine(SVM)technology.The results show that the SVM is a robust approach to flag the MUSER visibility data,and could reach the accuracy of about 86%.Meanwhile,the approach would not be a ff ected by solar activities such as flare eruptions.
sun:activity,sun:radio radiation,stars:imaging,methods:data analysis, techniques:miscellaneous
P161;
:A
10.15940/j.cnki.0001-5245.2016.01.003
2015-06-21收到原稿,2015-07-22收到修改稿
?中國科學(xué)院-國家自然科學(xué)基金委員會天文聯(lián)合基金重點(diǎn)項(xiàng)目(U1231205)、國家自然科學(xué)基金項(xiàng)目(11103005,11263004)、云南省應(yīng)用基礎(chǔ)基金重點(diǎn)項(xiàng)目(2013FA013,2013FA032)共同資助
?wf@cnlab.net