尚星宇
摘? 要:隨著我國第一顆電磁監(jiān)測衛(wèi)星的發(fā)射,衛(wèi)星探測的海量數(shù)據(jù)不斷涌現(xiàn),探究空間載荷數(shù)據(jù)變化特征已成為當前研究熱點。為了對張衡一號衛(wèi)星LAP載荷數(shù)據(jù)進行異常檢測,該文將處理后的數(shù)據(jù)按地理緯度劃分為南緯50°到南緯20°,南緯20°到北緯20°,北緯20°到北緯50°三個區(qū)域,依次采用DBSCAN密度聚類算法進行聚類異常檢測。結(jié)果表明,該方法可用于對LAP數(shù)據(jù)的異常檢測。DBSCAN密度聚類算法可用于檢測衛(wèi)星異常數(shù)據(jù),為檢測衛(wèi)星探測數(shù)據(jù)異常、研究空間數(shù)據(jù)變化特征提供思路參考。
關(guān)鍵詞:ZH-1衛(wèi)星;原位電子密度觀測數(shù)據(jù);異常檢測;DBSCAN;聚類算法
中圖分類號:P352.7? ? ? 文獻標志碼:A? ? ? ? ? 文章編號:2095-2945(2024)10-0138-05
Abstract: With the launch of China's first electromagnetic monitoring satellite and the continuous emergence of massive data detected by the satellite, exploring the changing characteristics of space load data has become a current research hotspot. In order to detect the anomaly of ZH-1 satellite LAP load data, the processed data are divided into three regions: from 50° south latitude to 20° south latitude, from 20° south latitude to 20° north latitude, and from 20° north latitude to 50° north latitude. The clustering anomaly detection is carried out by using DBSCAN density clustering algorithm in turn. The results show that this method can be used for anomaly detection of LAP data. DBSCAN density clustering algorithm can be used to detect satellite abnormal data, which provides a reference for detecting abnormal satellite data and studying the changing characteristics of spatial data.
Keywords: ZH-1 satellite; in situ electron density observation data; anomaly detection; DBSCAN; clustering algorithm
張衡一號衛(wèi)星(以下簡稱“ZH-1衛(wèi)星”)是我國自主研發(fā)的第一顆近地軌道電磁場環(huán)境監(jiān)測科學試驗衛(wèi)星,可觀測全球電磁場、電離層等離子體、高能粒子等觀測數(shù)據(jù),實現(xiàn)對電離層空間環(huán)境多角度的探測分析,其主要科學目標之一是:對中國及周邊區(qū)域開展電離層動態(tài)實時監(jiān)測和地震前兆跟蹤監(jiān)測,探索地震電離層擾動機制[1-2]。衛(wèi)星上搭載了3類8種科學載荷,第一類是用于電離層電磁場探測的載荷,包括高精度磁強計、感應式磁力儀和電場探測儀;第二類是用于原位等離子體參數(shù)探測的載荷,包括朗繆爾探針、等離子體分析儀和高能粒子探測器;第三類是用于電離層結(jié)構(gòu)探測的載荷,包括GNSS掩星接收機和三頻信標發(fā)射機[3-4]。
為研究空間電磁場和電離層的變化,起初需要人工統(tǒng)計分析相關(guān)數(shù)據(jù)特征,而異常數(shù)據(jù)常常淹沒隱藏在海量數(shù)據(jù)中,使用傳統(tǒng)人工方法雖然能夠滿足相關(guān)研究需要,但費時耗力且效率低下,嚴重制約了后續(xù)各種數(shù)據(jù)的分析和研究工作。依據(jù)衛(wèi)星跨度范圍廣,衛(wèi)星探測數(shù)據(jù)復雜的特點,常用到的方法,如王秀英等[5]采用滑動窗口求標準差,通過設(shè)置閾值的方式檢測出頂部電離層不規(guī)則結(jié)構(gòu)并進行研究;張學民等[6]采用四分位距法對張衡一號衛(wèi)星探測等離子體參量數(shù)據(jù)異常提取,并對2020年新疆于田6.4級地震前電離層異?,F(xiàn)象進行分析。
數(shù)據(jù)挖掘中常用聚類算法可以對數(shù)據(jù)進行異常檢測和處理。通過對處理后的數(shù)據(jù)進行聚類分析,將相似數(shù)據(jù)點歸為一個聚類簇,將出現(xiàn)的單個數(shù)據(jù)為一類或者極少數(shù)數(shù)據(jù)為一類的數(shù)據(jù)判定為異常數(shù)據(jù)[7]。常用的一種用于異常檢測的DBSCAN密度聚類算法有很多研究成果,阮嘉琨等[8]利用DBSCAN算法對高速公路交通流進行異常數(shù)據(jù)檢測;潘淵洋等[9]針對環(huán)境監(jiān)測應用,利用DBSCAN算法對訓練時段內(nèi)的數(shù)據(jù)進行訓練并提取環(huán)境特征集,節(jié)點根據(jù)特征集對新采集的數(shù)據(jù)進行異常數(shù)據(jù)檢測。因此,本文嘗試使用DBSCAN聚類密度算法,根據(jù)衛(wèi)星軌道數(shù)據(jù)特點設(shè)計按地理緯度劃分3個區(qū)域依次進行聚類,設(shè)置鄰域參數(shù)檢測異常數(shù)據(jù)。
1? 數(shù)據(jù)及預處理
本文選用ZH-1衛(wèi)星朗繆爾探針(Langmuir probe,LAP)載荷探測的電子密度(electronic density,Ne)原位數(shù)據(jù)。該數(shù)據(jù)探測范圍為5×102~107 cm-3。為了避免極地干擾,本文僅選用中低緯度即南北緯50°之間的電子密度數(shù)據(jù),圖1為2022年9月30日得到的同一軌道(編號:25863)升軌(衛(wèi)星從南向北飛)和降軌(衛(wèi)星從南向北飛)電子密度觀測數(shù)據(jù)隨緯度變化的連續(xù)曲線。由圖1可知,2個數(shù)據(jù)曲線都伴隨南北地理緯度顯示出較大尺度的趨勢性變化,而這種趨勢性變化隨季節(jié)、太陽活動等影響有所變化。圖1中軌道為升軌的電子密度觀測數(shù)據(jù)總體上比較平穩(wěn),而軌道為降軌的觀測數(shù)據(jù)在赤道附近急劇上升,有較大幅度變化。
圖1? 升降軌電子密度連續(xù)觀測數(shù)據(jù)隨緯度的變化曲線
由于ZH-1衛(wèi)星探測范圍跨越南北緯度90°距離較大、記錄的科學數(shù)據(jù)種類較多、數(shù)據(jù)存儲量巨大,且衛(wèi)星在軌工作狀態(tài)下,每隔一段時間工作模式會進行調(diào)整與切換,在調(diào)整和切換工作模式時數(shù)據(jù)記錄有時會出現(xiàn)數(shù)據(jù)缺失、信號突跳較大的情況,這些離群值數(shù)據(jù)對后續(xù)聚類會造成較大影響,所以需要對原始數(shù)據(jù)設(shè)計專門的數(shù)據(jù)預處理方法。本文根據(jù)軌道LAP電子密度數(shù)據(jù)的特點,將離群值數(shù)據(jù)置為空值,采用均值填充的方法,用數(shù)據(jù)附近的前后數(shù)據(jù)進行填充,并對缺失數(shù)據(jù)進行擬合預處理。經(jīng)過離群值和缺失值處理,數(shù)據(jù)的質(zhì)量將大大提高,有助于提高后續(xù)研究的精確度。后續(xù)數(shù)據(jù)處理均是在去除離群值和補齊缺失數(shù)據(jù)操作后進行的。另外,對于軌道有多個缺失數(shù)據(jù)的情況,該軌道數(shù)據(jù)不參加計算。
2? 方法介紹與研究
聚類分析屬于無監(jiān)督學習,DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一種典型的基于密度的聚類算法,這類聚類算法一般假定類別可以通過樣本分布的精密程度決定,同一類別的樣本,在該類別任意樣本周圍不遠處一定有同類別樣本存在[10]。DBSCAN對象需要設(shè)置以下2個主要參數(shù):半徑eps和最小樣品點數(shù)min_samples,通過設(shè)置一組鄰域(eps, min_samples)來描述樣本集的緊密程度。半徑eps是指從一個觀察值到另一個觀察值的最遠距離,超過這個距離將不再認為二者是鄰居。最小樣品點數(shù)min_samples是指最小限度的鄰居數(shù)量,如果一個觀察值在其周圍小于半徑eps距離的范圍內(nèi)有超過這個數(shù)量的鄰居,就被認為是核心觀察值。DBSCAN算法從數(shù)據(jù)集中隨機選擇一個核心點作為“種子”,由該“種子”出發(fā)確定相應的聚類簇,當遍歷完所有核心點時,算法結(jié)束。
在DBSCAN聚類技術(shù)中,所有數(shù)據(jù)點都被定義為核心點(Core Points)、邊界點(Border Points)或噪聲點(Noise Points)。若樣本xi的半徑eps鄰域內(nèi)至少包含了min_samples個樣本,則稱樣本xi為核心點;若樣本xi的半徑eps鄰域內(nèi)包含的樣本數(shù)目小于min_samples,但是它在其他核心點的鄰域內(nèi),則稱樣本點xi為邊界點;對于非核心點的樣本xi,若xi不在任意核心點半徑eps的鄰域里都是噪聲點,也被標識為異常值。DBSCAN算法的流程圖如圖2所示。
DBSCAN算法步驟為:①首先在樣本集D={x1,x2,...,x■■}中任意選取一點xi,判斷xi是否可以作為核心點,如果xi不能滿足核心點的定義,那么從D中繼續(xù)取點。如果xi滿足核心點定義,那么能夠以xi為核心點形成新的簇Cm。②從xi的半徑eps鄰域內(nèi)選取其他點xj,判斷xj是否可以作為該簇新的核心點繼續(xù)擴張該簇。如果xj不滿足核心點定義,那么xj為邊界點,不再進一步處理。如果xj滿足核心點定義,那么將xj的半徑eps鄰域內(nèi)的點加入xi所形成的簇Cm,同時再從Cm繼續(xù)選點進行核心點的判斷和簇的擴張,直至簇Cm中的核心點已經(jīng)全部遍歷完成,無法繼續(xù)擴張為止。③將簇Cm中的所有點從樣本集D去除,此時完成簇Cm的聚類。接著繼續(xù)從樣本集D中取出新的點進行新簇的聚類,直至樣本集D中所有點全部經(jīng)過判斷與聚類,剩下的點既不滿足核心點條件,也未被某一簇包含,定義其為噪聲點,也就是異常值。
圖2? DBSCAN算法流程圖
簡單來說,根據(jù)給定的鄰域參數(shù)半徑eps和最小樣品點數(shù)min_samples確定所有的核心點,對每一個核心點,選擇一個未處理過的核心點,找到滿足鄰域參數(shù)eps和min_samples的樣本生成聚類“簇”,重復以上過程。當完成這些所有步驟時,會得到一個關(guān)于簇劃分的集C={C1,C2,...,Cm},凡是在聚類周圍但又不是核心點的觀察值將被認為屬于這個聚類,而那些離聚類很遠的觀察值將被標記為異常值。
ZH-1衛(wèi)星探測區(qū)域緯度覆蓋了從赤道到中高緯度區(qū),由于電離層電子密度隨緯度變化較大,為了盡可能減少指標之間的量級和取值范圍差異的影響,避免太大的數(shù)引發(fā)數(shù)值問題,采用分區(qū)的DBSCAN算法更為合適。同時考慮到在數(shù)據(jù)赤道附近的變化幅度劇烈,為方便計算將軌道數(shù)據(jù)劃分為3個區(qū)域,分別是南緯50°到南緯20°,南緯20°到北緯20°,北緯20°到北緯50°。通過按地理緯度劃分區(qū)域的方式,使異常檢測結(jié)果更加可靠準確,不會受到整個軌道數(shù)據(jù)背景的影響。為了消除趨勢性影響,首先對數(shù)據(jù)進行一階差分計算,為了更直觀展示本文檢測方法,這里以具體軌道(6886號降軌軌道)觀測數(shù)據(jù)為例,如圖3(a)表示軌道號6886原始數(shù)據(jù)隨地理緯度的變化曲線,圖3(b)表示進行差分計算后的數(shù)據(jù)隨地理緯度的變化曲線。差分計算后的數(shù)據(jù)可以消除趨勢變化,原始電子密度數(shù)據(jù)中變化劇烈的地方,差分計算后的數(shù)據(jù)同樣變化劇烈。
這里對檢測過程中某些參數(shù)的設(shè)置稍加說明,半徑eps、最小樣品數(shù)目min_samples可以根據(jù)研究目的設(shè)定,半徑eps越小可以檢測更大空間尺度的異常數(shù)據(jù),min_samples越小代表對異常區(qū)域的判斷更細致。使用Python語言編寫DBSCAN算法,對算法進行初步調(diào)試后,經(jīng)過進一步分析后發(fā)現(xiàn),在處理LAP電子密度數(shù)據(jù)時,半徑eps=0.01,最小樣品點數(shù)min_samples=5時,異常提取結(jié)果較為理想,與人工篩選結(jié)果吻合度更高。選用6886號軌道采用緯度分區(qū)的DBSCAN聚類密度算法對LAP電子密度處理后的數(shù)據(jù)進行異常檢測,再將檢測結(jié)果隨地理緯度展開,異常檢測結(jié)果如圖4所示,其中圖例標注為異常值,不同顏色的數(shù)據(jù)點代表屬于不同的簇,顏色越深的數(shù)據(jù)點說明聚類更集中。圖4中從左至右依次檢測得到的噪聲比和分簇數(shù)目為:圖4(a)的噪聲比為3.12%,分簇的數(shù)目為1;圖4(b)的噪聲比為24.23%,分簇的數(shù)目為7;圖4(c)的噪聲比為7.23%,分簇的數(shù)目為5,整個軌道數(shù)據(jù)的加權(quán)平均噪聲比為12.79%(保留小數(shù)點后2位有效數(shù)字)。由異常檢測結(jié)果可知,異常數(shù)據(jù)出現(xiàn)在緯度-20°到緯度20°之間的概率更高,符合原始數(shù)據(jù)在赤道附近波動的情況,與人工對比結(jié)果相吻合。
為了與不分區(qū)域的DBSCAN密度聚類算法異常檢測結(jié)果作對比,同樣采用同一軌道降軌的電子密度數(shù)據(jù),使用整個軌道數(shù)據(jù)不進行緯度分區(qū),用同樣的鄰域參數(shù)進行異常檢測得到的檢測結(jié)果如圖5所示,整個軌道的噪聲比為7.52%,分簇的數(shù)目為8。圖4和圖5展示了DBSCAN密度聚類算法對異常數(shù)據(jù)的檢測結(jié)果,根據(jù)對差分計算數(shù)據(jù)進行聚類分析,算法可成功標記正常數(shù)據(jù)和異常數(shù)據(jù),但是對整個軌道數(shù)據(jù)采用DBSCAN算法會使部分數(shù)據(jù),如緯度-50°和緯度50°附近的數(shù)據(jù),埋沒在整個數(shù)據(jù)的背景場中,從而導致這些異常數(shù)據(jù)判斷為正常值,因此采用分區(qū)域劃分的DBSCAN密度聚類算法效果更佳。綜上,通過本文提出的基于DBSCAN密度聚類算法的衛(wèi)星軌道數(shù)據(jù)分區(qū)異常檢測方法,可以對數(shù)據(jù)進行判斷分析,標記正常數(shù)據(jù)和異常數(shù)據(jù),且按地理緯度劃分區(qū)域的DBSCAN密度聚類算法檢測效果更好。
3? 結(jié)束語
本文基于張衡一號衛(wèi)星朗繆爾探針載荷探測原位電子密度觀測數(shù)據(jù),對衛(wèi)星軌道地理緯度南北50°之間觀測數(shù)據(jù)按緯度劃分3個區(qū)域,分別是南緯50°到南緯20°、南緯20°到北緯20°、北緯20°到北緯50°,利用DBSCAN密度聚類算法對電離層電子密度數(shù)據(jù)進行異常結(jié)構(gòu)檢測和分析,結(jié)果表明本文提出的異常數(shù)據(jù)檢測方法可行有效,能夠?qū)H-1衛(wèi)星LAP探測數(shù)據(jù)進行異常檢測,可以作為衛(wèi)星數(shù)據(jù)處理的方案之一,且按緯度分區(qū)域劃分得到的異常結(jié)果效果更好。
但是空間電離層變化是復雜多變的,且異常的判定也是人為標注的,參數(shù)閾值的設(shè)定仍需具體估計,不同閾值下的異常提取結(jié)果沒有進行對比,所以有關(guān)異常的判定和DBSCAN密度聚類算法的異常檢測方法的優(yōu)異仍需進一步討論與研究。
參考文獻:
[1] 袁仕耿,朱興鴻,黃建平.電磁監(jiān)測試驗衛(wèi)星(張衡一號)系統(tǒng)設(shè)計與關(guān)鍵技術(shù)[J].遙感學報,2018,22(S1):32-38.
[2] 澤仁志瑪,劉大鵬,孫曉英,等.張衡一號電磁衛(wèi)星在軌情況及主要的科學成果[J].地球與行星物理論評(中英文),2023,54(4):455-465.
[3] 申旭輝,張學民,崔靜,等.中國地震遙感應用研究與地球物理場探測衛(wèi)星計劃[J].遙感學報,2018,22(S1):1-16.
[4] 申旭輝.發(fā)展電磁監(jiān)測衛(wèi)星 推進天基地震觀測系統(tǒng)建設(shè)[J].防災博覽,2017(2):62-65.
[5] 王秀英,楊德賀,張學慶,等.基于ZH-1衛(wèi)星探測的太陽活動低年頂部電離層不規(guī)則結(jié)構(gòu)的時空特征[J].地球物理學報,
2022,65(3):862-881.
[6] 張學民,劉靜,熊攀,等.2020年新疆于田6.4級地震前電離層擾動現(xiàn)象分析[J].地震,2021,41(2):145-157.
[7] 黃靜,官易楠.基于改進DBSCAN算法的異常數(shù)據(jù)處理[J].軟件導刊,2020,19(4):219-223.
[8] 阮嘉琨,蔡延光,樂冰.基于DBSCAN密度聚類算法的高速公路交通流異常數(shù)據(jù)檢測[J].工業(yè)控制計算機,2019,32(7):92-94.
[9] 潘淵洋,李光輝,徐勇軍.基于DBSCAN的環(huán)境傳感器網(wǎng)絡(luò)異常數(shù)據(jù)檢測方法[J].計算機應用與軟件,2012,29(11):69-
72,111.
[10] 徐書揚,俞鴻烽,潘華錚,等.DBSCAN聚類處理的改進蟻群算法在車輛路徑問題中的應用[J].電腦知識與技術(shù),2020,16(19):182-186.