馬東鋒
(1 南京理工大學(xué) 計算機科學(xué)與工程學(xué)院,南京 210094)(2 錢學(xué)森空間技術(shù)實驗室,北京 100094)
隨著我國航天事業(yè)的發(fā)展,對地觀測衛(wèi)星種類和數(shù)量日趨增多,形成了陸地觀測、海洋觀測、環(huán)境監(jiān)測、大氣和氣象探測等不同遙感應(yīng)用衛(wèi)星領(lǐng)域。依據(jù)不同時期的衛(wèi)星技術(shù)發(fā)展水平,準確把握衛(wèi)星觀測用戶需求,合理統(tǒng)籌共性需求和專用需求,是航天器體系設(shè)計,如高分專項和空間基礎(chǔ)設(shè)施體系等頂層規(guī)劃設(shè)計的關(guān)鍵環(huán)節(jié),也是規(guī)劃的依據(jù)和輸入。衛(wèi)星對地觀測的需求來自不同行業(yè)應(yīng)用,對觀測要素和能力指標要求復(fù)雜多樣,包含多維異構(gòu)信息,空域時域頻域覆蓋寬廣,存在冗余、重疊、交叉等現(xiàn)象。在實際工作中,需求統(tǒng)籌是一項艱難和復(fù)雜的工作,迫切需要建立和改進需求分析方法和流程,對需求進行分析和管理,找出需求之間、需求與觀測要素之間、要素與指標之間的關(guān)系,為衛(wèi)星體系方案設(shè)計的科學(xué)性與合理性提供定量化數(shù)據(jù)支持。文獻[1]通過最優(yōu)化理論給出約束滿足模型,并給出對應(yīng)的求解方法。文獻[2]基于圖論理論,把需求作為頂點,約束作為邊集建立圖模型,并利用圖論領(lǐng)域的算法求解。最近,文獻[3]創(chuàng)新地提出基于數(shù)據(jù)科學(xué)的需求分析模型,通過把原始的基于文本的需求轉(zhuǎn)化成數(shù)值模型,從而利用數(shù)據(jù)科學(xué)的相關(guān)算法完成對原始需求的分類分析和可視化等操作。借鑒這一思想,本文在以模板的形式結(jié)構(gòu)化描述的用戶需求之上,基于無監(jiān)督學(xué)習(xí)[4]框架,進一步建立需求分析模型,實現(xiàn)對需求的快速聚類,低維直觀顯示,為后續(xù)體系效能評估提供新的數(shù)據(jù)支撐。
對地觀測衛(wèi)星系統(tǒng)的需求分析活動過程如圖1所示。
圖1 “體系需求獲取與綜合”活動Fig.1 Acquisition and integration of system requirements
需求分析論證分為需求匯總、優(yōu)化統(tǒng)籌、綜合分析等3個階段10個步驟,如圖2所示。
圖2 衛(wèi)星遙感基礎(chǔ)設(shè)施需求分析方法Fig.2 Method of satellite observation requirements analysis
需求分析的難點在于需要考慮很多維度,針對所有遙感應(yīng)用部門的觀測任務(wù)需求,按照部門、業(yè)務(wù)方向、應(yīng)用模式、觀測要素、譜段特征、空間分辨率、時間分辨率、全球探測需求和全天時全天候探測等維度進行匯總。在多個業(yè)務(wù)部門的觀測要素中,存在著重疊現(xiàn)象,即多部門均需要某個觀測要素,這就需要在國家層面上整合對地觀測的需求。
需求匯總后,通過分析提煉,得到時間特性、空間特性、譜段特性、輻射特性和精度等要素。其中,譜段特性結(jié)合空間特性用于指導(dǎo)衛(wèi)星有效載荷的種類配置;空間特性可以指導(dǎo)有效載荷系統(tǒng)設(shè)計和衛(wèi)星的軌道設(shè)計;時間特性可以指導(dǎo)有效載荷的觀測幅寬設(shè)計和機動觀測能力,如果單臺載荷不能滿足時間特性,還需要多顆衛(wèi)星進行綜合設(shè)計,得到星座或者編隊飛行的設(shè)計;輻射特性可以進一步約束載荷的設(shè)計,使得載荷設(shè)計指標能夠滿足用于定量化應(yīng)用的需求。
實踐中,需求的要素更為復(fù)雜,僅觀測屬性就有多種類型,如:全色、紫外、可見近紅外、短波紅外多光譜、中、熱紅外、高光譜、超光譜;不同頻段合成孔徑雷達(SAR);微波輻射計;激光、微光、熒光;電磁、重力載荷數(shù)據(jù)等。
其中,需求不僅需要分類、還需要層次化建模,分類越清晰,對需求的描述越準確、越容易歸集和規(guī)范化。通過對不同種類,不同使命任務(wù)的衛(wèi)星系統(tǒng)進行需求分類、分層和歸集,有利于對同類系統(tǒng)進行需求的模型化和定量化表述,有利于合理布局陸地觀測系統(tǒng)、海洋觀測系統(tǒng)、大氣觀測系統(tǒng)、地球物理場探測系統(tǒng)。限于篇幅不再展開。
體系需求綜合中主要存在兩個困難:一是不同應(yīng)用需求屬性的綜合統(tǒng)籌;二是技術(shù)指標的多維度特征的綜合,如將空間分辨率、時間分辨率和光譜范圍3個指標一體化綜合難度較大,常采取的策略是分割成3個獨立的維度綜合,使綜合結(jié)果出現(xiàn)對原始需求的放大或縮小,但仍然沒達到統(tǒng)籌的要求。
觀測需求的維度,主要包含空間屬性和觀測屬性(觀測載荷、空間分辨率、光譜分辨率、時間分辨率、定位精度等),可以提煉和建立基本需求模型,如圖3所示。
圖3 需求編碼模型示例Fig.3 An example of requirement coding model
實際工作中,需求大部分是文本,隱含的數(shù)據(jù)相當復(fù)雜多樣,受專業(yè)人員的認識水平所限,依靠大量人工分析,將無法滿足統(tǒng)籌的科學(xué)性和合理性。本文研究提出,借鑒人工智能領(lǐng)域技術(shù),把文本描述的繁雜需求轉(zhuǎn)化成向量化表示的數(shù)值數(shù)據(jù),進行數(shù)值化需求分析,可以有效地解決需求的定量化建模和統(tǒng)籌。
觀測任務(wù)和需求要素十分復(fù)雜,為便于表達,抽象于具體的物理意義,本文給出一種通用的文本需求編碼方法。對衛(wèi)星觀測任務(wù)的需求,可以表示為表1的形式:其中,某一行表示某個具體的需求,可以來自于不同觀測任務(wù)、不同部門、不同行業(yè)等。某一列表示該行需求對具體指標的要求,例如對空間分辨率、時間分辨率、譜段特征等的具體要求。以空間分辨率指標為例,需求1對指標的要求為0.1 m,需求2為1 m,綜合需求的分布情形,可以把空間分辨率特征做如表2的劃分,其中[·,·)表示左閉右開區(qū)間。該劃分只是基于當前數(shù)據(jù)的剖分,目的是讓每個需求對該指標的要求只落在其中一個區(qū)間,不具有實質(zhì)的物理含義。比如表1中的需求1,對空間分辨率的要求只對應(yīng)第一個區(qū)間,也就是說該需求只對第一個區(qū)間有要求,對其他區(qū)間無要求。因此需求1對空間分辨率的要求可以向量化表示為{1,0,0,0,0,0,0,0},如表3所示。需要強調(diào)的是,如何劃分指標區(qū)間,對模型不產(chǎn)生本質(zhì)影響。
表1 需求集合Table 1 Set of requirements
表2 空間分辨率劃分Table 2 Division of spatial resolution
表3 需求1空間分辨率的向量化表示Table 3 Vectorized representation of spatial resolution for requirement 1
同樣地,可以對其他指標(時間分辨率,譜段特征等)進行同樣的劃分操作,從而把每一條需求轉(zhuǎn)化成一個只包含0,1的向量,0表示對該指標區(qū)間無要求,1反之。如此就可以把自然語言表示的文本需求進行向量化編碼。
對需求的分類常見的方式是按照需求提出的部門或者觀測任務(wù)類型歸類,例如海洋環(huán)境監(jiān)測領(lǐng)域的需求可以歸為一類。但是,這種分類方式是基于先驗知識,不能客觀反映數(shù)據(jù)間的內(nèi)在關(guān)聯(lián)性。在人工智能領(lǐng)域,無監(jiān)督學(xué)習(xí)能利用數(shù)據(jù)的隱含特征對數(shù)據(jù)進行分類,從而發(fā)掘數(shù)據(jù)中平常不容易獲取的信息,在高維數(shù)據(jù)中,這種現(xiàn)象更為明顯。為了能夠利用無監(jiān)督學(xué)習(xí)算法進行需求的聚類分析,首先要解決如何描述需求之間的相似性度量問題。兩個需求關(guān)聯(lián)程度越高,那么相似性度量結(jié)果越大,反之需求之間關(guān)聯(lián)程度小,那么相似性也越小。結(jié)合這一特性,可以采用杰卡德相似系數(shù)[5](Jaccard index)刻畫需求之間的相似程度。具體計算方法如下,記兩個編碼后的需求向量分別為a,b,相似性為s(a,b),則
(1)
式中:|a∩b|表示a,b向量對應(yīng)分量同時為1的分量個數(shù),|a∪b|表示a,b向量對應(yīng)分量至少有一個為1的分量個數(shù)。不難得出,s(a,b)∈[0,1],并且值越大,向量間相似性越高。
有了向量間的相似性度量之后,就可以通過需求間相似程度進行分類,使得同一類的需求相似程度高,不同類的需求相似程度低。相較于傳統(tǒng)的K-Means聚類算法[6],譜聚類[7]算法對數(shù)據(jù)分布的適應(yīng)性更強,不僅容易實現(xiàn)而且聚類效果也優(yōu)于K-Means算法。因此,本文采用譜聚類的算法對需求向量進行聚類分析,下面介紹詳細的算法步驟。
(2)算法輸出:聚類結(jié)果R1,R2,…,Rk;
即度矩陣是由相似矩陣的每一行元素之和構(gòu)成的n×n的對角矩陣;
步驟三:求出拉普拉斯矩陣L=D-W;
步驟四:計算標準化的拉普拉斯矩陣Lstd=D-1/2LD-1/2;
步驟五:求解標準化拉普拉斯矩陣Lstd的特征值,把特征值遞增排序,并且記前k個特征值對應(yīng)的特征向量分別為μ1,μ2,…,μk;
步驟六:通過前面得到的k個列向量構(gòu)造矩陣U∈Rn*k,也就是說該矩陣的列是由特征值遞增排序之后對應(yīng)的特征向量組成,即U={μ1,μ2,…,μk};
步驟七:取U的第i行的行向量,記為vi,并依次把vi單位化,使得‖vi‖=1,進而構(gòu)造新的向量集合V={v1,v2,…,vn};
步驟八:利用K-Means算法把V聚類分為k類,進而得到聚類結(jié)果R1,R2,…,Rk。
信息維度高是衛(wèi)星觀測需求的一個顯著特征,為了能夠直觀感受、分析需求數(shù)據(jù),需要把需求從高維空間降維到我們熟知的2維或3維空間。自然界中同一類別的高維數(shù)據(jù),往往集中在某個低維流形附近,這是數(shù)據(jù)科學(xué)中的基本假設(shè)[8]。在高維數(shù)據(jù)降維過程中,首先需要明確如何度量高維空間中需求向量之間的距離。前面介紹了需求向量相似性的計算方法,兩個向量相似程度越高,它們之間的距離越短,反之也成立。因此對向量化表示之后的兩個需求a,b,它們之間的距離可以定義如下
d(a,b)=1-s(a,b).
(2)
t分布隨機近鄰嵌入(t-distributed Stochastic Neighbor Embedding,t-SNE)[9]算法是目前非常流行的一種非線性的高維數(shù)據(jù)降維算法。本文基于t-SNE算法實現(xiàn)高維需求數(shù)據(jù)在二維平面的可視化,具體流程如下。
步驟四:初始化迭代次數(shù)y=1;
步驟八:y=y+1,如果y 根據(jù)文獻[3]中提到的需求分析數(shù)據(jù),經(jīng)過向量化編碼的數(shù)據(jù)見表4。 表4 測試數(shù)據(jù)Table 4 Test data 對該組需求數(shù)據(jù)基于本文給出的譜聚類和t-SNE算法進行聚類和降維分析,結(jié)果如圖4所示。 圖4 聚類和降維結(jié)果Fig.4 Result of clustering and dimensionality reduction 從圖4可以看出,高維的需求數(shù)據(jù)經(jīng)過t-SNE算法之后被成功繪制在二維平面。四邊形、五角星、圓形3種形狀代表不同的聚類結(jié)果。從圖4中觀察可知,同一類別的點距離較近,不同類別的點距離較遠,原始數(shù)據(jù)需求被分為3類。需要指出的是由于實際情況限制,該示例只是對算法的演示,雖不具備物理解釋含義,但是能夠檢驗上述模型和算法的可行性和有效性,可以在需求分析中實現(xiàn)具體的物理意義。本方法在國家民用空間基礎(chǔ)設(shè)施中長期發(fā)展規(guī)劃論證中得到了實際應(yīng)用,大大提高了需求分析的效率和合理性,適用于各類應(yīng)用衛(wèi)星特別是對地觀測衛(wèi)星體系規(guī)劃與頂層設(shè)計。 針對復(fù)雜的衛(wèi)星觀測需求,本文給出了一種把文本描述的需求進行向量化表示的編碼方式,同時定義了需求向量的相似度和距離計算方式。之后,在向量化表示的需求基礎(chǔ)之上建立聚類和降維模型,同時通過測試數(shù)據(jù)演示了聚類和降維分析的結(jié)果。通過可視化的結(jié)果,說明了在向量化編碼需求之后,可以在機器學(xué)習(xí)的框架之下對衛(wèi)星觀測需求進行各類分析,為后續(xù)基于數(shù)據(jù)科學(xué)的衛(wèi)星效能評估提供基礎(chǔ)。本文通過把繁雜的需求信息轉(zhuǎn)換成高維空間向量,能大大降低分析人員對領(lǐng)域?qū)I(yè)知識的過度依賴,提升需求分析的效率和科學(xué)性。4 衛(wèi)星觀測需求分析實例
5 結(jié)束語