許宏才,張 超,鮑軍鵬*,翟 磊,胡 炎,吳健鑫,宋世杰
(1.西安交通大學 計算機科學與技術學院,陜西 西安 710049;2.中國電子科技集團公司第五十四研究所,河北 石家莊 050081;3.北京跟蹤與通信技術研究所,北京 100094)
預測與健康管理(Prognostics and Health Management,PHM)是指利用傳感技術獲取被管理系統(tǒng)的運行狀態(tài)信息和故障信息,借助于推理或機器學習等人工智能方法,根據(jù)歷史數(shù)據(jù)和環(huán)境因素,對被管理系統(tǒng)進行狀態(tài)監(jiān)測和故障預測;并且,對被管理系統(tǒng)的健康狀態(tài)進行評估,結合維修資源情況,給出維修決策,以實現(xiàn)關鍵部件的狀態(tài)修復。狀態(tài)監(jiān)測指全面獲取系統(tǒng)信息,實時、快速、準確判定系統(tǒng)當前運行狀態(tài)。故障預測為決策者提供了系統(tǒng)/子系統(tǒng)/組件故障的預期時間預警。故障診斷模塊實時獲取通過監(jiān)控系統(tǒng)采集的故障監(jiān)測信息,對其進行統(tǒng)一控制和綜合分析,分析故障監(jiān)測點和各檢測點信號,定位出真實的故障設備。
PHM技術是一項新的維修保障技術[1-3],代表了維修理念的轉(zhuǎn)變,實現(xiàn)了從傳統(tǒng)基于傳感器的診斷轉(zhuǎn)向智能系統(tǒng)的預測,極大地促進了“狀態(tài)維修”取代“事后維修”和“定期維修”的過程[4-5]。在軌衛(wèi)星的健康管理系統(tǒng)可以感知和理解整個航天器及其部件狀態(tài),為星上任務管理系統(tǒng)、航天員系統(tǒng)和地面站系統(tǒng)提供航天器狀態(tài)和其他決策信息[6-7]。當在軌衛(wèi)星出現(xiàn)異?;蚬收蠒r,該系統(tǒng)可以使衛(wèi)星系統(tǒng)恢復到正常狀態(tài),降低安全風險和故障影響,提高自主性。
人工進行衛(wèi)星健康管理,具有工作量大、效率低以及易發(fā)生人為錯誤等特點,所以有必要研制高性能衛(wèi)星健康管理系統(tǒng)進行大規(guī)模自動化、智能化管理維護,提供健康評估、故障診斷與智能決策等服務供人類專家進行最后決斷。航天數(shù)據(jù)是一種典型大數(shù)據(jù),不能依賴人工和一般小型系統(tǒng)來處理。因此要根據(jù)大數(shù)據(jù)云計算思想,設計更多更有效的航天數(shù)據(jù)挖掘算法來發(fā)現(xiàn)航天數(shù)據(jù)價值,開發(fā)新的高性能計算機體系結構來有效處理復雜數(shù)據(jù),融合多種多樣的應用組件?,F(xiàn)有系統(tǒng)逐步接近性能瓶頸,難以完全適應我國航天器數(shù)量飛速增長的需求,主要受到原有體系結構局限,系統(tǒng)性能提升空間有限,不利于充分發(fā)揮設備效能,使得一些近年來出現(xiàn)的優(yōu)秀深度學習算法不能充分發(fā)揮作用。
根據(jù)我國在軌衛(wèi)星數(shù)量急劇增長的形勢,為了滿足未來發(fā)展需求,完全有必要研發(fā)下一代新型大規(guī)模在軌衛(wèi)星健康管理系統(tǒng)。目前對衛(wèi)星PHM系統(tǒng)研究主要集中在PHM系統(tǒng)框架設計、PHM系統(tǒng)關鍵部件的構建、關鍵部件的失效機理分析以及PHM預防性維護等方面[8-10]。為了對衛(wèi)星PHM系統(tǒng)進一步研究,本文對衛(wèi)星健康管理的現(xiàn)有技術進行匯總,挖掘現(xiàn)有技術方法中的問題與缺陷,從而構建下一代新型在軌衛(wèi)星健康管理系統(tǒng),對我國可控的所有衛(wèi)星提供在軌健康管理服務,有效利用大數(shù)據(jù)挖掘和推理診斷盡早發(fā)現(xiàn)故障征兆,減少故障發(fā)生幾率,延緩衛(wèi)星功能性能衰退或失效過程,達到合理延長衛(wèi)星在軌使用壽命,提高衛(wèi)星在軌使用效能。
衛(wèi)星健康管理的基本需求是監(jiān)測、預測和評估診斷。衛(wèi)星健康管理系統(tǒng)的一種設計思想是在原有故障診斷系統(tǒng)基礎之上由故障發(fā)生之后的信息處理向故障發(fā)生之前的信息處理擴展,從而進行PHM的各種方法技術研究。另一種PHM系統(tǒng)設計思想是在衛(wèi)星未出現(xiàn)故障前,對健康的在軌衛(wèi)星進行學習和挖掘,研究機器學習和人工智能方法盡量避免故障發(fā)生,而一旦發(fā)生了故障,則融合傳統(tǒng)的故障診斷技術進行快速診斷和處置。
美國、俄羅斯和歐洲等航天大國為保障航天器安全和滿足在軌衛(wèi)星運行管理需要,提出了趨勢分析、過程監(jiān)控、壽命預測、狀態(tài)預診和健康管理等一系列新方法與技術[7]。NASA通過在軌衛(wèi)星運行管理系統(tǒng)實時對在軌航天器健康狀態(tài)進行綜合分析、評估、壽命預測和故障預防預警,研制出第二代可重復使用運載器的飛行器綜合健康管理系統(tǒng)。美國研制集成健康管理系統(tǒng)(Integrated Vehicle Health Management,IVHM)[11],依據(jù)航天器下行健康信息,進行遠程專家會診。整個IVHM系統(tǒng)集合了一系列使航天器健康管理行為自動化的工具和過程。NASA等機構還進行了一些健康管理預警平臺的搭載試驗,并在“國際空間站”等航天器上得到了初步應用。與美國相比,歐洲也對航天器故障診斷技術進行了深入研究,并開發(fā)了實用的故障診斷系統(tǒng)。許多科學家研究和開發(fā)了多種基于知識的用于不同任務(例如環(huán)境控制)的老化和故障診斷系統(tǒng)和哥倫布模塊的生命支持系統(tǒng)(ECLSSD)。俄羅斯在故障診斷技術方面也擁有先進的技術,并開發(fā)一款跟蹤實時監(jiān)控系統(tǒng)[12]為宇航員提供可視化信息。
目前,PHM技術沒有標準的維護策略,最佳維護策略分別由各機構掌握[13]。Farhat和Guyeux等人[1]使用了分布式拓撲、分層拓撲、集中式拓撲和分散拓撲4種不同類型的拓撲,顯示和研究每種拓撲的幾個參數(shù)和問題(如密度、安全性、數(shù)據(jù)聚合、頻率、數(shù)據(jù)包傳輸距離和能量消耗),分析這些參數(shù)對PHM診斷的影響。一般PHM的研究工作是從概念上制定設計方法,以提出一套基于不同框架的PHM系統(tǒng)架構,并從系統(tǒng)需求中派生出體系結構。然而,對于從功能視圖中的需求派生出來的PHM系統(tǒng)架構,缺乏進一步的解釋。Li和Verhagen等人[14]概述了一種從系統(tǒng)工程角度結合功能視圖的體系結構設計方法。
國內(nèi)航天器健康管理技術在理論研究和工程應用方面也取得了一些進展。雖然已初步應用于一些航天系統(tǒng)的子系統(tǒng)級或部件級,但離完全實現(xiàn)工程化還有較大差距[15]。龍兵等人[16]詳細闡述了我國新型航天器健康管理系統(tǒng)主要采用的技術,指出應采用從上至下的方案開發(fā)集成健康管理系統(tǒng)。代京等人[17]提出從系統(tǒng)結構、功能、行為、故障和運作五方面要素來建立綜合運載器系統(tǒng)健康評估推理模型。年夫順[18]分析了我國PHM技術的發(fā)展現(xiàn)狀及存在的問題,預測了未來發(fā)展方向和應用領域,梳理了PHM技術體系架構,介紹了故障模型、狀態(tài)監(jiān)測、數(shù)據(jù)處理、綜合診斷、健康管理、維修決策和后勤支援信息系統(tǒng)等關鍵技術,最后給出了我國發(fā)展PHM技術的意見和建議。潘宇倩等人[19]指出故障診斷算法是自主健康管理的核心技術之一,介紹了基于信號處理、基于解析模型和基于定性模型的多種故障診斷算法。趙娜等人[20]提出了一種衛(wèi)星導航定位系統(tǒng)的健康管理框架,為實現(xiàn)智能化系統(tǒng)健康評估和管理維護奠定了基礎。Yang等人[21]提出了設計自主健康管理原則,分析了自主健康管理發(fā)展的不足及其影響,提出了一種新的自主健康管理設計原則的研究基礎。王冬霞等人[22]針對衛(wèi)星導航系統(tǒng)中結構龐大、運行環(huán)境復雜,長期在軌運行難免發(fā)生元器件故障的問題,研究了衛(wèi)星導航系統(tǒng)故障診斷及容錯技術,分別分析了基于解析模型、信號處理以及人工智能的故障診斷方法的研究現(xiàn)狀及關鍵性問題,總結了主動容錯方法和被動容錯方法的研究重點和發(fā)展趨勢。
在軌衛(wèi)星健康管理系統(tǒng)中的一項重要技術是對航天數(shù)據(jù)進行數(shù)據(jù)挖掘以檢測航天器異常、發(fā)現(xiàn)趨勢規(guī)律和提取有用模式等。航天數(shù)據(jù)都帶有時間標簽,是一種典型的時序數(shù)據(jù)。關于時序數(shù)據(jù)中的異常檢測和挖掘也是國內(nèi)外研究的一個熱點。Esling和Agon[23]對時序數(shù)據(jù)挖掘技術和健壯性評價方法進行了很好的綜述。Jing等人[24]提出了一種基于復雜網(wǎng)絡算法的衛(wèi)星星座網(wǎng)絡健康狀況認知與決策方法。該方法首先將衛(wèi)星網(wǎng)絡描述為一個由衛(wèi)星、地面站和鏈路組成的復雜網(wǎng)絡,證明了衛(wèi)星星座網(wǎng)絡具有小世界的特點。
PHM技術不僅在航天領域大有作為,而且在很多工業(yè)領域也獲得了成功應用[25]。例如汽輪機轉(zhuǎn)子、風力機變速箱、電力變壓器的核心和繞組、發(fā)電機定子繞組、鋰離子電池、燃料電池和輸水管等。Kim等人[26]介紹了預測系統(tǒng)健康的未來行為和剩余使用壽命的方法,以確定適當?shù)木S護計劃。詳述了PHM的歷史、工業(yè)應用、算法、益處和挑戰(zhàn)及工程方法,其中包括傳感技術、故障物理學、機器學習、現(xiàn)代統(tǒng)計和可靠性工程。Fong等人[27]介紹了一種結合了神經(jīng)網(wǎng)絡的智能數(shù)據(jù)挖掘技術網(wǎng)絡和基于規(guī)則的推理以及基于案例的推理客戶服務數(shù)據(jù)庫中有關在線機器故障的信息診斷。李小龍[28]介紹了PHM理論及其故障預測技術、預防性維修策略等技術,目標是對煙草設備的故障構建和分析奠定理論基礎。這些實例體現(xiàn)了PHM技術的巨大工業(yè)價值。
總體而言,航天器健康管理是一項復雜系統(tǒng)工程,涉及多學科知識融合,應用基礎研究必須與工程實際緊密結合。目前國外航天器健康管理技術已經(jīng)形成了基本完善的理論方法體系,并實現(xiàn)了部分工程應用。國內(nèi)在理論方法和工程應用方面也進行了理論探索,但工程應用較少,并且多局限在比較單一的方向,與國外相比仍有較大差距。
因此,應當把方法創(chuàng)新與集成創(chuàng)新相結合,集智攻關,盡快開展下一代大規(guī)模在軌衛(wèi)星健康管理系統(tǒng)研發(fā)工作。
本文面向在軌衛(wèi)星運行維護和智能健康管理需求及應用,探討智能化在軌衛(wèi)星系統(tǒng)全生命期健康管理體系,為實現(xiàn)衛(wèi)星群體管理能力,保障在軌星座和在軌智能衛(wèi)星個體全壽命在線健康管理服務水平做好技術儲備。健康管理系統(tǒng)的基礎架構按層級可分為傳感器層、數(shù)據(jù)收集層、業(yè)務層和表示層4個層次[29]。衛(wèi)星PHM系統(tǒng)的一般框架結構如圖1所示。
圖1 衛(wèi)星PHM系統(tǒng)一般框架Fig.1 A general framework of satellite PHM system
為了既能保證健康管理系統(tǒng)處理大規(guī)模在軌衛(wèi)星數(shù)據(jù)的實時性,又能保證系統(tǒng)可以不斷增添擴容新衛(wèi)星的擴展性,提出采用基于事件的分布式結構來設計新型大規(guī)模在軌衛(wèi)星健康管理系統(tǒng)體系結構。
系統(tǒng)由數(shù)據(jù)接收分發(fā)節(jié)點、計算節(jié)點、存儲節(jié)點、管理節(jié)點、應用終端節(jié)點、對外接口節(jié)點和網(wǎng)絡交換機等部分構成,如圖2所示。
圖2 新型大規(guī)模在軌衛(wèi)星健康管理系統(tǒng)體系結構框架圖Fig.2 A new architecture of large-scale on-orbit satellite health management system
數(shù)據(jù)分發(fā)節(jié)點接收實時衛(wèi)星數(shù)據(jù),并轉(zhuǎn)發(fā)給存儲節(jié)點和計算節(jié)點。計算節(jié)點處理實時數(shù)據(jù),完成數(shù)據(jù)挖掘、機器學習和推理診斷等所有在線和離線的計算任務。存儲節(jié)點存儲接收到的實時衛(wèi)星數(shù)據(jù),以及系統(tǒng)的運行數(shù)據(jù),包括學習、挖掘、診斷和決策等結果數(shù)據(jù)。管理節(jié)點對所有的軟硬件配置、網(wǎng)絡、用戶和數(shù)據(jù)等相關的系統(tǒng)任務進行管理。應用終端節(jié)點向用戶提供最終應用界面,接受人機交互。對外接口節(jié)點對外部系統(tǒng)提供服務。
為了保證系統(tǒng)可靠性和實時性能,各節(jié)點之間通過光纖網(wǎng)絡聯(lián)通在一起。將研究開發(fā)事件總線協(xié)議,各個節(jié)點之間通過事件觸發(fā)相應處理功能。為了保障足夠的運算性能,計算節(jié)點采用多核CPU+GPU結構的先進高性能計算服務器。
上述體系結構通過事件總線將任務分布到云端大量的高性能計算節(jié)點上以解決大任務量問題。當被管理衛(wèi)星增加時,可以通過增加云端計算節(jié)點來解決大規(guī)模問題。在硬件設施上,采用最先進的多核CPU+GPU模式搭建高性能計算節(jié)點服務器,保障運算性能,解決運算量大的問題。目前很多數(shù)據(jù)分析和數(shù)據(jù)挖掘算法都能夠通過GPU計算實現(xiàn)較大加速比,例如深度學習算法就充分利用GPU獲得優(yōu)異學習結果。在軟件算法上,針對性地更多設計分布式并行算法,從線程級并行優(yōu)化到系統(tǒng)級分布并行優(yōu)化,充分發(fā)揮多核CPU,GPU計算、云計算平臺等硬件設施性能,從而保障系統(tǒng)整體實時性能。
PHM技術涉及材料失效機理、故障模型構建等基礎理論,高性能傳感器、狀態(tài)監(jiān)測和數(shù)據(jù)庫與信息系統(tǒng)集成等關鍵技術,數(shù)據(jù)預處理、機器學習、深度學習和故障診斷與故障預測等人工智能算法,以及與應用背景關聯(lián)性極強的健康狀態(tài)評估、風險分析與防范措施等方法研究。衛(wèi)星PHM關鍵技術研究體系如圖3所示。
圖3 衛(wèi)星PHM關鍵技術研究體系Fig.3 Key technology system of satellite PHM
設計功能性能優(yōu)異的衛(wèi)星PHM系統(tǒng),必須要考慮建立在軌衛(wèi)星相關的故障樹結構,對在軌衛(wèi)星能夠進行有效地故障狀態(tài)回溯研究,通過故障樹結構的建立,可以對在軌衛(wèi)星的實時故障狀態(tài)、模式機理進行推理分析,并開展初步的測試方法分析研究,獲得在軌衛(wèi)星狀態(tài)分析的研究報告。為滿足衛(wèi)星狀態(tài)綜合分析、健康預測和健康狀態(tài)管理的要求,建立分析數(shù)據(jù)來源,設定接口,主要包括在軌衛(wèi)星的實時狀態(tài)傳感數(shù)據(jù),特別要分析挖掘故障數(shù)據(jù);地面接收的和分析學習的實時運行數(shù)據(jù)、環(huán)境實驗數(shù)據(jù)、極限能力實驗數(shù)據(jù)等,為健康管理方法研究、PHM系統(tǒng)研制和實驗驗證分析提供方法設計和驗證數(shù)據(jù)、系統(tǒng)接口設計要求和驗證數(shù)據(jù)。
在軌衛(wèi)星遙測數(shù)據(jù)與其健康狀態(tài)之間的映射技術(故障建模技術)、數(shù)據(jù)融合和信息綜合保障系統(tǒng)技術,主要解決數(shù)據(jù)預處理、交換、融合和信息流動等問題,為PHM提供信息支撐。在具體實現(xiàn)中要挖掘?qū)W習演化規(guī)律,從在軌衛(wèi)星系統(tǒng)中包含的遙測參數(shù)和屬性數(shù)值到衛(wèi)星健康狀態(tài)指標數(shù)值是一個復雜的非線性映射,準確地學習出這種非線性模型是在軌衛(wèi)星健康管理的關鍵技術之一。
在軌衛(wèi)星系統(tǒng)產(chǎn)生的大數(shù)據(jù)不斷增大的規(guī)模和相關組件的復雜性,造成設計工程師在系統(tǒng)生命周期設計階段忽略一定數(shù)量的障礙類型,最終導致在診斷過程中出現(xiàn)更高程度的不確定性。在這種情況下,需要新的方法來實現(xiàn)在軌衛(wèi)星系統(tǒng)的健康管理,以及用于在系統(tǒng)級別上做出更好決策的機制。如圖4所示,系統(tǒng)健康管理中常見的人工智能方法可以分為:① 知識驅(qū)動的方法,包括專家系統(tǒng)和定性推理;② 統(tǒng)計推理方法,包括貝葉斯網(wǎng)絡以及各種基于概率統(tǒng)計進行推斷的模型;③ 數(shù)據(jù)驅(qū)動的方法[30],包括有監(jiān)督和無監(jiān)督的機器學習模型以及深度學習方法[31]。
圖4 系統(tǒng)健康監(jiān)測應用中人工智能方法Fig.4 AI methods used in system health monitoring applications
PHM的預測精度、預測效率和預測時效性直接關系到系統(tǒng)監(jiān)控和維護的有效性。若PHM系統(tǒng)不可靠,會對健康管理系統(tǒng)中設備的安全性造成極大傷害。研究科學的PHM評估標準,建立PHM的性能評價指標體系是一項非常重要的任務。一般評估體系包括:評估的指標體系、評估流程、評估模型和評估方法。健康評估是按照設備功能、性能和狀態(tài)等因素,綜合考慮系統(tǒng)設備的質(zhì)量、歷史狀況,按照層次分析法建立評價指標體系,給出各指標的權重比例,采用模糊集理論計算出評價結果,并給出設備健康狀態(tài)的綜合評價,最終輸出設備健康報表和設備維護建議。健康評估與維護決策子系統(tǒng)依據(jù)設定的指標體系、評價算法以及處置建議進行分析和評估,并給出合理建議。
剩余使用壽命(Remaining Useful Life,RUL)是指系統(tǒng)設備在某一特定時間內(nèi)的使用壽命。它的評估對于系統(tǒng)狀態(tài)的維護、預測和健康管理至關重要。RUL通常是隨機和未知的,因此必須從現(xiàn)有的信息來源(如在狀態(tài)和健康監(jiān)測中獲得的信息)來估計它。最近,由于健康監(jiān)測技術的迅速發(fā)展,如何對RUL進行最佳估計的研究備受關注。然而,由于它與可觀測的健康信息之間的復雜關系,沒有這樣的最佳方法可以普遍用于獲得最佳估計值。Ahmadzadeh和Lundberg[32]回顧了用于估計RUL的建模發(fā)展過程,重點分析了數(shù)據(jù)驅(qū)動的方法。
衛(wèi)星健康管理系統(tǒng)的研究主要集中在功能性、技術性方面進行探索和改進,利用仿真實驗對衛(wèi)星健康狀態(tài)指標評估。近年,在軌衛(wèi)星環(huán)境中的風險和防范措施獲得廣泛關注。地球軌道上不斷增加和堆積的碎片物體給在軌飛行衛(wèi)星帶來巨大風險。張海濤等人[33]提出了地球靜止軌道衛(wèi)星碰撞碎片短期風險分析方法,解決了地球靜止軌道區(qū)域空間目標碰撞短期無地面觀測數(shù)據(jù)的問題。Flegel等人[34]將風險分析與成本估算結合在一起,估計了2005—2055年由于空間碎片和超高速飛行導致碰撞的概率。當相交物體的軌道位置不確定性很高時,評估碰風險的概率會被降低,為了確定是否應采取聯(lián)合補救行動,應將沖撞區(qū)域的沖撞概率與在其他情況下產(chǎn)生的沖撞概率區(qū)別對待[35]。為了確定風險補救參數(shù),以確保衛(wèi)星在指定的置信度(例如99.9%)下不會與其他物體發(fā)生碰撞,Hall[36]提出了一種半經(jīng)驗方法來估計滿足生命周期風險要求的碰撞概率閾值。
PHM技術已經(jīng)成為復雜航空航天裝備中的關鍵技術之一。在信息化背景下,PHM技術與航空航天裝備開發(fā)同步進行,并不斷向智能化方向推進。PHM是一個多學科交叉的復雜系統(tǒng)工程,應該加速整合各方PHM技術研究資源,多學科協(xié)同努力,共同提高PHM技術研發(fā)效率。
從功能指標角度來看,衛(wèi)星健康管理系統(tǒng)發(fā)展的主要趨勢是:
① 智能化:PHM從簡單檢查/監(jiān)視功能向智能檢測、診斷、預警功能發(fā)展。
② 綜合化:PHM從單純監(jiān)視/檢測功能向全方位網(wǎng)絡綜合監(jiān)測、管理和全壽命保障方向發(fā)展。
③ 實時化:PHM從事后檢查向在線實時監(jiān)測、診斷、預警、預測、視情維修和預測維修方向發(fā)展。
④ 通用化:PHM從針對單一型號的系統(tǒng)架構到開放系統(tǒng)構架、通用軟硬件模塊方向發(fā)展。
從技術內(nèi)容角度來看,年夫順[19]依據(jù)PHM技術的任務與使命,從狀態(tài)監(jiān)測、故障診斷、故障預測與健康管理等4個方面預測了未來PHM技術的發(fā)展趨勢??傮w來講,衛(wèi)星PHM系統(tǒng)將朝向更加智能自主、更加綜合復雜的方向不斷發(fā)展,如圖5所示。
圖5 未來PHM技術發(fā)展趨勢Fig.5 Future development of PHM technology
本文介紹了PHM的總體概況和國內(nèi)外在衛(wèi)星健康管理系統(tǒng)方面的研究進展,重點論述了衛(wèi)星PHM的關鍵技術,并概括總結了衛(wèi)星PHM的發(fā)展趨勢??傮w而言,智能化、自主化、綜合化是未來衛(wèi)星PHM系統(tǒng)發(fā)展的主要趨勢。此外,還介紹了衛(wèi)星PHM系統(tǒng)的一般框架和一個基于大數(shù)據(jù)云計算體系構建面向未來大規(guī)模在軌衛(wèi)星群的衛(wèi)星健康管理系統(tǒng)的設計框架。