唐荻音, 丁奕州, 王 軒, 劉文靜, 王淑一, 賴?yán)铈戮?/p>
1. 自動(dòng)化科學(xué)與電氣工程學(xué)院,北京航空航天大學(xué), 北京 100191
2. 北京控制工程研究所, 北京100094
隨著我國(guó)航天事業(yè)的蓬勃發(fā)展,在軌運(yùn)行航天器的數(shù)量不斷增多,為保障航天任務(wù)的正常執(zhí)行,對(duì)于航天器的性能維護(hù)與故障診斷也愈加重要.現(xiàn)如今,航空航天領(lǐng)域中的系統(tǒng)設(shè)備向著智能化、模塊化、復(fù)雜化和精密化方向發(fā)展.航天器裝備機(jī)電系統(tǒng)中傳統(tǒng)的模擬系統(tǒng)逐漸被數(shù)字系統(tǒng)所取代,信息化程度不斷提高,帶來(lái)了航天器故障定位、隔離、監(jiān)測(cè)以及維護(hù)困難等問(wèn)題.
航天器全生命周期的各個(gè)階段產(chǎn)生并積累了大量的數(shù)據(jù)和專家知識(shí),這些數(shù)據(jù)的來(lái)源以及存儲(chǔ)介質(zhì)各不相同,數(shù)據(jù)形式不一,結(jié)構(gòu)多樣.如何從這些多源異構(gòu)的海量知識(shí)和數(shù)據(jù)中過(guò)濾出有用的信息,將其處理形成結(jié)構(gòu)化的知識(shí)并在知識(shí)間形成有效融合,對(duì)航天器故障診斷以及性能維護(hù)有著非常重要的意義.
知識(shí)圖譜作為描述海量知識(shí)、知識(shí)屬性及知識(shí)間關(guān)系的有效工具,自2012年谷歌提出以來(lái),受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注.它可以通過(guò)機(jī)器學(xué)習(xí)、自然語(yǔ)言處理等相關(guān)算法,以資源描述框架和屬性圖的形式進(jìn)行自動(dòng)化圖譜構(gòu)建,并實(shí)現(xiàn)高效、快速的信息搜索.航天器故障類型多、故障原因復(fù)雜、影響因素廣泛和排查難度大,知識(shí)圖譜能夠借助其在構(gòu)建知識(shí)網(wǎng)絡(luò)與展現(xiàn)知識(shí)關(guān)聯(lián)方面的巨大優(yōu)勢(shì),為具有復(fù)雜關(guān)系的航天器故障知識(shí)信息提供一種新的獲取、存儲(chǔ)、組織、管理、更新和展示的手段,并提供更符合認(rèn)知習(xí)慣的故障知識(shí)應(yīng)用與故障推理方式,從而提高故障定位的效率和精準(zhǔn)程度.
目前,在多個(gè)領(lǐng)域,已有學(xué)者基于領(lǐng)域故障數(shù)據(jù)構(gòu)建了故障知識(shí)圖譜.文獻(xiàn)[1]采用文本挖掘的故障短語(yǔ)抽取方法,建立了高鐵列控車載設(shè)備故障知識(shí)圖譜,為高鐵的安全運(yùn)行和故障排查提供保障.文獻(xiàn)[2]提出了一種發(fā)動(dòng)機(jī)故障知識(shí)圖譜構(gòu)建方法,基于BERT和BiLSTM-CRF相結(jié)合的實(shí)體識(shí)別框架,提取故障資料中的專家知識(shí)生成數(shù)據(jù)層中的實(shí)體以構(gòu)建知識(shí)圖譜.文獻(xiàn)[3]提出了一種自頂向下和自底向上法相結(jié)合的航天軟件信息知識(shí)圖譜構(gòu)建方法,并采用改進(jìn)的骨架法構(gòu)建本體.文獻(xiàn)[4]設(shè)計(jì)了一種汽車故障知識(shí)圖譜構(gòu)建流程,在傳統(tǒng)構(gòu)建流程的基礎(chǔ)上加入文本預(yù)分類和實(shí)體重組流程.
然而,目前故障診斷領(lǐng)域關(guān)于知識(shí)圖譜構(gòu)建的方法往往聚焦于從文本和表格數(shù)據(jù)中提取知識(shí),而沒(méi)有考慮對(duì)象系統(tǒng)在測(cè)試、運(yùn)行期間產(chǎn)生的大量實(shí)測(cè)數(shù)據(jù)中所蘊(yùn)含的故障知識(shí).同時(shí),雖然航天器的故障知識(shí)來(lái)源廣泛,但描述形式差別大、數(shù)據(jù)量也十分有限,因而基于純故障數(shù)據(jù)挖掘?qū)嶓w和關(guān)系的工業(yè)界常用圖譜構(gòu)建方法也并不適用.因此,面對(duì)包含時(shí)序數(shù)據(jù)在內(nèi)的航天器多源異構(gòu)故障信息,本文提出一種本體-實(shí)體雙向約束的知識(shí)圖譜構(gòu)建方法.一方面自頂向下基于領(lǐng)域?qū)<抑R(shí)初步構(gòu)建本體,另一方面自底向上通過(guò)故障數(shù)據(jù)挖掘?qū)嶓w以優(yōu)化本體,通過(guò)本體與實(shí)體的雙向約束,實(shí)現(xiàn)多源異構(gòu)故障信息的知識(shí)融合.采用上述方法,本文以航天器控制力矩陀螺為例,構(gòu)建了故障知識(shí)圖譜,驗(yàn)證了方法的可行性和有效性.
當(dāng)前,實(shí)際應(yīng)用的航天器故障診斷技術(shù)主要依賴設(shè)計(jì)、制造和分系統(tǒng)地面測(cè)試期間積累的專家知識(shí).這些知識(shí)通過(guò)FMEA分析表、故障案例、排故經(jīng)驗(yàn)和航天器日志等方式積累,故障知識(shí)稀疏、分散、獨(dú)立且結(jié)構(gòu)形式多樣,難以覆蓋全部故障并實(shí)現(xiàn)知識(shí)間的共通互享.其次,歷史及在軌遙測(cè)數(shù)據(jù)中隱含的大量與故障相關(guān)的信息沒(méi)有被有效利用,故障模式之間、數(shù)據(jù)與故障之間的隱性關(guān)聯(lián)關(guān)系沒(méi)有得到充分挖掘.
本文首先依據(jù)數(shù)據(jù)結(jié)構(gòu)類型對(duì)航天器故障數(shù)據(jù)分類,將多源異構(gòu)故障數(shù)據(jù)劃分為有限數(shù)量的類別進(jìn)行后續(xù)處理.以航天器控制力矩陀螺為例,根據(jù)目前所掌握的資料,可分為文本非結(jié)構(gòu)化數(shù)據(jù)、表格半結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化規(guī)則知識(shí)以及航天器運(yùn)行遙測(cè)數(shù)據(jù).
結(jié)構(gòu)化的數(shù)據(jù)一般指可以使用關(guān)系型數(shù)據(jù)庫(kù)表示和存儲(chǔ)、可以用二維表來(lái)邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù).該類數(shù)據(jù)存儲(chǔ)和排列都符合一定規(guī)則.在航天器故障知識(shí)中,專家規(guī)則一般以結(jié)構(gòu)化數(shù)據(jù)的形式進(jìn)行存儲(chǔ).專家規(guī)則由領(lǐng)域?qū)<腋鶕?jù)設(shè)計(jì)指標(biāo)或經(jīng)驗(yàn)設(shè)定的相關(guān)規(guī)則組成.本文涉及到的航天器專家規(guī)則存儲(chǔ)在以規(guī)則代號(hào)、判別表達(dá)式、故障現(xiàn)象和故障等級(jí)等為列名的關(guān)系數(shù)據(jù)庫(kù)中,如表1所示.因?yàn)榻Y(jié)構(gòu)化的規(guī)則數(shù)據(jù)一行表示一個(gè)實(shí)體信息,每一列數(shù)據(jù)的屬性相同,因此無(wú)需過(guò)多對(duì)結(jié)構(gòu)化規(guī)則知識(shí)進(jìn)行預(yù)處理,可以直接根據(jù)構(gòu)建的本體模型映射生成知識(shí)圖譜.
表1 故障事件判別規(guī)則Tab.1 Fault event discriminatory rules
半結(jié)構(gòu)化數(shù)據(jù)是并不符合關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)模型結(jié)構(gòu).它的特點(diǎn)是,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混合,二者間沒(méi)有嚴(yán)格的區(qū)分,但包含相關(guān)標(biāo)記,可以用來(lái)分隔語(yǔ)義元素以及對(duì)記錄和字段進(jìn)行分層.航天器故障知識(shí)存在著許多以表格形式存在的半結(jié)構(gòu)化數(shù)據(jù),如FMEA分析等.該類數(shù)據(jù)的不能直接映射到知識(shí)圖譜中,但較之非結(jié)構(gòu)化的數(shù)據(jù)更加便于被提取為結(jié)構(gòu)化的知識(shí).針對(duì)此類資料,采用人工分析構(gòu)建包裝器來(lái)提取規(guī)則,從而將半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù).
非結(jié)構(gòu)化數(shù)據(jù)是沒(méi)有固定結(jié)構(gòu)的數(shù)據(jù).航天器上產(chǎn)生的以文本形式為載體的大量非結(jié)構(gòu)化數(shù)據(jù)主要源于設(shè)計(jì)資料、航天器日志、故障記錄以及異常報(bào)文等.來(lái)源于航天器的非結(jié)構(gòu)化數(shù)據(jù)屬于文本密集型,航天器的故障知識(shí)就暗含在這些文本數(shù)據(jù)中.通常,故障文本的形式如圖1所示.文檔中會(huì)包含航天器可能發(fā)生的故障現(xiàn)象、故障原因以及維修措施,故障文本按照一定的規(guī)范記錄,便于文本的預(yù)處理和知識(shí)的獲取.非結(jié)構(gòu)化數(shù)據(jù)將采用文本處理方法進(jìn)行實(shí)體、關(guān)系和屬性的挖掘.
圖1 文本數(shù)據(jù)示例Fig.1 Text data example
航天器中除了設(shè)計(jì)和可靠性專家本身所能提供的專家經(jīng)驗(yàn)外,其使用過(guò)程中的知識(shí)挖掘也是對(duì)診斷知識(shí)的重要補(bǔ)充.這部分?jǐn)?shù)據(jù)除了航天器日志、異常報(bào)文等文字材料,還包括大量運(yùn)行遙測(cè)數(shù)據(jù).通過(guò)遙測(cè)數(shù)據(jù)的異常表征可以獲得航天器的故障信息.圖2展示了本文案例中涉及的經(jīng)脫敏和預(yù)處理后的遙測(cè)數(shù)據(jù)樣例.數(shù)據(jù)隨時(shí)間變化,其異常表征與航天器故障模式直接關(guān)聯(lián).遙測(cè)數(shù)據(jù)存在著數(shù)量大、范圍廣、實(shí)體不明確、關(guān)系不清晰和屬性不全面等缺陷,需借助數(shù)據(jù)挖掘技術(shù),挖掘其隱含的異常規(guī)則,用于擴(kuò)充故障知識(shí)來(lái)源,豐富故障知識(shí)圖譜.
圖2 遙測(cè)數(shù)據(jù)示例Fig.2 Telemetry data example
本文知識(shí)圖譜的架構(gòu)包含邏輯框架以及技術(shù)框架,并用三元組作為基本表達(dá)方式.邏輯框架由本體層和實(shí)體層組成,其中本體層用來(lái)規(guī)范實(shí)體、關(guān)系以及屬性間的聯(lián)系,實(shí)體層中知識(shí)圖譜的知識(shí)以事實(shí)的形式存儲(chǔ).知識(shí)圖譜的技術(shù)框架由構(gòu)建知識(shí)圖譜時(shí)所采用的技術(shù)手段組成,包含數(shù)據(jù)預(yù)處理、知識(shí)抽取、知識(shí)融合、知識(shí)存儲(chǔ)等方法.
知識(shí)圖譜邏輯框架的構(gòu)建方法一般分為自頂向下和自底向上兩種[5].自頂向下的方法指先構(gòu)建知識(shí)圖譜的本體層并定義本體,再依據(jù)本體從數(shù)據(jù)中抽取知識(shí),抽取所得的實(shí)體、關(guān)系以及屬性與本體定義的實(shí)體類型、關(guān)系類型以及屬性類型相對(duì)應(yīng),是一個(gè)從抽象到具體的過(guò)程.而自底向上的方法則是先從數(shù)據(jù)中抽取出實(shí)體、關(guān)系和屬性構(gòu)成實(shí)體層,再歸納聚類,抽象出本體形成本體層[6].本文所采用的邏輯框架構(gòu)建方法為一種本體-實(shí)體雙向約束的方法,具體描述如下節(jié).
雖然航天器的故障知識(shí)來(lái)源廣泛,并通過(guò)FMEA分析表、故障案例、排故經(jīng)驗(yàn)和航天器日志等多種載體記錄,但數(shù)據(jù)量十分有限,難以直接通過(guò)故障知識(shí)和數(shù)據(jù)歸納抽象出本體層以及自底向上構(gòu)建圖譜.另一方面,采用自頂向下的方法則被專家定義的領(lǐng)域知識(shí)本體框架所限制,無(wú)法完全覆蓋從設(shè)計(jì)資料、實(shí)測(cè)數(shù)據(jù)等間接故障信息中挖掘到的新故障知識(shí).因此,本文采用自頂向下和自底向上相結(jié)合方法構(gòu)建航天器故障知識(shí)圖譜,構(gòu)建本體-實(shí)體雙向約束.該方法具有自頂向下方法準(zhǔn)確性的同時(shí)也具有自底向上方法對(duì)新故障知識(shí)的包容性.
如圖3所示,本文中知識(shí)圖譜的構(gòu)建流程為:首先初步分析航天器的多源異構(gòu)數(shù)據(jù),篩選可用的故障信息資料.對(duì)于結(jié)構(gòu)化程度高的故障信息,直接提取知識(shí);而對(duì)于結(jié)構(gòu)化程度低的間接故障信息,則需對(duì)其進(jìn)行數(shù)據(jù)清洗以及預(yù)處理.其次,本文提出一種改進(jìn)的IDEF5法,依據(jù)專家定義的領(lǐng)域知識(shí)和預(yù)處理的數(shù)據(jù)結(jié)果歸納構(gòu)建知識(shí)圖譜本體層,并依據(jù)挖掘的新故障知識(shí)不斷優(yōu)化完善本體層.然后,針對(duì)不同的故障信息資料采用不同的方法提取知識(shí),生成實(shí)體、關(guān)系以及屬性,與本體層中規(guī)范的本體模型相對(duì)應(yīng).最后,提取知識(shí)在實(shí)體層融合后將知識(shí)圖譜儲(chǔ)存到圖數(shù)據(jù)庫(kù)Neo4j中并可視化展示知識(shí)圖譜.
圖3 知識(shí)圖譜構(gòu)建框架Fig.3 Knowledge graph construction framework
由于航天器故障知識(shí)專業(yè)性強(qiáng)、來(lái)源多樣,因此在專家經(jīng)驗(yàn)的指導(dǎo)下,采用改進(jìn)的IDEF5法構(gòu)建本體.傳統(tǒng)的IDEF5法[7]的本體構(gòu)建方法流程分為5步包括:組織和范圍、數(shù)據(jù)收集、數(shù)據(jù)分析、初始化本體和本體的確認(rèn).本文根據(jù)航天器故障數(shù)據(jù)特點(diǎn)在傳統(tǒng)IDEF5法的基礎(chǔ)上對(duì)本體構(gòu)建方法進(jìn)行改進(jìn),增加了優(yōu)化和驗(yàn)證環(huán)節(jié),以確保本體的準(zhǔn)確率和覆蓋率.
改進(jìn)后的 IDEF5法流程為:
1)確定本體的領(lǐng)域和范圍.將本體限定在航天器故障診斷領(lǐng)域內(nèi).
2)數(shù)據(jù)收集.收集了多種形式的航天器故障數(shù)據(jù),例如控制力矩陀螺的FMEA分析表、航天器故障專家規(guī)則、維修排故文本資料等.
3)數(shù)據(jù)分析.對(duì)原始數(shù)據(jù)分析,將專家規(guī)則和控制力矩陀螺FMEA表格中專業(yè)術(shù)語(yǔ)進(jìn)行整理分類,并分析故障文本資料確定其中與故障有關(guān)的關(guān)鍵詞.
4)知識(shí)本體的初步開(kāi)發(fā).根據(jù)數(shù)據(jù)分析的結(jié)果和專家經(jīng)驗(yàn)建立初步本體模型,其主要以專家經(jīng)驗(yàn)為指導(dǎo)、以現(xiàn)有故障資料為補(bǔ)充,以項(xiàng)目名稱、故障模式以及規(guī)則代號(hào)為核心實(shí)體類型構(gòu)建.
5)本體的優(yōu)化與驗(yàn)證.用從間接故障信息中抽取的知識(shí)優(yōu)化驗(yàn)證本體.從遙測(cè)數(shù)據(jù)中挖掘新規(guī)則,從非結(jié)構(gòu)的文本數(shù)據(jù)中抽取實(shí)體,用以補(bǔ)充知識(shí)圖譜,并優(yōu)化本體模型,同時(shí)也可用新產(chǎn)生的知識(shí)反復(fù)驗(yàn)證本體的準(zhǔn)確率和覆蓋率.
采用改進(jìn)的IDEF5法構(gòu)建的知識(shí)圖譜本體模型如圖4所示.
圖4 知識(shí)圖譜本體模型Fig.4 Knowledge graph ontology model
以控制力矩陀螺故障知識(shí)資料以及專家規(guī)則為例構(gòu)建的本體包含14種實(shí)體類型(如故障模式、故障原因和故障檢測(cè)方法)、8種關(guān)系類型(如判斷、包含和關(guān)聯(lián)).根據(jù)抽取的知識(shí)驗(yàn)證本體模型,其能夠覆蓋原有的專家知識(shí)也能容納從航天器遙測(cè)數(shù)據(jù)中挖掘產(chǎn)生的新故障知識(shí).
本文中航天器的專家知識(shí)來(lái)源于專家規(guī)則以及專家經(jīng)驗(yàn)資料.專家規(guī)則以結(jié)構(gòu)化的形式存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中,而部分專家經(jīng)驗(yàn)資料以結(jié)構(gòu)以及半結(jié)構(gòu)混雜的形式儲(chǔ)存在FMEA分析表中.本文針對(duì)知識(shí)的不同形式提出相應(yīng)的提取方法.
關(guān)系型數(shù)據(jù)庫(kù)中的知識(shí)存儲(chǔ)模式為整套表格的完整設(shè)計(jì),圖數(shù)據(jù)庫(kù)中的知識(shí)存儲(chǔ)模式為節(jié)點(diǎn)、關(guān)系及其標(biāo)簽、屬性.圖數(shù)據(jù)庫(kù)中一個(gè)實(shí)體(含關(guān)系)是一個(gè)基本存儲(chǔ)單元.標(biāo)簽是劃分實(shí)體和關(guān)系類型的依據(jù),有標(biāo)簽名這一個(gè)要素;屬性存儲(chǔ)節(jié)點(diǎn)信息,有屬性名、屬性值兩個(gè)要素.本文將關(guān)系型數(shù)據(jù)庫(kù)的模式映射到圖數(shù)據(jù)庫(kù)中的模式,以此來(lái)實(shí)現(xiàn)知識(shí)轉(zhuǎn)化.
面對(duì)存儲(chǔ)在表文件中的知識(shí),按照?qǐng)D結(jié)構(gòu)的方式進(jìn)行轉(zhuǎn)存,統(tǒng)一對(duì)有標(biāo)簽的、可結(jié)構(gòu)化處理的故障數(shù)據(jù)進(jìn)行“實(shí)體”、“關(guān)系”的轉(zhuǎn)換.以圖5中控制力矩陀螺的FMEA分析表為例,說(shuō)明該分析表中的結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)如何將進(jìn)行三元組構(gòu)建與轉(zhuǎn)儲(chǔ).由于本文所應(yīng)用與故障診斷領(lǐng)域的知識(shí)圖譜較通用知識(shí)圖譜的數(shù)據(jù)來(lái)源略少、數(shù)據(jù)量級(jí)較低,因此知識(shí)圖譜的構(gòu)建上多采取以空間換時(shí)間的原則,提出兩種知識(shí)轉(zhuǎn)化方式.
圖5 某型控制力矩陀螺FMEA分析表Fig.5 FMEA analysis table of a certain type of control torque gyro
(1)直接轉(zhuǎn)儲(chǔ)
對(duì)表格中已經(jīng)規(guī)范化的結(jié)構(gòu)化的信息,可以直接進(jìn)行轉(zhuǎn)儲(chǔ).關(guān)系數(shù)據(jù)庫(kù)中的列名,對(duì)應(yīng)于圖數(shù)據(jù)庫(kù)中的標(biāo)簽、屬性或關(guān)系,應(yīng)根據(jù)包含信息和功能的不同注意以下事項(xiàng):1)表格中的某些列名可以同時(shí)作為屬性或標(biāo)簽,或者關(guān)系;2)為了查詢或推理的便利,某列表格中的值既可以作為節(jié)點(diǎn),又可以重復(fù)作為其他節(jié)點(diǎn)的屬性值;3)作為邊的關(guān)系種類應(yīng)盡可能的少,以降低推理的難度.
(2)模式化轉(zhuǎn)儲(chǔ)
表格中的多數(shù)信息是規(guī)范的、格式化的,但存在部分需要清洗的半結(jié)構(gòu)化數(shù)據(jù),直接通過(guò)標(biāo)志字符或停用詞檢查對(duì)長(zhǎng)子句結(jié)構(gòu)化抽取與語(yǔ)句合并.在本體的指導(dǎo)下,對(duì)合并結(jié)果進(jìn)行歸納整理,然后將結(jié)果中的實(shí)體、關(guān)系以及屬性與本體相對(duì)應(yīng).
圖5以某型控制力矩陀螺FMEA分析表為例展示了本文面向功能需求將結(jié)構(gòu)化數(shù)據(jù)直接進(jìn)行三元組轉(zhuǎn)儲(chǔ)的過(guò)程.在這個(gè)過(guò)程中根據(jù)本體規(guī)范,列名可以是節(jié)點(diǎn)標(biāo)簽也可以同時(shí)是屬性或者關(guān)系.將表格中存在的大部分信息直接轉(zhuǎn)儲(chǔ),而預(yù)防/糾正措施中的內(nèi)容采用模式化轉(zhuǎn)儲(chǔ)方法,分割內(nèi)容后完成轉(zhuǎn)儲(chǔ).最終將構(gòu)建的三元組存儲(chǔ)到圖數(shù)據(jù)庫(kù)Neo4j中.總共從FMEA表格中共提取出281個(gè)實(shí)體,512條關(guān)系.
通過(guò)Neo4j中Cypher查詢語(yǔ)言對(duì)構(gòu)建結(jié)果進(jìn)行驗(yàn)證,以項(xiàng)目名稱為核心節(jié)點(diǎn)進(jìn)行搜索,即可獲得該項(xiàng)目有關(guān)的故障知識(shí),查詢結(jié)果如圖6所示.結(jié)果展示了一次電源等5個(gè)項(xiàng)目以及與之有關(guān)的故障模式、導(dǎo)致故障產(chǎn)生的原因以及解決措施等相關(guān)信息,同時(shí)體現(xiàn)了不同項(xiàng)目間的關(guān)聯(lián)關(guān)系.驗(yàn)證了本文(半)結(jié)構(gòu)化數(shù)據(jù)圖譜轉(zhuǎn)化方法的有效性和可行性.
隨著自然語(yǔ)言處理技術(shù)的發(fā)展,涌現(xiàn)出很多較為成熟的中文文本處理工具.航天器故障診斷專業(yè)領(lǐng)域的相關(guān)資料多具備一些規(guī)范的表述和邏輯,但可供中文文本處理工具訓(xùn)練的數(shù)據(jù)稀少.因此,本文充分利用規(guī)范表達(dá)的優(yōu)勢(shì),減少數(shù)據(jù)依賴,采用本體-實(shí)體雙向約束邏輯,提出關(guān)鍵詞識(shí)別+文本分類的方式對(duì)具有一定結(jié)構(gòu)的故障文本進(jìn)行知識(shí)抽取.在實(shí)體層,采用經(jīng)典CNN模型與多頭注意力機(jī)制CNN模型相結(jié)合的方式抽取實(shí)體以及關(guān)系,并對(duì)比驗(yàn)證;在本體層,根據(jù)抽取的實(shí)體以及關(guān)系對(duì)應(yīng)的類型優(yōu)化完善本體.
本文的知識(shí)抽取過(guò)程,使用現(xiàn)有工具jieba分詞和pyltp,對(duì)文本資料預(yù)處理,內(nèi)容包括分詞、停用詞去除、分句等文本清洗工作.
本文采用經(jīng)典的CNN文本分類模型提取實(shí)體.在該方法中,模型首先根據(jù)語(yǔ)料庫(kù)將文本子句轉(zhuǎn)化成id表示的向量形式,進(jìn)行序列填充對(duì)齊后再接全連接層,作為網(wǎng)絡(luò)輸入;以實(shí)體類型作為網(wǎng)絡(luò)輸出.采用關(guān)系分類的多頭自注意機(jī)制CNN分類模型提取關(guān)系,則是根據(jù)語(yǔ)料庫(kù)對(duì)句子進(jìn)行分詞,將詞轉(zhuǎn)換成向量形式,進(jìn)行序列填充對(duì)齊后再接全連接層,作為詞嵌入特征;同時(shí)將每個(gè)詞與句中兩個(gè)實(shí)體的相對(duì)距離也轉(zhuǎn)為嵌入向量,作為距離特征;兩特征拼接后才是整體網(wǎng)絡(luò)輸入;以關(guān)系類型作為網(wǎng)絡(luò)輸出.兩種方法互為補(bǔ)充,經(jīng)典的CNN模型解決已知關(guān)系類型的實(shí)體標(biāo)簽分類問(wèn)題,關(guān)系類型由分析文本所得.而多頭自注意機(jī)制CNN分類模型,解決實(shí)體及標(biāo)簽已知的關(guān)系分類問(wèn)題.因此方法能夠相互驗(yàn)證,提高知識(shí)抽取的準(zhǔn)確率.故障文本抽取的流程如圖7所示.
以圖1中的文本模塊為例,首先構(gòu)建所需的專業(yè)詞典、語(yǔ)料庫(kù)以及關(guān)系類別,并確定用于劃分語(yǔ)句的關(guān)鍵詞,如“故障現(xiàn)象”、“故障原因”等.然后通過(guò)分詞確定長(zhǎng)文本中關(guān)鍵詞語(yǔ)等詞句的位置,以標(biāo)點(diǎn)、關(guān)鍵詞和停用詞等為標(biāo)識(shí),進(jìn)行長(zhǎng)文本分割.針對(duì)實(shí)體抽取采用經(jīng)典的CNN文本分類模型.在去符號(hào)后構(gòu)建較為規(guī)整的子句,經(jīng)關(guān)系詞提取和文本分類[8-9]得到初步的三元組列表.而針對(duì)關(guān)系抽取則采用多頭注意力機(jī)制改進(jìn)的CNN文本分類模型,輸入完整句子并進(jìn)行實(shí)體標(biāo)注,后經(jīng)關(guān)系分類得到初步的三元組列表,將兩種方式得出的三元組列表,對(duì)比驗(yàn)證,得到最終的三元組將其去重后導(dǎo)入知識(shí)圖譜.
針對(duì)故障文本中提取出的不符合本體模型的三元組可以將其拆分并對(duì)應(yīng)本體或?qū)Ρ倔w模型優(yōu)化以覆蓋抽取的新實(shí)體,利用本體將不同來(lái)源的知識(shí)進(jìn)行融合.例如,故障現(xiàn)象在本體中沒(méi)有對(duì)應(yīng)的實(shí)體類型,經(jīng)分析把內(nèi)容拆分為項(xiàng)目名稱和故障模式,以對(duì)應(yīng)本體中的實(shí)體類型,從而將由多源異構(gòu)數(shù)據(jù)組成的三元組納入統(tǒng)一本體.由于數(shù)據(jù)來(lái)源質(zhì)量高,且有本體指導(dǎo)實(shí)體保證知識(shí)圖譜的質(zhì)量,只需進(jìn)一步利用Neo4j中節(jié)點(diǎn)相似度算法計(jì)算節(jié)點(diǎn)相似度,并設(shè)置閾值篩選異常節(jié)點(diǎn),最后人工審核處理異常節(jié)點(diǎn),刪去或者合并冗余節(jié)點(diǎn)實(shí)現(xiàn)知識(shí)融合.
將故障文本中提取出的三元組存儲(chǔ)到Neo4j數(shù)據(jù)庫(kù)中并可視化展示,利用Cypher查詢語(yǔ)言驗(yàn)證方法的可行性,查詢結(jié)果如圖8所示.其中以項(xiàng)目名稱為核心節(jié)點(diǎn),列舉了電源等4個(gè)項(xiàng)目有關(guān)的故障模式、故障原因和解決措施等相關(guān)信息.
圖8 故障文本提取結(jié)果Fig.8 Fault texts extraction results
航天器的海量遙測(cè)數(shù)據(jù)中暗含著異常信息,如何從中挖掘出故障知識(shí),對(duì)生成專家規(guī)則意義重大.而生成的專家規(guī)則是構(gòu)建航天器故障知識(shí)圖譜的重要數(shù)據(jù)來(lái)源.
本文提出一種基于航天器遙測(cè)數(shù)據(jù)規(guī)則挖掘的知識(shí)提取方法.首先根據(jù)專家經(jīng)驗(yàn)以及遙測(cè)參數(shù)的物理含義,確定發(fā)生故障的項(xiàng)目名稱以及故障模式,由二者組合形成故障描述,并從中提煉出故障名稱.其次根據(jù)領(lǐng)域?qū)<医?jīng)驗(yàn)確定與故障相關(guān)的參數(shù),再使用基于圖卷積網(wǎng)絡(luò)的空間模塊挖掘遙測(cè)參數(shù)之間的關(guān)聯(lián)關(guān)系.然后對(duì)每個(gè)涉及的遙測(cè)參數(shù)進(jìn)行單獨(dú)的閾值挖掘,確定單個(gè)參數(shù)的閾值區(qū)間.最后根據(jù)參數(shù)的關(guān)聯(lián)關(guān)系以及單參數(shù)的閾值生成故障判別表達(dá)式,再由人工審核查驗(yàn)分析規(guī)則的可用性,查驗(yàn)可行后判定故障等級(jí)以及給出該條規(guī)則的規(guī)則代號(hào)和預(yù)案編號(hào).規(guī)則生成完成后存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中形成結(jié)構(gòu)化的專家知識(shí),以便接下來(lái)轉(zhuǎn)化成為知識(shí)圖譜進(jìn)行可視化展示.
針對(duì)海量的航天器遙測(cè)數(shù)據(jù),在參數(shù)相關(guān)關(guān)系挖掘前,需要對(duì)數(shù)據(jù)進(jìn)行清洗和預(yù)處理.因?yàn)檫b測(cè)參數(shù)序列平穩(wěn)部分占比大的特點(diǎn),采用分段聚合近似對(duì)遙測(cè)數(shù)據(jù)采樣處理[10].方法的核心思想是將時(shí)間序列分割成子列并求均值,用均值替代原始序列,達(dá)到縮減數(shù)據(jù)量的效果.序列分割的方法則是采用等長(zhǎng)分割的方法,提前依據(jù)遙測(cè)數(shù)據(jù)總量以及特征,設(shè)定子序列長(zhǎng)度切割原序列.
本文提出一種基于圖卷積網(wǎng)絡(luò)的空間模塊,并通過(guò)它自動(dòng)創(chuàng)建遙測(cè)參數(shù)之間的相關(guān)性網(wǎng)絡(luò)圖,以描述和可視化遙測(cè)參數(shù)之間的空間相關(guān)性特征.給定一個(gè)有I個(gè)輸入?yún)?shù)的數(shù)據(jù)集X,該數(shù)據(jù)集的圖可以表述為G=(V,E),其中V={v1,v2,…,vI}是I個(gè)節(jié)點(diǎn)的集合,E是邊的集合.E中的邊可以描述為e=(vi,vj)∈E,其中vi和vj是V中的任意兩個(gè)節(jié)點(diǎn).鄰接矩陣A?RI×I顯示了節(jié)點(diǎn)之間的關(guān)聯(lián)性,其計(jì)算方法是
(1)
其中Aij是鄰接矩陣的一個(gè)元素,wij表示節(jié)點(diǎn)vi和vj節(jié)點(diǎn)之間的關(guān)系度.
為了構(gòu)建鄰接矩陣,本文將MIC相關(guān)系數(shù)計(jì)算方法嵌入到算法中,以捕捉所有的函數(shù)關(guān)系(特別是非線性函數(shù)),以及不同函數(shù)的疊加.
由于缺乏先驗(yàn)知識(shí),遙測(cè)參數(shù)之間的相關(guān)性可能是未知的,所以本文通過(guò)訓(xùn)練迭代來(lái)自動(dòng)學(xué)習(xí)鄰接矩陣.動(dòng)態(tài)構(gòu)建鄰接矩陣的過(guò)程如圖9所示,隨著訓(xùn)練樣本和迭代次數(shù)的增加,提取到的參數(shù)相關(guān)性變得更加準(zhǔn)確.
圖9 動(dòng)態(tài)鏈接結(jié)果Fig.9 Dynamic linking results
(1)獲得每個(gè)節(jié)點(diǎn)的嵌入向量
Bi=tanh(yEmb(vi))
(2)
其中,Bi是節(jié)點(diǎn)vi的嵌入向量,它是隨機(jī)初始化之后,在訓(xùn)練過(guò)程中不斷迭代學(xué)習(xí);γ用于進(jìn)行線性變換,tanh用于進(jìn)行非線性變換.
(2)構(gòu)建鄰接矩陣
Aij=Relu(MIC(Bi,Bj))
(3)
其中MIC(Bi,Bj)用于計(jì)算節(jié)點(diǎn)嵌入向量Bi和Bj之間的關(guān)聯(lián)性.Relu是用于避免負(fù)相關(guān)的激活函數(shù).
(3)使鄰接矩陣稀疏化
(4)
其中,為了降低圖卷積的計(jì)算成本,通過(guò)設(shè)置預(yù)定義的閾值τ,任何低于τ的Aij將被設(shè)置為零,來(lái)消除遙測(cè)參數(shù)之間的弱相關(guān)關(guān)系,使鄰接矩陣變得稀疏.
并且設(shè)定終止閾值,若遙測(cè)參數(shù)間的相關(guān)性數(shù)值大于終止閾值,則說(shuō)明參數(shù)間的相關(guān)關(guān)系已挖掘成功.
本文采用流數(shù)據(jù)閥頂點(diǎn)理論模型(streaming peaks over threshold,SPOT)來(lái)挖掘遙測(cè)數(shù)據(jù)的閾值[11].該算法假設(shè)極值與數(shù)據(jù)分布之間相關(guān)性趨向于0,可以忽略原始數(shù)據(jù)的分布情況,適用于遙測(cè)數(shù)據(jù)挖掘.
SPOT算法首先進(jìn)行POT計(jì)算,然后將其作為初始化步驟并將流數(shù)據(jù)作為輸入.采用算法挖掘數(shù)據(jù)閾值的流程為.1)對(duì)前n個(gè)數(shù)據(jù)進(jìn)行POT計(jì)算,得到初始閾值;2)對(duì)新數(shù)據(jù)進(jìn)行判斷,超出初始閾值為異常數(shù)據(jù),大于經(jīng)驗(yàn)閾值小于初始閾值則為峰值數(shù)據(jù);3)如果是異常值指標(biāo),則直接標(biāo)出不參與迭代計(jì)算,如果是峰值則繼續(xù)參于迭代計(jì)算,計(jì)算當(dāng)前閾值.
以表1中規(guī)則代號(hào)為Fault_011的專家規(guī)則為例,說(shuō)明如何生成規(guī)則中的判別表達(dá)式.首先根據(jù)專家的經(jīng)驗(yàn)知識(shí)可知故障與D1、D2和D3參數(shù)有關(guān),其次通過(guò)相關(guān)關(guān)系挖掘得出D1、D2、D3與D4、D5之間存在強(qiáng)相關(guān)關(guān)系,其中一個(gè)參數(shù)異常就可判斷故障發(fā)生,則參數(shù)間用or連接.然后挖掘每個(gè)參數(shù)的正常閾值,對(duì)其取反即可得到參數(shù)異常的不等式,如D1>3.5.最后參數(shù)有機(jī)組合得到判別表達(dá)式為(D1>3.5或D2>3.5或D3>3.5或D4>3.5或D5>3.5).之后再由專家審核后,便可生成專家規(guī)則.
在生成專家規(guī)則后,需要依照本體將專家規(guī)則,在實(shí)體層進(jìn)行融合.由于專家規(guī)則經(jīng)過(guò)嚴(yán)格的審核和校對(duì),知識(shí)質(zhì)量高,可利用本體確保知識(shí)的準(zhǔn)確性,實(shí)現(xiàn)初步知識(shí)融合.進(jìn)一步,在多源數(shù)據(jù)全部存儲(chǔ)在知識(shí)圖譜中之后,采用Neo4j中的節(jié)點(diǎn)相似度算法計(jì)算節(jié)點(diǎn)相似度,人工處理相似度異常的節(jié)點(diǎn),實(shí)現(xiàn)知識(shí)更深層次融合.
利用Cypher查詢語(yǔ)言驗(yàn)證方法的可行性,搜索知識(shí)圖譜中規(guī)則代號(hào)為Fault_011與Fault_032的專家規(guī)則融合結(jié)果圖10所示.例如,以濾波母線電路(項(xiàng)目名稱)為核心節(jié)點(diǎn)進(jìn)行搜索,未融合前只顯示該節(jié)點(diǎn)的故障信息,融合后增加了規(guī)則代碼、嚴(yán)酷度等級(jí)以及規(guī)則判別表達(dá)式3個(gè)節(jié)點(diǎn),豐富節(jié)點(diǎn)信息,完善知識(shí)圖譜.此外,該圖譜還能為基于規(guī)則的航天器故障診斷提供知識(shí)支持,可利用網(wǎng)絡(luò)節(jié)點(diǎn)中的規(guī)則信息實(shí)現(xiàn)故障判別以及故障嚴(yán)酷度等級(jí)劃分,有實(shí)際的工程應(yīng)用意義.
圖10 挖掘規(guī)則融合結(jié)果Fig.10 Mining rules fusion results
本文針對(duì)航天器多源異構(gòu)故障數(shù)據(jù)的特點(diǎn),提出一種本體-實(shí)體雙向約束的知識(shí)圖譜構(gòu)建方法.自頂向下依據(jù)專家知識(shí)初步構(gòu)建本體,自底向上挖掘?qū)嶓w以優(yōu)化本體,通過(guò)本體-實(shí)體雙向約束實(shí)現(xiàn)航天器多源故障信息的融合.針對(duì)來(lái)源不同、結(jié)構(gòu)化程度不同的故障數(shù)據(jù),本文提出3種不同的知識(shí)提取方法.以控制力矩陀螺為例,采用上述方法構(gòu)建了航天器故障知識(shí)圖譜,并用Neo4j圖數(shù)據(jù)庫(kù)可視化展示構(gòu)建結(jié)果.驗(yàn)證了本文方法的可行性和有效性,為航天器故障知識(shí)圖譜構(gòu)建提供了一種新思路.