国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

發(fā)動(dòng)機(jī)故障領(lǐng)域知識(shí)圖譜構(gòu)建與應(yīng)用①

2022-08-04 09:58許駒雄李敏波劉孟珂曹志月
關(guān)鍵詞:圖譜實(shí)體發(fā)動(dòng)機(jī)

許駒雄,李敏波,2,劉孟珂,曹志月,唐 波,葛 浩

1(復(fù)旦大學(xué) 軟件學(xué)院,上海 200438)

2(復(fù)旦大學(xué) 上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室,上海 200438)

3(濰柴動(dòng)力股份有限公司,濰坊 261061)

隨著智能制造時(shí)代的到來(lái),越來(lái)越多的制造企業(yè)和服務(wù)商都開(kāi)始搭建基于產(chǎn)品全生命周期的物理信息系統(tǒng)用于采集產(chǎn)品的設(shè)計(jì)、采購(gòu)、加工、裝配、測(cè)試和售后返修等過(guò)程數(shù)據(jù)及結(jié)果數(shù)據(jù),例如發(fā)動(dòng)機(jī)裝配檔案,出廠測(cè)試階段的試車數(shù)據(jù)、售后返修的故障維修報(bào)告等. 這些數(shù)據(jù)蘊(yùn)含了豐富的價(jià)值,但廠商們?nèi)狈τ行У募夹g(shù)手段,無(wú)法從數(shù)據(jù)和知識(shí)層面指導(dǎo)發(fā)動(dòng)機(jī)的故障診斷和維修工作[1].

目前的工業(yè)領(lǐng)域故障診斷方法大多基于生產(chǎn)過(guò)程中的狀態(tài)數(shù)據(jù),通過(guò)構(gòu)建傳感器獲取的特征數(shù)據(jù)和機(jī)器狀態(tài)之間的關(guān)系,將故障診斷問(wèn)題轉(zhuǎn)化為模式識(shí)別問(wèn)題,在制造業(yè)[2]、電力[3]等領(lǐng)域都有諸多應(yīng)用. 但由于維修信息中具有大量的文本信息,如何提取其中蘊(yùn)涵的領(lǐng)域知識(shí)是需要深入研究的課題[4].

隨著人工智能的飛速發(fā)展,知識(shí)圖譜逐漸成為工業(yè)界和學(xué)術(shù)界研究的重點(diǎn),廣泛應(yīng)用于醫(yī)療[5]、教育[6]等領(lǐng)域. 在制造業(yè)領(lǐng)域,西門(mén)子提出了領(lǐng)域知識(shí)圖譜計(jì)劃[7],博世構(gòu)建了底盤(pán)系統(tǒng)控制相關(guān)數(shù)據(jù)的大型知識(shí)圖譜[8]. 知識(shí)圖譜通過(guò)三元組描述數(shù)據(jù)之間的關(guān)系,這種結(jié)構(gòu)化的表示降低了從中提取信息的難度. 與此同時(shí),利用知識(shí)抽取相關(guān)技術(shù)將非結(jié)構(gòu)化數(shù)據(jù)構(gòu)建成知識(shí)圖譜,可以將文本信息用接近人類認(rèn)知的格式保存,從而挖掘數(shù)據(jù)蘊(yùn)含的價(jià)值.

在知識(shí)圖譜的自動(dòng)化構(gòu)建方面,關(guān)鍵技術(shù)包括命名實(shí)體識(shí)別、關(guān)系抽取和實(shí)體對(duì)齊等. 目前具有代表性的工作有Huang 等人提出的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(bidirectional long short term memory,BiLSTM)配合條件隨機(jī)場(chǎng)(conditional random field,CRF)的模型[9].Qiu 等人使用空洞卷積加強(qiáng)模型的上下文信息編碼能力和運(yùn)行速度[10]. Yan 等人將相對(duì)距離驅(qū)動(dòng)的注意力機(jī)制引入Transformer 模型,以提高其在命名實(shí)體識(shí)別中的表現(xiàn)[11]. Li 等人提出一種多粒度點(diǎn)陣框架,實(shí)現(xiàn)了提取中文文本關(guān)系的任務(wù)[12]. Sun 等人提出了一種基于嵌入實(shí)體對(duì)齊的引導(dǎo)方法,迭代地將可能的實(shí)體對(duì)齊標(biāo)記為訓(xùn)練數(shù)據(jù),以學(xué)習(xí)面向?qū)R的圖嵌入[13]. Cao 等人將圖卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制引入實(shí)體對(duì)齊任務(wù),以獲得表示知識(shí)圖中實(shí)體分布的連接實(shí)體的重要性權(quán)重[14].

在知識(shí)圖譜應(yīng)用方面,目前基于知識(shí)圖譜的個(gè)性化推薦技術(shù)主要分為基于路徑和基于圖嵌入兩種. Zhao等人引入元圖概念獲取知識(shí)圖中更豐富的語(yǔ)義信息[15].Zhu 等人使用知識(shí)圖中實(shí)體間的關(guān)系鏈接來(lái)傳播用戶偏好并了解其潛在偏好[16]. Wang 等人提出一種順序?qū)W習(xí)框架,通過(guò)特征學(xué)習(xí)得到實(shí)體向量和關(guān)系向量,利用CNN 融合得到用戶向量和物品向量[17]. Zhang 等人將知識(shí)學(xué)習(xí)和協(xié)同過(guò)濾的目標(biāo)函數(shù)結(jié)合進(jìn)行聯(lián)合學(xué)習(xí)[18].Wang 等人使用聯(lián)合學(xué)習(xí)框架來(lái)計(jì)算多跳響應(yīng)[19],并在后續(xù)工作中提出多任務(wù)學(xué)習(xí)框架交替學(xué)習(xí)圖嵌入和推薦算法,同時(shí)利用了兩個(gè)任務(wù)的互補(bǔ)信息[20].

然而,通過(guò)文獻(xiàn)調(diào)研和與制造業(yè)廠商交流發(fā)現(xiàn),在制造業(yè)領(lǐng)域應(yīng)用知識(shí)圖譜還存在諸多不確定性,缺乏系統(tǒng)的研究. 例如,廠商們對(duì)制造業(yè)知識(shí)圖譜的應(yīng)用前景有所懷疑,并且不確定如何將其應(yīng)用到產(chǎn)品設(shè)計(jì)、裝配、售后等流程. 此外,目前還缺乏一個(gè)有效的、系統(tǒng)的從發(fā)動(dòng)機(jī)故障數(shù)據(jù)端到端構(gòu)建與應(yīng)用知識(shí)圖譜的流程. 因此,本文的主要工作如下:

1)將知識(shí)圖譜引入柴油發(fā)動(dòng)機(jī)故障領(lǐng)域,提出發(fā)動(dòng)機(jī)故障知識(shí)圖譜(engine fault knowledge graph,EFKG). 分析發(fā)動(dòng)機(jī)故障診斷領(lǐng)域的業(yè)務(wù)規(guī)則和數(shù)據(jù)特點(diǎn),設(shè)計(jì)領(lǐng)域知識(shí)圖譜的構(gòu)建流程和本體,基于真實(shí)數(shù)據(jù)集構(gòu)建EFKG.

2)針對(duì)維修數(shù)據(jù)中知識(shí)抽取準(zhǔn)確率較低的問(wèn)題,構(gòu)建領(lǐng)域詞典,標(biāo)注語(yǔ)料集,從多維度對(duì)比現(xiàn)有的基于深度學(xué)習(xí)的實(shí)體抽取方法,得出最好的發(fā)動(dòng)機(jī)維修數(shù)據(jù)命名實(shí)體識(shí)別方案.

3)設(shè)計(jì)實(shí)體相關(guān)性評(píng)價(jià)指標(biāo)FF-IEF (fault frequencyinverse event frequency)和基于知識(shí)圖譜的輔助決策模型,并開(kāi)發(fā)原型系統(tǒng),提供知識(shí)抽取、檢索、輔助決策等功能.

本文對(duì)柴油發(fā)動(dòng)機(jī)故障領(lǐng)域知識(shí)圖譜的構(gòu)建和應(yīng)用進(jìn)行研究. 實(shí)驗(yàn)結(jié)果表明,本文的方法能有效地從發(fā)動(dòng)機(jī)故障數(shù)據(jù)集中抽取知識(shí),有助于提高信息檢索和售后維修效率.

1 發(fā)動(dòng)機(jī)故障知識(shí)圖譜構(gòu)建

1.1 EFKG 構(gòu)建流程

在發(fā)動(dòng)機(jī)故障診斷領(lǐng)域,存在許多案例形式的故障維修數(shù)據(jù),與故障診斷相關(guān)的知識(shí)需從案例中挖掘,例如故障現(xiàn)象、故障原因、故障狀態(tài)、故障部位等. 由于該領(lǐng)域作為傳統(tǒng)制造業(yè),專業(yè)知識(shí)存在一定的封閉性,數(shù)據(jù)質(zhì)量和應(yīng)用也存在一定問(wèn)題,目前與知識(shí)圖譜相關(guān)的研究較少. 本文針對(duì)發(fā)動(dòng)機(jī)故障領(lǐng)域的數(shù)據(jù)特點(diǎn)和業(yè)務(wù)邏輯,自頂向下構(gòu)建知識(shí)圖譜,整體流程如圖1 所示.

圖1 EFKG 構(gòu)建流程

具體構(gòu)建流程如下:

1)根據(jù)領(lǐng)域?qū)<姨峁┑陌l(fā)動(dòng)機(jī)故障診斷業(yè)務(wù)規(guī)則和數(shù)據(jù)特點(diǎn)設(shè)計(jì)知識(shí)圖譜模式層.

2)制定映射規(guī)則對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行轉(zhuǎn)換; 從非結(jié)構(gòu)化文本中通過(guò)實(shí)體識(shí)別技術(shù)抽取實(shí)體,并與其他實(shí)體進(jìn)行關(guān)聯(lián).

3)通過(guò)實(shí)體對(duì)齊對(duì)實(shí)體進(jìn)行規(guī)范化處理,根據(jù)模式層關(guān)聯(lián)關(guān)系生成三元組.

4)計(jì)算實(shí)體相關(guān)性指標(biāo),與三元組存儲(chǔ)于圖數(shù)據(jù)庫(kù)中.

5)利用貝葉斯推理模型進(jìn)行故障診斷.

1.2 EFKG 模式層設(shè)計(jì)

本文使用數(shù)據(jù)來(lái)源于濰柴動(dòng)力股份有限公司近年來(lái)的生產(chǎn)故障(加工、試車、裝配等)和售后維修報(bào)告,包括維修信息、發(fā)動(dòng)機(jī)信息、故障信息等,其格式涵蓋結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù). 每條維修記錄對(duì)應(yīng)一個(gè)柴油發(fā)動(dòng)機(jī)故障案例,并通過(guò)外鍵與發(fā)動(dòng)機(jī)信息和故障信息等外表關(guān)聯(lián). 其中維修處理過(guò)程為非結(jié)構(gòu)化文本,故障信息和發(fā)動(dòng)機(jī)參數(shù)為結(jié)構(gòu)化數(shù)據(jù).

EFKG 的重要用途之一是提高維修效率,即輔助工程師定位故障位點(diǎn)和故障類型,因此故障部位和故障狀態(tài)是核心實(shí)體,整體模式層設(shè)計(jì)如圖2 所示.

圖2 EFKG 模式層設(shè)計(jì)

1.3 故障實(shí)體標(biāo)注

發(fā)動(dòng)機(jī)故障維修報(bào)告為工作人員手工填寫(xiě)的自然文本,通常包括“客戶反映-問(wèn)題定位-解決方法”流程,如表1 所示,下劃線部分為需要抽取的信息,包括維修信息、發(fā)動(dòng)機(jī)信息、故障信息等.

表1 非結(jié)構(gòu)化數(shù)據(jù)實(shí)例

在發(fā)動(dòng)機(jī)故障領(lǐng)域,目前并無(wú)公開(kāi)的訓(xùn)練語(yǔ)料庫(kù),需自行標(biāo)注和構(gòu)建數(shù)據(jù)集. 為解決訓(xùn)練集規(guī)模小、部分領(lǐng)域詞匯一詞多義的問(wèn)題,本文基于目前主流使用的BiLSTM-CRF[9]方法,將BERT[21]預(yù)訓(xùn)練模型作為詞向量輸入,可以較好地緩解上述問(wèn)題,學(xué)習(xí)到更準(zhǔn)確的語(yǔ)義向量. 模型的整體結(jié)構(gòu)如圖3 所示.

圖3 BERT-BiLSTM-CRF 模型

本文對(duì)5 488 條發(fā)動(dòng)機(jī)維修數(shù)據(jù)進(jìn)行人工標(biāo)注,構(gòu)建了發(fā)動(dòng)機(jī)維修數(shù)據(jù)集,如表2 所示.

表2 實(shí)驗(yàn)數(shù)據(jù)集大小及劃分

本文采取BIO 和BIOES 兩種標(biāo)注方法. BIO 的標(biāo)注方案將詞語(yǔ)分成兩類,一類是目標(biāo)實(shí)體,由B 和I 組成,分別代表目標(biāo)實(shí)體的第一個(gè)詞語(yǔ)和其他詞語(yǔ),O 表示該詞語(yǔ)不屬于目標(biāo)實(shí)體. BIOES 的B、I、E 分別表示實(shí)體的開(kāi)始、中間和結(jié)束部分,S 表示實(shí)體為單個(gè)字詞,O 表示該部分不是實(shí)體.

在標(biāo)注數(shù)據(jù)集中,實(shí)體類型共分為4 種: 故障現(xiàn)象(description,DES)、故障部位(location,LOC)、故障狀態(tài)(status,STA)和維修建議(suggestion,SUG). 故障現(xiàn)象是指客戶向維修站點(diǎn)反映的發(fā)動(dòng)機(jī)故障表現(xiàn),如“發(fā)動(dòng)機(jī)啟動(dòng)困難”; 故障部位是指經(jīng)檢查后確定的問(wèn)題起因件,如“向心球軸承”“增壓器”等; 故障狀態(tài)是指起因件出現(xiàn)的具體問(wèn)題,例如“(增壓器)拉殼”“(油封)漏油”等; 維修建議是指維修人員解決故障的操作,如“更換”氣缸蓋墊片等. 各類實(shí)體的標(biāo)注情況如表3 所示.

表3 實(shí)體標(biāo)注情況

標(biāo)注示例如表4 所示.

表4 標(biāo)注示例

實(shí)驗(yàn)結(jié)果見(jiàn)本文第2 節(jié).

1.4 實(shí)體對(duì)齊

維修報(bào)告為工作人員手工填寫(xiě),無(wú)法保證數(shù)據(jù)的規(guī)范和實(shí)用性,常出現(xiàn)共指現(xiàn)象,如“發(fā)動(dòng)機(jī)無(wú)力”和“功率不足”指代同一問(wèn)題. 同時(shí)由于數(shù)據(jù)經(jīng)過(guò)OCR 處理,存在中英文字符識(shí)別出錯(cuò)的情況,如電子控制單元ECU 識(shí)別成EC0,類似的異常數(shù)據(jù)需要進(jìn)行消除和修復(fù).

本文采用計(jì)算相似度的方法進(jìn)行實(shí)體對(duì)齊,定義好相似度函數(shù)和閾值后,將實(shí)體間相似度得分大于設(shè)定閾值的實(shí)體對(duì)只保留其中一個(gè)實(shí)體,并更新圖譜中的三元組,用保留后的實(shí)體替換被對(duì)齊的實(shí)體. 本文采用編輯距離和Jaccard 相關(guān)系數(shù)法進(jìn)行實(shí)體相似度計(jì)算.

1)編輯距離: 對(duì)一個(gè)單詞或詞語(yǔ)可以采取插入、刪除或替換字符3 種方式. 將一個(gè)單詞(詞語(yǔ))通過(guò)這3 種操作方式轉(zhuǎn)換為另一個(gè)單詞需要的最小操作次數(shù),即為編輯距離.

2)Jaccard 相關(guān)系數(shù)法: Jaccard 系數(shù)描述了兩個(gè)有限樣本集的相似性,定義為兩個(gè)集合的交集與并集之比. 該比值越大,說(shuō)明兩個(gè)集合越相似; 該比值越小,說(shuō)明兩個(gè)集合差異越大,相似性越低. Jaccard 相關(guān)系數(shù)的計(jì)算方法如式(1)所示.

實(shí)體對(duì)齊流程如下所示. 由于相似度計(jì)算僅考慮文本的字面相似性,而忽略了語(yǔ)義,因此該方法不能保證實(shí)體對(duì)齊的完全正確,可能存在錯(cuò)誤對(duì)齊或遺漏對(duì)齊的情況. 由于本文涉及的實(shí)體主要與發(fā)動(dòng)機(jī)故障信息相關(guān),實(shí)體種類和數(shù)量相對(duì)較少,因此對(duì)實(shí)體對(duì)齊結(jié)果進(jìn)行人工校對(duì)與完善.

算法1. 實(shí)體對(duì)齊算法輸入: 所有故障實(shí)體,相似度閾值s輸出: 對(duì)齊后的實(shí)體和關(guān)系1. Function EntityAligned(engineFailNodes)2. for uniNode in engineFailNodes:3. for alignedNode in engineFailNodes:4. if uniNode == alignedNode : continue;5. uniAttrList ← uniNode.attrs 6. aliAttrList ← alignedNode.attrs 7. sim ← simComp(uniAttrList,aliAttrList)8. if sim <= s : continue;9. for hasConnect(uniNode,alignedNode):10. node.relation = uniNode

1.5 指標(biāo)計(jì)算

在EFKG 中,一條三元組并非絕對(duì)正確或錯(cuò)誤的.例如“發(fā)動(dòng)機(jī)震動(dòng)大”這一故障現(xiàn)象,可能由于“軸承卡滯”導(dǎo)致,也可能由 “減震器損壞”引起. 為了描述一條三元組在EFKG 中的重要程度,本文參考TF-IDF (term frequency-inverse document frequency)的思想,設(shè)計(jì)了發(fā)動(dòng)機(jī)故障實(shí)體相關(guān)性指標(biāo)FF-IEF (fault frequencyinverse event frequency).

對(duì)于EFKG 中的一條三元組(hij,ri,tij),故障頻率(FF)衡量尾實(shí)體在給定頭實(shí)體條件下出現(xiàn)的概率,如式(2)所示.

其中,N(hij,tij)表示該條三元組出現(xiàn)的次數(shù),可從維修數(shù)據(jù)集中統(tǒng)計(jì)并作為三元組的屬性存儲(chǔ).Hi表示頭實(shí)體hij所屬的實(shí)體類別(故障現(xiàn)象、故障部位等).

逆向事件頻率(IEF)衡量尾實(shí)體對(duì)頭實(shí)體的區(qū)分程度,定義為頭實(shí)體所屬類別的元組總數(shù)與該頭實(shí)體所在元組數(shù)的比值,如式(3)所示.

其中,|{(hik,ri,tij):hik∈Hi,?k}|表示尾實(shí)體為tij的三元組集合.

FF-IEF指標(biāo)同時(shí)衡量三元組的出現(xiàn)頻率和區(qū)分程度,定義如式(4)所示.

該指標(biāo)可有效衡量尾實(shí)體對(duì)于頭實(shí)體的重要程度,可用于信息檢索和推薦等應(yīng)用. 在EFKG 中,一條三元組可被描述為<(h,r,t),M>,其中h表示頭實(shí)體,r表示關(guān)系,t表示尾實(shí)體,M包含3 個(gè)屬性值: 出現(xiàn)頻率N,故障頻率FF和逆向事件頻率IEF.

2 實(shí)驗(yàn)結(jié)果與圖譜應(yīng)用

2.1 實(shí)體識(shí)別結(jié)果

2.1.1 評(píng)價(jià)指標(biāo)

本文使用準(zhǔn)確率(Precision)、召回率(Recall)和F1 值作為模型的評(píng)估指標(biāo). 計(jì)算公式如下:

其中,TP為正確預(yù)測(cè)的實(shí)體數(shù),FP為預(yù)測(cè)錯(cuò)誤的實(shí)體數(shù),FN為沒(méi)有識(shí)別出的實(shí)體數(shù).

2.1.2 實(shí)驗(yàn)設(shè)置

實(shí)體識(shí)別實(shí)驗(yàn)基于PyTorch 進(jìn)行搭建,具體的環(huán)境配置參數(shù)等如表5 所示.

表5 實(shí)驗(yàn)環(huán)境

本實(shí)驗(yàn)采用BERT-Base 模型,該模型使用Bi-Transformer 關(guān)注語(yǔ)義上下文,在多項(xiàng)NLP 任務(wù)中表現(xiàn)良好. 其他模型參數(shù)如表6 所示.

表6 參數(shù)設(shè)置

2.1.3 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)采取層次抽樣的方法構(gòu)建訓(xùn)練集、驗(yàn)證集和測(cè)試集,數(shù)據(jù)劃分情況見(jiàn)上文表2. 不同模型、不同標(biāo)注粒度和標(biāo)注方案的實(shí)驗(yàn)結(jié)果如表7 所示.

表7 不同維度的3 種模型實(shí)體識(shí)別情況 (%)

可以看到,采用BERT-BiLSTM-CRF 模型和基于詞的BIOES 標(biāo)注方案得到的命名實(shí)體識(shí)別效果最好,F1 值為90.25%.

基于詞和基于字是兩種不同的標(biāo)注粒度. 由于中文的詞之間沒(méi)有嚴(yán)格的界限,且自動(dòng)化的分詞工具有一定誤差,因此在通用領(lǐng)域中,基于字的標(biāo)注粒度更為主流. 但對(duì)于發(fā)動(dòng)機(jī)故障領(lǐng)域而言,領(lǐng)域詞典能保證較高的分詞準(zhǔn)確率,并且詞向量相比字向量能包含更準(zhǔn)確的語(yǔ)義信息,因此整體而言,基于詞的標(biāo)注方案優(yōu)于基于字的方案.

從標(biāo)注方案角度而言,3 種模型的結(jié)果都是BIOES優(yōu)于BIO 方案,即更細(xì)致化的標(biāo)注能給命名實(shí)體識(shí)別帶來(lái)更好的效果. 例如,“發(fā)動(dòng)機(jī)”一詞在BIO 方案下會(huì)被標(biāo)注成“B_LOC”,其后可能存在“共軌管(I_LOC)”或其他類型的標(biāo)注,對(duì)整體的識(shí)別造成困難; 而在BIOES方案中,“發(fā)動(dòng)機(jī)”直接標(biāo)注成“S_LOC”,實(shí)體邊界更清晰,有利于識(shí)別效果提升.

本實(shí)驗(yàn)中,不同實(shí)體類別的識(shí)別效果如表8 所示.

表8 不同標(biāo)注類別的實(shí)體識(shí)別情況 (%)

可以看到,在發(fā)動(dòng)機(jī)維修數(shù)據(jù)中,維修建議與故障現(xiàn)象的整體識(shí)別效果較好,主要由于其結(jié)構(gòu)性較強(qiáng),一般由兩三個(gè)詞概括而成,如“漏油”“動(dòng)力不足”等. 而故障部位和故障狀態(tài)實(shí)體的準(zhǔn)確度較低,則由于其在句子中出現(xiàn)的位置較隨機(jī),且上下文信息不確定性較強(qiáng),在小數(shù)據(jù)集上表現(xiàn)一般.

2.2 基于貝葉斯推理的輔助決策模型

輔助決策模型即在給定發(fā)動(dòng)機(jī)信息和表現(xiàn)的情況下,推薦其可能出現(xiàn)的故障原因. 以故障部位為例,根據(jù)樸素貝葉斯定理,給定發(fā)動(dòng)機(jī)當(dāng)前狀態(tài)S,任意一個(gè)故障部位FLi出現(xiàn)問(wèn)題的概率如式(8)所示.

其中,S={Mileage,Model,PrdUse,FalutSym,···}為給定發(fā)動(dòng)機(jī)的參數(shù)信息,J=P(S1,S2,···,S|S|)為參數(shù)集合S的聯(lián)合分布.

對(duì)于一臺(tái)給定的發(fā)動(dòng)機(jī),J值是固定的,可將其忽略.P(FLi)為該部位發(fā)生故障的先驗(yàn)概率,P(Sk|FLi)即三元組<(h,r,t),M>的FF值(見(jiàn)式(2)),其中h為FLi,t為Sk. 因此,該值均可以從三元組的屬性中直接獲取.

對(duì)于一個(gè)故障部位,可能存在多個(gè)故障狀態(tài)FS,任意一個(gè)故障狀態(tài)FSj的概率如式(9)所示.

其中,S為發(fā)動(dòng)機(jī)的參數(shù)集合,J=P(FLi,S1,S2,···,S|S|)表示S和FLi的聯(lián)合分布,且對(duì)于不同的故障狀態(tài)該值固定. 類似的,P(FS j),P(Sk|FS j)和P(FLi|FS j)可從對(duì)應(yīng)的三元組屬性中直接獲取.

故障原因FR由故障部位FL和故障狀態(tài)FS聯(lián)合表示,如式(10)所示.

為了評(píng)估該輔助決策模型的有效性,本文將其與XGBoost[22]和LightGBM[23]進(jìn)行對(duì)比. 實(shí)驗(yàn)為一個(gè)多分類任務(wù),即給定發(fā)動(dòng)機(jī)信息,預(yù)測(cè)其故障原因. 在實(shí)驗(yàn)前,本文對(duì)數(shù)據(jù)集做了一些預(yù)處理,如缺失值填充、連續(xù)值離散化、離散特征編碼等.

發(fā)動(dòng)機(jī)故障原因有數(shù)百種,遵循帕累托原理,即大多數(shù)事故是由少數(shù)原因引起的,并且由于長(zhǎng)尾分布,某些故障原因的樣本數(shù)較小,直接在全體數(shù)據(jù)集上運(yùn)行分類模型效果較差. 因此,本文構(gòu)建了多個(gè)數(shù)據(jù)集用于測(cè)試模型在不同故障原因類別數(shù)下的性能,如表9.

表9 不同故障原因類別數(shù)據(jù)集

根據(jù)故障原因類別數(shù),將這些數(shù)據(jù)集稱為FR(20),FR(30),FR(50)和FR(100). 本文使用Recall@5 作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如表10 所示.

表10 不同模型的Recall@5 值

可以看到,本文設(shè)計(jì)的輔助決策模型性能比直接在原始數(shù)據(jù)集上運(yùn)行多分類模型的效果更好.

3 EFKG 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

3.1 系統(tǒng)設(shè)計(jì)

本文基于構(gòu)建后的知識(shí)圖譜,設(shè)計(jì)并實(shí)現(xiàn)了EFKG原型系統(tǒng),主要提供以下功能.

1)知識(shí)抽取

廠商們?cè)跉v年的發(fā)動(dòng)機(jī)故障維修工作中已積累大量歷史售后數(shù)據(jù),并以文本的形式存儲(chǔ),然而目前難以利用海量的非結(jié)構(gòu)化數(shù)據(jù). 知識(shí)抽取從非結(jié)構(gòu)化數(shù)據(jù)中自動(dòng)化識(shí)別故障實(shí)體,將數(shù)據(jù)轉(zhuǎn)化為知識(shí),并以三元組的方式存儲(chǔ),有利于后續(xù)的檢索和診斷功能.

2)知識(shí)檢索

基于歷史故障信息獲取故障和故障之間的相似性一直是領(lǐng)域研究重點(diǎn). 利用知識(shí)圖譜對(duì)實(shí)體進(jìn)行相關(guān)性評(píng)價(jià)指標(biāo)排序,可以幫助工作人員充分挖掘歷史故障信息中包含的價(jià)值.

3)輔助診斷

發(fā)動(dòng)機(jī)結(jié)構(gòu)的復(fù)雜性導(dǎo)致其故障難以避免,而在不拆解發(fā)動(dòng)機(jī)的情況下很難預(yù)測(cè)其故障原因. 本文利用知識(shí)圖譜提供先驗(yàn)知識(shí),利用基于貝葉斯推理的輔助決策系統(tǒng)確定故障原因,有助于在拆解前提高發(fā)動(dòng)機(jī)故障診斷的效率和準(zhǔn)確性.

系統(tǒng)總體架構(gòu)如圖4 所示.

圖4 系統(tǒng)總體架構(gòu)

系統(tǒng)包括數(shù)據(jù)持久層、控制層和視圖層. 數(shù)據(jù)持久層使用Neo4j 圖數(shù)據(jù)庫(kù)和MongoDB 非關(guān)系型數(shù)據(jù)庫(kù)分別保存三元組和算法模型. 控制層采用Django 框架,通過(guò)RESTful 風(fēng)格的API 接收前端查詢請(qǐng)求,生成Neo4j數(shù)據(jù)庫(kù)的DQL 語(yǔ)句后,通過(guò)Py2neo 接口調(diào)用Neo4j 的引擎,并將結(jié)果返回給前端展示. 對(duì)于MongoDB 的算法模型(實(shí)體識(shí)別、輔助故障診斷)調(diào)用也通過(guò)控制層進(jìn)行. 視圖層負(fù)責(zé)前端頁(yè)面展示,使用JavaScript 和Echart工具完成圖表繪制,并提供較為簡(jiǎn)潔的交互功能.

3.2 EFKG 系統(tǒng)查詢與可視化

系統(tǒng)從近年來(lái)濰柴公司數(shù)十萬(wàn)條柴油發(fā)動(dòng)機(jī)售后維修報(bào)告中抽取12534 個(gè)實(shí)體和408972 條三元組,存儲(chǔ)在Neo4j 圖數(shù)據(jù)庫(kù)中,部分示例如圖5 所示.

圖5 圖數(shù)據(jù)庫(kù)示例

實(shí)體識(shí)別模塊負(fù)責(zé)從輸入語(yǔ)句中識(shí)別發(fā)動(dòng)機(jī)故障實(shí)體,如圖6 所示. 當(dāng)前端頁(yè)面輸入發(fā)動(dòng)機(jī)維修相關(guān)語(yǔ)句時(shí),后臺(tái)調(diào)用已訓(xùn)練好的模型進(jìn)行實(shí)體識(shí)別,并將標(biāo)注結(jié)果返回到前端(藍(lán)色字體標(biāo)識(shí)),鼠標(biāo)點(diǎn)擊對(duì)應(yīng)文本可查看其所屬的實(shí)體類別. 該模塊實(shí)現(xiàn)了維修報(bào)告的自動(dòng)化錄入.

圖6 實(shí)體識(shí)別模塊

實(shí)體查詢模塊可查詢實(shí)體與實(shí)體間的關(guān)系,也可直接輸入Cypher 查詢語(yǔ)言進(jìn)行更靈活的自定義查詢,如圖7 所示,查詢“前排氣歧管”,返回與之相關(guān)的實(shí)體和關(guān)系并進(jìn)行可視化展示. 前端頁(yè)面通過(guò)Echarts 渲染,點(diǎn)擊實(shí)體或關(guān)系可以查看對(duì)應(yīng)三元組的屬性.

圖7 實(shí)體查詢模塊

相關(guān)實(shí)體會(huì)在下方以表格形式展示,并通過(guò)FF-IEF指標(biāo)排序. 圖8 展示了與“活塞”相關(guān)的部分故障現(xiàn)象,“發(fā)動(dòng)機(jī)機(jī)油耗高”現(xiàn)象與該部位的FF-IEF 值為2.07,說(shuō)明二者相關(guān)性較高.

圖8 實(shí)體相關(guān)性列表

輔助診斷模塊自定義輸入發(fā)動(dòng)機(jī)特征(里程、型號(hào)、用途、故障現(xiàn)象等),特征數(shù)可通過(guò)“新增條件”按鈕控制,通過(guò)調(diào)用基于貝葉斯的輔助診斷模型預(yù)測(cè)其可能出現(xiàn)的故障原因,如圖9 所示.

圖9 輔助診斷模塊

4 結(jié)論與展望

為解決發(fā)動(dòng)機(jī)維修過(guò)程中極度依賴維修人員個(gè)人經(jīng)驗(yàn)、缺乏定量事實(shí)依據(jù)等問(wèn)題,本文利用發(fā)動(dòng)機(jī)故障報(bào)告構(gòu)建發(fā)動(dòng)機(jī)維修領(lǐng)域知識(shí)圖譜,深度挖掘設(shè)備之間共性問(wèn)題,從數(shù)據(jù)和知識(shí)層面指導(dǎo)發(fā)動(dòng)機(jī)故障診斷和維修工作,主要成果如下.

1)建立了從真實(shí)發(fā)動(dòng)機(jī)維修數(shù)據(jù)集中構(gòu)建知識(shí)圖譜的系統(tǒng)流程和本體設(shè)計(jì),構(gòu)建了發(fā)動(dòng)機(jī)故障知識(shí)圖譜EFKG,共包含12534 個(gè)實(shí)體和408972 條三元組.

2)對(duì)發(fā)動(dòng)機(jī)維修領(lǐng)域文本做了較全面的命名實(shí)體識(shí)別對(duì)比實(shí)驗(yàn). 整體而言,BERT-BiLSTM-CRF 模型基于詞的標(biāo)注粒度和BIOES 標(biāo)注方案效果更好.

3)設(shè)計(jì)了實(shí)體相關(guān)性評(píng)價(jià)指標(biāo)FF-IEF 和基于貝葉斯推理的輔助決策模型,相比基于機(jī)器學(xué)習(xí)的多分類模型取得更好的推理效果.

4)設(shè)計(jì)并實(shí)現(xiàn)EFKG 原型系統(tǒng),基于Neo4j 圖數(shù)據(jù)庫(kù)存儲(chǔ)和Django Web 框架,實(shí)現(xiàn)了查詢和可視化等功能,為EFKG 的落地應(yīng)用提供技術(shù)參考.

后續(xù)研究一方面可聚焦在整個(gè)發(fā)動(dòng)機(jī)維修領(lǐng)域的大規(guī)模數(shù)據(jù)集的構(gòu)建,另一方面可在故障原因推理模型中,考慮擴(kuò)充數(shù)據(jù)來(lái)源和影響因素,提高推理效果.

致謝

感謝濰柴動(dòng)力股份有限公司張明國(guó)工程師的支持.

猜你喜歡
圖譜實(shí)體發(fā)動(dòng)機(jī)
“植物界大熊貓”完整基因組圖譜首次發(fā)布
基于偽譜法的水下航行體快速操舵變深圖譜研究
基于ColBert-EL 和MRC 模型的零樣本實(shí)體鏈接
我是人體的“發(fā)動(dòng)機(jī)”
實(shí)體書(shū)店步入復(fù)興期?
圖表
2017實(shí)體經(jīng)濟(jì)領(lǐng)軍者
TWP100C渦噴發(fā)動(dòng)機(jī)
發(fā)動(dòng)機(jī)阻力矩計(jì)算和起動(dòng)機(jī)介紹
2016國(guó)際年度發(fā)動(dòng)機(jī)大獎(jiǎng)公布
三门县| 德兴市| 东乡| 新巴尔虎左旗| 梁山县| 凤台县| 西乌珠穆沁旗| 梅河口市| 遂川县| 克东县| 清新县| 东辽县| 磐安县| 浦县| 岚皋县| 溧水县| 东至县| 涟源市| 鹤山市| 舞钢市| 红安县| 呈贡县| 玛曲县| 武定县| 花垣县| 元谋县| 茂名市| 宝山区| 定边县| 彩票| 英山县| 曲周县| 宁陵县| 达日县| 淮北市| 安阳县| 治多县| 普洱| 满洲里市| 栾川县| 华安县|