曹現(xiàn)剛, 張夢園, 雷卓, 段欣宇, 陳瑞昊
(1.西安科技大學(xué) 機械工程學(xué)院, 陜西 西安 710054;2.陜西省礦山機電裝備智能監(jiān)測重點實驗室, 陜西 西安 710054)
煤礦裝備維護(hù)是基于裝備類型、維護(hù)方案、工作環(huán)境等多種因素綜合作用的結(jié)果,其覆蓋的各類相關(guān)信息具有復(fù)雜、分散等特點,存在共享度低及缺乏有效管理等問題,制約了煤礦智能化發(fā)展[1]。近年來,許多研究通過建立大數(shù)據(jù)管理系統(tǒng)以實現(xiàn)對煤礦裝備維護(hù)信息的管理。曹現(xiàn)剛等[2]提出了一種基于Hadoop的煤礦機電設(shè)備運行狀態(tài)大數(shù)據(jù)管理平臺,以實現(xiàn)煤礦機電設(shè)備信息的高效管理。譚章祿等[3]構(gòu)建了煤炭大數(shù)據(jù)平臺管理協(xié)同構(gòu)架,旨在實現(xiàn)煤炭大數(shù)據(jù)全生命周期信息管理。程曜安等[4]提出了一種面向大型裝備的MRO(Maintenance, Repair and Operations,維護(hù)、維修和大修)支持系統(tǒng),實現(xiàn)了以中性物料清單為核心的維修知識管理。大數(shù)據(jù)管理系統(tǒng)的應(yīng)用從一定程度上提高了煤礦裝備維護(hù)信息的管理效率,但缺乏對煤礦裝備維護(hù)知識的表示能力,沒有形成相對完整的煤礦裝備維護(hù)知識管理體系,無法實現(xiàn)知識挖掘及知識間關(guān)系鏈接,導(dǎo)致大量具有深度挖掘價值的信息不能得到有效利用。
知識圖譜是一種自帶語義、蘊含邏輯含義與規(guī)則的特殊圖數(shù)據(jù),具有人類可識別、對機器友好的特點,運用知識圖譜能夠提升網(wǎng)絡(luò)環(huán)境下知識互聯(lián)和知識共享的效率[5-6]。因此,本文構(gòu)建了煤礦裝備維護(hù)知識圖譜,可將煤礦裝備維護(hù)信息聚類為具有利用價值的知識。
2012年,Google提出了知識圖譜的構(gòu)建原則,即通過概念、實體和關(guān)系形成的結(jié)構(gòu)化語義關(guān)系網(wǎng)絡(luò),以節(jié)點關(guān)系圖的形式來進(jìn)行存儲[7-8]。知識圖譜構(gòu)建主要有自頂向下和自底向上2種方式[9],可衍生為專家法、參照法、歸納法及混合法。專家法是指基于相關(guān)領(lǐng)域?qū)<抑R,利用自頂向下的構(gòu)建方式進(jìn)行總體規(guī)劃;參照法是指根據(jù)已有的行業(yè)標(biāo)準(zhǔn)進(jìn)行標(biāo)桿對照與業(yè)務(wù)適配;歸納法是指以自底向上構(gòu)建方式為主,進(jìn)行單點切入及模式抽??;混合法是將自頂向下和自底向上2種構(gòu)建方式結(jié)合。由于煤礦裝備維護(hù)沒有統(tǒng)一的行業(yè)標(biāo)準(zhǔn)來進(jìn)行標(biāo)桿對照,且相關(guān)領(lǐng)域的復(fù)合型專家不足,不適合使用參照法與專家法,而歸納法的構(gòu)建方式不夠靈活,所以選擇混合法作為煤礦裝備維護(hù)知識圖譜構(gòu)建的主要方法。
煤礦裝備維護(hù)知識圖譜構(gòu)建流程如圖1所示。首先通過定義知識圖譜概念、屬性及關(guān)系模式進(jìn)行基于本體的煤礦裝備維護(hù)知識建模;然后從數(shù)據(jù)源中獲取知識,通過命名實體識別、關(guān)系抽取及事件抽取,實現(xiàn)煤礦裝備維護(hù)知識抽??;最后選擇置信度高的知識存儲至Neo4j圖數(shù)據(jù)庫,完成煤礦裝備維護(hù)知識存儲。
圖1 煤礦裝備維護(hù)知識圖譜構(gòu)建流程
為更好地描述知識本身與知識之間的關(guān)聯(lián),在知識建模過程中,需要選擇合適的知識表示方法。傳統(tǒng)的知識表示方法在復(fù)雜知識推理過程中存在組合爆炸的可能性,因此將本體的概念[10]引入知識模型中,以解決傳統(tǒng)知識表示方法的局限性[11]。
根據(jù)本體的語義清晰度、概念一致性、可擴展性、可重復(fù)利用性的構(gòu)造原則來構(gòu)建煤礦裝備維護(hù)本體[12],主要步驟:① 確定知識本體的范圍與目標(biāo)?;诿旱V裝備維護(hù)的研究需求,以煤礦裝備為研究對象,旨在解決其信息共享、知識重用及本體擴展的問題,實現(xiàn)煤礦裝備維護(hù)知識的智能化管理。② 本體分析。主要任務(wù)包括總結(jié)重要術(shù)語、定義概念類及提取關(guān)系屬性。根據(jù)煤礦裝備維護(hù)知識特點,利用本體構(gòu)建工具Protégé[13]構(gòu)建煤礦裝備維護(hù)本體。根據(jù)煤礦裝備維護(hù)的特征,將煤礦裝備維護(hù)知識的核心概念分為設(shè)備名稱、設(shè)備狀態(tài)、維護(hù)方案、故障維修、工作人員、維護(hù)案例6個類別,如圖2所示。煤礦裝備維護(hù)本體的類屬性包括對象屬性與數(shù)據(jù)屬性。對象屬性主要表示對象之間的關(guān)聯(lián),一般用來描述類的不可量化特征;數(shù)據(jù)屬性主要表示對象與數(shù)值之間的關(guān)聯(lián),一般用來描述類的某些可量化特征。③ 本體構(gòu)建。OWL(Web Ontology Language,網(wǎng)絡(luò)本體語言)作為國際通用本體語義描述語言之一,具有強大的本體推理能力,因此本文選擇OWL作為煤礦裝備維護(hù)本體的描述語言。
圖2 煤礦裝備維護(hù)部分概念本體
知識抽取是指從海量的多源異構(gòu)數(shù)據(jù)中抽取特定的知識[14]。知識抽取的數(shù)據(jù)源類型多樣,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),針對不同類型的數(shù)據(jù)源,知識抽取的方法不同。
結(jié)構(gòu)化數(shù)據(jù)具有良好布局結(jié)構(gòu),一般存儲于關(guān)系型數(shù)據(jù)庫中。利用Ultrawrap直接實現(xiàn)關(guān)系型數(shù)據(jù)庫到RDF(Resource Description Framework,資源描述框架)或OWL的映射,以完成對結(jié)構(gòu)化數(shù)據(jù)的知識抽取。
半結(jié)構(gòu)化數(shù)據(jù)是指在一定程度上具有某種特征的數(shù)據(jù),例如網(wǎng)頁數(shù)據(jù)。通過網(wǎng)絡(luò)爬蟲實現(xiàn)對煤礦裝備維護(hù)半結(jié)構(gòu)化數(shù)據(jù)的知識抽取,具體實現(xiàn)方法有手工方法、歸納方法及自動抽取方法。手工方法通過構(gòu)建適合網(wǎng)頁數(shù)據(jù)的抽取規(guī)則,在人工分析的基礎(chǔ)上,編寫適用于當(dāng)前網(wǎng)頁的抽取表達(dá)式,抽取目標(biāo)明確、速度快,但成本高且置換性不強;歸納方法通過事先從已標(biāo)注的數(shù)據(jù)訓(xùn)練集中學(xué)習(xí)抽取規(guī)則,再對其他具有相同模板的網(wǎng)頁數(shù)據(jù)進(jìn)行知識抽取,但標(biāo)注數(shù)據(jù)的質(zhì)量會影響知識抽取的結(jié)果;自動抽取方法通過自主挖掘網(wǎng)頁中的相似規(guī)律進(jìn)行無監(jiān)督學(xué)習(xí),可免于人工標(biāo)注,但需要對知識抽取的內(nèi)容進(jìn)行降噪處理。
非結(jié)構(gòu)化數(shù)據(jù)是指符合自然語言規(guī)范的文本數(shù)據(jù),例如煤礦裝備維修工單、專家知識經(jīng)驗、維修手冊等,煤礦裝備維護(hù)知識主要來源于非結(jié)構(gòu)化數(shù)據(jù)。面向非結(jié)構(gòu)化數(shù)據(jù)的知識抽取主要步驟:通過網(wǎng)絡(luò)爬蟲及實驗室資料收集等方式獲取煤礦裝備維護(hù)相關(guān)文本語料并進(jìn)行預(yù)處理;利用HanLP等工具對預(yù)處理后的語料進(jìn)行分詞、標(biāo)注與詞向量轉(zhuǎn)換;利用TensorFlow工具訓(xùn)練Lattice-LSTM(Lattice-Long Short-Term Memory,網(wǎng)格結(jié)構(gòu)-長短期記憶網(wǎng)絡(luò))模型[15-16],采用Lattice-LSTM模型從文本中抽取實體的信息元素,實現(xiàn)命名實體識別;采用基于弱監(jiān)督學(xué)習(xí)的Bootstrapping方法從文本中抽取2個或多個實體之間的語義關(guān)系,完成關(guān)系抽??;利用基于深度學(xué)習(xí)的事件聯(lián)合抽取方法從文本中抽取需要的事件信息,并以結(jié)構(gòu)化方式呈現(xiàn),實現(xiàn)事件抽取。
知識圖譜通常采用關(guān)系型數(shù)據(jù)庫、RDF三元組及圖數(shù)據(jù)庫來實現(xiàn)知識存儲[17]。關(guān)系型數(shù)據(jù)庫在每一次處理過程中都需添加新的表與字段,增加了開發(fā)難度的同時降低了系統(tǒng)穩(wěn)定性;利用RDF進(jìn)行語義描述時不僅需要提前制訂滿足特定領(lǐng)域所需的RDF規(guī)則詞匯表,還需要使用RDF的特定工具才能完成相應(yīng)操作,不夠簡單、靈活。而圖數(shù)據(jù)庫只需插入節(jié)點與邊即可實現(xiàn)數(shù)據(jù)的高效存儲與查詢[18],因此本文使用圖數(shù)據(jù)庫Neo4j來實現(xiàn)煤礦裝備維護(hù)知識存儲。Neo4j的標(biāo)簽表示煤礦裝備維護(hù)知識的概念,節(jié)點和節(jié)點屬性分別表示實體與實體屬性,邊和邊屬性分別表示實體間的關(guān)系和關(guān)系屬性?;贜eo4j的知識存儲方案見表1。
表1 基于Neo4j的知識存儲方案
利用Neo4j專屬的聲明式查詢語言——Cypher語言,實現(xiàn)對圖數(shù)據(jù)庫中知識節(jié)點與關(guān)系的增刪改查等操作,具體操作方法:使用CREATE語句創(chuàng)建煤礦裝備維護(hù)實體節(jié)點;使用MATCH語句更新或查詢實體節(jié)點或關(guān)系;使用WHERE語句設(shè)置查詢過程中的匹配條件等。
煤礦裝備維護(hù)知識圖譜可實現(xiàn)智能語義搜索、智能問答、可視化決策支持等應(yīng)用,有利于用戶高效查詢和學(xué)習(xí)煤礦裝備維護(hù)概念、維修方案等知識,并可推理潛在的知識,進(jìn)而增進(jìn)知識共享,提高煤礦智能化背景下的煤礦裝備維護(hù)水平。
(1) 智能語義搜索。當(dāng)前基于關(guān)鍵詞的傳統(tǒng)搜索在知識圖譜的知識支持下可上升到基于實體和關(guān)系的搜索,稱之為語義搜索[19]。語義搜索利用知識圖譜的實體鏈接,解決了傳統(tǒng)搜索中關(guān)鍵詞語義消歧的難題。煤礦裝備維護(hù)人員借助語義檢索可得到準(zhǔn)確性高、關(guān)聯(lián)度強的查詢結(jié)果,有利于提高工作效率,保障煤礦裝備正常運行。
(2) 智能問答。問答系統(tǒng)是一種能夠讓計算機對用戶提出的問題進(jìn)行自動回復(fù)的高級形式信息服務(wù)模式[20]。區(qū)別于現(xiàn)有的搜索引擎,問答系統(tǒng)以精準(zhǔn)的自然語言搜索答案取代與關(guān)鍵詞相關(guān)度高的文檔并返回給用戶。智能問答可針對煤礦裝備維護(hù)人員輸入的自然語言進(jìn)行理解,從知識圖譜或目標(biāo)數(shù)據(jù)中給出問題的答案,并對返回答案進(jìn)行評分評定以確定優(yōu)先級順序,實現(xiàn)了煤礦裝備維護(hù)人員依據(jù)經(jīng)驗開展維護(hù)工作到依據(jù)數(shù)據(jù)開展維護(hù)工作的轉(zhuǎn)變,有利于高效搜索的實現(xiàn)。
(3) 可視化決策支持。通過統(tǒng)一的圖形接口,結(jié)合可視化、推理、檢索等為用戶提供信息獲取的入口被稱之為可視化決策支持。例如,決策支持可以通過圖譜可視化技術(shù)對煤礦裝備維護(hù)知識圖譜中的采煤機故障部件、故障部件運行參數(shù)等信息進(jìn)行解讀,有利于輔助煤礦裝備維護(hù)人員實行最佳決策,提高維護(hù)工作效率與能力。
從知識建模、知識抽取及知識存儲3個方面描述了煤礦裝備維護(hù)知識圖譜構(gòu)建流程。首先通過定義概念、屬性、關(guān)系進(jìn)行基于本體的煤礦裝備維護(hù)知識建模;然后從結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源中獲取知識,通過命名實體識別、關(guān)系抽取和事件抽取完成煤礦裝備維護(hù)知識抽?。蛔詈蠡趫D數(shù)據(jù)庫Neo4j實現(xiàn)煤礦裝備維護(hù)知識存儲,形成煤礦裝備維護(hù)知識圖譜。煤礦裝備維護(hù)知識圖譜可實現(xiàn)智能語義搜索、智能問答及可視化決策支持等應(yīng)用,能有效提高煤礦裝備維護(hù)知識利用率,為煤礦裝備智能化動態(tài)管理的實現(xiàn)提供有利支持。