工業(yè)機器人預測式健康管理本體半自動化構(gòu)建*

2022-01-27 09:50柳少峰黃子豪姜文超賀忠堂

組合機床與自動化加工技術 2022年1期

柳少峰，肖紅，黃子豪，姜文超,，熊夢，賀忠堂

(1.廣東工業(yè)大學計算機學院，廣州 510006；2.中國科學院云計算產(chǎn)業(yè)技術創(chuàng)新與育成中心，東莞 523808)

0 引言

隨著工業(yè)機器人的普及，企業(yè)內(nèi)部積累了許多工業(yè)機器人PHM相關案例記錄和知識信息，資源豐富，但缺乏深度利用。如何提取和重用這些案例和知識，并應用于工業(yè)機器人后續(xù)故障預測、故障診斷以及日常健康管理，困難程度較高，構(gòu)建工業(yè)機器人PHM 本體成為一種可行的解決方案。本體被定義為客觀現(xiàn)實的一個本質(zhì)抽象，是對客觀事物的形式化、規(guī)范化描述[1]。

傳統(tǒng)領域本體構(gòu)建方法是領域?qū)＜液脱芯咳藛T參與的人工構(gòu)建方法[2]。劉鑫[3]結(jié)合故障樹分析法，采用手動構(gòu)建本體方式，構(gòu)建了故障診斷領域本體。然而，這種人工構(gòu)建方法不夠智能、成本高，易受主觀影響，構(gòu)建的本體不完備。因此，自動化構(gòu)建本體正在逐漸取代人工構(gòu)建方式。目前，國內(nèi)外學者關于自動化構(gòu)建本體的研究主要針對概念抽取和關系抽取。鄭姝雅等[4]使用主題模型(LDA)完成用戶生成內(nèi)容領域的概念抽取，驗證了LDA算法的有效性。唐琳等[5]認為領域?qū)W術論文關鍵詞是領域中的核心概念，因此采用詞頻篩選出核心概念。在概念關系抽取方面，鄭姝雅等[4]構(gòu)建出概念完全圖，使用基于最小生成樹改進的層次聚類算法來處理概念間的層次關系。SATHIYA等[6]提出CBC(clustering by committee)聚類算法，獲得了準確率較好的層次關系抽取。

然而，上述方法對于構(gòu)建工業(yè)機器人PHM本體并不十分適用，一些概念抽取算法在不同領域有不同適用性，通用概念抽取算法對該領域概念抽取效果并不好；其次，已有非層次關系抽取方法只能判斷出哪兩個概念具有非層次關系，而無法得出具體關系標簽[7]，此外在處理非層次關系時傾向于先處理同義關系，這會導致被合并同義詞所附帶的其他語義關系消失。針對以上問題，本文提出一種工業(yè)機器人PHM半自動化構(gòu)建的方法，本方法已成功應用于某型號國產(chǎn)機器人日常健康管理，實際應用效果證明本方法的有效性與可行性。

1 工業(yè)機器人PHM本體半自動化構(gòu)建

工業(yè)機器人PHM本體半自動化構(gòu)建框架如圖1所示，主要包括：數(shù)據(jù)獲取及預處理、概念抽取、概念關系抽取、本體形成四個階段。其中概念抽取以及概念關系抽取采用自動獲取方式，數(shù)據(jù)獲取及預處理、本體形成需要人工參與，具體步驟如下：

圖1 工業(yè)機器人PHM本體半自動化構(gòu)建框架圖

步驟1：獲取工業(yè)機器人PHM語料，對語料進行篩選、分詞、去除停用詞等預處理獲得候選概念集；

步驟2：利用本文提出的概念抽取算法從候選概念集中抽取核心概念；

步驟3：基于Dice測度測量概念關聯(lián)強度，基于CSC語義詞庫和搜索引擎抽取上下屬關系，基于SAO結(jié)構(gòu)抽取交叉關系，基于詞典抽取同義關系；

步驟4：將抽取出的概念和概念關系進行整合，使用Protégé工具構(gòu)建OWL本體，并持久化與可視化。

1.1 數(shù)據(jù)獲取及預處理

本文語料包括企業(yè)工業(yè)機器人故障維修文檔、垂直網(wǎng)站文章、學術文獻等。定義若干關鍵字，根據(jù)該關鍵字檢索知識服務平臺、博客服務平臺，使用爬蟲工具爬取相關文獻、博客。這些文檔合并定義為工業(yè)機器人PHM領域相關文檔集合A。采用規(guī)則過濾和人工過濾方式篩選無關文章文獻。篩選后的文檔定義為工業(yè)機器人PHM領域文檔集合A(pro)，作為本文實驗語料庫。

對語料庫中的文本進行分詞，考慮到該領域?qū)Ω拍顪蚀_性的要求，選用Jieba分詞工具精確模式進行分詞。此外，該領域部分詞匯采用詞組形式，比如詞匯“一相電源”在一般情況下會分成“一相”和“電源”兩個詞語，為了提高分詞準確度，在分詞時加載自定義領域詞典，詞典詞匯由搜狗細胞詞庫中機械專業(yè)詞庫、機械工程詞匯表等組成。完成分詞后，使用專業(yè)中文停用詞表將一些領域相關性不強、含義較為廣泛的常用詞如“得到”、“怎么”等過濾掉，最終得到分詞結(jié)果，分詞后的所有詞語定義在候選概念集合W中。

1.2 PHM本體概念抽取

從集合W中確定具有領域代表性的概念是構(gòu)建本體的關鍵步驟。一般來說，工業(yè)機器人PHM領域核心概念和該領域文檔中的關鍵詞非常相似，此外，可以發(fā)現(xiàn)工業(yè)機器人PHM中詞匯之間存在嵌套現(xiàn)象，類似復合詞，如“減速機”與“齒輪減速機”存在嵌套關系。因此，篩選核心概念時不僅要考慮詞匯詞頻還要結(jié)合該領域中詞匯特點，所以本文融合詞頻、文檔頻率、TF-IDF算法、C-value算法來提取核心概念。

詞頻和文檔頻率(包含該詞匯的文檔數(shù))兩個指標均反映了該詞匯在語料庫中出現(xiàn)的頻率。TF-IDF(term frequency-inverse document frequency)算法可以衡量語料庫中一個詞匯對所在文檔的重要程度，詞匯在文檔中出現(xiàn)次數(shù)越高，該詞匯越重要，同時，詞匯在語料庫其他文檔出現(xiàn)的頻率越高，該詞重要性下降。TF-IDF值計算如式(1)所示。

(1)

式中，f(i|a)表示詞語i在a文檔中的詞頻；Y(i)表示i的文檔頻率；Y表示語料庫中文檔總數(shù)。

C-value算法充分考慮到嵌套詞匯影響，若詞匯i不是被嵌套詞匯，則i的C-value值取決于i的詞頻值和i的長度。若i被嵌套，則會降低i的C-value值。具體計算如式(2)所示。

(2)

式中，len(i)表示詞匯i的長度；f(i)為i的詞頻；Ti表示嵌套i詞匯b的集合。

考慮到工業(yè)機器人PHM核心詞匯特點，本文提出工業(yè)機器人PHM領域概念抽取綜合算法領域相關度DR(domain relevance)，DR計算如式(3)所示。

DR=β1·log2f(i)+β2·log2Y(i)+

β3·TF-IDF(i)+β4·C-value(i),i∈W

(3)

式中，β1+β2+β3+β4=1，均為4個指標對DR的權(quán)重。根據(jù)各方法影響程度不同，本文設置權(quán)重分別為：β1=0.15，β2=0.15，β3=0.35，β4=0.35。對DR值進行排序，設置閾值得到工業(yè)機器人PHM領域概念集合Wkey。

1.3 PHM本體概念關系抽取

概念間關系抽取發(fā)現(xiàn)作為本體構(gòu)建最重要的步驟之一，抽取的三元組(概念，關系，概念)是工業(yè)機器人PHM本體的基本組成元素。

工業(yè)機器人領域概念間關系紛繁復雜，結(jié)合邏輯學[8]，將該領域概念間關系分為5種：全同關系、上屬關系、下屬關系、交叉關系和全異關系。上屬關系表示被包含關系，例如，“齒輪減速機是減速機的一種”，可以看出，“齒輪減速機”和“減速機”是上屬關系。下屬關系表示包含關系，例如“電機轉(zhuǎn)子由鐵芯、轉(zhuǎn)子繞組、軸承、轉(zhuǎn)軸等組成”，可以判斷出“電機轉(zhuǎn)子”與“鐵芯”是下屬關系。交叉關系表示兩個概念間有交集，例如“減速機的軸承損壞或者過分磨損”，“軸承”與“損壞”或者“磨損”就是交叉關系。全同關系指兩個詞概念完全相同。全異關系指兩個概念完全沒有交集，例如，冷卻裝置和傳動轉(zhuǎn)置屬于全異關系。

5種關系具有互斥性，本文對概念間關系的抽取主要集中在抽取概念全同關系、上下屬關系以及交叉關系，全異關系抽取不做研究。此外，抽取全同關系和上下屬關系時不需要抽取關系名稱。交叉關系則相反，需要抽取概念對的關系名稱。

綜上所述，本文提出該領域概念間關系抽取“三步法”，具體步驟如下：

步驟1：確定概念集合Wkey中哪兩個概念具有關系；

步驟2：對有關系的概念對進行上下屬關系、交叉關系的識別、抽取，初步構(gòu)建三元組；

步驟3：識別、抽取全同關系，對有全同關系的概念對的三元組進行合并。

1.3.1 基于Dice測度的關聯(lián)強度測量

本文定義了工業(yè)機器人PHM本體概念間關系R，R的描述如式(4)所示。

R={R(i,j)=|i,j∈Wkey}

(4)

式中，i和j為一對概念對；CRS(correlation strength)表示概念間的關聯(lián)強度；α表示概念間關系類型；S為上下屬關系傾向性評分，評分越高說明概念對是上下屬關系的可能性越大；[rn]表示抽取出來的關系名稱列表。CRS越高說明兩個概念間存在關系的可能性越大。CRS和概念對共現(xiàn)的次數(shù)有一定相關性，因此確定CRS可以使用基于Dice測度的方法。Dice測度通過結(jié)合概念的詞頻以及概念對共現(xiàn)的頻次來計算CRS，具體計算如式(5)所示。

(5)

式中，D2(i,j)表示概念i和j的CRS；f(i)為i的詞頻；f(j)為j的詞頻；f(i,j)為i和j共同出現(xiàn)的頻率。此外，D2(i,j)值和D2(j,i)值是相同的，因此R中R(i,j)和R(j,i)的CRS也是相同的。

本文對于關聯(lián)強度超過一定閾值min_CRS的概念對認定為具有關系，將min_CRS的值設定為0.003，對于沒有關系的概念對移出工業(yè)機器人PHM概念間關系集R，對于有關系的概念對使用兩種方法識別概念對的上下屬關系，式(4)中S打分分別為基于CSC語義詞庫的上下屬關系抽取和基于搜索引擎上下屬關系抽取。

1.3.2 基于CSC語義詞庫的上下屬關系抽取

CSC中文語義詞庫收入超過190 000詞條，每個詞條包含了豐富語義信息，因此可作為自然語言處理領域的輔助資源。

基于CSC詞庫抽取上下屬關系的流程為：給定概念i和j，在CSC中查找i的同義、近義詞集合wi，查找i和集合wi的所有下位詞集合wh，查找j的同義、近義詞集合wj，如果在wh中能找到j或wj中的一個詞，那么說明i是j的上屬概念，i和j是上屬關系。對于這兩個概念，依據(jù)這種方法獲取的關系對的評分記為S1(i,j)=1。

若i和j不存在上屬關系，而存在下屬關系，則S1(i,j)=0，但是由上文可知，上屬關系和下屬關系可以相互轉(zhuǎn)換，如i下屬于j能夠轉(zhuǎn)換為j上屬于i，即S1(j,i)=1，因此為了便于研究，本文對概念對上下屬關系的抽取更集中于對上屬關系的抽取識別。

1.3.3 基于搜索引擎的上下屬關系抽取

受語料庫文檔數(shù)量限制，僅從語料庫中提取概念對關系遠遠不夠，部分概念間關系可能無法得到表示，需要結(jié)合數(shù)據(jù)量更大的搜索引擎進行抽取。

搜索查詢前需要制定查詢?nèi)M，查詢?nèi)M由概念對以及語義特征詞構(gòu)成，首先構(gòu)建表示上下屬關系的特征詞模板集合，如表1所示，其中，A和B為兩個概念，表中A上屬于B，其次構(gòu)建查詢?nèi)M，例如(A，“組成”，B)等，查詢?nèi)M應保證A和B的上下屬關系方向性一致。

表1 上下屬關系語言模板

采用查詢?nèi)M(概念i，特征詞，概念j)在語料庫A(pro)和谷歌、百度等搜索引擎中分別進行檢索查詢，查詢時以句子為單位，并且將概念對限制在N個詞窗口內(nèi)，本文N=10。統(tǒng)計查詢?nèi)M在語料庫A(pro)中出現(xiàn)的次數(shù)記為numA(i,j)，在搜索引擎中出現(xiàn)的次數(shù)記為numW(i,j)。提出通過語料庫或搜索引擎中獲取概念對關系的評分計算如式(6)所示。

(6)

式中，num(i,j)表示概念對i和j構(gòu)成的三元組在語料庫或者搜索引擎中查詢出的次數(shù)。計算出在語料庫A(pro)中的得分為S2A(i,j)，搜索引擎中的得分為S2W(i,j)。

結(jié)合兩種方法得出式(4)概念對i和j關系R(i,j)中S的具體計算如式(7)所示。

S(i,j)=γ1×S1(i,j)+γ2×S2A(i,j)+γ3×S2W(i,j)

(7)

其中，γ1、γ2、γ3為三種方式評分權(quán)重，γ1+γ2+γ3=1，通過實驗經(jīng)驗，取γ1=0.4，γ2=0.4，γ3=0.2。當S(i,j)值超過設定閾值時，認定i和j為上屬關系。由上文可知，此時i和j不存在下屬關系，j不會上屬于i，即R(j,i)不存在，R(j,i)移出概念關系集合R。

1.3.4 基于SAO結(jié)構(gòu)的交叉關系抽取

工業(yè)機器人PHM本體概念對交叉關系基本上都具有noun-verb-noun結(jié)構(gòu)形式，這種形式與SAO結(jié)構(gòu)(subject-action-object)[9]近似，SAO結(jié)構(gòu)表示為主語、謂語、賓語的關系，而動詞常做謂語。比如：“減速機箱體內(nèi)有雜物”，其中“箱體”與“雜物”就是“有”的關系，因此，對交叉關系抽取集中于對概念間動詞抽取。具體算法如下：

(1)提取出PHM語料庫中非上下屬關系的概念對i和j之間的所有動詞，作為i和j間(方向i→j)的備選概念關系集；

(2)循環(huán)取出備選概念關系集中的動詞v與概念對組成三元組C={i,j,v}，用集合E={C1,C2,...,Cn}表示概念對和所有動詞的三元組的集合；

(3)從E中循環(huán)取出C，計算概念對與動詞的正點互信息值PPMI，具體計算如式(8)所示。式中P(·)為以句子為單位的概率；

(8)

(4)對所有的PPMI值進行排序，選取PPMI最大的動詞作為i和j的交叉關系。繼續(xù)提取交叉關系，跳至步驟1，如果全部提取完畢，跳至步驟5；

(5)對于i與j的兩個方向關系R(i,j)、R(j,i)，這里只保留PPMI值最大的交叉關系，若兩個PPMI值均為0，則人工給出概念間具體的交叉關系。

1.3.5 全同關系抽取

因為不同企業(yè)之間對于工業(yè)機器人PHM概念可能存在二義性情況，不同概念間可能具有全同關系。全同關系的識別采用通用同義詞典匹配，使用以哈爾濱工業(yè)大學修訂的同義詞典為主進行同義匹配。對于確定是全同關系的概念對(i,j)，需要將概念進行合并，將j所附帶的語義關系轉(zhuǎn)移到i中。

1.4 本體形成

前述抽取的關系可能存在錯誤情況，需要人工檢查，剔除錯誤的三元組。在獲取工業(yè)機器人PHM概念以及概念關系后，需要將這些概念及其關系進行持久化、可視化，便于工業(yè)機器人PHM本體信息管理以及后續(xù)知識應用，也有利于用戶直觀了解該領域的知識信息。當前主流的本體構(gòu)建工具包括OntoLearn、TextStorm/Clouds、ASIUM、Protégé等[10]。本文應用Protégé工具編輯工業(yè)機器人PHM本體，對本體進行持久化與可視化。

2 實驗結(jié)果與分析

2.1 實驗數(shù)據(jù)

定義“工業(yè)機器人預測式健康管理”“工業(yè)機器人PHM”“工業(yè)機器人故障維修”等關鍵字，使用這些關鍵詞檢索維普期刊平臺、簡書博客，使用爬蟲工具爬取相關信息。企業(yè)維修記錄和爬取的文檔共1690篇。使用規(guī)則過濾和人工過濾方式篩掉非該領域的文檔。最后為工業(yè)機器人PHM文檔集作為本文構(gòu)建本體的語料庫，一共1276篇。

2.2 實驗結(jié)果分析

通過對工業(yè)機器人PHM語料預處理后，使用本文概念抽取算法進行實驗，對所有詞匯DR值進行計算，部分詞匯DR值如表2所示。對于DR值超過預設閾值時，將其作為該領域的核心概念，實驗最終設定閾值為4.000，共抽取出核心概念243個。

表2 部分詞匯DR值

此外，本文基于相同語料庫A(pro)展開了多種本體概念抽取主流算法對比實驗，分別與TF-IDF算法、C-value算法、LDA主題模型[11]對比，對比數(shù)據(jù)為使用算法后排序的前K個概念，通過人工方法對抽取的結(jié)果進行評估，統(tǒng)計準確率指標，實驗結(jié)果如圖2所示?？梢钥闯?，本文概念抽取算法在準確率上有顯著提升，比最好的TF-IDF算法平均高出10%。LDA主題模型在短文本數(shù)據(jù)諸如企業(yè)記錄上進行概念抽取效果不佳，而單一TF-IDF算法和C-value算法無法結(jié)合工業(yè)機器人PHM概念特點進行抽取，效果一般。

圖2 概念抽取算法對比實驗結(jié)果

使用基于Dice測度的方法對概念間CRS進行測量，部分概念對關聯(lián)強度如表3所示。對確定具有關系的概念對，使用基于CSC語義詞庫和搜索引擎的上下屬關系抽取。實驗設定式(4)概念間關系集R(i,j)中S的閾值0.400，共挖掘出上下屬關系126對，工業(yè)機器人PHM本體上下屬關系抽取效果如圖3所示。本文算法分別與基于Beta分布的聚類算法BRT(Bayesian Rose Tree)和JIANG等[12]提出的方法進行對比，BRT聚類算法準確率為0.61，JIANG等[12]所提方法準確率為0.68，本文方法準確率為0.71。由此可知，本文方法針對工業(yè)機器人PHM概念上下屬關系抽取有較好效果，準確率優(yōu)于其他兩種方法。

表3 部分概念對關聯(lián)強度表

圖3 工業(yè)機器人PHM概念上下屬關系

使用基于SAO結(jié)構(gòu)抽取交叉關系，共挖掘交叉關系330對，部分概念間交叉關系如表4所示。針對全同關系，采用同義詞典進行同義匹配，并對同義詞語義關系轉(zhuǎn)移。得到工業(yè)機器人PHM核心概念以及概念對關系后，使用Protégé5.5.0工具構(gòu)建本體、形成本體。通過Protégé將本體持久化為OWL本體文件，以便后續(xù)使用。

表4 部分工業(yè)機器人PHM概念間交叉關系提取結(jié)果

3 結(jié)束語

本文提出了一種工業(yè)機器人PHM本體半自動化構(gòu)建方法。實驗結(jié)果表明，本文方法在概念抽取和關系抽取兩個階段均獲得更高準確率。本方法已成功應用于某型號國產(chǎn)機器人日常健康管理，實際應用效果進一步證明本方法有效可行。

本文在構(gòu)建工業(yè)機器人PHM本體中仍存在一些不足，比如該領域本體概念間交叉關系并不全是由動詞來表達的，概念間也可能不存在動詞，因此，研究如何更好提取概念間交叉關系，使得構(gòu)建的本體更加全面，將是下一步的研究重點。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡