国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

工業(yè)機器人預測式健康管理本體半自動化構(gòu)建*

2022-01-27 09:50柳少峰黃子豪姜文超賀忠堂
組合機床與自動化加工技術 2022年1期
關鍵詞:三元組語料庫本體

柳少峰,肖 紅,黃子豪,姜文超,,熊 夢,賀忠堂

(1.廣東工業(yè)大學計算機學院,廣州 510006;2.中國科學院云計算產(chǎn)業(yè)技術創(chuàng)新與育成中心,東莞 523808)

0 引言

隨著工業(yè)機器人的普及,企業(yè)內(nèi)部積累了許多工業(yè)機器人PHM相關案例記錄和知識信息,資源豐富,但缺乏深度利用。如何提取和重用這些案例和知識,并應用于工業(yè)機器人后續(xù)故障預測、故障診斷以及日常健康管理,困難程度較高,構(gòu)建工業(yè)機器人PHM 本體成為一種可行的解決方案。本體被定義為客觀現(xiàn)實的一個本質(zhì)抽象,是對客觀事物的形式化、規(guī)范化描述[1]。

傳統(tǒng)領域本體構(gòu)建方法是領域?qū)<液脱芯咳藛T參與的人工構(gòu)建方法[2]。劉鑫[3]結(jié)合故障樹分析法,采用手動構(gòu)建本體方式,構(gòu)建了故障診斷領域本體。然而,這種人工構(gòu)建方法不夠智能、成本高,易受主觀影響,構(gòu)建的本體不完備。因此,自動化構(gòu)建本體正在逐漸取代人工構(gòu)建方式。目前,國內(nèi)外學者關于自動化構(gòu)建本體的研究主要針對概念抽取和關系抽取。鄭姝雅等[4]使用主題模型(LDA)完成用戶生成內(nèi)容領域的概念抽取,驗證了LDA算法的有效性。唐琳等[5]認為領域?qū)W術論文關鍵詞是領域中的核心概念,因此采用詞頻篩選出核心概念。在概念關系抽取方面,鄭姝雅等[4]構(gòu)建出概念完全圖,使用基于最小生成樹改進的層次聚類算法來處理概念間的層次關系。SATHIYA等[6]提出CBC(clustering by committee)聚類算法,獲得了準確率較好的層次關系抽取。

然而,上述方法對于構(gòu)建工業(yè)機器人PHM本體并不十分適用,一些概念抽取算法在不同領域有不同適用性,通用概念抽取算法對該領域概念抽取效果并不好;其次,已有非層次關系抽取方法只能判斷出哪兩個概念具有非層次關系,而無法得出具體關系標簽[7],此外在處理非層次關系時傾向于先處理同義關系,這會導致被合并同義詞所附帶的其他語義關系消失。針對以上問題,本文提出一種工業(yè)機器人PHM半自動化構(gòu)建的方法,本方法已成功應用于某型號國產(chǎn)機器人日常健康管理,實際應用效果證明本方法的有效性與可行性。

1 工業(yè)機器人PHM本體半自動化構(gòu)建

工業(yè)機器人PHM本體半自動化構(gòu)建框架如圖1所示,主要包括:數(shù)據(jù)獲取及預處理、概念抽取、概念關系抽取、本體形成四個階段。其中概念抽取以及概念關系抽取采用自動獲取方式,數(shù)據(jù)獲取及預處理、本體形成需要人工參與,具體步驟如下:

圖1 工業(yè)機器人PHM本體半自動化構(gòu)建框架圖

步驟1:獲取工業(yè)機器人PHM語料,對語料進行篩選、分詞、去除停用詞等預處理獲得候選概念集;

步驟2:利用本文提出的概念抽取算法從候選概念集中抽取核心概念;

步驟3:基于Dice測度測量概念關聯(lián)強度,基于CSC語義詞庫和搜索引擎抽取上下屬關系,基于SAO結(jié)構(gòu)抽取交叉關系,基于詞典抽取同義關系;

步驟4:將抽取出的概念和概念關系進行整合,使用Protégé工具構(gòu)建OWL本體,并持久化與可視化。

1.1 數(shù)據(jù)獲取及預處理

本文語料包括企業(yè)工業(yè)機器人故障維修文檔、垂直網(wǎng)站文章、學術文獻等。定義若干關鍵字,根據(jù)該關鍵字檢索知識服務平臺、博客服務平臺,使用爬蟲工具爬取相關文獻、博客。這些文檔合并定義為工業(yè)機器人PHM領域相關文檔集合A。采用規(guī)則過濾和人工過濾方式篩選無關文章文獻。篩選后的文檔定義為工業(yè)機器人PHM領域文檔集合A(pro),作為本文實驗語料庫。

對語料庫中的文本進行分詞,考慮到該領域?qū)Ω拍顪蚀_性的要求,選用Jieba分詞工具精確模式進行分詞。此外,該領域部分詞匯采用詞組形式,比如詞匯“一相電源”在一般情況下會分成“一相”和“電源”兩個詞語,為了提高分詞準確度,在分詞時加載自定義領域詞典,詞典詞匯由搜狗細胞詞庫中機械專業(yè)詞庫、機械工程詞匯表等組成。完成分詞后,使用專業(yè)中文停用詞表將一些領域相關性不強、含義較為廣泛的常用詞如“得到”、“怎么”等過濾掉,最終得到分詞結(jié)果,分詞后的所有詞語定義在候選概念集合W中。

1.2 PHM本體概念抽取

從集合W中確定具有領域代表性的概念是構(gòu)建本體的關鍵步驟。一般來說,工業(yè)機器人PHM領域核心概念和該領域文檔中的關鍵詞非常相似,此外,可以發(fā)現(xiàn)工業(yè)機器人PHM中詞匯之間存在嵌套現(xiàn)象,類似復合詞,如“減速機”與“齒輪減速機”存在嵌套關系。因此,篩選核心概念時不僅要考慮詞匯詞頻還要結(jié)合該領域中詞匯特點,所以本文融合詞頻、文檔頻率、TF-IDF算法、C-value算法來提取核心概念。

詞頻和文檔頻率(包含該詞匯的文檔數(shù))兩個指標均反映了該詞匯在語料庫中出現(xiàn)的頻率。TF-IDF(term frequency-inverse document frequency)算法可以衡量語料庫中一個詞匯對所在文檔的重要程度,詞匯在文檔中出現(xiàn)次數(shù)越高,該詞匯越重要,同時,詞匯在語料庫其他文檔出現(xiàn)的頻率越高,該詞重要性下降。TF-IDF值計算如式(1)所示。

(1)

式中,f(i|a)表示詞語i在a文檔中的詞頻;Y(i)表示i的文檔頻率;Y表示語料庫中文檔總數(shù)。

C-value算法充分考慮到嵌套詞匯影響,若詞匯i不是被嵌套詞匯,則i的C-value值取決于i的詞頻值和i的長度。若i被嵌套,則會降低i的C-value值。具體計算如式(2)所示。

(2)

式中,len(i)表示詞匯i的長度;f(i)為i的詞頻;Ti表示嵌套i詞匯b的集合。

考慮到工業(yè)機器人PHM核心詞匯特點,本文提出工業(yè)機器人PHM領域概念抽取綜合算法領域相關度DR(domain relevance),DR計算如式(3)所示。

DR=β1·log2f(i)+β2·log2Y(i)+

β3·TF-IDF(i)+β4·C-value(i),i∈W

(3)

式中,β1+β2+β3+β4=1,均為4個指標對DR的權(quán)重。根據(jù)各方法影響程度不同,本文設置權(quán)重分別為:β1=0.15,β2=0.15,β3=0.35,β4=0.35。對DR值進行排序,設置閾值得到工業(yè)機器人PHM領域概念集合Wkey。

1.3 PHM本體概念關系抽取

概念間關系抽取發(fā)現(xiàn)作為本體構(gòu)建最重要的步驟之一,抽取的三元組(概念,關系,概念)是工業(yè)機器人PHM本體的基本組成元素。

工業(yè)機器人領域概念間關系紛繁復雜,結(jié)合邏輯學[8],將該領域概念間關系分為5種:全同關系、上屬關系、下屬關系、交叉關系和全異關系。上屬關系表示被包含關系,例如,“齒輪減速機是減速機的一種”,可以看出,“齒輪減速機”和“減速機”是上屬關系。下屬關系表示包含關系,例如“電機轉(zhuǎn)子由鐵芯、轉(zhuǎn)子繞組、軸承、轉(zhuǎn)軸等組成”,可以判斷出“電機轉(zhuǎn)子”與“鐵芯”是 下屬關系。交叉關系表示兩個概念間有交集,例如“減速機的軸承損壞或者過分磨損”,“軸承”與“損壞”或者“磨損”就是交叉關系。全同關系指兩個詞概念完全相同。全異關系指兩個概念完全沒有交集,例如,冷卻裝置和傳動轉(zhuǎn)置屬于全異關系。

5種關系具有互斥性,本文對概念間關系的抽取主要集中在抽取概念全同關系、上下屬關系以及交叉關系,全異關系抽取不做研究。此外,抽取全同關系和上下屬關系時不需要抽取關系名稱。交叉關系則相反,需要抽取概念對的關系名稱。

綜上所述,本文提出該領域概念間關系抽取“三步法”,具體步驟如下:

步驟1:確定概念集合Wkey中哪兩個概念具有關系;

步驟2:對有關系的概念對進行上下屬關系、交叉關系的識別、抽取,初步構(gòu)建三元組;

步驟3:識別、抽取全同關系,對有全同關系的概念對的三元組進行合并。

1.3.1 基于Dice測度的關聯(lián)強度測量

本文定義了工業(yè)機器人PHM本體概念間關系R,R的描述如式(4)所示。

R={R(i,j)=|i,j∈Wkey}

(4)

式中,i和j為一對概念對;CRS(correlation strength)表示概念間的關聯(lián)強度;α表示概念間關系類型;S為上下屬關系傾向性評分,評分越高說明概念對是上下屬關系的可能性越大;[rn]表示抽取出來的關系名稱列表。CRS越高說明兩個概念間存在關系的可能性越大。CRS和概念對共現(xiàn)的次數(shù)有一定相關性,因此確定CRS可以使用基于Dice測度的方法。Dice測度通過結(jié)合概念的詞頻以及概念對共現(xiàn)的頻次來計算CRS,具體計算如式(5)所示。

(5)

式中,D2(i,j)表示概念i和j的CRS;f(i)為i的詞頻;f(j)為j的詞頻;f(i,j)為i和j共同出現(xiàn)的頻率。此外,D2(i,j)值和D2(j,i)值是相同的,因此R中R(i,j)和R(j,i)的CRS也是相同的。

本文對于關聯(lián)強度超過一定閾值min_CRS的概念對認定為具有關系,將min_CRS的值設定為0.003,對于沒有關系的概念對移出工業(yè)機器人PHM概念間關系集R,對于有關系的概念對使用兩種方法識別概念對的上下屬關系,式(4)中S打分分別為基于CSC語義詞庫的上下屬關系抽取和基于搜索引擎上下屬關系抽取。

1.3.2 基于CSC語義詞庫的上下屬關系抽取

CSC中文語義詞庫收入超過190 000詞條,每個詞條包含了豐富語義信息,因此可作為自然語言處理領域的輔助資源。

基于CSC詞庫抽取上下屬關系的流程為:給定概念i和j,在CSC中查找i的同義、近義詞集合wi,查找i和集合wi的所有下位詞集合wh,查找j的同義、近義詞集合wj,如果在wh中能找到j或wj中的一個詞,那么說明i是j的上屬概念,i和j是上屬關系。對于這兩個概念,依據(jù)這種方法獲取的關系對的評分記為S1(i,j)=1。

若i和j不存在上屬關系,而存在下屬關系,則S1(i,j)=0,但是由上文可知,上屬關系和下屬關系可以相互轉(zhuǎn)換,如i下屬于j能夠轉(zhuǎn)換為j上屬于i,即S1(j,i)=1,因此為了便于研究,本文對概念對上下屬關系的抽取更集中于對上屬關系的抽取識別。

1.3.3 基于搜索引擎的上下屬關系抽取

受語料庫文檔數(shù)量限制,僅從語料庫中提取概念對關系遠遠不夠,部分概念間關系可能無法得到表示,需要結(jié)合數(shù)據(jù)量更大的搜索引擎進行抽取。

搜索查詢前需要制定查詢?nèi)M,查詢?nèi)M由概念對以及語義特征詞構(gòu)成,首先構(gòu)建表示上下屬關系的特征詞模板集合,如表1所示,其中,A和B為兩個概念,表中A上屬于B,其次構(gòu)建查詢?nèi)M,例如(A,“組成”,B)等,查詢?nèi)M應保證A和B的上下屬關系方向性一致。

表1 上下屬關系語言模板

采用查詢?nèi)M(概念i,特征詞,概念j)在語料庫A(pro)和谷歌、百度等搜索引擎中分別進行檢索查詢,查詢時以句子為單位,并且將概念對限制在N個詞窗口內(nèi),本文N=10。統(tǒng)計查詢?nèi)M在語料庫A(pro)中出現(xiàn)的次數(shù)記為numA(i,j),在搜索引擎中出現(xiàn)的次數(shù)記為numW(i,j)。提出通過語料庫或搜索引擎中獲取概念對關系的評分計算如式(6)所示。

(6)

式中,num(i,j)表示概念對i和j構(gòu)成的三元組在語料庫或者搜索引擎中查詢出的次數(shù)。計算出在語料庫A(pro)中的得分為S2A(i,j),搜索引擎中的得分為S2W(i,j)。

結(jié)合兩種方法得出式(4)概念對i和j關系R(i,j)中S的具體計算如式(7)所示。

S(i,j)=γ1×S1(i,j)+γ2×S2A(i,j)+γ3×S2W(i,j)

(7)

其中,γ1、γ2、γ3為三種方式評分權(quán)重,γ1+γ2+γ3=1,通過實驗經(jīng)驗,取γ1=0.4,γ2=0.4,γ3=0.2。當S(i,j)值超過設定閾值時,認定i和j為上屬關系。由上文可知,此時i和j不存在下屬關系,j不會上屬于i,即R(j,i)不存在,R(j,i)移出概念關系集合R。

1.3.4 基于SAO結(jié)構(gòu)的交叉關系抽取

工業(yè)機器人PHM本體概念對交叉關系基本上都具有noun-verb-noun結(jié)構(gòu)形式,這種形式與SAO結(jié)構(gòu)(subject-action-object)[9]近似,SAO結(jié)構(gòu)表示為主語、謂語、賓語的關系,而動詞常做謂語。比如:“減速機箱體內(nèi)有雜物”,其中“箱體”與“雜物”就是“有”的關系,因此,對交叉關系抽取集中于對概念間動詞抽取。具體算法如下:

(1)提取出PHM語料庫中非上下屬關系的概念對i和j之間的所有動詞,作為i和j間(方向i→j)的備選概念關系集;

(2)循環(huán)取出備選概念關系集中的動詞v與概念對組成三元組C={i,j,v},用集合E={C1,C2,...,Cn}表示概念對和所有動詞的三元組的集合;

(3)從E中循環(huán)取出C,計算概念對與動詞的正點互信息值PPMI,具體計算如式(8)所示。式中P(·)為以句子為單位的概率;

(8)

(4)對所有的PPMI值進行排序,選取PPMI最大的動詞作為i和j的交叉關系。繼續(xù)提取交叉關系,跳至步驟1,如果全部提取完畢,跳至步驟5;

(5)對于i與j的兩個方向關系R(i,j)、R(j,i),這里只保留PPMI值最大的交叉關系,若兩個PPMI值均為0,則人工給出概念間具體的交叉關系。

1.3.5 全同關系抽取

因為不同企業(yè)之間對于工業(yè)機器人PHM概念可能存在二義性情況,不同概念間可能具有全同關系。全同關系的識別采用通用同義詞典匹配,使用以哈爾濱工業(yè)大學修訂的同義詞典為主進行同義匹配。對于確定是全同關系的概念對(i,j),需要將概念進行合并,將j所附帶的語義關系轉(zhuǎn)移到i中。

1.4 本體形成

前述抽取的關系可能存在錯誤情況,需要人工檢查,剔除錯誤的三元組。在獲取工業(yè)機器人PHM概念以及概念關系后,需要將這些概念及其關系進行持久化、可視化,便于工業(yè)機器人PHM本體信息管理以及后續(xù)知識應用,也有利于用戶直觀了解該領域的知識信息。當前主流的本體構(gòu)建工具包括OntoLearn、TextStorm/Clouds、ASIUM、Protégé等[10]。本文應用Protégé工具編輯工業(yè)機器人PHM本體,對本體進行持久化與可視化。

2 實驗結(jié)果與分析

2.1 實驗數(shù)據(jù)

定義“工業(yè)機器人預測式健康管理”“工業(yè)機器人PHM”“工業(yè)機器人故障維修”等關鍵字,使用這些關鍵詞檢索維普期刊平臺、簡書博客,使用爬蟲工具爬取相關信息。企業(yè)維修記錄和爬取的文檔共1690篇。使用規(guī)則過濾和人工過濾方式篩掉非該領域的文檔。最后為工業(yè)機器人PHM文檔集作為本文構(gòu)建本體的語料庫,一共1276篇。

2.2 實驗結(jié)果分析

通過對工業(yè)機器人PHM語料預處理后,使用本文概念抽取算法進行實驗,對所有詞匯DR值進行計算,部分詞匯DR值如表2所示。對于DR值超過預設閾值時,將其作為該領域的核心概念,實驗最終設定閾值為4.000,共抽取出核心概念243個。

表2 部分詞匯DR值

此外,本文基于相同語料庫A(pro)展開了多種本體概念抽取主流算法對比實驗,分別與TF-IDF算法、C-value算法、LDA主題模型[11]對比,對比數(shù)據(jù)為使用算法后排序的前K個概念,通過人工方法對抽取的結(jié)果進行評估,統(tǒng)計準確率指標,實驗結(jié)果如圖2所示??梢钥闯?,本文概念抽取算法在準確率上有顯著提升,比最好的TF-IDF算法平均高出10%。LDA主題模型在短文本數(shù)據(jù)諸如企業(yè)記錄上進行概念抽取效果不佳,而單一TF-IDF算法和C-value算法無法結(jié)合工業(yè)機器人PHM概念特點進行抽取,效果一般。

圖2 概念抽取算法對比實驗結(jié)果

使用基于Dice測度的方法對概念間CRS進行測量,部分概念對關聯(lián)強度如表3所示。對確定具有關系的概念對,使用基于CSC語義詞庫和搜索引擎的上下屬關系抽取。實驗設定式(4)概念間關系集R(i,j)中S的閾值0.400,共挖掘出上下屬關系126對,工業(yè)機器人PHM本體上下屬關系抽取效果如圖3所示。本文算法分別與基于Beta分布的聚類算法BRT(Bayesian Rose Tree)和JIANG等[12]提出的方法進行對比,BRT聚類算法準確率為0.61,JIANG等[12]所提方法準確率為0.68,本文方法準確率為0.71。由此可知,本文方法針對工業(yè)機器人PHM概念上下屬關系抽取有較好效果,準確率優(yōu)于其他兩種方法。

表3 部分概念對關聯(lián)強度表

圖3 工業(yè)機器人PHM概念上下屬關系

使用基于SAO結(jié)構(gòu)抽取交叉關系,共挖掘交叉關系330對,部分概念間交叉關系如表4所示。針對全同關系,采用同義詞典進行同義匹配,并對同義詞語義關系轉(zhuǎn)移。得到工業(yè)機器人PHM核心概念以及概念對關系后,使用Protégé5.5.0工具構(gòu)建本體、形成本體。通過Protégé將本體持久化為OWL本體文件,以便后續(xù)使用。

表4 部分工業(yè)機器人PHM概念間交叉關系提取結(jié)果

3 結(jié)束語

本文提出了一種工業(yè)機器人PHM本體半自動化構(gòu)建方法。實驗結(jié)果表明,本文方法在概念抽取和關系抽取兩個階段均獲得更高準確率。本方法已成功應用于某型號國產(chǎn)機器人日常健康管理,實際應用效果進一步證明本方法有效可行。

本文在構(gòu)建工業(yè)機器人PHM本體中仍存在一些不足,比如該領域本體概念間交叉關系并不全是由動詞來表達的,概念間也可能不存在動詞,因此,研究如何更好提取概念間交叉關系,使得構(gòu)建的本體更加全面,將是下一步的研究重點。

猜你喜歡
三元組語料庫本體
時序知識圖譜的增量構(gòu)建
眼睛是“本體”
平行語料庫在翻譯教學中的應用研究
《語料庫翻譯文體學》評介
關于余撓三元組的periodic-模
一種基于社會選擇的本體聚類與合并機制
一個時態(tài)RDF存儲系統(tǒng)的設計與實現(xiàn)
基于Spark的分布式并行推理算法①
語篇元功能的語料庫支撐范式介入
專題
神木县| 明溪县| 清新县| 云南省| 金乡县| 天长市| 仁布县| 临朐县| 静宁县| 舞阳县| 八宿县| 湾仔区| 邯郸市| 长沙市| 延长县| 红河县| 云龙县| 易门县| 洞口县| 泰来县| 大埔区| 汉寿县| 肇东市| 塔河县| 盈江县| 韶山市| 台中市| 神农架林区| 即墨市| 宝坻区| 东阳市| 乃东县| 永安市| 剑河县| 额济纳旗| 郴州市| 澄江县| 麻阳| 兰坪| 西和县| 红河县|