国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向注塑產(chǎn)品工藝缺陷的知識圖譜構(gòu)建方法及應(yīng)用

2024-05-11 11:25:42葛睿夫任志剛林江豪高祖標
控制理論與應(yīng)用 2024年3期
關(guān)鍵詞:本體圖譜故障診斷

葛睿夫,任志剛,林江豪,林 越,高祖標

(廣東工業(yè)大學(xué) 自動化學(xué)院粵港澳離散制造智能化聯(lián)合實驗室,廣東 廣州 510006)

1 引言

現(xiàn)有的專家經(jīng)驗形成的手冊依然以傳統(tǒng)的文本形式呈現(xiàn),在實際的檢修過程中仔細查閱,存在知識定位難、知識獲取效率低等困難.知識圖譜作為一種有向圖結(jié)構(gòu),具備對知識進行高效關(guān)聯(lián)及檢索的能力,利用知識圖譜將傳統(tǒng)的文本手冊信息轉(zhuǎn)化為專家知識載體,以信息檢索手段進行知識定位,可有效解決知識定位難、獲取效率低等困境.從多源異構(gòu)數(shù)據(jù)中抽取出專家知識并構(gòu)建領(lǐng)域知識圖譜,從而為故障定位效率的提升賦能,也是未來注塑智能制造的發(fā)展方向.

知識圖譜可將文本中包含的知識以更接近于人類認知世界的形式進行表達和描述,為海量知識的高效管理、組織和理解提供了可能[1].其應(yīng)用形式廣泛,主要包括推理[2-4]、搜索[5]、推薦[6-7].在推理方面,吳運兵等人[2]提出了一種基于路徑張量分解的知識圖譜推理算法,利用路徑排列算法(path ranking algorithm,PRA)獲得知識圖譜中實體對間的關(guān)系路徑,對其進行張量分解,并在迭代過程中采用交替最小二乘法;Graves等人[3]提出的可微分神經(jīng)計算機(differentiable neural computer,DNC)由長短期記憶遞歸神經(jīng)網(wǎng)絡(luò)(long short-term memory,LSTM)控制器和外部存儲矩陣兩部分構(gòu)成,通過訓(xùn)練后的LSTM與外部存儲結(jié)構(gòu)的不斷交互過程,模擬人腦基于已有知識的推理過程,實現(xiàn)對三元組中空缺部分的推理.在搜索方面,孫小兵等人[5]針對開發(fā)人員bug 解決效率的提升問題,提出了基于bug知識圖譜的探索化搜索方法.在推薦方面,Huang等人[6]基于序列推薦任務(wù)設(shè)計了特定的注意力機制,使不同語義路徑的推薦結(jié)果權(quán)重得以量化,提升了模型可解釋性;Wang等人[7]提出一種端到端的知識圖譜注意力網(wǎng)絡(luò)(knowledge graph attention network,KGAT),通過相鄰節(jié)點的嵌入傳播優(yōu)化當前節(jié)點的嵌入表示,由此提升推薦模型的可解釋性.

在工業(yè)故障診斷的知識圖譜應(yīng)用中,國內(nèi)外均有一些相關(guān)研究.Liu等人[8]基于所提出的基于注意力機制的一維(attention-based one dimension,ATT-1D)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、門控循環(huán)單元(gated recurrent unit,GRU)模型,對軸承故障參數(shù)類型進行分類,并依托自定義的實體映射表實現(xiàn)參數(shù)向知識圖譜實體的映射,實現(xiàn)了高效的軸承故障診斷.Meng等人[9]在所構(gòu)建的電力故障文本數(shù)據(jù)集中,實現(xiàn)了電力設(shè)備實體及其故障的抽取,基于所獲取的實體構(gòu)建了電力故障診斷知識圖譜.Xiao等人[10]在軸承故障診斷過程中,以故障數(shù)據(jù)的時、頻域特征和故障描述本身作為節(jié)點,特征-故障的相關(guān)性作為邊構(gòu)建抽象知識圖譜架構(gòu),提出的加權(quán)隨機森林算法,充分利用知識圖譜邊信息提升了故障分類精度.Chi等人[11]基于工業(yè)互聯(lián)網(wǎng)設(shè)備間連接復(fù)雜且建模困難的背景,綜述了領(lǐng)域內(nèi)基于知識本體推理構(gòu)建知識圖譜的研究進展,并展示了成功應(yīng)用的案例.Feng等人[12]提出了一種用電信息采集系統(tǒng)的知識問答系統(tǒng),實現(xiàn)了邊與節(jié)點的高效遍歷搜索,支持高效和智能化的采集與維護故障診斷,使得推理效率獲得提高.Ou等人[13]針對如何實現(xiàn)電力傳輸中無人網(wǎng)絡(luò)監(jiān)控和自動運維的問題,在研究中使用故障信息和終端信息構(gòu)建了知識圖譜,實現(xiàn)了電力無線專網(wǎng)的決策制定和故障診斷.Liu等人[14]基于所提出的由鐵路操作故障及其危害組成的因果網(wǎng)絡(luò)構(gòu)建鐵路操作故障知識圖譜,探索故障的潛在規(guī)則并提出預(yù)防措施.李樂樂等人[15]基于飛機維護和維修的相關(guān)知識研究知識圖譜的構(gòu)建和應(yīng)用方法,利用SQLite數(shù)據(jù)庫和知識圖譜構(gòu)建了飛機維護維修知識庫,并利用數(shù)據(jù)庫對飛機故障進行了時間和空間維度的分析.Chen等人[16]提出了一種基于本體的旋轉(zhuǎn)機械故障診斷模型.他們首先構(gòu)建了代表振動特征、控制措施、故障原因和故障名稱的本體,用于信息采集和共享.然后,用語義Web規(guī)則語言建立描述規(guī)則.Melik-Merkumians等人[17]提出了一種基于本體的工業(yè)控制應(yīng)用故障診斷系統(tǒng).他們使用本體來建模系統(tǒng)組件的相關(guān)性、約束、依賴性,以及描述整個系統(tǒng)行為的系統(tǒng)狀態(tài).使用網(wǎng)絡(luò)本體語言(web ontology language,OWL)構(gòu)造推理機實現(xiàn)對潛在系統(tǒng)故障的診斷.Khadir和Dendanihadiby[18]研究了本體和基于案例的推理如何協(xié)同實現(xiàn)汽輪機的故障診斷和維護,案例的闡述、檢索和改編是基于領(lǐng)域本體的.Xu等人[19]考慮了故障特征、故障模式之間的多對多關(guān)系,提出了一種新的基于置信規(guī)則的船用柴油機故障診斷專家系統(tǒng).Samirmi等人[20]針對模糊概念的表示提出了模糊本體,并提出了一種基于深度學(xué)習(xí)的電力變壓器故障診斷模糊本體推理器.除了抽象的概念聯(lián)系之外,針對對物聯(lián)網(wǎng)設(shè)備產(chǎn)生的信號數(shù)據(jù)的本體映射規(guī)范也有一些研究[21-25].

目前,國內(nèi)外在針對知識圖譜在工業(yè)領(lǐng)域故障診斷的應(yīng)用研究,尚處于起步階段,存在兩個核心難題.一是故障診斷知識圖譜的知識本體須由工業(yè)領(lǐng)域技術(shù)專家來進行定義,而工業(yè)體系龐雜、專家經(jīng)驗難以表述等現(xiàn)實問題大大增加了知識本體構(gòu)建的難度;二是區(qū)別于通用領(lǐng)域的大規(guī)模語料,工業(yè)中各垂直領(lǐng)域能提供的可供知識抽取的有監(jiān)督語料有限,在此情形下,如何提升模型抽取效果是亟待解決的核心問題.

針對知識圖譜在注塑領(lǐng)域的應(yīng)用難題,本文提出注塑領(lǐng)域知識圖譜構(gòu)建方法及其應(yīng)用示范,主要貢獻可總結(jié)如下:

1)構(gòu)建了面向注塑領(lǐng)域機械故障的知識本體,以行業(yè)專家經(jīng)驗知識為依據(jù),確定了知識圖譜的節(jié)點要素和關(guān)聯(lián)關(guān)系,為知識圖譜構(gòu)建提供知識支撐;

2)構(gòu)建了注塑領(lǐng)域知識圖譜,提出采用預(yù)訓(xùn)練語言模型的方法,將注塑領(lǐng)域知識拼接到模型學(xué)習(xí)過程,解決了注塑領(lǐng)域有監(jiān)督訓(xùn)練語料不足的問題,實驗結(jié)果表明該方法能有效提升知識抽取效果;

3)將知識圖譜應(yīng)用到實際的工業(yè)應(yīng)用場景,驗證了提出方法的有效性和可行性,為注塑工業(yè)知識自動化提供了一種應(yīng)用模式.

本文其他部分內(nèi)容組織如下: 第2節(jié)闡述了注塑領(lǐng)域知識圖譜構(gòu)建方法總體流程,對產(chǎn)品缺陷解決方案本體構(gòu)成及知識抽取模型結(jié)構(gòu)進行了說明;第3節(jié)從實驗數(shù)據(jù)及標注策略介紹、實驗設(shè)置、實驗結(jié)果對比分析等幾個方面對本文實驗過程進行介紹,驗證了模型結(jié)構(gòu)的有效性;第4節(jié)對全文工作進行總結(jié),結(jié)合當前的困境提出未來繼續(xù)完善的方向.

2 注塑產(chǎn)品缺陷知識圖譜構(gòu)建

2.1 總體方法流程

面向注塑產(chǎn)品缺陷解決方案的知識圖譜構(gòu)建及應(yīng)用流程如圖1所示,具體描述如下.

圖1 注塑產(chǎn)品缺陷知識圖譜構(gòu)建流程Fig.1 Construction process of defect knowledge graph of injection molding product

1)根據(jù)原始語料情況和圖譜需求確定實體類型和關(guān)系類型的分布情況,從而構(gòu)建本體.構(gòu)建完成的本體依靠JENA 解析器(基于JAVA的語義網(wǎng)應(yīng)用框架,常用于解析本體模型),實現(xiàn)本體元數(shù)據(jù)向資源描述框架RDF(resource description framework),用于描述Web資源的特性及資源之間的關(guān)系的轉(zhuǎn)化,并將本體按照<主體>-<屬性>-<客體>的三元組形式進行解析和存儲,且支持SPARQL查詢語言對存儲的三元組進行查詢;

2)完成本體的構(gòu)建以后,基于從原始語料中選取的語料劃分出訓(xùn)練集和測試集,并對訓(xùn)練集和測試集進行關(guān)系標注和實體標注.搭建關(guān)系抽取模型并使用訓(xùn)練集進行訓(xùn)練,然后,在測試集上測試模型效果;

3)根據(jù)關(guān)系抽取模型預(yù)測的結(jié)果將訓(xùn)練集進行重復(fù),每條重復(fù)的文本對應(yīng)一種預(yù)測出的關(guān)系(原始文本中可能存在多種關(guān)系).在處理后的訓(xùn)練集上訓(xùn)練實體識別模型,在測試集上評估模型效果;

4)完成關(guān)系抽取與實體識別后,將抽取出的注塑產(chǎn)品缺陷知識通過R2RML(relational database to RDF mapping language)映射語言的的自定義詞表,實現(xiàn)關(guān)系型數(shù)據(jù)庫向RDF 數(shù)據(jù)集的轉(zhuǎn)化,通過屬性映射最終存儲在Neo4j圖數(shù)據(jù)庫中形成知識圖譜.

2.2 本體構(gòu)建

一般情況下,本體可建模為[26]

各元素含義如下:

O: 本體模型;

C: 概念(類),某一類實體對象的集合;

R: 概念(實例)邏輯關(guān)系,指概念之間的交互作用關(guān)系(組成關(guān)系、繼承關(guān)系及其他業(yè)務(wù)關(guān)系);

P: 概念(實例)屬性關(guān)系,即概念具有的屬性和屬性值;

I: 實例(獨立的實體),表示屬于某種概念類的基本元素;

在本體中,關(guān)系類型是對其頭尾實體類型的約束,即頭尾實體類型的固定組合可能對應(yīng)多種關(guān)系類型,但一種關(guān)系類型必定唯一對應(yīng)一種實體類型的組合.

對于領(lǐng)域知識圖譜,實體類型組合對應(yīng)的關(guān)系類型相較于通用知識圖譜更單一,即關(guān)系類型的定義可以簡單化.故基于對從語料中構(gòu)建的知識本體的了解,定義實體類型與關(guān)系類型如圖2所示.

圖2 實體類型與關(guān)系類型定義Fig.2 Definition of entity type and relationship type

基于本體定義的概念,圖中“缺陷”為C,代表了各缺陷類型實體的集合;類型之間定義的關(guān)系集合即為R;與“缺陷”類由關(guān)系集合連接的5種描述性實體集合即定義為P,表征為缺陷的5種屬性;依據(jù)圖中網(wǎng)狀結(jié)構(gòu)解析出(實體1、關(guān)系、實體2)三元組進行“BIO”標注設(shè)計,B代表Begin,I代表Inside,O代表Outside,并經(jīng)由知識抽取模型抽取出的現(xiàn)實文本三元組,即構(gòu)成了I.領(lǐng)域本體設(shè)計嚴格遵循本體定義,在結(jié)構(gòu)上具備合理性.

2.3 知識抽取模型研究

知識抽取模型架構(gòu)如圖3所示,其包含兩個部分:關(guān)系抽取、實體識別.原始文本經(jīng)過基于變換器的雙向編碼器表示(bidirectional encoder representations from transformers,BERT)編碼層生成每個字符的嵌入向量,經(jīng)過層歸一化處理后輸入動態(tài)卷積神經(jīng)網(wǎng)絡(luò)(dynamic CNN,DCNN)層進行特征提取.

圖3 知識抽取模型結(jié)構(gòu)Fig.3 Model structure of information extraction

DCNN 層包含4個門控線性單元(gated linear unit,GLU)[27],每個單元包含兩個形狀相同、參數(shù)不同的一維卷積核.其中一個卷積核對輸入進行卷積后經(jīng)過Sigmoid進行激活,運算結(jié)果與另一個卷積核的卷積結(jié)果進行逐元素相乘,然后,以類似殘差結(jié)構(gòu)的方式與輸入相加得到最終輸出結(jié)果.

DCNN層的輸出結(jié)果經(jīng)過一維平均池化及全連接層后,輸入Sigmoid層進行針對所有關(guān)系類別的二分類分值計算,將所有分值中大于0.5的置1,小于0.5的置0,得到最終的關(guān)系分類矩陣.預(yù)測出文本中包含的關(guān)系種類后,將其作為文本特征輸入實體識別模型中識別出關(guān)系對應(yīng)的首尾實體,輸出最終的三元組結(jié)果.

2.3.1 BERT嵌入層

BERT嵌入由3個部分組成: Token嵌入、Segment嵌入和Position嵌入.BERT模型對字符級、詞級、句子級,以及句間關(guān)系的特征信息能夠進行充分的表述,大大增強了詞向量模型的泛化能力.

1)Token嵌入.

Token嵌入是指將輸入的序列按字編碼成固定維度的向量的過程.在BERT中,維度默認為768.

在傳遞到Token嵌入層之前,輸入的文本需要先經(jīng)過標簽化的過程,即將每個Token轉(zhuǎn)化為詞表中對應(yīng)的序號,具體如圖4所示.

圖4 Token嵌入Fig.4 Token embedding

單詞切片向量化(word piece token,WPT)是Token嵌入采用的基本方法,是一種基于數(shù)據(jù)驅(qū)動的方法.這種方法專用于輸入文本是英文的情況下,例如輸入的文本中包含單詞“playing”時,BERT會將其拆分為“play”和“ing”.

2)Segment嵌入.

Segment嵌入對輸入句子對進行區(qū)分,從而,根據(jù)兩個句子的語義相似度進行后續(xù)分類任務(wù).在輸入的句子對為“光影常見于產(chǎn)品結(jié)構(gòu)有落差的位置”及“光影斑駁的湖面”的情況下,Segment嵌入形式如圖5所示.

圖5 Segment嵌入Fig.5 Segment embedding

3)Position嵌入.

輸入BERT的文本屬于時序數(shù)據(jù),字詞必須按照特定的順序排列才能表達出正確的語義.

Position嵌入首先對輸入序列中的各個位置賦予一個編號,編號唯一對應(yīng)于Position嵌入中的某一行向量.在訓(xùn)練過程中,BERT會通過學(xué)習(xí)各個位置的向量表示來獲取輸入序列的順序信息.

BERT的輸入序列維度默認為512,即Position嵌入尺寸為(512,768).查找表中的行序號與輸入序列中的位置編號一一對應(yīng).

4)合并表示.

以上提到了3種向量表示,其相關(guān)情況總結(jié)如表1所示.

表1 變量名及尺寸Table 1 Name and size of variable

2.3.2 門結(jié)構(gòu)線性單元

定義GLU結(jié)構(gòu)的輸入為X=[x1x2···xn],則輸出Y可由以下等式表示:

式中conv1(X)和conv2(X)表示輸入經(jīng)過兩個形狀相同、參數(shù)各異的一維卷積核后生成的兩個特征矩陣.其中conv2(X)經(jīng)過Sigmoid函數(shù)激活后,生成元素均在[0,1]區(qū)間的二維矩陣,該矩陣中的元素作為控制conv1(X)中信息流動的“門閥”與conv1(X)進行逐元素點乘.經(jīng)過“信息過濾”的conv1(X)與輸入相加,對輸入信息進行復(fù)用,減少信息損耗,GLU結(jié)構(gòu)圖如圖6所示.

圖6 GLU結(jié)構(gòu)圖Fig.6 Structure diagram of GLU

2.3.3 滑窗結(jié)構(gòu)

滑窗結(jié)構(gòu)的輸入為經(jīng)BERT 層編碼后的字向量Echar以WC(word-character)-LSTM[26]的方式引入詞嵌入Eword的結(jié)果:在以詞匯結(jié)尾的字符處拼接經(jīng)過word2vec訓(xùn)練的詞向量;有多個詞匯以該字符結(jié)尾時將這些詞向量進行平均;而無詞匯以該字符結(jié)尾時則進行padding操作(“0”元素填充).

窗口尺寸設(shè)置為5,滑窗內(nèi)每個元素的位置嵌入Eposition定義如表2所示.

表2 位置嵌入Table 2 Position embedding

綜上,最終嵌入是按照字嵌入、詞嵌入、位置嵌入的順序進行拼接,可由下式表示:

滑窗在文本序列上以1字符的步長滑動,對窗口內(nèi)字符序列對應(yīng)的嵌入進行特征融合.這是通過在滑窗內(nèi)計算中心元素與其他元素之間的注意力權(quán)值并對這些元素進行加權(quán)融合的.

滑動窗口的尺寸需要設(shè)置為奇數(shù),以確保中心位置的元素存在.為確?;盎瑒忧昂笊傻那度霐?shù)量一致,需要在文本序列頭尾位置分別進行數(shù)量為npadding的padding操作將文本序列補全到特定的長度.令滑窗的尺寸為k,則npadding按照下式進行計算:

定義初始文本序列嵌入為X=[x0···xn],則對于序列中的字符嵌入xi,以其為作為中心元素的滑窗內(nèi)元素分布情況為

滑窗內(nèi)的注意力分值s可表示為

令模型中隱藏層的維度為dh,式(3)中定義的最終嵌入維度為dE,則上式中引入的3個可訓(xùn)練參數(shù)的尺寸定義為.由注意力分值歸一化可得注意力權(quán)重αn,即

權(quán)重與對應(yīng)嵌入相乘后進行拼接得到初始融合嵌入hconcat,再經(jīng)過一個全連接層映射到隱層維度dh上,得到最終融合嵌入,表達式如下:

2.4 基于Neo4j的知識存儲

Neo4j具備優(yōu)于許多知識圖譜構(gòu)建工具的特點: 設(shè)計的靈活性、開發(fā)的便捷性及存儲性能的優(yōu)越性.

Neo4j的存儲形式是圖,這區(qū)別于常見的關(guān)系型數(shù)據(jù)庫.圖結(jié)構(gòu)具備自然伸展的特性,這一點可以用來設(shè)計不通過索引遍歷臨近節(jié)點的算法: 以某個節(jié)點為起始節(jié)點,通過網(wǎng)狀的連接關(guān)系快速獲取臨近節(jié)點.這種查詢方式的優(yōu)勢是不受限于數(shù)據(jù)規(guī)模,因此,在知識圖譜不斷補全,數(shù)據(jù)不斷增長的業(yè)務(wù)場景擁有較大優(yōu)勢.

圖形界面的簡潔性、數(shù)據(jù)可視化的直觀性也是Neo4j的一大優(yōu)點,結(jié)合以上提及的優(yōu)點,采用Neo4j作為知識存儲的工具.

3 實驗結(jié)果與分析

3.1 數(shù)據(jù)與標注

注塑產(chǎn)品數(shù)據(jù)集基于對《精密注塑工藝與產(chǎn)品缺陷解決方案100例》和《注塑成型疑難問題及解答》手工整理,結(jié)合網(wǎng)絡(luò)爬取文本篩選,標注形成.數(shù)據(jù)集總量為1555條文本,訓(xùn)練集與測試集按照4:1的比例進行劃分(如表3).數(shù)據(jù)集中包含的關(guān)系類型有5種: “缺陷-現(xiàn)象”、“缺陷-參數(shù)原因”、“缺陷-參數(shù)方法”、“缺陷-非參數(shù)原因”、“缺陷-非參數(shù)方法”,各關(guān)系類型在數(shù)據(jù)集中出現(xiàn)的次數(shù)如表4所示.

表3 注塑產(chǎn)品缺陷訓(xùn)練集與測試集劃分Table 3 Division of injection product defect training set and test set

表4 注塑產(chǎn)品缺陷關(guān)系類型分布Table 4 Distribution of defect relation types of injection products

圖7為數(shù)據(jù)集樣例,當識別出“缺陷-參數(shù)原因”關(guān)系時,將“缺料”中的“缺”標注為“B-SUB”,剩余部分標注為“I-SUB”;將“熔料溫度太低”中的“熔”標注為“B-OB”,剩余部分標注為“I-OB”;非“subject”或“object”的部分全部標注為“O”.完整標注與關(guān)系類型標簽拼接后輸入實體識別模型.

圖7 數(shù)據(jù)集樣例Fig.7 Sample of dataset

為測試模型在通用領(lǐng)域數(shù)據(jù)集的命名實體識別效果,實驗同時在人民日報數(shù)據(jù)集上展開,該數(shù)據(jù)集以1998年人民日報語料為對象,是得到人民日報社新聞信息中心許可的公開數(shù)據(jù)集.其中包含3種實體類型: LOC(地點名)、ORG(機構(gòu)名)、PER(人名).各類型實體分布情況如表5所示.

3.2 實驗設(shè)置

本實驗硬件環(huán)境采用Intel i7-12700型號的CPU,NVIDIA GTX 3060型號GPU;編譯環(huán)境為Python3.9,選用Pytorch框架,在模型中加入AdamW 優(yōu)化器.各實驗參數(shù)配置如表6所示.

表6 參數(shù)設(shè)置Table 6 Parameter settings

3.3 評價指標

知識抽取模型效果的評估標準主要包括準確率(precision,P)、召回率(recall,R)、F1值.具體公式如下:

3.4 結(jié)果與分析

在經(jīng)典的BiLSTM(bidirectional long short-term memory)+CRF(conditional random field)模型中,LSTM增強了模型對長距離信息的感知能力,而雙層LSTM疊加形成的BiLSTM從正反兩個方向獲取輸入的文本時序特征向量,增強了對上下文信息的均衡獲取能力,更好地捕獲詞匯在文本中表達的語義信息.CRF(條件隨機場)接收經(jīng)過BiLSTM編碼的語義特征,通過訓(xùn)練轉(zhuǎn)移矩陣與發(fā)射矩陣實現(xiàn)原始文本序列向標注序列的映射,達到抽取目標實體的目的.

本文所提出模型的創(chuàng)新點有兩個方面: 一是將含注塑領(lǐng)域知識的原始文本和包含通識領(lǐng)域知識的人民日報數(shù)據(jù)集組合經(jīng)Word2vec模型訓(xùn)練后生成詞匯預(yù)訓(xùn)練向量,并將向量拼接在詞匯在文本序列中的對應(yīng)位置;二是引入滑窗結(jié)構(gòu),針對注塑領(lǐng)域缺陷解決方案文本表述規(guī)范的特點,加強了文本序列中單個字符對近距離上下文語義特征的捕獲能力.

基于注塑領(lǐng)域數(shù)據(jù)集的實驗中使用的對比模型均為實體識別模型,不對關(guān)系抽取模型作任何更改.實驗結(jié)果如表7所示,以BERT+BiLSTM+CRF為基準模型,本文提出的模型準確率(P)提升了0.61%,召回率提升了0.72%,F1值提升了0.66%.如表7第3組實驗結(jié)果所示,在基準模型中引入自注意力機制使得識別效果略有下降,這是因為自注意力機制的運算基于全局的文本特征,參數(shù)量較大,學(xué)習(xí)了更多的無效特征;如表7第2組實驗結(jié)果所示,引入預(yù)訓(xùn)練詞向量(+ew)使得輸入的文本序列特征更為豐富,提高了模型的對領(lǐng)域詞匯的識別能力,F1值提升了0.2%;由表7第4組實驗結(jié)果可知,本文模型中引入的滑窗結(jié)構(gòu)針對局部文本特征,參數(shù)量減小的同時加強了對近距離上下文特征的捕獲,更適用于低資源、表述規(guī)范的領(lǐng)域數(shù)據(jù)集.實驗中使用的所有模型的F1值曲線與損失值曲線分別如圖8-9所示,圖中曲線的變化均呈現(xiàn)快速收斂的趨勢,這是由于小規(guī)模數(shù)據(jù)集所包含的語義特征并不豐富,模型在訓(xùn)練的過程中很容易學(xué)習(xí)到這些有限的特征.

表7 知識抽取效果Table 7 Effect of relationship extraction

圖8 F1值曲線Fig.8 Curves of F1

圖9 loss值曲線Fig.9 Curves of loss

由于人民日報數(shù)據(jù)集中不存在關(guān)系標注,因此,基于該數(shù)據(jù)集的對比實驗采用單獨的實體識別模型.對比表8第3,4組實驗結(jié)果可知,引入自注意力機制的模型獲得了最佳效果,而所提出的模型并未取得較大優(yōu)勢.這是因為訓(xùn)練集數(shù)量充足,且目標實體在文本中的位置相對不規(guī)律,模型需要具備學(xué)習(xí)更復(fù)雜的位置特征的能力,而自注意力機制基于全局特征進行運算,相比于所提出模型有更強的學(xué)習(xí)能力.

表8 人民日報數(shù)據(jù)集實體識別效果Table 8 Entity recognition effect of People’s Daily dataset

4 總結(jié)與展望

本文研究了面向注塑產(chǎn)品缺陷的知識圖譜全流程構(gòu)建方法.以真實的注塑產(chǎn)品解決方案中的文本為數(shù)據(jù)源,通過專家歸納和總結(jié)文本中包含的概念分布,確定知識本體模型的結(jié)構(gòu),明確了非結(jié)構(gòu)化文本中待抽取的實體類型和關(guān)系類型.依據(jù)關(guān)系和實體類型對原始語料進行標注,基于預(yù)訓(xùn)練模型,對專家知識進行學(xué)習(xí),解決了面向小規(guī)模數(shù)據(jù)集的關(guān)系抽取和實體識別模型,實現(xiàn)了知識圖譜的構(gòu)建.

當前構(gòu)建的注塑產(chǎn)品缺陷知識圖譜包含3922個三元組,涵蓋201個注塑產(chǎn)品缺陷種類.基于構(gòu)建的知識圖譜,面向?qū)嶋H注塑工業(yè)應(yīng)用場景,實現(xiàn)了智能知識搜索、故障診斷及工藝卡解析等應(yīng)用,作為示范項目依托博創(chuàng)“注塑云”進行了小范圍的試點推廣并取得了不錯的效果.知識搜索可服務(wù)于作業(yè)工人的基礎(chǔ)故障診斷技能培訓(xùn)及知識補充;故障診斷功能可實現(xiàn)面向故障的快速知識檢索和解決方案確定;工藝卡解析功能將工藝卡表格中的信息自動解析并轉(zhuǎn)化為結(jié)構(gòu)化知識,自動更新知識圖譜.為傳統(tǒng)注塑的知識解析與抽取、管理與應(yīng)用提供了一種知識自動化的應(yīng)用模式.

未來的研究中,一方面可充分利用自然語言處理的技術(shù),如構(gòu)建面向特定工業(yè)領(lǐng)域的大規(guī)模預(yù)訓(xùn)練模型,進一步提升知識的自動抽取效果;二是基于生成式的自動問答技術(shù),能夠?qū)崿F(xiàn)更優(yōu)越的知識服務(wù)體驗;三是可探索將注塑領(lǐng)域的知識圖譜構(gòu)建方法應(yīng)用到其他領(lǐng)域,服務(wù)于智能制造,為工業(yè)4.0提供更多應(yīng)用服務(wù).

猜你喜歡
本體圖譜故障診斷
Abstracts and Key Words
繪一張成長圖譜
對姜夔自度曲音樂本體的現(xiàn)代解讀
補腎強身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
主動對接你思維的知識圖譜
《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
因果圖定性分析法及其在故障診斷中的應(yīng)用
基于LCD和排列熵的滾動軸承故障診斷
基于WPD-HHT的滾動軸承故障診斷
機械與電子(2014年1期)2014-02-28 02:07:31
高速泵的故障診斷
河南科技(2014年3期)2014-02-27 14:05:48
泽库县| 土默特左旗| 泾阳县| 沙湾县| 贡觉县| 永康市| 宝山区| 辽宁省| 贺兰县| 景德镇市| 弥渡县| 军事| 灵石县| 始兴县| 新化县| 宜章县| 株洲市| 宜良县| 田林县| 黄冈市| 宜昌市| 阜宁县| 图片| 阆中市| 秭归县| 漳浦县| 三门县| 阿克苏市| 资中县| 太谷县| 鹤峰县| 萨嘎县| 利川市| 长阳| 延吉市| 广水市| 靖西县| 普格县| 合水县| 十堰市| 偃师市|