基于本體引導(dǎo)的注塑知識(shí)圖譜構(gòu)建及缺陷溯因應(yīng)用

2022-05-31 06:18王雅琳鄒江楓袁小鋒謝勝利

電子與信息學(xué)報(bào) 2022年5期

王雅琳鄒江楓王凱* 袁小鋒謝勝利

①(中南大學(xué)自動(dòng)化學(xué)院長沙 410083)

②(廣東工業(yè)大學(xué) 廣州 510006)

1 引言

注塑成型因生產(chǎn)周期短、自動(dòng)化程度高等優(yōu)勢(shì)，普遍應(yīng)用于各類復(fù)雜塑料制品的批量生產(chǎn)。然而，由于模具、環(huán)境等多重因素的共同影響，注塑過程容易在產(chǎn)品外觀、尺寸等方面出現(xiàn)問題[1]。為此，如何根據(jù)產(chǎn)品表觀分析缺陷成因，并提出合理解決方案受到了國內(nèi)外學(xué)者的廣泛關(guān)注，是注塑行業(yè)提質(zhì)增效的關(guān)鍵。

一般而言，注塑制品的缺陷診斷方法可分為人工檢測(cè)、試驗(yàn)設(shè)計(jì)、深度學(xué)習(xí)和專家系統(tǒng)4類[2,3]。其中人工檢測(cè)法[4]需依賴大量經(jīng)驗(yàn)知識(shí)，不利于實(shí)際生產(chǎn)的快速運(yùn)用。在此背景下，試驗(yàn)設(shè)計(jì)法被提出，其主要思想是通過結(jié)合仿真模擬和數(shù)值分析等[5–7]技術(shù)，來指導(dǎo)優(yōu)化工藝參數(shù)，但仍要求操作人員具備一定的機(jī)理建模水平。而純數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)技術(shù)借助各類神經(jīng)網(wǎng)絡(luò)[8,9]，可以避免復(fù)雜的機(jī)理建模問題，實(shí)現(xiàn)制品圖像的深層特征提取和缺陷診斷。然而，工業(yè)過程的監(jiān)測(cè)數(shù)據(jù)并不總是完全可信的，因此為避免低質(zhì)量數(shù)據(jù)的影響，文獻(xiàn)[10]結(jié)合生產(chǎn)經(jīng)驗(yàn)建立專家系統(tǒng)，但維護(hù)成本高昂、可移植性差等問題還未得到解決。

相較于人工檢測(cè)和專家系統(tǒng)，知識(shí)圖譜技術(shù)在靈活性、精確度及更新能力等方面優(yōu)勢(shì)顯著[11–13]，為注塑制品的缺陷溯因分析提供了新的可行思路。其中注塑本體是知識(shí)圖譜的一類通用概念模型，核心思想是將復(fù)雜領(lǐng)域經(jīng)驗(yàn)分解為多條本征知識(shí)[14]，用以指導(dǎo)各種實(shí)體、關(guān)系及其屬性的抽取，進(jìn)而形成具有領(lǐng)域特色的知識(shí)圖譜。其既可以借助專家經(jīng)驗(yàn)設(shè)計(jì)(自頂向下)，也可以從開源數(shù)據(jù)中提煉(自底向上)。此外，基于敘詞表[15]和已有本體[16]等半自動(dòng)本體構(gòu)建方法也相繼被提出，但注塑領(lǐng)域無可復(fù)用的專業(yè)詞庫和本體結(jié)構(gòu)。本體的自動(dòng)構(gòu)建[17]則通常需要復(fù)雜的語言處理模型來分析語義，開發(fā)周期長且準(zhǔn)確率難以保障。因此基于上述分析，手工構(gòu)建本體不失為一種可靠并有效的選擇，然而，如何定義領(lǐng)域本體以減少歧義并實(shí)現(xiàn)正確推理[18]，仍是工業(yè)知識(shí)圖譜構(gòu)建的首要挑戰(zhàn)。

構(gòu)建好的領(lǐng)域本體再用于指導(dǎo)多源網(wǎng)頁的知識(shí)抽取，主要包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化3種數(shù)據(jù)形式。一般而言，結(jié)構(gòu)化數(shù)據(jù)易于抽取，但難以獲??；半結(jié)構(gòu)化網(wǎng)頁常采用爬蟲技術(shù)提取，但大部分注塑網(wǎng)站結(jié)構(gòu)化程度不高，往往以純文本形式存在，直接采用爬蟲技術(shù)只能抽取到少量實(shí)體及其關(guān)系[19]；而將其視為非結(jié)構(gòu)化文本，通用做法是利用專家標(biāo)注好的語料來訓(xùn)練得到實(shí)體識(shí)別、關(guān)系抽取等監(jiān)督模型。例如，早期的有條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)[20]和支持向量機(jī)(Support Vector Machine, SVM)[21]等經(jīng)典機(jī)器學(xué)習(xí)模型，但其較大程度依賴特征工程。因此，文獻(xiàn)[22]針對(duì)這一問題，提出結(jié)合雙向長短期記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory, Bi-LSTM)和CRF的方法。另外，文獻(xiàn)[23]還研究了實(shí)體識(shí)別與關(guān)系抽取的聯(lián)合學(xué)習(xí)模型。顯然，上述方法均離不開代價(jià)高昂的標(biāo)注數(shù)據(jù)，且由于各個(gè)領(lǐng)域的專業(yè)詞匯相差甚遠(yuǎn)，嚴(yán)重導(dǎo)致注塑知識(shí)抽取模型的準(zhǔn)確性難以保證。

因此為避免對(duì)專家標(biāo)注和領(lǐng)域詞典的過度依賴，充分利用先驗(yàn)信息是一種有效的途徑，文獻(xiàn)[24]提出基于觸發(fā)詞的網(wǎng)絡(luò)模型，所謂觸發(fā)詞是指由文本中的知識(shí)標(biāo)記和分隔元素等結(jié)構(gòu)信息整合而來的通用句式或詞組。其主要優(yōu)勢(shì)是不需要大量的標(biāo)記數(shù)據(jù)，且成本效益更高，但觸發(fā)詞的手工構(gòu)建仍存在挑戰(zhàn)。同時(shí)本體結(jié)構(gòu)中蘊(yùn)含的邏輯信息在知識(shí)抽取中鮮有被利用[25]，且通常未考慮冗余知識(shí)的對(duì)齊問題，工業(yè)知識(shí)的抽取質(zhì)量有待進(jìn)一步提升。

受上述模型的啟發(fā)，本文提出一種基于本體引導(dǎo)的注塑知識(shí)圖譜構(gòu)建方法，在構(gòu)建注塑本體的基礎(chǔ)上，引導(dǎo)注塑知識(shí)的自動(dòng)抽取。本文主要貢獻(xiàn)為：(1)綜合專家經(jīng)驗(yàn)知識(shí)和實(shí)際網(wǎng)頁數(shù)據(jù)，實(shí)現(xiàn)了以缺陷-表觀-原因-方案為導(dǎo)向的注塑本體設(shè)計(jì)，有助于填補(bǔ)目前工業(yè)本體的領(lǐng)域空白。(2)將本體信息引入觸發(fā)詞庫的生成中，既能保障知識(shí)的準(zhǔn)確觸發(fā)，也無需大量標(biāo)注語料。(3)將冗余實(shí)體的判別轉(zhuǎn)化為實(shí)體及其屬性的兩級(jí)對(duì)齊，進(jìn)一步提升了知識(shí)圖譜的精簡(jiǎn)性。

2 框架概述

知識(shí)圖譜旨在描述客觀世界的實(shí)體概念及其關(guān)系，主要分為“實(shí)體-屬性-屬性值”和“實(shí)體-關(guān)系-實(shí)體”兩種知識(shí)類型。然而，注塑過程屬專業(yè)領(lǐng)域，既缺乏專業(yè)注塑語料集，也缺乏可借鑒的較為成熟的注塑知識(shí)圖譜，因此為構(gòu)建面向缺陷診斷的注塑知識(shí)圖譜，首先需設(shè)計(jì)指導(dǎo)注塑知識(shí)挖掘的本體。一般而言，本體定義[26]為

其中，O表示注塑本體，C為實(shí)際概念，P為概念屬性，R表示概念間的關(guān)系，I為某概念實(shí)例。

注塑本體構(gòu)建完成后，可在其引導(dǎo)下進(jìn)一步挖掘網(wǎng)頁中的注塑知識(shí)。具體地，首先將本體中的概念、屬性等各項(xiàng)文本統(tǒng)一整合成關(guān)鍵字集合K，以指導(dǎo)注塑網(wǎng)頁的搜集，然而，由于網(wǎng)頁來源不同，可能包含大量與注塑應(yīng)用無關(guān)的信息，需再經(jīng)PR指標(biāo)篩選形成最終的網(wǎng)頁集。另外，由于注塑過程語料稀缺，缺乏重要的標(biāo)注數(shù)據(jù)，基于有監(jiān)督的知識(shí)抽取模型無法直接使用。又考慮到注塑缺陷診斷為專用領(lǐng)域，其有用知識(shí)必定包含一些標(biāo)識(shí)性詞語，如“方案”“缺陷”等。為此，本文在本體引導(dǎo)下設(shè)計(jì)觸發(fā)詞對(duì)篩選后的注塑網(wǎng)頁進(jìn)行片段分割，以提取包含觸發(fā)詞的實(shí)體關(guān)系。

一旦網(wǎng)頁知識(shí)被遍歷抽取完成后，可根據(jù)實(shí)體及關(guān)系構(gòu)建領(lǐng)域知識(shí)圖譜。然而，由于網(wǎng)頁來源眾多，挖掘的網(wǎng)頁必定包含眾多重復(fù)或相似實(shí)體，因此還需對(duì)冗余知識(shí)進(jìn)行處理，即實(shí)體對(duì)齊。過去大部分研究很少利用到知識(shí)圖譜中的“實(shí)體-屬性-屬性值”3元組信息，為此本文基于兩級(jí)對(duì)齊策略綜合考慮實(shí)體和屬性的相似度來實(shí)現(xiàn)知識(shí)融合。

最后，融合后的知識(shí)3元組再存入Neo4j圖數(shù)據(jù)庫中，形成注塑知識(shí)圖譜ζ= (ε,τ,s)，其中ε,τ,s分別為實(shí)體、關(guān)系和3元組集合，且對(duì)于每個(gè)3元組(h,r,t)∈s，頭尾實(shí)體h,t ∈ε，關(guān)系r∈τ。

總體而言，基于本體引導(dǎo)的注塑知識(shí)圖譜構(gòu)建框架如圖1所示，主要包括注塑本體設(shè)計(jì)、知識(shí)3元組抽取模型、兩級(jí)知識(shí)融合和知識(shí)圖譜應(yīng)用4部分，以下將詳細(xì)闡述各個(gè)環(huán)節(jié)的技術(shù)細(xì)節(jié)。

圖1 注塑知識(shí)圖譜構(gòu)建框架圖

3 注塑領(lǐng)域本體設(shè)計(jì)

考慮注塑領(lǐng)域中所要抽取的知識(shí)范圍明確，更適合基于專家經(jīng)驗(yàn)的自頂向下方式。但隨著網(wǎng)頁數(shù)據(jù)的不斷積累，原來的本體結(jié)構(gòu)被發(fā)現(xiàn)并不完善，還需根據(jù)數(shù)據(jù)特點(diǎn)完善數(shù)據(jù)模型，所以本文采用一種雙向的注塑本體設(shè)計(jì)方法，主要包括基于頂層經(jīng)驗(yàn)的本體向下定義和基于底層數(shù)據(jù)的本體向上完善。具體設(shè)計(jì)過程包括以下步驟：

步驟1 明確知識(shí)父類：根據(jù)缺陷原因分析和解決方案查詢等需求，確定頂層知識(shí)父類，包括“注塑缺陷”“表現(xiàn)狀態(tài)”“產(chǎn)生原因”和“解決方案”等，即圖2灰色矩形框所示。

步驟2 細(xì)化知識(shí)子類：父類不斷進(jìn)行細(xì)化添加子類，以形成結(jié)構(gòu)良好的概念層次，即式(1)中的C，圖2中白色圓角矩形框表示子類。

步驟3 建立類間關(guān)系：式(1)中的R用來描述概念之間的關(guān)系，方便注塑知識(shí)的自動(dòng)檢索和查詢推理。圖2中“r:”表示類間關(guān)系。

步驟4 定義各類屬性：式(1)中的P用來描述概念的具體性質(zhì)，以獲取更加完整全面的概念全貌。圖2中“p:”表示各類屬性。

步驟5 給出具體實(shí)例：式(1)中的I表示子類的具體實(shí)例，即圖2中灰色圓角矩陣所示。

圖2 注塑缺陷診斷本體概況(部分)

步驟6 本體反饋完善：自上而下構(gòu)建的(C1,P1,R1,I1)指導(dǎo)搜集網(wǎng)頁，再根據(jù)實(shí)際網(wǎng)頁提煉新增(C2,P2,R2,I2)，形成最終本體(C,P,R,I)。

4 基于本體引導(dǎo)的領(lǐng)域知識(shí)發(fā)現(xiàn)方法

構(gòu)建好領(lǐng)域本體后，可進(jìn)一步引導(dǎo)網(wǎng)頁知識(shí)的抽取。整體架構(gòu)如圖3所示，主要包含網(wǎng)頁評(píng)估、知識(shí)抽取和實(shí)體對(duì)齊3個(gè)步驟。首先，基于本體的關(guān)鍵字集合可收集豐富的網(wǎng)頁數(shù)據(jù)，并評(píng)估網(wǎng)頁的置信度進(jìn)行篩選；再將其與本體結(jié)構(gòu)結(jié)合，以對(duì)其內(nèi)容進(jìn)行解析，生成屬性觸發(fā)詞和關(guān)系觸發(fā)詞，提取注塑知識(shí)3元組；最后再進(jìn)行知識(shí)歸并。

圖3 基于本體引導(dǎo)的領(lǐng)域知識(shí)發(fā)現(xiàn)方法

其中網(wǎng)頁采用P R 指標(biāo)評(píng)估，P R值是可查詢的標(biāo)識(shí)網(wǎng)頁質(zhì)量的重要標(biāo)準(zhǔn)。其分為10個(gè)等級(jí)，PR等級(jí)越高，表示可參考價(jià)值越大。一般來說，PR級(jí)別達(dá)到4，網(wǎng)頁的質(zhì)量就有所保證，依據(jù)該經(jīng)驗(yàn)，當(dāng)P R<4時(shí)，則剔除。

最終形成的網(wǎng)頁集合普遍呈現(xiàn)出結(jié)構(gòu)化程度低、內(nèi)容分布零散等特點(diǎn)，采用傳統(tǒng)的爬蟲方法難以提取，為此本文開發(fā)出注塑領(lǐng)域基于觸發(fā)詞的語料知識(shí)抽取方法。針對(duì)“實(shí)體-屬性-屬性值”和“實(shí)體-關(guān)系-實(shí)體”兩種3元組形式，可將觸發(fā)方式分為屬性觸發(fā)和關(guān)系觸發(fā)兩類。如圖4所示，對(duì)于注塑缺陷診斷，依據(jù)中文習(xí)慣，其屬性觸發(fā)詞包括“俗稱”“別名”等；同樣地，針對(duì)關(guān)系觸發(fā)，其觸發(fā)詞包括“辦法”“原因”等。

圖4 基于觸發(fā)詞的語料知識(shí)抽取方法

基于上述分析和舉例，容易發(fā)現(xiàn)設(shè)計(jì)的本體父類、子類及關(guān)系中包含了大部分觸發(fā)詞。實(shí)際上，由于模型是采用本體結(jié)構(gòu)來指導(dǎo)網(wǎng)頁的搜集篩選，自然地，網(wǎng)頁文本也會(huì)反映本體結(jié)構(gòu)中的概念特性，但其蘊(yùn)含的邏輯知識(shí)和推理能力在信息抽取卻很少被利用。因此該文提出將本體信息引入到網(wǎng)頁文本的解析過程，完成屬性和關(guān)系觸發(fā)詞的生成，進(jìn)而實(shí)現(xiàn)注塑知識(shí)的抽取。具體地，對(duì)本體的關(guān)鍵字集合進(jìn)行屬性和關(guān)系分類，初始化屬性觸發(fā)詞庫和關(guān)系觸發(fā)詞庫。由于本體中包含的觸發(fā)詞有限，可再結(jié)合專家經(jīng)驗(yàn)對(duì)觸發(fā)詞進(jìn)行補(bǔ)充，也可通過觀察部分PR值高的網(wǎng)頁，進(jìn)一步補(bǔ)充觸發(fā)詞。一旦確定屬性和關(guān)系觸發(fā)詞后，則“實(shí)體-屬性-屬性值”和“實(shí)體-關(guān)系-實(shí)體”3元組就可通過分詞等方式進(jìn)行抽取。

知識(shí)抽取完成后，可形成相應(yīng)的知識(shí)圖譜。此時(shí)的知識(shí)圖譜具有兩個(gè)特點(diǎn)，一是絕大部分實(shí)體具有多重屬性，極少量實(shí)體不具備屬性；二是存在大量相似實(shí)體，如“填充不足”與“填充不滿”可被認(rèn)為是相似實(shí)體。若不進(jìn)行相似實(shí)體歸并，即實(shí)體對(duì)齊，則知識(shí)圖譜的查詢、推斷等應(yīng)用效率將顯著降級(jí)。同時(shí)由于實(shí)體的相似性本質(zhì)上在于其屬性的相似性，因此，可通過利用實(shí)體的各重屬性來判斷兩實(shí)體是否相似。然而，實(shí)體的屬性值可能包含詞組等短文本，如名稱屬性、等級(jí)屬性等；而部分屬性值包含具有明顯語義信息的長文本，如定義屬性。為此，本文針對(duì)短文本和長文本同時(shí)存在的情況，提出了基于屬性相似度的兩級(jí)對(duì)齊方法，以綜合提升冗余實(shí)體的發(fā)現(xiàn)率。圖5描述了算法的整體架構(gòu)。

圖5 基于多重屬性的兩級(jí)實(shí)體對(duì)齊架構(gòu)

首先針對(duì)缺陷俗稱、別名等短文本屬性進(jìn)行實(shí)體的相似度評(píng)估，由于是短文本，可直接比對(duì)字符串，當(dāng)存在某一屬性值重合時(shí)，即判斷為同一實(shí)體，結(jié)束該對(duì)實(shí)體的歸并過程。若未發(fā)現(xiàn)短文本屬性值重合，進(jìn)一步比對(duì)兩實(shí)體的長文本。由于長文本包含豐富的語義信息，需定義基于語義的相似度，為此，首先定義注塑語料庫Z，語料庫要求能完全涵蓋所收集的3元組中的詞組，可采用網(wǎng)絡(luò)爬蟲進(jìn)行搜集，并通過文本清洗、中文分詞、去除無關(guān)詞等操作，最終形成包含N個(gè)詞組的注塑過程詞匯表V={vi},i=1,2,...,N。其中，////為l2范數(shù)，余弦相似度越大，表示兩者間的語義越接近，越有可能為相同實(shí)體。本文選取0.9為閾值，進(jìn)行相似實(shí)體歸并，即將對(duì)齊的實(shí)體的關(guān)系鏈接至保留實(shí)體中，對(duì)齊實(shí)體相對(duì)于保留實(shí)體的額外屬性知識(shí)則歸并至保留實(shí)體中。

5 實(shí)驗(yàn)結(jié)果及分析

5.1 基于專家經(jīng)驗(yàn)的注塑知識(shí)置信度評(píng)估

實(shí)驗(yàn)選取9個(gè)高質(zhì)量注塑網(wǎng)頁進(jìn)行知識(shí)抽取，最終存儲(chǔ)并構(gòu)建了648條知識(shí)3元組，其中包括注塑缺陷、產(chǎn)生原因和解決方案3類實(shí)體、“導(dǎo)致”和“作用于”這2大關(guān)系以及注塑缺陷實(shí)體的多重屬性。詳細(xì)的評(píng)估結(jié)果如表1所示。

然而基于多源網(wǎng)頁抽取的知識(shí)并不總是完全準(zhǔn)確的，只有經(jīng)書籍、專家多方評(píng)判置信度方能存為圖譜知識(shí)，具體可劃分為書籍重合、新增、爭(zhēng)議和錯(cuò)誤知識(shí)4大類。知識(shí)評(píng)估時(shí)，本文默認(rèn)與書籍重合的3元組為準(zhǔn)確知識(shí)；書籍中不存在的3元組，經(jīng)過先驗(yàn)知識(shí)和網(wǎng)絡(luò)資源多方評(píng)估，若準(zhǔn)確便納入新增知識(shí)；與書籍矛盾的則歸為錯(cuò)誤知識(shí)；無法判斷的則歸入爭(zhēng)議知識(shí)。同時(shí)，整個(gè)評(píng)估過程我們借助專家經(jīng)驗(yàn)來完成，表1給出了3位不同專家進(jìn)行知識(shí)置信度評(píng)估后的結(jié)果。

表1 注塑知識(shí)3元組的置信度評(píng)估

與文獻(xiàn)[1]的43類注塑缺陷相比較，本文共抽取到了136個(gè)注塑缺陷實(shí)體，新增了許多書籍中沒有的實(shí)體表述，體現(xiàn)了本文基于網(wǎng)頁獲取知識(shí)的多樣性和可取性；其次針對(duì)抽取到的注塑缺陷實(shí)體及其屬性，正確率高達(dá)98%，只是存在相同實(shí)體表述不一的情形；另外三者針對(duì)原因和方案3元組的準(zhǔn)確率評(píng)估均超過90%，知識(shí)3元組(包括實(shí)體屬性和關(guān)系3元組)的置信度評(píng)估均超過95%，表明了所提抽取方法的有效性。

5.2 與現(xiàn)有知識(shí)抽取方法的對(duì)比

為了進(jìn)一步驗(yàn)證本文知識(shí)抽取方法的優(yōu)勢(shì)，傳統(tǒng)單一的爬蟲方案和經(jīng)典Bi-LSTM+CRF的監(jiān)督類模型[29]也被應(yīng)用于該節(jié)的注塑知識(shí)抽取中。其中基于爬蟲的知識(shí)抽取通過分析網(wǎng)站的HTML代碼，進(jìn)而使用對(duì)應(yīng)表達(dá)式提取目標(biāo)實(shí)體；基于深度學(xué)習(xí)的BiLSTM+CRF模型則事先針對(duì)抽取到的9個(gè)網(wǎng)站文本進(jìn)行實(shí)體的BIO標(biāo)注(B和I表示實(shí)體開端和中間、O表示非實(shí)體)，再采用其中6個(gè)網(wǎng)頁的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練，剩余的3個(gè)網(wǎng)頁用于知識(shí)抽取效果的檢驗(yàn)。

圖6給出了3種知識(shí)抽取方案的各類實(shí)體抽取數(shù)目和準(zhǔn)確率，其中BiLSTM+CRF模型的實(shí)體抽取準(zhǔn)確率用序列標(biāo)注準(zhǔn)確率衡量，其余方法與標(biāo)注結(jié)果相比較得出?？梢钥闯鰝鹘y(tǒng)爬蟲方案受網(wǎng)頁代碼層次的制約，只抽取到了少量實(shí)體；而BiLSTM+CRF模型的準(zhǔn)確率高達(dá)77%，但往往因某個(gè)標(biāo)注錯(cuò)誤導(dǎo)致整體抽取實(shí)體數(shù)大大降低，更適用于非結(jié)構(gòu)化知識(shí)的抽??；而相比其他兩類方案，本文所提的基于本體引導(dǎo)的知識(shí)觸發(fā)抽取方法能夠在無需標(biāo)注語料的前提下，顯著提升注塑實(shí)體抽取的準(zhǔn)確率，有利于后續(xù)標(biāo)注集的快速構(gòu)建。

圖6 采用不同知識(shí)抽取方案的效果對(duì)比

圖7給出了知識(shí)3元組(表述不重復(fù))隨抽取網(wǎng)頁數(shù)目的增長曲線。當(dāng)注塑網(wǎng)頁的代碼層次不高，但其文本內(nèi)容有組織時(shí)，本文方法能確保無標(biāo)注語料下的知識(shí)抽取效果，且隨著抽取網(wǎng)頁數(shù)量的增加，實(shí)體及3元組知識(shí)的完備性和規(guī)模也在不斷提升。

圖7 知識(shí)3元組隨抽取網(wǎng)頁數(shù)目的增長曲線

5.3 與傳統(tǒng)知識(shí)融合算法的對(duì)比

知識(shí)抽取完成后，為了避免不同表述的同一實(shí)體共存于圖譜中，導(dǎo)致圖譜存在冗余信息，本文采用了一種基于多重屬性的兩級(jí)實(shí)體對(duì)齊算法，在精簡(jiǎn)知識(shí)的同時(shí)，也能同步完善補(bǔ)充實(shí)體的屬性描述。

知識(shí)融合效果對(duì)比如圖8所示。為了驗(yàn)證所提方法的優(yōu)越性，本文將所提的兩級(jí)實(shí)體對(duì)齊方法(Double alignment based on Double properties,DD算法)與僅使用實(shí)體名稱和單一的字符串(Single alignment based on Single property, SS)對(duì)比，基于實(shí)體名稱的兩級(jí)對(duì)齊(Double alignment basedon Single property, DS)，以及使用多重屬性的字符串(Single alignment based on Double properties,SD)方法進(jìn)行比較。不難發(fā)現(xiàn)，本文所提DD方法能夠提高缺陷實(shí)體的冗余發(fā)現(xiàn)數(shù)目。另外，由于產(chǎn)生原因和解決方案不存在定義等屬性，本文只采用SS和SD兩種算法驗(yàn)證，實(shí)驗(yàn)證明，兩級(jí)實(shí)體對(duì)齊算法有效提升了冗余知識(shí)的發(fā)現(xiàn)效果。

圖8 采用不同知識(shí)融合方案的效果對(duì)比

5.4 實(shí)體對(duì)齊前后的知識(shí)圖譜性能對(duì)比

圖9和圖10給出了實(shí)體對(duì)齊前后的可視化結(jié)果，可以看出對(duì)齊后的注塑知識(shí)圖譜更加具有組織性和精簡(jiǎn)性，反映了本文所提實(shí)體對(duì)齊方法的有效性。同時(shí)精簡(jiǎn)后的知識(shí)圖譜再應(yīng)用于制品缺陷溯因，輸入缺陷表觀等先驗(yàn)條件，可查詢得出具體缺陷類型、產(chǎn)生原因以及合理的解決方案。

圖9 實(shí)體對(duì)齊前的知識(shí)圖譜可視化示例結(jié)果

圖10 實(shí)體對(duì)齊后的知識(shí)圖譜可視化示例結(jié)果

6 結(jié)論

針對(duì)現(xiàn)有爬蟲抽取方案所需結(jié)構(gòu)化注塑網(wǎng)址匱乏、監(jiān)督類知識(shí)挖掘模型缺乏標(biāo)注語料集，人工開發(fā)周期長等問題，本文提出一種基于本體引導(dǎo)的工業(yè)知識(shí)圖譜構(gòu)建方法。首先，基于注塑過程實(shí)際需求和專家經(jīng)驗(yàn)設(shè)計(jì)構(gòu)建注塑本體層，進(jìn)而實(shí)現(xiàn)文本知識(shí)的解析抽??；其次利用實(shí)體屬性相似度對(duì)冗余重復(fù)實(shí)體進(jìn)行兩級(jí)對(duì)齊，精簡(jiǎn)知識(shí)圖譜；最后基于實(shí)體對(duì)齊后的知識(shí)圖譜，實(shí)現(xiàn)注塑過程表面缺陷的診斷及優(yōu)化應(yīng)用。實(shí)驗(yàn)結(jié)果表明，與專業(yè)書籍對(duì)比，所構(gòu)建圖譜知識(shí)錯(cuò)誤率不超過5%，可以準(zhǔn)確診斷缺陷類型及原因，快速給出解決方案，是注塑過程專用領(lǐng)域圖譜構(gòu)建的一種新的實(shí)踐。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡