国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于本體引導(dǎo)的注塑知識(shí)圖譜構(gòu)建及缺陷溯因應(yīng)用

2022-05-31 06:18王雅琳鄒江楓袁小鋒謝勝利
電子與信息學(xué)報(bào) 2022年5期
關(guān)鍵詞:元組語料本體

王雅琳 鄒江楓 王 凱* 袁小鋒 謝勝利

①(中南大學(xué)自動(dòng)化學(xué)院 長沙 410083)

②(廣東工業(yè)大學(xué) 廣州 510006)

1 引言

注塑成型因生產(chǎn)周期短、自動(dòng)化程度高等優(yōu)勢(shì),普遍應(yīng)用于各類復(fù)雜塑料制品的批量生產(chǎn)。然而,由于模具、環(huán)境等多重因素的共同影響,注塑過程容易在產(chǎn)品外觀、尺寸等方面出現(xiàn)問題[1]。為此,如何根據(jù)產(chǎn)品表觀分析缺陷成因,并提出合理解決方案受到了國內(nèi)外學(xué)者的廣泛關(guān)注,是注塑行業(yè)提質(zhì)增效的關(guān)鍵。

一般而言,注塑制品的缺陷診斷方法可分為人工檢測(cè)、試驗(yàn)設(shè)計(jì)、深度學(xué)習(xí)和專家系統(tǒng)4類[2,3]。其中人工檢測(cè)法[4]需依賴大量經(jīng)驗(yàn)知識(shí),不利于實(shí)際生產(chǎn)的快速運(yùn)用。在此背景下,試驗(yàn)設(shè)計(jì)法被提出,其主要思想是通過結(jié)合仿真模擬和數(shù)值分析等[5–7]技術(shù),來指導(dǎo)優(yōu)化工藝參數(shù),但仍要求操作人員具備一定的機(jī)理建模水平。而純數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)技術(shù)借助各類神經(jīng)網(wǎng)絡(luò)[8,9],可以避免復(fù)雜的機(jī)理建模問題,實(shí)現(xiàn)制品圖像的深層特征提取和缺陷診斷。然而,工業(yè)過程的監(jiān)測(cè)數(shù)據(jù)并不總是完全可信的,因此為避免低質(zhì)量數(shù)據(jù)的影響,文獻(xiàn)[10]結(jié)合生產(chǎn)經(jīng)驗(yàn)建立專家系統(tǒng),但維護(hù)成本高昂、可移植性差等問題還未得到解決。

相較于人工檢測(cè)和專家系統(tǒng),知識(shí)圖譜技術(shù)在靈活性、精確度及更新能力等方面優(yōu)勢(shì)顯著[11–13],為注塑制品的缺陷溯因分析提供了新的可行思路。其中注塑本體是知識(shí)圖譜的一類通用概念模型,核心思想是將復(fù)雜領(lǐng)域經(jīng)驗(yàn)分解為多條本征知識(shí)[14],用以指導(dǎo)各種實(shí)體、關(guān)系及其屬性的抽取,進(jìn)而形成具有領(lǐng)域特色的知識(shí)圖譜。其既可以借助專家經(jīng)驗(yàn)設(shè)計(jì)(自頂向下),也可以從開源數(shù)據(jù)中提煉(自底向上)。此外,基于敘詞表[15]和已有本體[16]等半自動(dòng)本體構(gòu)建方法也相繼被提出,但注塑領(lǐng)域無可復(fù)用的專業(yè)詞庫和本體結(jié)構(gòu)。本體的自動(dòng)構(gòu)建[17]則通常需要復(fù)雜的語言處理模型來分析語義,開發(fā)周期長且準(zhǔn)確率難以保障。因此基于上述分析,手工構(gòu)建本體不失為一種可靠并有效的選擇,然而,如何定義領(lǐng)域本體以減少歧義并實(shí)現(xiàn)正確推理[18],仍是工業(yè)知識(shí)圖譜構(gòu)建的首要挑戰(zhàn)。

構(gòu)建好的領(lǐng)域本體再用于指導(dǎo)多源網(wǎng)頁的知識(shí)抽取,主要包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化3種數(shù)據(jù)形式。一般而言,結(jié)構(gòu)化數(shù)據(jù)易于抽取,但難以獲??;半結(jié)構(gòu)化網(wǎng)頁常采用爬蟲技術(shù)提取,但大部分注塑網(wǎng)站結(jié)構(gòu)化程度不高,往往以純文本形式存在,直接采用爬蟲技術(shù)只能抽取到少量實(shí)體及其關(guān)系[19];而將其視為非結(jié)構(gòu)化文本,通用做法是利用專家標(biāo)注好的語料來訓(xùn)練得到實(shí)體識(shí)別、關(guān)系抽取等監(jiān)督模型。例如,早期的有條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)[20]和支持向量機(jī)(Support Vector Machine, SVM)[21]等經(jīng)典機(jī)器學(xué)習(xí)模型,但其較大程度依賴特征工程。因此,文獻(xiàn)[22]針對(duì)這一問題,提出結(jié)合雙向長短期記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory, Bi-LSTM)和CRF的方法。另外,文獻(xiàn)[23]還研究了實(shí)體識(shí)別與關(guān)系抽取的聯(lián)合學(xué)習(xí)模型。顯然,上述方法均離不開代價(jià)高昂的標(biāo)注數(shù)據(jù),且由于各個(gè)領(lǐng)域的專業(yè)詞匯相差甚遠(yuǎn),嚴(yán)重導(dǎo)致注塑知識(shí)抽取模型的準(zhǔn)確性難以保證。

因此為避免對(duì)專家標(biāo)注和領(lǐng)域詞典的過度依賴,充分利用先驗(yàn)信息是一種有效的途徑,文獻(xiàn)[24]提出基于觸發(fā)詞的網(wǎng)絡(luò)模型,所謂觸發(fā)詞是指由文本中的知識(shí)標(biāo)記和分隔元素等結(jié)構(gòu)信息整合而來的通用句式或詞組。其主要優(yōu)勢(shì)是不需要大量的標(biāo)記數(shù)據(jù),且成本效益更高,但觸發(fā)詞的手工構(gòu)建仍存在挑戰(zhàn)。同時(shí)本體結(jié)構(gòu)中蘊(yùn)含的邏輯信息在知識(shí)抽取中鮮有被利用[25],且通常未考慮冗余知識(shí)的對(duì)齊問題,工業(yè)知識(shí)的抽取質(zhì)量有待進(jìn)一步提升。

受上述模型的啟發(fā),本文提出一種基于本體引導(dǎo)的注塑知識(shí)圖譜構(gòu)建方法,在構(gòu)建注塑本體的基礎(chǔ)上,引導(dǎo)注塑知識(shí)的自動(dòng)抽取。本文主要貢獻(xiàn)為:(1)綜合專家經(jīng)驗(yàn)知識(shí)和實(shí)際網(wǎng)頁數(shù)據(jù),實(shí)現(xiàn)了以缺陷-表觀-原因-方案為導(dǎo)向的注塑本體設(shè)計(jì),有助于填補(bǔ)目前工業(yè)本體的領(lǐng)域空白。(2)將本體信息引入觸發(fā)詞庫的生成中,既能保障知識(shí)的準(zhǔn)確觸發(fā),也無需大量標(biāo)注語料。(3)將冗余實(shí)體的判別轉(zhuǎn)化為實(shí)體及其屬性的兩級(jí)對(duì)齊,進(jìn)一步提升了知識(shí)圖譜的精簡(jiǎn)性。

2 框架概述

知識(shí)圖譜旨在描述客觀世界的實(shí)體概念及其關(guān)系,主要分為“實(shí)體-屬性-屬性值”和“實(shí)體-關(guān)系-實(shí)體”兩種知識(shí)類型。然而,注塑過程屬專業(yè)領(lǐng)域,既缺乏專業(yè)注塑語料集,也缺乏可借鑒的較為成熟的注塑知識(shí)圖譜,因此為構(gòu)建面向缺陷診斷的注塑知識(shí)圖譜,首先需設(shè)計(jì)指導(dǎo)注塑知識(shí)挖掘的本體。一般而言,本體定義[26]為

其中,O表示注塑本體,C為實(shí)際概念,P為概念屬性,R表示概念間的關(guān)系,I為某概念實(shí)例。

注塑本體構(gòu)建完成后,可在其引導(dǎo)下進(jìn)一步挖掘網(wǎng)頁中的注塑知識(shí)。具體地,首先將本體中的概念、屬性等各項(xiàng)文本統(tǒng)一整合成關(guān)鍵字集合K,以指導(dǎo)注塑網(wǎng)頁的搜集,然而,由于網(wǎng)頁來源不同,可能包含大量與注塑應(yīng)用無關(guān)的信息,需再經(jīng)PR指標(biāo)篩選形成最終的網(wǎng)頁集。另外,由于注塑過程語料稀缺,缺乏重要的標(biāo)注數(shù)據(jù),基于有監(jiān)督的知識(shí)抽取模型無法直接使用。又考慮到注塑缺陷診斷為專用領(lǐng)域,其有用知識(shí)必定包含一些標(biāo)識(shí)性詞語,如“方案”“缺陷”等。為此,本文在本體引導(dǎo)下設(shè)計(jì)觸發(fā)詞對(duì)篩選后的注塑網(wǎng)頁進(jìn)行片段分割,以提取包含觸發(fā)詞的實(shí)體關(guān)系。

一旦網(wǎng)頁知識(shí)被遍歷抽取完成后,可根據(jù)實(shí)體及關(guān)系構(gòu)建領(lǐng)域知識(shí)圖譜。然而,由于網(wǎng)頁來源眾多,挖掘的網(wǎng)頁必定包含眾多重復(fù)或相似實(shí)體,因此還需對(duì)冗余知識(shí)進(jìn)行處理,即實(shí)體對(duì)齊。過去大部分研究很少利用到知識(shí)圖譜中的“實(shí)體-屬性-屬性值”3元組信息,為此本文基于兩級(jí)對(duì)齊策略綜合考慮實(shí)體和屬性的相似度來實(shí)現(xiàn)知識(shí)融合。

最后,融合后的知識(shí)3元組再存入Neo4j圖數(shù)據(jù)庫中,形成注塑知識(shí)圖譜ζ= (ε,τ,s), 其中ε,τ,s分別為實(shí)體、關(guān)系和3元組集合,且對(duì)于每個(gè)3元組(h,r,t)∈s,頭尾實(shí)體h,t ∈ε,關(guān)系r∈τ。

總體而言,基于本體引導(dǎo)的注塑知識(shí)圖譜構(gòu)建框架如圖1所示,主要包括注塑本體設(shè)計(jì)、知識(shí)3元組抽取模型、兩級(jí)知識(shí)融合和知識(shí)圖譜應(yīng)用4部分,以下將詳細(xì)闡述各個(gè)環(huán)節(jié)的技術(shù)細(xì)節(jié)。

圖1 注塑知識(shí)圖譜構(gòu)建框架圖

3 注塑領(lǐng)域本體設(shè)計(jì)

考慮注塑領(lǐng)域中所要抽取的知識(shí)范圍明確,更適合基于專家經(jīng)驗(yàn)的自頂向下方式。但隨著網(wǎng)頁數(shù)據(jù)的不斷積累,原來的本體結(jié)構(gòu)被發(fā)現(xiàn)并不完善,還需根據(jù)數(shù)據(jù)特點(diǎn)完善數(shù)據(jù)模型,所以本文采用一種雙向的注塑本體設(shè)計(jì)方法,主要包括基于頂層經(jīng)驗(yàn)的本體向下定義和基于底層數(shù)據(jù)的本體向上完善。具體設(shè)計(jì)過程包括以下步驟:

步驟1 明確知識(shí)父類:根據(jù)缺陷原因分析和解決方案查詢等需求,確定頂層知識(shí)父類,包括“注塑缺陷”“表現(xiàn)狀態(tài)”“產(chǎn)生原因”和“解決方案”等,即圖2灰色矩形框所示。

步驟2 細(xì)化知識(shí)子類:父類不斷進(jìn)行細(xì)化添加子類,以形成結(jié)構(gòu)良好的概念層次,即式(1)中的C,圖2中白色圓角矩形框表示子類。

步驟3 建立類間關(guān)系:式(1)中的R用來描述概念之間的關(guān)系,方便注塑知識(shí)的自動(dòng)檢索和查詢推理。圖2中“r:”表示類間關(guān)系。

步驟4 定義各類屬性:式(1)中的P用來描述概念的具體性質(zhì),以獲取更加完整全面的概念全貌。圖2中“p:”表示各類屬性。

步驟5 給出具體實(shí)例:式(1)中的I表示子類的具體實(shí)例,即圖2中灰色圓角矩陣所示。

圖2 注塑缺陷診斷本體概況(部分)

步驟6 本體反饋完善:自上而下構(gòu)建的(C1,P1,R1,I1)指導(dǎo)搜集網(wǎng)頁,再根據(jù)實(shí)際網(wǎng)頁提煉新 增(C2,P2,R2,I2), 形成最終本體(C,P,R,I)。

4 基于本體引導(dǎo)的領(lǐng)域知識(shí)發(fā)現(xiàn)方法

構(gòu)建好領(lǐng)域本體后,可進(jìn)一步引導(dǎo)網(wǎng)頁知識(shí)的抽取。整體架構(gòu)如圖3所示,主要包含網(wǎng)頁評(píng)估、知識(shí)抽取和實(shí)體對(duì)齊3個(gè)步驟。首先,基于本體的關(guān)鍵字集合可收集豐富的網(wǎng)頁數(shù)據(jù),并評(píng)估網(wǎng)頁的置信度進(jìn)行篩選;再將其與本體結(jié)構(gòu)結(jié)合,以對(duì)其內(nèi)容進(jìn)行解析,生成屬性觸發(fā)詞和關(guān)系觸發(fā)詞,提取注塑知識(shí)3元組;最后再進(jìn)行知識(shí)歸并。

圖3 基于本體引導(dǎo)的領(lǐng)域知識(shí)發(fā)現(xiàn)方法

其中網(wǎng)頁采用P R 指標(biāo)評(píng)估,P R值是可查詢的標(biāo)識(shí)網(wǎng)頁質(zhì)量的重要標(biāo)準(zhǔn)。其分為10個(gè)等級(jí),PR等級(jí)越高,表示可參考價(jià)值越大。一般來說,PR級(jí)別達(dá)到4,網(wǎng)頁的質(zhì)量就有所保證,依據(jù)該經(jīng)驗(yàn),當(dāng)P R<4時(shí),則剔除。

最終形成的網(wǎng)頁集合普遍呈現(xiàn)出結(jié)構(gòu)化程度低、內(nèi)容分布零散等特點(diǎn),采用傳統(tǒng)的爬蟲方法難以提取,為此本文開發(fā)出注塑領(lǐng)域基于觸發(fā)詞的語料知識(shí)抽取方法。針對(duì)“實(shí)體-屬性-屬性值”和“實(shí)體-關(guān)系-實(shí)體”兩種3元組形式,可將觸發(fā)方式分為屬性觸發(fā)和關(guān)系觸發(fā)兩類。如圖4所示,對(duì)于注塑缺陷診斷,依據(jù)中文習(xí)慣,其屬性觸發(fā)詞包括“俗稱”“別名”等;同樣地,針對(duì)關(guān)系觸發(fā),其觸發(fā)詞包括“辦法”“原因”等。

圖4 基于觸發(fā)詞的語料知識(shí)抽取方法

基于上述分析和舉例,容易發(fā)現(xiàn)設(shè)計(jì)的本體父類、子類及關(guān)系中包含了大部分觸發(fā)詞。實(shí)際上,由于模型是采用本體結(jié)構(gòu)來指導(dǎo)網(wǎng)頁的搜集篩選,自然地,網(wǎng)頁文本也會(huì)反映本體結(jié)構(gòu)中的概念特性,但其蘊(yùn)含的邏輯知識(shí)和推理能力在信息抽取卻很少被利用。因此該文提出將本體信息引入到網(wǎng)頁文本的解析過程,完成屬性和關(guān)系觸發(fā)詞的生成,進(jìn)而實(shí)現(xiàn)注塑知識(shí)的抽取。具體地,對(duì)本體的關(guān)鍵字集合進(jìn)行屬性和關(guān)系分類,初始化屬性觸發(fā)詞庫和關(guān)系觸發(fā)詞庫。由于本體中包含的觸發(fā)詞有限,可再結(jié)合專家經(jīng)驗(yàn)對(duì)觸發(fā)詞進(jìn)行補(bǔ)充,也可通過觀察部分PR值高的網(wǎng)頁,進(jìn)一步補(bǔ)充觸發(fā)詞。一旦確定屬性和關(guān)系觸發(fā)詞后,則“實(shí)體-屬性-屬性值”和“實(shí)體-關(guān)系-實(shí)體”3元組就可通過分詞等方式進(jìn)行抽取。

知識(shí)抽取完成后,可形成相應(yīng)的知識(shí)圖譜。此時(shí)的知識(shí)圖譜具有兩個(gè)特點(diǎn),一是絕大部分實(shí)體具有多重屬性,極少量實(shí)體不具備屬性;二是存在大量相似實(shí)體,如“填充不足”與“填充不滿”可被認(rèn)為是相似實(shí)體。若不進(jìn)行相似實(shí)體歸并,即實(shí)體對(duì)齊,則知識(shí)圖譜的查詢、推斷等應(yīng)用效率將顯著降級(jí)。同時(shí)由于實(shí)體的相似性本質(zhì)上在于其屬性的相似性,因此,可通過利用實(shí)體的各重屬性來判斷兩實(shí)體是否相似。然而,實(shí)體的屬性值可能包含詞組等短文本,如名稱屬性、等級(jí)屬性等;而部分屬性值包含具有明顯語義信息的長文本,如定義屬性。為此,本文針對(duì)短文本和長文本同時(shí)存在的情況,提出了基于屬性相似度的兩級(jí)對(duì)齊方法,以綜合提升冗余實(shí)體的發(fā)現(xiàn)率。圖5描述了算法的整體架構(gòu)。

圖5 基于多重屬性的兩級(jí)實(shí)體對(duì)齊架構(gòu)

首先針對(duì)缺陷俗稱、別名等短文本屬性進(jìn)行實(shí)體的相似度評(píng)估,由于是短文本,可直接比對(duì)字符串,當(dāng)存在某一屬性值重合時(shí),即判斷為同一實(shí)體,結(jié)束該對(duì)實(shí)體的歸并過程。若未發(fā)現(xiàn)短文本屬性值重合,進(jìn)一步比對(duì)兩實(shí)體的長文本。由于長文本包含豐富的語義信息,需定義基于語義的相似度,為此,首先定義注塑語料庫Z,語料庫要求能完全涵蓋所收集的3元組中的詞組,可采用網(wǎng)絡(luò)爬蟲進(jìn)行搜集,并通過文本清洗、中文分詞、去除無關(guān)詞等操作,最終形成包含N個(gè)詞組的注塑過程詞匯表V={vi},i=1,2,...,N。其中,////為l2范數(shù),余弦相似度越大,表示兩者間的語義越接近,越有可能為相同實(shí)體。本文選取0.9為閾值,進(jìn)行相似實(shí)體歸并,即將對(duì)齊的實(shí)體的關(guān)系鏈接至保留實(shí)體中,對(duì)齊實(shí)體相對(duì)于保留實(shí)體的額外屬性知識(shí)則歸并至保留實(shí)體中。

5 實(shí)驗(yàn)結(jié)果及分析

5.1 基于專家經(jīng)驗(yàn)的注塑知識(shí)置信度評(píng)估

實(shí)驗(yàn)選取9個(gè)高質(zhì)量注塑網(wǎng)頁進(jìn)行知識(shí)抽取,最終存儲(chǔ)并構(gòu)建了648條知識(shí)3元組,其中包括注塑缺陷、產(chǎn)生原因和解決方案3類實(shí)體、“導(dǎo)致”和“作用于”這2大關(guān)系以及注塑缺陷實(shí)體的多重屬性。詳細(xì)的評(píng)估結(jié)果如表1所示。

然而基于多源網(wǎng)頁抽取的知識(shí)并不總是完全準(zhǔn)確的,只有經(jīng)書籍、專家多方評(píng)判置信度方能存為圖譜知識(shí),具體可劃分為書籍重合、新增、爭(zhēng)議和錯(cuò)誤知識(shí)4大類。知識(shí)評(píng)估時(shí),本文默認(rèn)與書籍重合的3元組為準(zhǔn)確知識(shí);書籍中不存在的3元組,經(jīng)過先驗(yàn)知識(shí)和網(wǎng)絡(luò)資源多方評(píng)估,若準(zhǔn)確便納入新增知識(shí);與書籍矛盾的則歸為錯(cuò)誤知識(shí);無法判斷的則歸入爭(zhēng)議知識(shí)。同時(shí),整個(gè)評(píng)估過程我們借助專家經(jīng)驗(yàn)來完成,表1給出了3位不同專家進(jìn)行知識(shí)置信度評(píng)估后的結(jié)果。

表1 注塑知識(shí)3元組的置信度評(píng)估

與文獻(xiàn)[1]的43類注塑缺陷相比較,本文共抽取到了136個(gè)注塑缺陷實(shí)體,新增了許多書籍中沒有的實(shí)體表述,體現(xiàn)了本文基于網(wǎng)頁獲取知識(shí)的多樣性和可取性;其次針對(duì)抽取到的注塑缺陷實(shí)體及其屬性,正確率高達(dá)98%,只是存在相同實(shí)體表述不一的情形;另外三者針對(duì)原因和方案3元組的準(zhǔn)確率評(píng)估均超過90%,知識(shí)3元組(包括實(shí)體屬性和關(guān)系3元組)的置信度評(píng)估均超過95%,表明了所提抽取方法的有效性。

5.2 與現(xiàn)有知識(shí)抽取方法的對(duì)比

為了進(jìn)一步驗(yàn)證本文知識(shí)抽取方法的優(yōu)勢(shì),傳統(tǒng)單一的爬蟲方案和經(jīng)典Bi-LSTM+CRF的監(jiān)督類模型[29]也被應(yīng)用于該節(jié)的注塑知識(shí)抽取中。其中基于爬蟲的知識(shí)抽取通過分析網(wǎng)站的HTML代碼,進(jìn)而使用對(duì)應(yīng)表達(dá)式提取目標(biāo)實(shí)體;基于深度學(xué)習(xí)的BiLSTM+CRF模型則事先針對(duì)抽取到的9個(gè)網(wǎng)站文本進(jìn)行實(shí)體的BIO標(biāo)注(B和I表示實(shí)體開端和中間、O表示非實(shí)體),再采用其中6個(gè)網(wǎng)頁的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,剩余的3個(gè)網(wǎng)頁用于知識(shí)抽取效果的檢驗(yàn)。

圖6給出了3種知識(shí)抽取方案的各類實(shí)體抽取數(shù)目和準(zhǔn)確率,其中BiLSTM+CRF模型的實(shí)體抽取準(zhǔn)確率用序列標(biāo)注準(zhǔn)確率衡量,其余方法與標(biāo)注結(jié)果相比較得出??梢钥闯鰝鹘y(tǒng)爬蟲方案受網(wǎng)頁代碼層次的制約,只抽取到了少量實(shí)體;而BiLSTM+CRF模型的準(zhǔn)確率高達(dá)77%,但往往因某個(gè)標(biāo)注錯(cuò)誤導(dǎo)致整體抽取實(shí)體數(shù)大大降低,更適用于非結(jié)構(gòu)化知識(shí)的抽??;而相比其他兩類方案,本文所提的基于本體引導(dǎo)的知識(shí)觸發(fā)抽取方法能夠在無需標(biāo)注語料的前提下,顯著提升注塑實(shí)體抽取的準(zhǔn)確率,有利于后續(xù)標(biāo)注集的快速構(gòu)建。

圖6 采用不同知識(shí)抽取方案的效果對(duì)比

圖7給出了知識(shí)3元組(表述不重復(fù))隨抽取網(wǎng)頁數(shù)目的增長曲線。當(dāng)注塑網(wǎng)頁的代碼層次不高,但其文本內(nèi)容有組織時(shí),本文方法能確保無標(biāo)注語料下的知識(shí)抽取效果,且隨著抽取網(wǎng)頁數(shù)量的增加,實(shí)體及3元組知識(shí)的完備性和規(guī)模也在不斷提升。

圖7 知識(shí)3元組隨抽取網(wǎng)頁數(shù)目的增長曲線

5.3 與傳統(tǒng)知識(shí)融合算法的對(duì)比

知識(shí)抽取完成后,為了避免不同表述的同一實(shí)體共存于圖譜中,導(dǎo)致圖譜存在冗余信息,本文采用了一種基于多重屬性的兩級(jí)實(shí)體對(duì)齊算法,在精簡(jiǎn)知識(shí)的同時(shí),也能同步完善補(bǔ)充實(shí)體的屬性描述。

知識(shí)融合效果對(duì)比如圖8所示。為了驗(yàn)證所提方法的優(yōu)越性,本文將所提的兩級(jí)實(shí)體對(duì)齊方法(Double alignment based on Double properties,DD算法)與僅使用實(shí)體名稱和單一的字符串(Single alignment based on Single property, SS)對(duì)比,基于實(shí)體名稱的兩級(jí)對(duì)齊(Double alignment basedon Single property, DS),以及使用多重屬性的字符串(Single alignment based on Double properties,SD)方法進(jìn)行比較。不難發(fā)現(xiàn),本文所提DD方法能夠提高缺陷實(shí)體的冗余發(fā)現(xiàn)數(shù)目。另外,由于產(chǎn)生原因和解決方案不存在定義等屬性,本文只采用SS和SD兩種算法驗(yàn)證,實(shí)驗(yàn)證明,兩級(jí)實(shí)體對(duì)齊算法有效提升了冗余知識(shí)的發(fā)現(xiàn)效果。

圖8 采用不同知識(shí)融合方案的效果對(duì)比

5.4 實(shí)體對(duì)齊前后的知識(shí)圖譜性能對(duì)比

圖9和圖10給出了實(shí)體對(duì)齊前后的可視化結(jié)果,可以看出對(duì)齊后的注塑知識(shí)圖譜更加具有組織性和精簡(jiǎn)性,反映了本文所提實(shí)體對(duì)齊方法的有效性。同時(shí)精簡(jiǎn)后的知識(shí)圖譜再應(yīng)用于制品缺陷溯因,輸入缺陷表觀等先驗(yàn)條件,可查詢得出具體缺陷類型、產(chǎn)生原因以及合理的解決方案。

圖9 實(shí)體對(duì)齊前的知識(shí)圖譜可視化示例結(jié)果

圖10 實(shí)體對(duì)齊后的知識(shí)圖譜可視化示例結(jié)果

6 結(jié)論

針對(duì)現(xiàn)有爬蟲抽取方案所需結(jié)構(gòu)化注塑網(wǎng)址匱乏、監(jiān)督類知識(shí)挖掘模型缺乏標(biāo)注語料集,人工開發(fā)周期長等問題,本文提出一種基于本體引導(dǎo)的工業(yè)知識(shí)圖譜構(gòu)建方法。首先,基于注塑過程實(shí)際需求和專家經(jīng)驗(yàn)設(shè)計(jì)構(gòu)建注塑本體層,進(jìn)而實(shí)現(xiàn)文本知識(shí)的解析抽??;其次利用實(shí)體屬性相似度對(duì)冗余重復(fù)實(shí)體進(jìn)行兩級(jí)對(duì)齊,精簡(jiǎn)知識(shí)圖譜;最后基于實(shí)體對(duì)齊后的知識(shí)圖譜,實(shí)現(xiàn)注塑過程表面缺陷的診斷及優(yōu)化應(yīng)用。實(shí)驗(yàn)結(jié)果表明,與專業(yè)書籍對(duì)比,所構(gòu)建圖譜知識(shí)錯(cuò)誤率不超過5%,可以準(zhǔn)確診斷缺陷類型及原因,快速給出解決方案,是注塑過程專用領(lǐng)域圖譜構(gòu)建的一種新的實(shí)踐。

猜你喜歡
元組語料本體
基于歸一化點(diǎn)向互信息的低資源平行語料過濾方法*
Python核心語法
眼睛是“本體”
針對(duì)隱藏Web數(shù)據(jù)庫的Skyline查詢方法研究*
一種基于時(shí)間戳的簡(jiǎn)單表縮減算法?
海量數(shù)據(jù)上有效的top-kSkyline查詢算法*
瀕危語言與漢語平行語料庫動(dòng)態(tài)構(gòu)建技術(shù)研究
基于本體的機(jī)械產(chǎn)品工藝知識(shí)表示
對(duì)外漢語教學(xué)領(lǐng)域可比語料庫的構(gòu)建及應(yīng)用研究
——以“把”字句的句法語義標(biāo)注及應(yīng)用研究為例
國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法