蔣志遠(yuǎn),郭 淵
(江蘇大學(xué)機(jī)械工程學(xué)院,江蘇鎮(zhèn)江212000)
軟件應(yīng)用
CAPP中基于本體和CBR技術(shù)的數(shù)據(jù)挖掘建模研究
蔣志遠(yuǎn),郭淵
(江蘇大學(xué)機(jī)械工程學(xué)院,江蘇鎮(zhèn)江212000)
研究了基于本體的數(shù)據(jù)挖掘事例庫的構(gòu)建、兩級事例檢索策略(以基于本體的語義理解為第一級事例檢索,以數(shù)值相似度計算為第二級事例檢索)、語義相似度計算方法、數(shù)值相似度計算方法等技術(shù),將本體技術(shù)和CBR技術(shù)集成起來構(gòu)建了基于本體的CBR系統(tǒng),并通過大量實驗驗證了其有效性。
數(shù)據(jù)挖掘;CAPP;本體;CBR
現(xiàn)存的基于數(shù)據(jù)挖掘獲取工藝知識的CAPP系統(tǒng)尚處于初期階段,有很多缺陷需要完善。其中一個重要的問題是系統(tǒng)應(yīng)用門檻高,很難被普通用戶(非領(lǐng)域?qū)<遥┓奖銘?yīng)用,這嚴(yán)重限制了基于數(shù)據(jù)挖掘獲取工藝知識的CAPP系統(tǒng)的廣泛應(yīng)用[1]。為了解決上述問題,本文主要從數(shù)據(jù)挖掘建模方面進(jìn)行研究,提出了基于本體和CBR(Case-based reasoning,基于事例的推理)的建模方法,開發(fā)了相應(yīng)的基于數(shù)據(jù)挖掘的工藝規(guī)劃系統(tǒng),并通過大量實驗驗證了其有效性。
基于本體和CBR技術(shù)的數(shù)據(jù)挖掘建模機(jī)理如圖1所示,其具體步驟描述如下:
(1)首先將挖掘任務(wù)通過界面接口技術(shù)轉(zhuǎn)換成本體詞匯,為語義理解奠定基礎(chǔ);
(2)通過基于語義理解的檢索導(dǎo)引策略,將輸入本體詞匯(界面接口轉(zhuǎn)換得到的本體詞匯)與事例庫的本體詞匯樹上的詞匯進(jìn)行匹配,通過語義相似度計算測量他們的相似性,從而縮小下一步搜索的解空間[2];
(3)通過數(shù)值相似度測量獲取目標(biāo)事例集作為數(shù)據(jù)挖掘模型評價的候選模型;
(4)通過數(shù)據(jù)挖掘模型評價機(jī)制對獲得的所有相似事例進(jìn)行綜合評估,得出最佳相似事例;
(5)如果最佳相似事例的相似度測量值沒有達(dá)到一定的標(biāo)準(zhǔn),就不得不進(jìn)入事例修改環(huán)節(jié),進(jìn)行事例的修改。當(dāng)事例修改結(jié)果評估達(dá)標(biāo)時,即獲得滿意事例;
(6)根據(jù)獲得的滿意事例(應(yīng)用事例),參照其相應(yīng)的挖掘算法組織及選用的字段、權(quán)重等進(jìn)行數(shù)據(jù)挖掘,獲得預(yù)期的知識;
(7)對數(shù)據(jù)挖掘所獲得的知識進(jìn)行評價,如果滿意則進(jìn)入事例學(xué)習(xí),如果不滿意則進(jìn)入下一個循環(huán)。見圖1.
圖1 基于本體和CBR技術(shù)的數(shù)據(jù)挖掘建模機(jī)理
2.1基于本體的工藝規(guī)劃數(shù)據(jù)挖掘事例庫的建構(gòu)
構(gòu)建一個領(lǐng)域本體主要有三個步驟:(1)獲取領(lǐng)域本體概念(詞匯);(2)獲取領(lǐng)域本體的關(guān)系(即概念與概念之間的關(guān)聯(lián));(3)通過建立概念之間的聯(lián)系獲得樹狀本體結(jié)構(gòu),該結(jié)構(gòu)同時也是一個事例(Case)模型,賦以不同的值即獲得所有事例(Case)。本文所建本體詳細(xì)過程如下:
(1)本體詞匯(即領(lǐng)域概念)的獲取
構(gòu)建本體首先要獲取領(lǐng)域本體詞匯。由于本文所建構(gòu)的本體是CBR本體,所以其同時要符合CBR技術(shù)的特點。詞匯的領(lǐng)域為交叉領(lǐng)域包括CAPP領(lǐng)域和數(shù)據(jù)挖掘領(lǐng)域。
(2)本體關(guān)系的獲取
根據(jù)概念之間的關(guān)系構(gòu)成一個樹狀結(jié)構(gòu)。概念越抽象,其位置越在樹的頂端。樹的最頂端是最抽象最籠統(tǒng)的概念“工藝規(guī)劃數(shù)據(jù)挖掘事例”,最底端即樹的末梢是最具體的概念例如材料“PS”、“PPS”等。在本體樹形結(jié)構(gòu)中,樹葉部分(葉節(jié)點)的概念同時也是一個數(shù)據(jù)庫的標(biāo)簽,里面可以存儲相應(yīng)概念的特征值。這些葉節(jié)點可以看做一個集合,而現(xiàn)實世界的每一個具體事例,實際就是對這組葉節(jié)點進(jìn)行賦值,從而成為整個本體Case的一個實例。這樣,將大量現(xiàn)實世界的實例的具體特征值存入對應(yīng)的數(shù)據(jù)庫就構(gòu)成事例庫,儲存了領(lǐng)域知識。
2.2基于本體的工藝規(guī)劃數(shù)據(jù)挖掘事例的檢索
本文建立了二級檢索機(jī)制:第一級檢索是基于本體的語義理解檢索,其功能相當(dāng)于知識導(dǎo)引法,首先將問題的解縮小到一個適當(dāng)?shù)慕饪臻g;第二級是利用最近鄰算法的數(shù)值計算,并通過設(shè)置一定的閾值控制所返回的結(jié)果事例個數(shù)。
2.2.1基于本體的語義理解檢索
如何訪問本體事例庫和語義相似度的計算是基于本體語義理解檢索的兩個核心環(huán)節(jié),它決定著檢索的成敗與否。下面分別介紹這兩個環(huán)節(jié):
(1)基于本體的工藝規(guī)劃數(shù)據(jù)挖掘事例的訪問
基于本體的工藝規(guī)劃數(shù)據(jù)挖掘事例的訪問技術(shù)即接口技術(shù),其功能是將用戶的自然語言詢問轉(zhuǎn)換成本體事例庫可以接受的語言規(guī)范并進(jìn)行相關(guān)概念的訪問,從而為相似度測量打下基礎(chǔ)。這里的接口技術(shù)是通過SPARQL技術(shù)來實現(xiàn)的。
(2)基于本體的語義相似度計算
語義相似度計算的基礎(chǔ)理論主要來源于離散數(shù)學(xué)中的圖和樹的匹配技術(shù)、數(shù)據(jù)庫中模式的類似處理技術(shù)和一階謂詞中類似的處理技術(shù)(如用機(jī)器學(xué)習(xí)來解決相似性的問題)。本文建構(gòu)的語義相似度算法:提出了新的ND-IC相似度計算法即W-IC-ND(Weighted Information Content and Node Distance)。假定概念簇C' =[C'1,C'2,…,C'i,…,C'n]來自于用戶詢問,概念簇C=[C1,C2,…,Ci,…,Cn]來自于匹配的本體詞匯庫。概念簇C'和C的總體相似度表示為SimIC-ND(C',C).為計算SimIC-ND(C',C),首先計算這兩組概念簇中每一個概念對(C'i,Ci)的相似度,記為SimIC-ND(C'i,Ci)。當(dāng)計算SimIC-ND(C'i,Ci)時,首先用本文建議的IC相似度計算法計算,記為SimIC(C'i,Ci),再用本文建議的ND法計算,記為SimND(C'i,Ci),最后再將二者加權(quán)求和。
2.2.2數(shù)值相似度測量
數(shù)值相似度測量分兩步進(jìn)行:首先計算出各個數(shù)值型屬性的相似度,然后通過最近鄰策略計算出總體數(shù)值相似度,下面分別描述之。
(1)單個數(shù)值型屬性相似度的計算
數(shù)值型屬性相似度的計算要根據(jù)不同的數(shù)值類型,分別采取不同的算法。在本文中,數(shù)值類型主要有簡單數(shù)值型、區(qū)間數(shù)值型、模糊數(shù)值型等,相應(yīng)的相似度算法如下:
1)簡單數(shù)值型
假設(shè)c(實數(shù))代表源事例的某個數(shù)值型屬性的值;c'(實數(shù))代表目標(biāo)事例相應(yīng)屬性的值,則二者的相似度算法如公式(1)所示,k為相應(yīng)屬性在事例庫中的值范圍。
2)區(qū)間數(shù)值型
假定區(qū)間值[a,a']是源事例的某個屬性的值;[b,b']為目標(biāo)事例的相應(yīng)屬性的值,則二者的相似度可以按公式(2)求出。
3)模糊數(shù)值型
在很多情況下,事例的屬性也可能是一個模糊數(shù)值,其由一個目標(biāo)值v和相應(yīng)的關(guān)系(<,≤,≥,>)組成。例如工藝規(guī)劃的“生產(chǎn)規(guī)?!睂傩?,屬性值為:生產(chǎn)規(guī)模不超過500件。那么用模糊數(shù)值表示即為:v≤500.這種情況下,計算源事例和目標(biāo)事例的屬性相似度,通常首先要選擇一個隸屬度函數(shù)。隸屬度函數(shù)的選擇主要依靠主觀經(jīng)驗進(jìn)行試錯選擇,本文根據(jù)應(yīng)用實踐情況選用TriF法作為隸屬度函數(shù)。
(2)總體數(shù)值相似度的計算
當(dāng)每個數(shù)值型屬性相似度的值求出后,通過最近鄰匹配函數(shù)求出總體數(shù)值相似度。這里,總體相似度包括三部分:簡單數(shù)值型屬性相似度集,區(qū)間數(shù)值型屬性相似度集;模糊數(shù)值型相似度集。故此,總體相似度計算如公式(3)所示。
3.1實驗設(shè)計
(1)用于執(zhí)行數(shù)據(jù)挖掘任務(wù)的數(shù)據(jù)源的選擇及數(shù)據(jù)預(yù)處理
本論文的數(shù)據(jù)預(yù)處理主要包括以下幾項:
1)去噪聲數(shù)據(jù):在大型企業(yè)中,由于數(shù)據(jù)眾多,很容易因為數(shù)據(jù)收集工具,數(shù)據(jù)輸入錯誤,數(shù)據(jù)輸出錯誤,技術(shù)限制等在測量過程中產(chǎn)生隨機(jī)錯誤或是偏差,通過不同性質(zhì)的多源數(shù)據(jù)進(jìn)行參照,消除噪聲數(shù)據(jù);
2)數(shù)據(jù)集成:將多個數(shù)據(jù)源中的數(shù)據(jù)整合到一個一致的儲存中,整合不同數(shù)據(jù)源中的元數(shù)據(jù),匹配來自不同數(shù)據(jù)源的現(xiàn)實事例的實體,檢測并解決數(shù)據(jù)值的沖突問題,同時由于可能會有數(shù)據(jù)重復(fù)而要消除數(shù)據(jù)冗余。
3)將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,以統(tǒng)一的格式,存入標(biāo)準(zhǔn)數(shù)據(jù)庫中。
(2)實驗安排
1)實驗任務(wù):三個典型的機(jī)械加工零件,閥蓋、端蓋、泵蓋。工藝規(guī)劃任務(wù)為典型任務(wù)例如加工工藝路線的確定、切削用量的選擇、工序卡的制定、刀具的選用等。
2)用于做比較的方法:當(dāng)前流行的CBR檢索系統(tǒng)GA-CBR[3],TCBR[4];
3)系統(tǒng)檢索效果評價指標(biāo):Case修改量和用戶滿意度。在這種評價方法里,選擇一個可靠的專家組是評價成功的關(guān)鍵。故此,本文選用了20個來自知名企業(yè)(大眾、通用等企業(yè))的專家學(xué)者進(jìn)行打分評價。
4)方法執(zhí)行者:為了消除偶然誤差,每項任務(wù)(Case)由不同的五個人(他們具有相當(dāng)工程背景)來完成,然后求其平均值。見表1.
表1 本文建議的方法與現(xiàn)存方法的比較
從表1的統(tǒng)計數(shù)據(jù),明顯可以看出,相比較于傳統(tǒng)的CBR而言,本文建議的基于本體和CBR的事例檢索方法在精度和效率方面都大大提高,特別是在復(fù)雜的零件工藝規(guī)劃時例如閥蓋。設(shè)計任務(wù)越復(fù)雜,建議的系統(tǒng)比傳統(tǒng)CBR的優(yōu)越性越突出,說明了本文構(gòu)造的相似度算法是恰當(dāng)?shù)模瑫r有力地證實了本文所研究的方法是可行的。
[1]邵新宇,蔡力鋼.現(xiàn)代CAPP技術(shù)與應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2004:1-4.
[2]柯明楊.機(jī)械制造工藝學(xué)[M].北京:北京航空航天大學(xué)出版社,1996:1-5.
[3]G.Beddoe,S.Petrovic,Selecting and weighting features using a genetic algorithm in a case-based reasoning approach to personnel rostering[J].Eur JOpnl Res,2006,175:649-671.
[4]C.K.Reisbeck,R.C.Schank,Inside case-based reasoning. Hillsdale[M],NJ,USA:Lawrence Erlbaum Associates 1989.
Research on Modeling of data Mining based on Ontology and CBR Technology
JIANG Zhi-yuan,GUO Yuan
(School of Mechanical Engineering,Jiangsu University,Zhenjiang Jiangsu 212000,China)
This paper studies the ontology based data mining case library construction,two grade case retrieval strategy(based on ontology semantic understanding for the first case retrieval,with numerical similarity calculation for the second case retrieval),semantic similarity calculation method,numerical similarity computationmethods of technology,ontology technology and CBR technology integration and construct the ontology based CBR system. And a lotof experiments have been made to verify its effectiveness.
datamining;CAPP;ontology;CBR
TP311
A
1672-545X(2016)06-0228-03
2016-03-05
蔣志遠(yuǎn)(1994-),男,江蘇淮安人,本科,研究方向:機(jī)械制造極其自動化;郭淵(1979-),男,江蘇鎮(zhèn)江人,博士,講師,研究方向:智能化制造/數(shù)據(jù)挖掘。