網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20150326.1014.002.html
基于基元和知網(wǎng)的問題相關(guān)度計算
曹禮園,李衛(wèi)華
(廣東工業(yè)大學(xué) 計算機(jī)學(xué)院, 廣東 廣州 510006)
摘要:通過對可拓學(xué)的基元和復(fù)合元與知網(wǎng)的研究,利用Hownet中的詞語相似度的計算方法改進(jìn)詞語相關(guān)度的計算方法,建立基元相關(guān)度計算方法,進(jìn)而建立目標(biāo)相關(guān)度和條件相關(guān)度的計算機(jī)方法,形成問題相關(guān)度的計算。改進(jìn)了相關(guān)度算法,傳統(tǒng)方法只通過上下位關(guān)系計算詞語相關(guān)度,將知網(wǎng)描述的其他15個關(guān)系也考慮進(jìn)來,并提出了負(fù)相關(guān)的概念,將相關(guān)度的取值范圍定在[-1,1],對應(yīng)了關(guān)聯(lián)函數(shù)的值域。通過對基元中特征與特征的對應(yīng)關(guān)系,計算出基元的相關(guān)度,進(jìn)而計算問題的相關(guān)度。通過對數(shù)據(jù)庫里的上千個矛盾問題進(jìn)行測試,證實了這種方法可有效增加策略生成途徑,使矛盾問題解決的概率大大提高。
關(guān)鍵詞:可拓學(xué);知網(wǎng);相關(guān)度;基元;關(guān)聯(lián)函數(shù)
DOI:10.3969/j.issn.1673-4785.
中圖分類號:TP311文獻(xiàn)標(biāo)志碼:A
收稿日期:2013-10-06. 網(wǎng)絡(luò)出版日期:2015-03-26.
基金項目:國家自然科學(xué)基金資助項目(61273306).
作者簡介:
中文引用格式:曹禮園,李衛(wèi)華. 基于基元和知網(wǎng)的問題相關(guān)度計算[J]. 智能系統(tǒng)學(xué)報, 2015, 10(2): 234-239.
英文引用格式:CAO Liyuan, LI Weihua. Calculation of correlation problem based on basic element and HowNet[J]. CAAI Transactions on Intelligent Systems, 2015, 10(2): 234-239.
Calculation of correlation problem based on basic element and HowNet
CAO Liyuan, LI Weihua
(College of Computer, Guangdong University of Technology, Guangzhou 510006, China)
Abstract:Based on the basic-element and composite elements of extenics and HowNet research, the words similarity computing method in HowNet is used to improve the calculation method for the relationship of words. The basic-element correlation calculation method is built to establish a method for basic-element target correlation and basic-element conditions correlation. This is used to derive the method to calculate correlation of problem. There is improvement with the correlation algorithm, but the traditional method calculates the correlation of words only by hyponymy. In this paper, an additional fifteen relationships described in HowNet is taken into account. The concept of negative correlation is put forward and the range of correlation is in set [-1, 1], which corresponds to the range of the correlation function. Through the corresponding relationship between the features in the basic element, the correlation between basic elements is calculated and the correlation of problems can be calculated. Based on the test of thousands of contradictory problems in the database, the results showed that this method can effectively increase the amount of strategy generating approaches and the probability of contradictory problems to be solved is greatly promoted.
Keywords:extenics; HowNet; correlation; basicelement;dependent function
通信作者:曹禮園.E-mail:369206663@qq.com.
可拓學(xué)[1]是一門中國原創(chuàng)的新學(xué)科,它以形式化的模型,探討事物拓展的可能性以及開拓創(chuàng)新的規(guī)律與方法,并用于解決矛盾問題。知網(wǎng)[2]( HowNet)是一個以漢語和英語的詞語所代表的概念為描述對象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫。知網(wǎng)的建網(wǎng)方式、知識獲取和表達(dá)方式、事件概念分類方法和其自行設(shè)計的知識數(shù)據(jù)描述拓學(xué)中提出解決矛盾問題的策略生成知識需求。本文將可拓學(xué)和知網(wǎng)這個中國原創(chuàng)的理論和應(yīng)用工具相結(jié)合,進(jìn)一步提高了可拓學(xué)智能化水平,拓展了知網(wǎng)的應(yīng)用。 在文獻(xiàn)[3]中,蔡文教授首先提出物元模型的概念,文獻(xiàn)[4]提出了關(guān)聯(lián)函數(shù)的構(gòu)造方法。知網(wǎng)是我國著名機(jī)器翻譯專家董振東先生創(chuàng)立的一個知識系統(tǒng),它包含豐富的語義知識和世界知識。文獻(xiàn)[5]通過知識描述結(jié)構(gòu)和上下位關(guān)系計算義原相似度,文獻(xiàn)[6]和[7]分別提出了一種利用相關(guān)度來計算詞語相關(guān)度的算法。
1傳統(tǒng)的可拓策略生成系統(tǒng)分析問題的不足
傳統(tǒng)的策略生成系統(tǒng)是先建立可拓模型,即建立問題P的核問題P0的可拓模型為P0=g0×l0,其中,g0為問題的目標(biāo),l0為問題的條件。再確定問題的關(guān)聯(lián)函數(shù)K,然后對問題P0進(jìn)行相容性分析,若不相容(目標(biāo)與條件有矛盾),則對問題的目標(biāo)或條件進(jìn)行可拓分析,得到問題的發(fā)散樹或相關(guān)樹,通過對問題發(fā)散樹或相關(guān)樹的“葉”基元進(jìn)行可拓變換,生成候選策略集合,最后對策略集合中的策略進(jìn)行優(yōu)度評價,推薦優(yōu)度較高的策略供決策者選擇。這種分析問題的方法存在著一些不足之處。
首先,這個解決問題的方法對每個問題都進(jìn)行整個過程,當(dāng)遇到類似的問題時,系統(tǒng)依然重復(fù)上次策略生成的過程,增加了策略生成的時間。
其次,這個過程無法對問題進(jìn)行歸類。也找不到問題之間關(guān)聯(lián)性,因而無法對問題進(jìn)行歸并,進(jìn)而找到通用解。同時導(dǎo)致策略的針對性不強(qiáng)。
可見,在可拓策略生成系統(tǒng)中,在原問題和核問題建模后,增加另一個過程――進(jìn)入矛盾問題庫,用問題相關(guān)度判斷是否與已有矛盾問題相關(guān)(或相同)是非常重要的。如果問題與已在問題庫的問題類似,則可直接進(jìn)入可拓策略庫搜索選取相應(yīng)的策略,縮短問題解決的時間,提高問題解決的概率。
2詞語相關(guān)度計算模型
2.1詞語相關(guān)概念
定義1詞語相關(guān)度。給定2個詞語B1和B2,它們之間的相關(guān)度通過函數(shù)rele(B1,B2):S×S→[-1,1],表示集合S中2個詞語B1和B2的相關(guān)程度。
相關(guān)度函數(shù)的性質(zhì)具有自反性和對稱性,即對于B1∈S,B2∈S,形式上有:
1)rele(B1,B2)∈[-1,1]。相關(guān)度的計算值為[-1,1]中的一個實數(shù)。
2) 相關(guān)關(guān)系具有自反性,rele(B1,B2) = rele(B2,B1) 。
3)rele(B1,B2)=1,當(dāng)且僅當(dāng)B1=B2,即如果2個詞匯是詞語等價,則相關(guān)度為1。
4)rele(B1,B2)=-1,當(dāng)且僅當(dāng)即存在對義或反義關(guān)系,相關(guān)度為-1。
5)rele(B1,B2)=0。如果2個基元沒有任何共同特征,那么其相關(guān)度為0。
定義2正相關(guān)。給定2個基元B1和B2,如rele(B1,B2) >0,則稱B1、B2正相關(guān)。
定義3負(fù)相關(guān)。給定2個基元B1和B2,如rele(B1,B2) <0,則稱B1、B2負(fù)相關(guān)。
在知網(wǎng)中,美麗與漂亮的相關(guān)度為1,美麗與丑陋的相關(guān)度0.814815,在情感分析中,美麗與丑陋是反義的。美麗和丑陋在句子中是可以替換的,但這并不符合句子的原意。
負(fù)相關(guān)是指2個詞語是對義或者反義,或者兩者在路徑中存在對義或反義關(guān)系。如:假設(shè)O1與O3是反義(對義)關(guān)系(根據(jù)《同義、反義以及對義組的形成》獲得),則O5、O9的相關(guān)度就是在路徑中存在對義或反義關(guān)系,rele(O5,O9)為負(fù)數(shù)。
2.2詞語相關(guān)度計算
相似的詞語相關(guān)的可能性也大些,把詞語的相似度和基于直接關(guān)系和語義關(guān)系挖掘規(guī)則獲得的關(guān)系作為判斷是否相關(guān)的依據(jù)而得出來的基本相關(guān)度部分按比例相加,就得到了詞語的相關(guān)度。
2.2.1相似度部分 Sim(W1,W2)
2個詞語相似度計算,直接采用文獻(xiàn)[5]中方法計算。
2.2.2 基本相關(guān)度部分Rele_prim(W1,W2)
對于2個漢語詞語W1和W2,如果W1有n個義項(概念): S11,S12,…,S1n,W2有m個義項(概念):S11,S12,…,S1n規(guī)定,W1和W2的相關(guān)度是各個概念的相關(guān)度絕對值最大的那個值,也就是說:
Rele_prim(W1,W2)=
這樣,就把2個詞語之間的相關(guān)度問題歸結(jié)到了2個概念之間的相關(guān)度問題。
下面來計算2個義項S1和S2之間的相關(guān)度。
S1與S2的知網(wǎng)形式化表示為
定義相對相關(guān)度Re le_primi(S1,S2),Rele_primi(S1,S2)代表概念相對于概念S1在關(guān)系i上的相對相關(guān)度,定義
它包括直接關(guān)系和間接關(guān)系。
直接關(guān)系包括上下位關(guān)系之外、同義關(guān)系、反義關(guān)系、對義關(guān)系、部件-整體關(guān)系、屬性-宿主、材料-成品、施事/經(jīng)驗者/關(guān)系主體-事件關(guān)系、受事/內(nèi)容/領(lǐng)屬物等-事件關(guān)系、工具-事件關(guān)系、場所-事件、時間-事件關(guān)系、值-屬性關(guān)系、實體-值關(guān)系、事件-角色關(guān)系、相關(guān)關(guān)系等16種關(guān)系。間接關(guān)系指根據(jù)語義關(guān)系挖掘規(guī)則獲得的關(guān)系[9]。
Rele_prim(S1,S2)=
[∑wiRele_primi(S1,S2)+
∑wjRele_primj(S2,S1)]/2
表1 知網(wǎng)間接關(guān)系挖掘規(guī)則
wi是S1對S2對應(yīng)的關(guān)系的權(quán)值,wj是S2對S1對應(yīng)的關(guān)系的權(quán)值,都是可調(diào)節(jié)的參數(shù)。
例如:
國慶:time|時間,day|日,@congratudate|祝賀,#country|國家
煙花炮竹:tool|用具,*whileAway|消閑,*congratulate|祝賀
“國慶”和“煙花炮竹”通過事件“祝賀”相關(guān),計算如下:
在關(guān)系@上S1與S2相關(guān),在關(guān)系*上S2與S1相關(guān),所以Rele_prim(S1,S2)=(w@*1+w**1)/2
2.2.3詞語相關(guān)度Rele(W1,W2)計算
Rele(W1,W2)=
β1Sim(S1,S2)+β2Rele_primi(S1,S2)
式中:β1+β2=1。
β1和β2是相似度Sim(S1,S2)和基本相關(guān)度Rele_prim(S1,S2)在總體相關(guān)度所占的比例。
3基元及問題相關(guān)度計算
3.1基元概念以及基元與基元的對應(yīng)關(guān)系
3.1.1基元的概念
定義4 以物Om為對象,Cm為特征,Om關(guān)于Cm的量值Vm構(gòu)成的有序三元組:
作為描述物的基本元,稱為一維物元,Om、Cm、Vm三者稱為物元M的三要素,其中Cm和Vm構(gòu)成的二元組(Cm,Vm)稱為物Om的特征元。
為方便起見,把物元的全體記為£(M),物的全體記為£(Om),特征的全體記為£(Cm)。關(guān)于特征Cm的取值范圍記為V(Cm),稱為Cm的量域。
一物具有多個特征,與一維物元相仿,可以定義多維物元:
定義5物Om, n個特征名cm1,cm2,…,cmn及Om關(guān)于cmi(i=1,2,…,n)對應(yīng)的量值vmi(i=1,2,…,n)所構(gòu)成的陣列:
稱為n維物元,其中
3.1.2基元與基元之間的對應(yīng)關(guān)系
在基元中,最重要是的特征與特征的對應(yīng)關(guān)系。依靠下列方法建立基元的特征與另一基元的特征的對應(yīng)關(guān)系:
1)首先計算2個基元的所有特征兩兩之間的相關(guān)度;
2)從所有的相關(guān)度值中選擇最大的一個,將這個相關(guān)度值對應(yīng)的2個特征對應(yīng)起來;
3)從所有的相關(guān)度值中刪去那些已經(jīng)建立對應(yīng)關(guān)系的特征的相關(guān)度值;
4)重復(fù)上述2)和3),直到所有的相關(guān)度值都被刪除;
5)沒有建立起對應(yīng)關(guān)系的特征與空特征對應(yīng)。
3.2基元相關(guān)度計算
每一個特征就是一個詞語,特征對應(yīng)特征,相當(dāng)于詞語對應(yīng)詞語,即用詞語相關(guān)度計算方法計算對應(yīng)特征相關(guān)度。將對應(yīng)起來的特征分別計算關(guān)聯(lián)度,最后按比例相加,就是基元相關(guān),計算公式為
Ri是一個比例系數(shù),等于1/k
3.3問題相關(guān)度計算
問題建模是按以下步驟進(jìn)行:
界定問題1的目標(biāo)g1與條件l1和問題2的目標(biāo)g2與條件l2,并用基元表示分別建立問題的可拓模型P1=g1×l1、P2=g2×l2利用基元相關(guān)公式分別計算出目標(biāo)基元和條件基元的相關(guān)度以后,再計算問題相關(guān)度Rele_P(P1,P2),計算公式為
Rele_P(P1,P2)=
4案例分析
利用以下6個問題測試問題相關(guān)度問題:
P1曹沖稱象;
P2用直尺測量一張紙的厚度;
P3把一根長為2m、寬為1.2m、高為0.5m的桌子抬進(jìn)高為2m、寬為1m的門;
P4把一根長為3m、半徑為0.2m的竹桿抬進(jìn)高為2.5m、寬為2m的城門;
根據(jù)文獻(xiàn)[1]中的方法,建立問題的可拓模型P=G×L,進(jìn)而提取核問題:
P0=g0×l0
問題相關(guān)度計算
Rele_P(P1,P2)=-0.394
Rele_P(P1,P3)=+0.204
Rele_P(P1,P4)=+0.075
Rele_P(P2,P3)=-0.076
Rele_P(P2,P4)=+0.204
Rele_P(P3,P4)=+0.654
在參數(shù)的選擇上,由于一般認(rèn)為%、#、?、*、@、$、&所代表的關(guān)系權(quán)重程度逐漸下降,即表1中的關(guān)系的重要程度逐步下降。經(jīng)多次測試,最終設(shè)置參數(shù)如下:w1=0.25,w2=0.2,w3=0.2,w4=0.15,w5=0.10,w6=0.05,w7=0.05,其中,1~7分別指關(guān)系%、#、?、*、@、$、&。
對于相關(guān)度的太低的相關(guān)度值,可以認(rèn)為它不相關(guān),把相關(guān)度大于0.3作為相關(guān)的閾值。
Rele_P(P1,P2)=-0.394
Rele_P(P3,P4)=+0.654
解決策略:Rele_P(P1,P2)=-0.394說明這個矛盾問題是負(fù)相關(guān)的。對于P1,采取復(fù)制變換,用測量N張紙的厚度N×y∈[1,20]cm。
通過解決問題P1,采用可拓變換中的逆變換找出解決問題P2的方法,即利用分解變換(在利用分解變換的之前,先利用置換變換)。
Rele_P(P3,P4)=+0.654
說明這2個矛盾問題是高度正相關(guān)的,P3、P4可采取類似的方法解決。對P3,將桌子旋轉(zhuǎn),高變?yōu)閷挘瑢捵優(yōu)楦?,則可抬入門內(nèi)。對P4也可采取這種方法。
5實驗及結(jié)果
根據(jù)上述方法,利用C++,采用VS編程環(huán)境實現(xiàn)計算問題相關(guān)度程序,并對問題庫里的2413個矛盾問題的問題相關(guān)度計算。實驗參數(shù)設(shè)置如下:w1=0.25,w2=0.2,w3=0.2,w4=0.15,w5=0.10,w6=0.05,w7=0.05。
其中,1~7分別指關(guān)系%、#、?、*、@、$、&。閾值為0.3。
通過計算,其中1782個與其他問題相關(guān)。將相關(guān)問題放在一起研究,并運用可拓學(xué)策略生成方法再次研究解決矛盾問題,實驗結(jié)果如下。
表2 實驗結(jié)果
在運用基于問題相關(guān)度計算方法后,有73.85%的問題是相關(guān)的,其中有140個未解決的問題被解決了,而在已經(jīng)解決的問題中,有325個問題找到了更好的方法改進(jìn)策略。所以在總體情況下,基于問題相關(guān)度方法對策略生成的改進(jìn)量為19.27%:其中是將未解決的問題變成已解決5.80%, 13.46%是將已解決的問題找到更好的策略。
6結(jié)束語
通過計算基元的相關(guān)度進(jìn)而計算問題的相關(guān)度,可以使相關(guān)度很高的問題歸類。正相關(guān)度高的問題之間,可通過解決問題A而找出類似的方法解決問題B,而負(fù)相關(guān)的問題之間,通過解決問題A,而逆向找出解決問題B的方法。而將相關(guān)問題歸類后,可通過歸納總結(jié)得出此類問題的一般特征,找出解決此類問題的一般規(guī)律,進(jìn)而改進(jìn)策略生成方法,使未解決的矛盾問題得到解決,或者使已解決的矛盾問題找到更優(yōu)的策略。
實踐證明,這種方法可有效增加策略生成途徑,使矛盾問題解決的概率大大提高。
參考文獻(xiàn):
[1]楊春燕,蔡文. 可拓工程[M]. 北京:科學(xué)出版社, 2007: 1-344.
[2]董振東.HowNet[EB/OL] .[2013-05-12]. http://www.keenage.com.
[3]蔡文. 可拓集合和不相容問題[J]. 科學(xué)探索報,1983(1): 83-97
CAI Wen. Extension set and non compatible problems [J]. Science Journal, 1983 (1): 83-97
[4]李橋興,劉思峰. 基于區(qū)間距和區(qū)間側(cè)距的初等關(guān)聯(lián)函數(shù)構(gòu)造[J]. 哈爾濱工業(yè)大學(xué)學(xué)報, 2006, 38(7) :1097-1100.
LI Qiaoxing, LIU Sifeng. Elementary dependent function is constructed based on the interval distance and lateral distance[J]. Journal of Harbin Institute of Technology, 2006, 38 (7): 1097-1100.
[5]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[J]. 計算語言學(xué)及中文信息處理, 2002(7): 59-76.
LIU Qun, LI Sujian. based on HowNet semantic similarity calculation[J]. Computational Linguistics and Chinese Information Processing, 2002(7): 59-76.
[6]趙應(yīng)秋, 羅軍, 張君艷. 基于知網(wǎng)的詞語語義相關(guān)度計算[J]. 信息技術(shù), 2010 (3): 90-93.
ZHAO Yingqiu, LUO Jun, ZHANG Junyan. The word semantic relevancy computation based on HowNet[J]. Information Technology, 2010 (3): 90-93.
[7]許云, 樊效忠, 張鋒. 基于知網(wǎng)的語義相關(guān)度計算[J]. 北京理工大學(xué)學(xué)報, 2005, 25(5): 411-414.
XU Yun, FAN Xiaozhong, ZHANG Feng. Semantic relevancy computing based on HowNet[J]. Journal of Beijing Institute of Technology, 2005, 25 (5): 411-414.
[8]江敏,肖詩斌,王弘蔚,等. 一種改進(jìn)的基于《知網(wǎng)》的詞語語義形似度計算[J]. 中文信息學(xué)報, 2008, 22( 5) : 84-89.
JIANG Min, XIAO Shibin, WANG Hongwei, et al. An improved word similarity computing method based on HowNet[J]. Journal of Chinese Information Processing, 2008, 22 (5): 84-89.
[9]王紅玲,呂強(qiáng),徐瑞. 中文語義相關(guān)度計算模型研究[J]. 計算機(jī)工程與應(yīng)用, 2009, 45(7): 22-26
WANG Hongling, LV Qiang, XU Rui. Chinese semantic relativity calculation of model [J] Computer Engineering and Applications, 2009, 45 (7): 22-26.
[10]劉宗妹. 本體可拓模型的復(fù)合元實現(xiàn)及應(yīng)用研究[D]. 廣州: 廣東工業(yè)大學(xué), 2010: 1-48.
LIU Zongmei. Meta ontology extension model research and application of the[D]. Guangzhou: Guangdong University of Technology, 2010: 1-48.
[11]李立希,楊春燕,李鏵汶.可拓策略生成系統(tǒng)[M]. 北京: 科學(xué)出版社, 2006: 1-231.
[12]方卓君,李衛(wèi)華,李承曉.自助游可拓策略生成系統(tǒng)的研究與實現(xiàn)[J]. 廣東工業(yè)大學(xué)學(xué)報, 2009, 26(2): 83-89.
FANG Zhuojun, LI Weihua, LI Chengxiao. The self-help travel extension and implementation[J]. Journal of Guangdong University of Technology, 2009, 26 (2): 83-89.
[13]李承曉,李衛(wèi)華. 租房可拓策略生成系統(tǒng)[J]. 智能系統(tǒng)學(xué)報, 2011, 6(3): 272-278.
LI Chengxiao, LI Weihua. The extension strategy generating system for rental of intelligent[J]. CAAI Transactions on Intelligent Systems, 2011, 6 (3): 272-278.
曹禮園,女,1987年生,碩士研究生,主要研究方向為智能軟件。
李衛(wèi)華,女,1957年生,教授,主要研究方向為面向Agent計算、網(wǎng)絡(luò)信息系統(tǒng)、智能軟件。發(fā)表學(xué)術(shù)論文40余篇。