張滬寅,劉道波,溫春艷
(武漢大學(xué)計(jì)算機(jī)學(xué)院,武漢430072)
基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度改進(jìn)算法研究
張滬寅,劉道波,溫春艷
(武漢大學(xué)計(jì)算機(jī)學(xué)院,武漢430072)
現(xiàn)有詞語(yǔ)相似度計(jì)算方法未深入考慮義原之間的距離與義原深度的主次關(guān)系,或直接指定含具體詞概念的相似度,導(dǎo)致計(jì)算結(jié)果不夠精確。針對(duì)該問(wèn)題,通過(guò)義原之間的距離限制義原深度對(duì)義原相似度的影響,分析統(tǒng)計(jì)《知網(wǎng)》中概念的義項(xiàng)表達(dá)式,使用第一基本義原(能反映具體詞本質(zhì))替換概念義項(xiàng)表達(dá)式中出現(xiàn)的具體詞,從而提出一種改進(jìn)的詞語(yǔ)語(yǔ)義相似度計(jì)算算法。實(shí)驗(yàn)結(jié)果表明,該算法能有效提高詞匯相似度計(jì)算的精確度。
詞語(yǔ)相似度;詞語(yǔ)語(yǔ)義;義原深度;概念
詞語(yǔ)語(yǔ)義相似度計(jì)算在文本分類、問(wèn)答系統(tǒng)、基于實(shí)例的機(jī)器翻譯、文本主題抽取等自然語(yǔ)言處理領(lǐng)域有著非常廣泛的應(yīng)用。詞語(yǔ)語(yǔ)義相似度計(jì)算方法通常可以分為2種[1]:第1種是利用大規(guī)模語(yǔ)料庫(kù)來(lái)統(tǒng)計(jì)詞語(yǔ)的相關(guān)性基于統(tǒng)計(jì)的方法;第2種主要是依賴于比較完備的基于某種世界知識(shí)和分類體系的大型語(yǔ)義詞典,如Agirre[2]利用WordNet來(lái)計(jì)算英語(yǔ)詞語(yǔ)的語(yǔ)義相似度。
《知網(wǎng)》是著名的采用漢語(yǔ)描述的本體論[3],它是一個(gè)揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容并以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象的常識(shí)知識(shí)庫(kù)[1]?;凇吨W(wǎng)》的詞語(yǔ)語(yǔ)義相似度計(jì)算的最終歸結(jié)于義原相似度計(jì)算的層面上。如文獻(xiàn)[4]提出的計(jì)算詞語(yǔ)相似度只考慮義原之間距離的方法;文獻(xiàn)[5]在前人的基礎(chǔ)上額外考慮了義原深度因素,文獻(xiàn)[6]提出同時(shí)考慮了深度和區(qū)域密度2個(gè)因素的方法;文獻(xiàn)[7]提出的計(jì)算方法考慮了義原間的反義對(duì)義關(guān)系及文本情感色彩;文獻(xiàn)[8]考慮了義原的公共節(jié)點(diǎn)個(gè)數(shù)和深度對(duì)相似度的影響;文獻(xiàn)[9]通過(guò)共有信息和差異信息進(jìn)行相似度的計(jì)算;文獻(xiàn)[10]提出的考慮詞語(yǔ)詞性的計(jì)算方法等。
然而,以上計(jì)算方法未考慮義原層次深度,或未深入考慮義原之間的距離和義原層次深度的主次關(guān)系。為此,通過(guò)限制義原層次深度對(duì)相似度的影響,本文提出一種基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度改進(jìn)算法。
2.1 基本定義
定義1詞語(yǔ)相似度[4]。詞語(yǔ)W1,W2的相似度是指2個(gè)詞在不同的上下文中且不改變文本的句法、語(yǔ)義結(jié)構(gòu)前提下,詞語(yǔ)可替換使用的程度,用Sim(W1,W2)表示。
定義2義原距離[6]。義原p1和p2的距離是指在同一棵義原層次體系樹上p1到p2的路徑長(zhǎng)度,用Dist(p1,p2)表示。若義原p1和p2是不在同一棵義原層次體系樹上,則Dist(p1,p2)統(tǒng)一設(shè)為20。
定義3義原深度[6]。義原p的深度是指義原層次體系樹上的根節(jié)點(diǎn)到此義原p節(jié)點(diǎn)的路徑長(zhǎng)度,用dep(p)表示。
2.2 義原相似度計(jì)算
義原的相似度由義原所處義原樹形結(jié)構(gòu)的位置關(guān)系描述。以“實(shí)體”為根節(jié)點(diǎn)的樹分支如圖1所示。
圖1 以“實(shí)體”為根節(jié)點(diǎn)的樹分支
本文選取了一個(gè)以“實(shí)體”為根節(jié)點(diǎn)的義原層次體系樹的分支,并根據(jù)圖1,對(duì)2種常見(jiàn)的義原相似度計(jì)算方法進(jìn)行比較討論:
(1)文獻(xiàn)[4]通過(guò)計(jì)算兩義原節(jié)點(diǎn)之間的路徑長(zhǎng)度計(jì)算2個(gè)義原的相似度,公式為:
其中,p1和p2表示義原;Dist(p1,p2)為它們?cè)诹x原層次體系中的距離,即義原距離,當(dāng)p1和p2處于不同的棵時(shí)取一個(gè)較大常數(shù)20[1];?為可調(diào)整參數(shù),表示當(dāng)義原相似度等于0.5時(shí)的路徑長(zhǎng)度。
(2)文獻(xiàn)[5]在文獻(xiàn)[4]的基礎(chǔ)上考慮了義原的深度,公式為:
其中,dep(p1),dep(p2)分別為p1和p2的義原深度; min(dep(p1),dep(p2))表示p1和p2義原深度的最小值。
從圖1中挑選義原對(duì)來(lái)討論式(1)、式(2)各自的特點(diǎn),式(1)、式(2)計(jì)算義原相似度的實(shí)驗(yàn)結(jié)果如表1所示。
表1 義原對(duì)相似度計(jì)算結(jié)果比較
對(duì)比表1中的A組和B組:A組中義原深度都為3,B組中都為6,B組的相似度顯然要大于A組。式(1)中A組和B組并沒(méi)有區(qū)分度,其原因是式(1)中只要義原之間的距離相等,那么最終結(jié)果就會(huì)相同,而式(2)在式(1)的基礎(chǔ)上考慮了義原層次深度,能夠區(qū)別義原之間距離相等而義原層次深度不同的情況。
其次對(duì)比表1中的C組和D組:式(1)中C組的相似度較大,式(2)中D組的相似度較大,出現(xiàn)了相互矛盾的結(jié)果。從直觀感覺(jué)來(lái)看,C組中的相似度要比D組中的大,此時(shí)反而是式(1)比式(2)的結(jié)果要好。出現(xiàn)這種情況是因?yàn)榱x原層次深度對(duì)相似度的影響超越了義原距離對(duì)相似度的影響,即義原層次深度對(duì)計(jì)算相似度的影響偏大造成的。
通過(guò)上面的實(shí)驗(yàn)發(fā)現(xiàn),如果義原層次深度比較大,將導(dǎo)致整體的相似度較大的不合理現(xiàn)象?;诖?對(duì)參照式(2)對(duì)其進(jìn)行了修改,分子、分母的min(dep(p1),dep(p2))都除以Dist(p1,p2)/2,期望義原層次深度對(duì)相似度的影響會(huì)受到義原距離的制約,得到如下公式:
其中,λ為可調(diào)節(jié)參數(shù)。
式(3)意義在于:突出了義原距離對(duì)義原相似度計(jì)算的作用,也就是說(shuō),如果義原距離比較大(如不在同一義原樹時(shí)為20),即義原相似度比較低,那么義原層次深度對(duì)相似度的對(duì)于整體相似度所起到的作用也降低。式(3)既考慮了義原層次深度又對(duì)其“影響力”給予適度的制約,因此,可獲得更加合理真實(shí)的結(jié)果。
為比較式(2)與式(3)的相同點(diǎn)與不同點(diǎn),本文利用Maple軟件繪制函數(shù)圖像進(jìn)行比較(根據(jù)在多次嘗試取得的經(jīng)驗(yàn),將λ取值為2.0較為合適,若λ取值過(guò)大,會(huì)導(dǎo)致義原相似度也偏大)。設(shè)義原之間的距離為x(0≤x≤20);義原對(duì)中最小義原層次深度的變量為y(0≤y≤10);義原相似度為z(0≤z≤10),式(2)、式(3)函數(shù)圖像如圖2所示。
圖2 式(2)與式(3)的函數(shù)圖像
通過(guò)觀察圖2的函數(shù)圖像,可以發(fā)現(xiàn)到當(dāng)義原之間的距離較小(如x≤3)時(shí)候,式(2)與式(3)圖像較相似,但是當(dāng)義原距離比較大(如10≤x≤20)的時(shí)候,式(2)的圖像隨著最小義原層次深度(y)的變化仍然變化很大,如當(dāng)義原之間的距離為20時(shí),最小義原層次深度達(dá)到10時(shí),義原相似度卻仍有0.444之大,顯然這是不夠合理的。為了更明確式(2)和式(3)的圖像,本文截取了當(dāng)義原距離為10時(shí),最小義原層次深度x(0≤x≤10)對(duì)義原相似度影響的圖像,如圖3所示。
圖3 義原距離為10時(shí)深度對(duì)相似度的影響
從圖3與式(2)可以看出,當(dāng)min(dep(p1),dep(p2)為0時(shí),按照式(2)計(jì)算,義原相似度必然為0,這是不合理的,如此時(shí)義原“實(shí)體”與義原“實(shí)體”的相似度應(yīng)該為1.000,而非式(2)計(jì)算的0。當(dāng)min(dep(p1),dep(p2)為10時(shí),式(2)計(jì)算義原相似度有0.615之大,而式(3)計(jì)算義原相似度只有0.253,式(3)的計(jì)算結(jié)果更加符合人的主觀感受。
2.3 概念相似度計(jì)算
中文詞語(yǔ)相似度中,計(jì)算虛詞概念的相似度較為簡(jiǎn)單[11],所以,本文研究?jī)H考慮計(jì)算實(shí)詞概念之間相似度的問(wèn)題。劉群等提出了一種用一個(gè)特征結(jié)構(gòu)描述實(shí)詞概念,并計(jì)算概念之間相似度的方法,此特征結(jié)構(gòu)可以看作是一個(gè)“屬性:值”對(duì)的集合,并且該特征結(jié)構(gòu)含有4個(gè)特征[12],即第一基本義原描述式、其他基本義原描述式、關(guān)系義原描述、關(guān)系符號(hào)描述。
又因?yàn)榇我糠钟?jì)算的相似度值要受到主要部分計(jì)算的相似度值的限制,所以2個(gè)概念之間的總相似度記為[4]:
其中,βi(1≤i≤4)是可調(diào)整的參數(shù),并有下式:
另外,在知網(wǎng)的知識(shí)描述語(yǔ)言中[13],在一些出現(xiàn)義原的位置可能出現(xiàn)一個(gè)具體詞(概念),并將出現(xiàn)的具體詞用圓括號(hào)括起來(lái)。目前,處理此種情況的都是按照文獻(xiàn)[4]的方法處理:具體詞與義原之間的相似度統(tǒng)一規(guī)定為一個(gè)較小的常數(shù)(γ);兩具體詞之間的相似度則規(guī)定,若兩具體詞一致,則相似度為1,否則相似度為0。
上述計(jì)算方法能計(jì)算出大部分詞語(yǔ)相似度,但是通過(guò)對(duì)《知網(wǎng)》定義的概念的義項(xiàng)表達(dá)式的分析,該計(jì)算方法存在需要改進(jìn)的地方。通過(guò)對(duì)《知網(wǎng)》數(shù)據(jù)的分析,共有66181個(gè)概念的定義,其中在對(duì)概念的定義中,有2 333條概念的定義使用了具體詞(概念),若按上述2條規(guī)則進(jìn)行處理,將會(huì)得到大量粗略計(jì)算的相似度。
例如,“日本人”和“美國(guó)人”、“日元”和“美金”這2組概念的義項(xiàng)表達(dá)式如下:
A:日本人:DEF={human|人,(Japan|日本)}
B:美國(guó)人:DEF={human|人,(US|美國(guó))}
C:美元:DEF={money|貨幣,(US|美國(guó))}
D:日元:DEF={money|貨幣,(Japan|日本)}
依據(jù)上述方法把概念的義項(xiàng)表達(dá)式劃分后,根據(jù)上述的方法使用式(4)計(jì)算,A和B相似度與C和D相似度計(jì)算結(jié)果均為0.500。導(dǎo)致出現(xiàn)這種情況是因?yàn)?“日本人”和“美國(guó)人”的第一基本義原都是人,并且根據(jù)上述規(guī)則,具體詞(Japan|日本)與具體詞(US|美國(guó))不同的相似度為0導(dǎo)致的。然而,實(shí)際上根據(jù)本文相似度的定義,可以認(rèn)為具體詞(Japan|日本)與具體詞(US|美國(guó))的相似度為1.000。概念“日本人”和“美國(guó)人”相似度只有0.500,這樣的結(jié)果顯然這與主觀感覺(jué)是極其不相符合的。
為此,本文對(duì)這2 333條概念的定義進(jìn)行了分析與統(tǒng)計(jì),通過(guò)統(tǒng)計(jì)分析發(fā)現(xiàn),2 333條概念定義的義項(xiàng)表達(dá)式中出現(xiàn)的具體詞主要是地名(市、國(guó)、洲、等)、人名等專有名詞(約占95%),剩下其余少量概念定義的義項(xiàng)表達(dá)式出現(xiàn)其它具體詞。因此,本文對(duì)這些“特殊”的概念進(jìn)行適當(dāng)?shù)奶幚?以使相似度計(jì)算更加合理化。因此,把概念相似度計(jì)算分為2類:
(1)2個(gè)要計(jì)算相似度的概念的義項(xiàng)表達(dá)式均沒(méi)有出現(xiàn)有具體詞(概念)。
(2)2個(gè)要計(jì)算相似度的概念中至少有一個(gè)概念的義項(xiàng)表達(dá)式有出現(xiàn)有具體詞(概念)。
專有名詞通常表示特定的人、地方、事物等特有的名詞,因此,這些專有名詞的第一基本義原就能很好地反映這些專有名詞的本質(zhì)特征。如上文的概念“中國(guó)”,第一基本義原為place|地方?;诖?對(duì)于要比較的2個(gè)概念,先進(jìn)行預(yù)處理,判斷要計(jì)算相似度的概念中是否至少有一個(gè)概念的義項(xiàng)表達(dá)式有出現(xiàn)有具體詞的,若沒(méi)有出現(xiàn)則為第(1)類,直接使用前文的方法;若至少有一個(gè)概念的義項(xiàng)表達(dá)式有出現(xiàn)有具體詞的,則使用能反映具體詞本質(zhì)特征的第一基本義原代替它自身,經(jīng)過(guò)替代后,轉(zhuǎn)化為第(1)類進(jìn)行計(jì)算。
與不考慮含具體詞的詞語(yǔ)相似度算法相比,本文提出的算法提高了含具體詞概念義項(xiàng)表達(dá)式相似度計(jì)算的客觀性和準(zhǔn)確性,得到的結(jié)果更加貼近人們的感受。
2.4 詞語(yǔ)相似度計(jì)算
在《知網(wǎng)》的結(jié)構(gòu)中,一個(gè)中文詞語(yǔ)可以使用幾個(gè)不同的概念來(lái)定義。2個(gè)孤立詞語(yǔ)之間的相似度可表現(xiàn)為定義該詞語(yǔ)的概念集合之間的相似度[13],用公式表示為:
其中,詞語(yǔ)W1,W2分別有n和m個(gè)不同概念;S1i為W1的第i個(gè)概念;S2j為W2的第j個(gè)概念。
3.1 義原相似度實(shí)驗(yàn)
本文實(shí)驗(yàn)使用3種不同方法來(lái)計(jì)算比較義原相似度:
方法1使用文獻(xiàn)[4]計(jì)算義原相似度的方法。
方法2使用文獻(xiàn)[5]計(jì)算義原相似度的方法。
方法3使用本文介紹的義原相似度計(jì)算方法。
在本文實(shí)驗(yàn)中,參照文獻(xiàn)[4-5],將參數(shù)?值設(shè)置為1.6。實(shí)驗(yàn)結(jié)果如表2所示。
表2 義原相似度的實(shí)驗(yàn)結(jié)果
比較組第3行、第4行,與組第5行、第6行與組第5行、第7行、第8行,這3組均是行號(hào)越大,義原距離越大,方法1與方法3的計(jì)算結(jié)果均處于遞減。然而,方法2的結(jié)果卻相反,如第4行計(jì)算的相似度比第3行大,第6行計(jì)算的相似度比第5行大,第8行計(jì)算的相似度比第5行、第7行都要大。從詞語(yǔ)的可替換性來(lái)說(shuō),方法2的結(jié)果不夠合理的,如第5行的相似度應(yīng)該要比第8行的要大。經(jīng)過(guò)改進(jìn)后,方法3計(jì)算第5行的相似度為0.483,第8行的相似度為0.332,顯然方法3比改進(jìn)前的方法2得到的結(jié)果更合理。
再觀察第9行~第11行,其中,第10行、第11行的2個(gè)義原不在同一義原層次體系樹上,按規(guī)定把義原距離設(shè)定為20。比較第9行、第10行,方法1與方法3都是第9行的相似度大,然而方法2的計(jì)算結(jié)果顯示,第10行更大,這是不符合實(shí)際的?!拔镔|(zhì)”在義原層次體系樹上是“車”的祖先結(jié)點(diǎn),而“車”與“分鐘”不在同一義原層次體系樹上,由此看來(lái),第10行顯然不應(yīng)該比第9行的相似度大。從這第10行、第11行也可以看出,方法2的計(jì)算結(jié)果是偏大的,這是由于方法2的計(jì)算義原相似度受義原層次深度影響很大(即使兩義原幾乎不相似了)造成的。而改進(jìn)后的方法3是更加符合人的主觀感受的,這是因?yàn)榱x原層次深度對(duì)相似度的影響會(huì)受到義原之間的距離的制約。
從整體上看,從上到下,義原之間的距離遞增,當(dāng)義原之間的距離相等時(shí),最小義原層次深度遞減,方法1與方法3的計(jì)算義原相似度都是遞減的,與人的直覺(jué)是比較相符合的,但是方法2的義原相似度卻出現(xiàn)了多次跳躍,即出現(xiàn)了多次義原距離大的義原相似度反而比義原距離小的相似度更大。顯然,方法1只要義原距離相等則義原相似度相等,并不能區(qū)分不同義原層次深度的義原相似度;方法2可以區(qū)分不同義原層次深度之間的相似度,但是有些相似度的結(jié)果也不夠合理,比如“實(shí)體”和“實(shí)體”的相似度,“車”和“雨雪”的相似度。然而方法3計(jì)算的相似度比方法1與方法2更加呈現(xiàn)出兩端擴(kuò)散的現(xiàn)象,使計(jì)算的結(jié)果更加合理細(xì)膩。
3.2 義項(xiàng)表達(dá)式中含具體詞的概念相似度實(shí)驗(yàn)
本文實(shí)驗(yàn)使用了2種不同方法來(lái)計(jì)算比較詞語(yǔ)(至少有一個(gè)詞語(yǔ)義項(xiàng)表達(dá)式含有具體詞)相似度:
方法4使用文獻(xiàn)[4]計(jì)算詞語(yǔ)相似度的方法。
方法5使用本文介紹的詞語(yǔ)相似度計(jì)算方法。
在實(shí)驗(yàn)中,參照文獻(xiàn)[4],將參數(shù)值設(shè)置為:?= 1.6,β1=0.5,β2=0.2,β3=0.17,β4=0.13,γ=0.2,δ=0.2。實(shí)驗(yàn)結(jié)果如表3所示。
表3 義項(xiàng)表達(dá)式中含具體詞的概念相似度實(shí)驗(yàn)結(jié)果
根據(jù)本文詞語(yǔ)相似度的定義,從表3可以看出,方法4的計(jì)算結(jié)果偏小,這主要是因?yàn)榉椒?按規(guī)則若要比較的2個(gè)具體詞不相同,則相似度為0導(dǎo)致的。而方法5中計(jì)算的詞語(yǔ)相似度則較為合理,因?yàn)榉椒?中使用具體詞的第一基本義原替換具體詞,而具體詞的第一基本義原在大多數(shù)情況下都能反映出此具體詞的本質(zhì)。
現(xiàn)實(shí)生活中存在大量類似表3中類型的詞語(yǔ),如“亞洲人”、“英國(guó)人”、“廣東人”、“北京人”、“日軍”等。由此可見(jiàn),本文方法可大量改善計(jì)算此類詞語(yǔ)之間的相似度。
3.3 詞語(yǔ)相似度實(shí)驗(yàn)
本文實(shí)驗(yàn)為了使計(jì)算相似度的詞語(yǔ)具有參照性并且易于比較改進(jìn)前后的詞語(yǔ)相似度的好壞,引入文獻(xiàn)[4]常用的詞語(yǔ)并額外加入典型詞語(yǔ),使用3種不同方法來(lái)計(jì)算比較詞語(yǔ)相似度。
方法6結(jié)合文獻(xiàn)[4]使用的義原相似度計(jì)算方法計(jì)算詞語(yǔ)相似度。
方法7結(jié)合文獻(xiàn)[5]使用的義原相似度計(jì)算方法計(jì)算詞語(yǔ)相似度。
方法8結(jié)合本文中介紹的義原相似度與概念相似度計(jì)算方法計(jì)算詞語(yǔ)相似度。
在實(shí)驗(yàn)中,參照文獻(xiàn)[4-5],將參數(shù)值設(shè)置為:?=1.6,β1=0.5,β2=0.2,β3=0.17,β4=0.13,γ= 0.2,δ=0.2λ=2.0。實(shí)驗(yàn)結(jié)果如表4所示。
考察方法8的計(jì)算結(jié)果,可以看到各個(gè)詞的相似度與人的直覺(jué)是比較相符合的。下面將進(jìn)行詳細(xì)分析:
(1)比較第1組與第4組,方法6的結(jié)果沒(méi)有區(qū)分,而方法7與方法8均為第1組的相似度較大,這主要是因?yàn)椤澳小迸c“女”的最小義原層次深度要比“家”與“宗教”的最小義原層次深度大。另外,比較第7組與第10組,方法6同樣沒(méi)有區(qū)分度,方法7與方法8中,“男人”和“收音機(jī)”的相似度要比“男人”和“工作”的相似度更高。從可替換性來(lái)說(shuō),這是符合相似度的定義的,至少“男人”和“收音機(jī)”都是物質(zhì),而“工作”只可能是一個(gè)行為或者一個(gè)抽象事物。顯然方法7與方法8表現(xiàn)比方法6好。
(2)再來(lái)觀察第12組與第13組,“車輛”與“暴雨”分別是人工物與自然物、“車輛”與“蠶”分別無(wú)生物與生物,都不屬于同一類型的,他們的相似度應(yīng)該比較小,方法7的計(jì)算結(jié)果卻達(dá)到了0.373,方法6與方法8的計(jì)算的相似度則比較符合主觀感受。再比較第13組與第14組,“冷食”與“垃圾”分別是食物與物質(zhì),他們的相似度應(yīng)該要比“車輛”與“蠶”更大,此時(shí),方法6與方法8的結(jié)果比方法7的相對(duì)更加合理一些。
(3)再考察第15組~第20組,方法6與方法7的計(jì)算結(jié)果基本上沒(méi)有區(qū)別,而方法8由于考慮了概念的義項(xiàng)表達(dá)式出現(xiàn)具體詞的情況,所以方法8的計(jì)算的相似度更加符合實(shí)際。從表4中的第15組~第20組可以看出,在大部分情況下,考慮了義項(xiàng)表達(dá)式出現(xiàn)具體詞的情況都要比不考慮的計(jì)算結(jié)果要大一些,這是因?yàn)榉椒?與方法7,只要要比較的2個(gè)具體詞不相等,那么其相似度就為0。然而,實(shí)際上絕大部分出現(xiàn)在概念的義項(xiàng)表達(dá)式的具體詞都是專有名詞,用于表示人名、地名等,即使要比較的2個(gè)具體詞不相同,但是實(shí)際的相似度往往也比較大,而不是0。
表4 詞語(yǔ)相似度實(shí)驗(yàn)結(jié)果
本文通過(guò)深入考察義原層次體系樹的結(jié)構(gòu),分析義原深度對(duì)相似度的影響,提出一種計(jì)算義原相似度的改進(jìn)算法。義原在層次體系結(jié)構(gòu)樹上的深度越大,表示此義原含信息量越高,也應(yīng)越相似,但是義原層次深度對(duì)相似度的影響應(yīng)受義原距離的制約,而不能無(wú)限地放大義原之間的相似度。此外,分析統(tǒng)計(jì)了《知網(wǎng)》中概念的義項(xiàng)表達(dá)式,認(rèn)為在義項(xiàng)表達(dá)式中出現(xiàn)的具體詞絕大多數(shù)是表示人名、地名等專有名詞,將其用反映此具體詞本質(zhì)的第一基本義原代替,從而轉(zhuǎn)換為一般的概念相似度計(jì)算問(wèn)題。實(shí)驗(yàn)結(jié)果表明,該算法計(jì)算得到的詞語(yǔ)語(yǔ)義相似度能夠更合理地反映詞語(yǔ)間在語(yǔ)義上的細(xì)微差異,提高詞語(yǔ)相似度計(jì)算的準(zhǔn)確性。今后將深入研究義原在層次體系樹上的區(qū)域密度對(duì)義原相似度的影響,進(jìn)一步優(yōu)化該算法。
[1] 朱征宇,孫俊華.改進(jìn)的基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[J].計(jì)算機(jī)應(yīng)用,2013,33(8):2276-2279.
[2] Agirre E,RigauG.AProposalforWordSense DisambiguationUsingConceptualDistance[C]// Proceedings of the1st International Conference on Recent Advanced in NLP.Tzigov Chark,Bulgaria: [s.n.],1995:91-98.
[3] 趙 鵬,蔡慶生.一種基于《知網(wǎng)》的中文文本聚類算法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(12): 162-163.
[4] 劉 群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[J].中文計(jì)算語(yǔ)言學(xué),2002,7(2):59-76.
[5] 李 峰,李 芳.中文詞語(yǔ)語(yǔ)義相似度計(jì)算——基于《知網(wǎng)》2000[J].中文信息學(xué)報(bào),2007,21(3):99-105.
[6] 袁曉峰.《知網(wǎng)》義原相似度計(jì)算的研究[J].遼寧大學(xué)學(xué)報(bào):自然科學(xué)版,2011,38(4):358-361.
[7] 江 敏,肖詩(shī)斌,王弘蔚,等.一種改進(jìn)的基于知網(wǎng)的詞語(yǔ)語(yǔ)義相似度計(jì)算[J].中文信息學(xué)報(bào),2008, 22(5):84-89.
[8] 張振幸,李金厚.一種基于義原重合度的詞語(yǔ)相似度計(jì)算[J].信陽(yáng)師范學(xué)院學(xué)報(bào):自然科學(xué)版,2010, 23(2):296-299.
[9] 劉青磊,顧曉峰.基于《知網(wǎng)》的詞語(yǔ)相似度算法研究[J].中文信息學(xué)報(bào),2010,24(6):31-36.
[10] 王小林,王 義.改進(jìn)的基于知網(wǎng)的詞語(yǔ)相似度算法[J].計(jì)算機(jī)應(yīng)用,2011,31(11):3075-3077.
[11] 黃姝怡.基于知網(wǎng)的中文文本相似度計(jì)算研究[D].廣州:中山大學(xué),2008.
[12] 張 敏,王振輝,王艷麗.一種基于《知網(wǎng)》知識(shí)描述語(yǔ)言結(jié)構(gòu)的詞語(yǔ)相似度計(jì)算方法[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(7):265-267.
[13] 王文興.基于語(yǔ)義分析的查詢擴(kuò)展及其關(guān)鍵技術(shù)研究[D].哈爾濱:哈爾濱工程大學(xué),2008.
編輯 劉 冰
Research on Improved Algorithm of Word Semantic Similarity Based on HowNet
ZHANG Huyin,LIU Daobo,WEN Chunyan
(School of Computer,Wuhan University,Wuhan 430072,China)
The current word similarity calculation does not consider in depth with the primary and secondary relationship between the distance and the depth of sememes.In addition,concept similarity is specified directly when the conceptual description expression contains specific words,which leads to unreasonable.The depth of sememes impacts on the word similarity is limited by the distance of sememes.It analyzes the statistical meanings of the concept expression in“HowNet”.Besides,word similarity calculation uses the first basic sememe that can reflect the essence of the word to replace the specific words that appear in the conceptual description expression.Based on the above,an improved algorithm of word semantic similarity is proposed in this paper.Experimental results show that the improved algorithm effectively improves the precision of word similarity calculations.
word similarity;word semantic;depth of sememe;concept
張滬寅,劉道波,溫春艷.基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度改進(jìn)算法研究[J].計(jì)算機(jī)工程, 2015,41(2):151-156.
英文引用格式:Zhang Huyin,Liu Daobo,Wen Chunyan.Research on Improved Algorithm of Word Semantic Similarity Based on HowNet[J].Computer Engineering,2015,41(2):151-156.
1000-3428(2015)02-0151-06
:A
:TP391
10.3969/j.issn.1000-3428.2015.02.029
教育部博士點(diǎn)基金資助項(xiàng)目(20130141110022)。
張滬寅(1962-),男,教授、博士,主研方向:自然語(yǔ)言處理,多媒體通信技術(shù),模式識(shí)別;劉道波、溫春艷,碩士研究生。
2014-03-31
:2014-04-25E-mail:fengbonianshao@whu.edu.cn