国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語(yǔ)義樹(shù)的中文詞語(yǔ)相似度計(jì)算與分析

2010-06-05 06:31尹存燕陳家駿
中文信息學(xué)報(bào) 2010年6期
關(guān)鍵詞:句法語(yǔ)義詞語(yǔ)

張 亮,尹存燕,陳家駿

(1. 南京大學(xué) 計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210093;

2. 江蘇警官學(xué)院 公安科技系,江蘇 南京 210000)

1 引言

詞是研究語(yǔ)句的基本語(yǔ)義單元和句法單位,詞之間的相似度與相關(guān)度的分析是研究詞語(yǔ)相互關(guān)系的核心內(nèi)容之一,在信息檢索、信息抽取、詞義排歧、機(jī)器翻譯、句法分析等處理中有很重要的作用。

常見(jiàn)的詞語(yǔ)相似度計(jì)算方法主要有兩類(lèi)[1], 一種是根據(jù)世界知識(shí)(Ontology) 或分類(lèi)體系(Taxonomy)計(jì)算,一種是利用大規(guī)模語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì)。

根據(jù)世界知識(shí)計(jì)算詞語(yǔ)語(yǔ)義距離的方法,一般是利用一部同義詞詞典(Thesaurus)。一般同義詞詞典都是將所有的詞組織在一棵或幾棵樹(shù)狀的層次結(jié)構(gòu)中,一棵樹(shù)形圖中,任何兩個(gè)節(jié)點(diǎn)之間有且只有一條路徑[2]。于是,這條路徑的長(zhǎng)度就可以作為這兩個(gè)概念的語(yǔ)義距離的一種度量。劉群等人利用《知網(wǎng)》計(jì)算語(yǔ)義相似度,但無(wú)法計(jì)算不同詞性之間的相似度;李素建綜合了《知網(wǎng)》和同義詞詞林計(jì)算語(yǔ)義相似度,但由于《知網(wǎng)》與同義詞詞林是完全不同的組織方式, 所以計(jì)算結(jié)果不太理想。

統(tǒng)計(jì)方法則是在大規(guī)模語(yǔ)料中統(tǒng)計(jì)分析每個(gè)詞的特征詞向量, 然后利用這些向量之間的相似度(用向量的夾角余弦計(jì)算) 作為這兩個(gè)詞的相似度。這種做法的假設(shè)是,凡是語(yǔ)義相近的詞,他們的上下文也應(yīng)該相似。李涓子利用這種思想來(lái)實(shí)現(xiàn)語(yǔ)義的自動(dòng)排歧[3];魯松研究了如何利用詞語(yǔ)的相關(guān)性來(lái)計(jì)算詞語(yǔ)的相似度[4]。Dagan使用了更為復(fù)雜的概率模型來(lái)計(jì)算詞語(yǔ)的距離[5]。

這兩種方法各有特點(diǎn):基于世界知識(shí)的方法簡(jiǎn)單有效,也比較直觀、易于理解,與人的學(xué)習(xí)理解方式類(lèi)似,但這種方法需要有較完備的知識(shí)庫(kù)的支撐,另外,這種方法比較準(zhǔn)確地反映了詞語(yǔ)之間語(yǔ)義方面的相似性和差異,而對(duì)于詞語(yǔ)之間的句法和語(yǔ)用特點(diǎn)考慮得比較少?;谡Z(yǔ)料庫(kù)的方法比較客觀,綜合反映了詞語(yǔ)在句法、語(yǔ)義、語(yǔ)用等方面的相似性和差異。但是,這種方法比較依賴(lài)于訓(xùn)練所用的語(yǔ)料庫(kù),計(jì)算量大,計(jì)算方法復(fù)雜,另外,受數(shù)據(jù)稀疏和數(shù)據(jù)噪聲的干擾較大,有時(shí)會(huì)出現(xiàn)明顯的錯(cuò)誤。

本文基于新版《知網(wǎng)》進(jìn)行詞語(yǔ)相似度計(jì)算,從功用角度(如句法分析)將詞語(yǔ)相似度細(xì)化為語(yǔ)義特征相似度和句法特征相似度,改進(jìn)了傳統(tǒng)的基于《知網(wǎng)》的相似度計(jì)算方法,通過(guò)構(gòu)建多維語(yǔ)義樹(shù),將詞相似分析轉(zhuǎn)化為樹(shù)的相似分析,設(shè)計(jì)了一個(gè)新的詞語(yǔ)相似度計(jì)算模型。

2 語(yǔ)義資源平臺(tái)《知網(wǎng)》

《知網(wǎng)》(HowNet)[6]是目前國(guó)內(nèi)外漢語(yǔ)自然語(yǔ)言處理中使用較為廣泛的語(yǔ)義資源平臺(tái),是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)。這里的概念簡(jiǎn)而言之是一詞多義中的一個(gè)“義”,是計(jì)算語(yǔ)義的依據(jù)?!吨W(wǎng)》定義了一套釋義元語(yǔ)言,即義原(Sememe)對(duì)概念進(jìn)行刻畫(huà)和描述,義原本身是不易再分割的意義最小單位,具有唯一性和確定性。由義原構(gòu)筑起來(lái)的《知網(wǎng)》概念層次體系(Taxonomy)是一棵概念分類(lèi)樹(shù),如圖1所示,將所有的概念從top-down的視角劃分為事件Event、實(shí)體Entity、屬性Attribute、屬性值A(chǔ)ttribute Value、次要特征Secondary Feature等幾個(gè)特征類(lèi)別?!吨W(wǎng)》著力描述了概念之間和概念屬性之間的各種關(guān)系,主要包括上下位關(guān)系、同義關(guān)系、反義關(guān)系、對(duì)義關(guān)系、屬性—宿主關(guān)系、部件—整體關(guān)系、材料—成品關(guān)系、事件—角色關(guān)系[7]。與一般作為語(yǔ)言處理資源的詞典相比, 《知網(wǎng)》具有的特點(diǎn)見(jiàn)圖1。

圖1 HowNet的概念層次結(jié)構(gòu)

(1) 釋義元語(yǔ)言——義原的定義和使用,使得概念描述具有較好的概括性和確定性;

(2) 設(shè)計(jì)并使用了一種知識(shí)詞典的描述語(yǔ)言(KDML)規(guī)范概念的描述格式,保證了知識(shí)詞典的形式化, 提高了概念的可計(jì)算性。

(3) 概念定義時(shí)縱向歸類(lèi)與橫向關(guān)聯(lián)相結(jié)合,描述結(jié)構(gòu)清晰,便于計(jì)算機(jī)處理。

3 詞語(yǔ)相似度討論

Dekang Lin認(rèn)為任何兩個(gè)事物的相似度取決于它們的共性(Commonality)和個(gè)性(Differentces)[8],他從信息理論的角度給出任意兩個(gè)事物相似度的通用公式:

(1)

其中分子是描述A、B共性所需要的信息量的大小,分母是完整的描述出A、B所需要的信息量大小。

1) Dekang Lin的這一理論是目前絕大多數(shù)中文詞語(yǔ)語(yǔ)義相似度計(jì)算模型的基本思想,盡管劉群等提出兩個(gè)詞語(yǔ)的相似度是它們?cè)诓煌纳舷挛闹锌梢曰ハ嗵鎿Q且不改變文本的句法語(yǔ)義結(jié)構(gòu)的可能性大小,但在其計(jì)算模型中并沒(méi)有突出可替換性這一特征。詞語(yǔ)相似度主要從語(yǔ)義分析的角度出發(fā),通過(guò)比較詞的義項(xiàng),計(jì)算共同部分的大小,比較抽象的討論和計(jì)算兩個(gè)詞之間的語(yǔ)義距離,這雖然可以為信息檢索、機(jī)器翻譯等其他自然語(yǔ)言處理提供一定的幫助,但是功用性不是很強(qiáng),語(yǔ)義距離與可替換性有時(shí)并不一致,如Similarity(盜墓人,盜墓)> Similarity(盜墓人,小偷),Similarity(雨傘,打傘)>Similarity(雨傘,雨衣),即前者的語(yǔ)義相似度大于后者的語(yǔ)義相似度,但是它們的可替換性正好相反。

2) 我們認(rèn)為詞語(yǔ)相似度是一個(gè)比較粗泛的概念,根據(jù)應(yīng)用需求,起碼應(yīng)該可以細(xì)化為語(yǔ)義特征相似度和句法特征相似度。詞語(yǔ)的語(yǔ)義特征相似度,也就是在同一個(gè)語(yǔ)境中,兩個(gè)詞相互替換,而不改變整個(gè)語(yǔ)境的語(yǔ)義;句法特征相似度,也就是兩個(gè)詞互換,而不改變?cè)械木浞ńY(jié)構(gòu)或依存關(guān)系,這對(duì)基于語(yǔ)料庫(kù)的句法結(jié)構(gòu)排歧有很好的幫助作用,如圖2所示,詞w4被某個(gè)與其相似度較高的詞wi替代,無(wú)論是句法樹(shù)還是依存關(guān)系,都沒(méi)有變化。語(yǔ)義特征相似度高則句法特征相似度高,反之不一定。如“他認(rèn)為這是一個(gè)好主意。”其中的“好”,被“餿”替換,語(yǔ)義相反,但是句法關(guān)系不變,因此在基于語(yǔ)料的句法分析中,這類(lèi)語(yǔ)義相反,但句法結(jié)構(gòu)一樣的語(yǔ)料,同樣具有很好的參考價(jià)值。

圖2 圖中的詞W4被Wi替換后,句法和依存關(guān)系不變

4 基于《知網(wǎng)》的詞語(yǔ)相似度分析

從相關(guān)文獻(xiàn)看,目前基于《知網(wǎng)》的語(yǔ)言分析與處理絕大多數(shù)還是以舊版本(《知網(wǎng)》2000)作為平臺(tái),其實(shí)新版(《知網(wǎng)》2007)的概念描述架構(gòu)已經(jīng)有了質(zhì)的不同,概念的定義由主類(lèi)義原及其特性描述組成:1)主類(lèi)義原相當(dāng)于舊版中的第一義原,是所定義概念的最基本的意義; 2)特性描述利用動(dòng)態(tài)角色和特征標(biāo)注復(fù)雜概念,內(nèi)容上體現(xiàn)概念之間的關(guān)聯(lián),形式上可以為嵌套結(jié)構(gòu)。整個(gè)概念的定義可以轉(zhuǎn)化為一棵語(yǔ)義樹(shù),如圖3所示。

圖3 HowNet中概念的描述框架

如前所述,在《知網(wǎng)》中,詞是用概念來(lái)描述的,一個(gè)詞可以表達(dá)為幾個(gè)概念,而概念則用義原來(lái)描述。假設(shè)詞W1有n個(gè)概念C11,C12, …,C1 n,詞W2有m個(gè)概念C21,C22, …,C2m,則本文中詞語(yǔ)W1和W2的相似度是其所有概念之間相似度絕對(duì)值的最大值,如公式(2)所示,其符號(hào)取該對(duì)概念相似度的符號(hào)。

(2)

根據(jù)《知網(wǎng)》的概念定義,兩個(gè)概念之間的相似度計(jì)算可以從以下幾個(gè)方面進(jìn)行。

4.1 兩個(gè)概念的主類(lèi)義原相似度計(jì)算

主類(lèi)義原確定了概念的最基本的意義,實(shí)際上是給概念盡可能細(xì)地分類(lèi),主類(lèi)義原相似度計(jì)算核心是如何計(jì)算兩個(gè)義原的語(yǔ)義距離。義原相似度的計(jì)算一般依據(jù)義原的層次體系(上下位關(guān)系) 來(lái)計(jì)算,這種基于樹(shù)狀層次結(jié)構(gòu)計(jì)算語(yǔ)義相似度的研究已經(jīng)十分成熟。Eneko Agirre[9]、Dekang Lin、劉群等都提出了自己的公式,BUDAN-ITSKY對(duì)基于WordNet的幾種計(jì)算方法進(jìn)行了比較[10]。他們的方法可以分為兩大類(lèi):一種是基于兩個(gè)節(jié)點(diǎn)之間的路徑長(zhǎng)度,一種是基于兩個(gè)節(jié)點(diǎn)所含的共有信息大小。

a. 基于節(jié)點(diǎn)間的路徑長(zhǎng)度(其中α是一個(gè)可調(diào)節(jié)的參數(shù)。α的含義是:當(dāng)相似度為0.5時(shí)的詞語(yǔ)距離值):

(3)

吳健、李峰[11-13]等認(rèn)為在路徑距離相同的情況, 層次越深的節(jié)點(diǎn)具有越高的相似度,在公式(3)的基礎(chǔ)上,加入了義原節(jié)點(diǎn)層次深度的影響。

b. 基于兩個(gè)節(jié)點(diǎn)所含的共有信息大小(Sp表示離它們最近的共同祖先,P(S)是該節(jié)點(diǎn)的子節(jié)點(diǎn)個(gè)數(shù)與樹(shù)中的所有節(jié)點(diǎn)個(gè)數(shù)的比) :

(4)

我們認(rèn)為,義原相似度應(yīng)當(dāng)同時(shí)反映出兩個(gè)義原在樹(shù)中的距離和兩個(gè)義原公共信息的大小,同時(shí)由于Taxonomy中的義原樹(shù)具有語(yǔ)義分類(lèi)內(nèi)涵以及節(jié)點(diǎn)上下位關(guān)系,處于下位的節(jié)點(diǎn)與上位節(jié)點(diǎn)同類(lèi),并且是在上位節(jié)點(diǎn)的語(yǔ)義基礎(chǔ)上,加入更多的語(yǔ)義成分。義原樹(shù)具有如下性質(zhì):

性質(zhì)1:約定節(jié)點(diǎn)樹(shù)中節(jié)點(diǎn)S所承載的語(yǔ)義信息由語(yǔ)義特征集合Semantic(S)表示。 對(duì)于樹(shù)中的任意兩個(gè)節(jié)點(diǎn)S1和S2,若S1≠S2,則Semantic(S1)≠Semantic(S2);

性質(zhì)2:若存在節(jié)點(diǎn)S1和S2,且S1是S2的上位節(jié)點(diǎn),則Semantic(S1)是Semantic(S2)的真子集,即Semantic(S1)?Semantic(S2);

性質(zhì)3:若存在節(jié)點(diǎn)S1和S2,S1≠S2,S1和S2具有共同的祖先S3,則Semantic(S3)= Semantic(S1)∩Semantic(S2);Semantic(S′) = Semantic(S1)-Semantic(S2),S′為一個(gè)虛擬的節(jié)點(diǎn),Semantic(S′) ?Semantic(S1) 且Semantic(S′)∩Semantic(S2)=?。

根據(jù)以上性質(zhì)的描述可知,與節(jié)點(diǎn)承載的語(yǔ)義信息量與其到根節(jié)點(diǎn)的距離正相關(guān),節(jié)點(diǎn)語(yǔ)義信息的重要程度與其到根節(jié)點(diǎn)的距離負(fù)相關(guān),也就是說(shuō),離根節(jié)點(diǎn)越近,對(duì)語(yǔ)義區(qū)分的貢獻(xiàn)值越大,這對(duì)兩個(gè)詞語(yǔ)的可相互替換程度有重要的影響。

公式(5)是我們的義原相似度計(jì)算公式,其中,其中α是一個(gè)可調(diào)節(jié)的參數(shù),取值越大則層次的區(qū)分越小,m、h、n分別為節(jié)點(diǎn)1、節(jié)點(diǎn)2和節(jié)點(diǎn)1與節(jié)點(diǎn)2的最近的共同祖先的層次數(shù)。

(5)

4.2 兩個(gè)概念的語(yǔ)義樹(shù)相似度計(jì)算

新版《知網(wǎng)》中概念的描述是一棵以主類(lèi)義原為根的語(yǔ)義樹(shù),樹(shù)中每一個(gè)節(jié)點(diǎn)都是一個(gè)義原,除根節(jié)點(diǎn)外,每個(gè)節(jié)點(diǎn)與其父節(jié)點(diǎn)之間的關(guān)系用一個(gè)動(dòng)態(tài)角色和特征加以標(biāo)識(shí)。兩個(gè)概念的相似度,是指概念類(lèi)型相似程度以及概念中相同的特性描述的廣度與深度。這樣兩個(gè)概念描述的相似度計(jì)算就轉(zhuǎn)化為對(duì)應(yīng)的兩個(gè)語(yǔ)義樹(shù)的最大匹配。

如圖4所示,詞語(yǔ)“兒科醫(yī)生”與“患兒”的概念描述中,主類(lèi)義原都是“人”,虛線部分勾勒出兩棵語(yǔ)義樹(shù)中最大相似部分。

圖4 詞語(yǔ)“兒科醫(yī)生”與“患兒”的概念語(yǔ)義樹(shù)對(duì)照?qǐng)D(虛線勾勒出最大相似部分)

計(jì)算兩棵語(yǔ)義樹(shù)的最大相似度算法:

1) 將兩個(gè)概念描述分別轉(zhuǎn)換為兩棵Tree1,Tree2(根節(jié)點(diǎn)為主類(lèi)義原,除根節(jié)點(diǎn)外,其他節(jié)點(diǎn)除包含本身的義原外,還有與父節(jié)點(diǎn)的關(guān)系值,即動(dòng)態(tài)角色和特征);

2) 廣度優(yōu)先遍歷Tree1,將遍歷節(jié)點(diǎn)存入隊(duì)列Queue中;

3) 如果Queue≠?,取出Queue中第一個(gè)元素,賦值給變量Tree1_x;否則轉(zhuǎn)7);

4) 廣度優(yōu)先遍歷Tree2,若存在某節(jié)點(diǎn)與Tree1_x相等,則將其賦值給Tree2_y,并轉(zhuǎn)5);若遍歷完畢,則轉(zhuǎn)3);

5) 分別在Tree1和Tree2中,檢查是否存在Tree1_x的子節(jié)點(diǎn)與Tree2_y的子節(jié)點(diǎn)相等,并且對(duì)應(yīng)的動(dòng)態(tài)角色和特征相等,若存在分別將其存入隊(duì)列Queue1和Queue2,轉(zhuǎn)6);若不存在,則轉(zhuǎn)4);

6) 如果Queue1=?,則轉(zhuǎn)4);否則取出Queue1中第一個(gè)元素,賦值給變量Tree1_x;取出Queue2中第一個(gè)元素,賦值給變量Tree2_y,轉(zhuǎn)5);

7) 結(jié)束處理。

注:結(jié)束處理是將匹配中記錄下來(lái)的相似塊按大小和先后順序進(jìn)行比較,大者優(yōu)先,若大小一樣,則排在前面的優(yōu)先;廣度優(yōu)先遍歷,可以保證如果存在同樣的相似塊,則層次高的排在前面。

4.3 兩個(gè)概念的主類(lèi)義原框架相似度計(jì)算

如前所述,主類(lèi)義原是對(duì)一個(gè)概念的根本屬性的規(guī)定,是概念的第一義原,在形式上表現(xiàn)為緊鄰標(biāo)識(shí)符“DEF”后面的義原。所謂義原框架是對(duì)在義原樹(shù)上的義原的本質(zhì)屬性的描述,是在語(yǔ)義分類(lèi)的基礎(chǔ)上,對(duì)義原本身語(yǔ)義的更細(xì)致的刻劃。如“人”作為entity分類(lèi)樹(shù)上的一個(gè)義原節(jié)點(diǎn),其義原框架為:DEF={AnimalHuman|動(dòng)物:HostOf={Ability|能力}{Name|姓名}{Wisdom|智慧},{speak|說(shuō):agent={~}},{think|思考:agent={~}}}。兩個(gè)概念的主類(lèi)義原框架相似度計(jì)算是在提取兩個(gè)概念的主類(lèi)義原的基礎(chǔ)上,做義原框架的相似度計(jì)算,是對(duì)4.1節(jié)中主類(lèi)義原相似度計(jì)算的補(bǔ)充,其計(jì)算方法與概念語(yǔ)義樹(shù)相似度計(jì)算一致。

4.4 兩個(gè)概念反義和對(duì)義關(guān)系的計(jì)算

從語(yǔ)義樹(shù)角度看,反義義原節(jié)點(diǎn)之間(或?qū)αx義原節(jié)點(diǎn)之間)的絕對(duì)距離不大,甚至很小,它們之間語(yǔ)義距離大,是描述對(duì)象屬性或動(dòng)態(tài)特征的語(yǔ)義極性的表現(xiàn),如“喜歡”與“厭惡”、“抽象”與“具體”等,它們?cè)诹x原樹(shù)上的垂直關(guān)系如下所示:

喜歡:事件 → 靜態(tài) → 狀態(tài) → 精神狀態(tài) → 態(tài)度 → 好態(tài) → 喜歡

厭惡:事件 → 靜態(tài) → 狀態(tài) → 精神狀態(tài) → 態(tài)度 → 壞態(tài) → 厭惡

抽象:屬性值 → 特性值 → 內(nèi)容值 → 抽象性值 → 抽象

具體:屬性值 → 特性值 → 內(nèi)容值 → 抽象性值 → 具體

由于對(duì)象屬性或動(dòng)態(tài)特征的語(yǔ)義極性存在,依據(jù)《知網(wǎng)》的概念描述體系結(jié)構(gòu),我們給出本文中概念的相似度的定義。

定義1:概念C1、C2的相似度Similarity(C1,C2)是在《知網(wǎng)》概念描述框架的基礎(chǔ)上,根據(jù)C1、C2的概念類(lèi)別、語(yǔ)義特性描述和主類(lèi)義原框架等幾個(gè)方面的相似程度,并考慮C1、C2的語(yǔ)義極性,而計(jì)算出的一個(gè)綜合值。Similarity(C1,C2)∈[-1,+1],Similarity(C1,C2)反映C1、C2的語(yǔ)義特征相似度,Similarity(C1,C2)的絕對(duì)值反映C1、C2的句法特征相似度。

如果概念C1、C2是反義或?qū)αx關(guān)系,則Similarity(C1,C2)=-1;

如果概念C1、C2的上位義原是反義或?qū)αx關(guān)系,則Similarity(C1,C2)=-1;

如果概念C1、C2中存在反義或?qū)αx關(guān)系,則Similarity(C1,C2)為負(fù)值。

根據(jù)《知網(wǎng)》反義詞表和對(duì)義詞表進(jìn)行反義和對(duì)義的計(jì)算。

4.5 詞語(yǔ)相似度的綜合計(jì)算

我們?cè)?.1~4.2節(jié)的基礎(chǔ)上,下面給出基于《知網(wǎng)》的詞語(yǔ)相似度的完整計(jì)算公式。

(6)

其中,C1、C2是進(jìn)行相似度計(jì)算的兩個(gè)概念,θ是決定Similarity(C1,C2)符號(hào)的系數(shù),如果C1、C2概念特性描述中含有反義或?qū)αx關(guān)系,則θ=-1,否則θ=+1;Sim1(C1,C2)是C1,C2的主類(lèi)義原相似度計(jì)算,Sim2(C1,C2)是C1,C2的語(yǔ)義樹(shù)相似度計(jì)算,Sim3(C1,C2)是C1,C2的主類(lèi)義原框架相似度計(jì)算β1、β2、β3分別是對(duì)應(yīng)計(jì)算的權(quán)重,β1+β2+β3=1,β3≤β1≤β2。γ為懲罰因子,如果C1,C2的特性描述中存在某個(gè)共同的Event,并同時(shí)存在依附于該Event的不同的動(dòng)態(tài)角色與特征關(guān)系,則γ=0.5,否則γ=1。如在詞語(yǔ)“兒科醫(yī)生”與“患兒”的概念語(yǔ)義樹(shù)對(duì)照?qǐng)D中,“兒科醫(yī)生”與“患兒”具有相同的主類(lèi)義原“人”,在特性描述中都有“醫(yī)治”這個(gè)Event,但在“兒科醫(yī)生”中,主類(lèi)義原“人”是Event“醫(yī)治”的agent;在“患兒”中,主類(lèi)義原“人”是Event“醫(yī)治”的patient,即他們的動(dòng)態(tài)角色不同。

由于概念相似度的計(jì)算的功用目的,有必要突出語(yǔ)義分析和句法分析中的詞語(yǔ)可替換性。深入研究知網(wǎng)的概念表達(dá)體系結(jié)構(gòu),我們發(fā)現(xiàn)概念的主類(lèi)義原確定了概念的最基本的意義,是概念語(yǔ)義分類(lèi)的依據(jù),而無(wú)論是詞語(yǔ)的語(yǔ)義特征還是句法特征,都與概念語(yǔ)義分類(lèi)密切相關(guān),為體現(xiàn)這一特性,我們將公式(6)修正為公式(7)。

(7)

在公式(6)的基礎(chǔ)上,對(duì)語(yǔ)義樹(shù)相似度計(jì)算Sim2(C1,C2)乘上主類(lèi)義原相似度計(jì)算Sim1(C1,C2),這一修改的含義是:如果Sim1(C1,C2)值較大,則公式(6)的計(jì)算值接近于公式(7),如果Sim1(C1,C2)值較小,則第二項(xiàng)的計(jì)算值較小,整個(gè)公式的計(jì)算值就較小。

5 相關(guān)實(shí)驗(yàn)與結(jié)果分析

由于目前對(duì)中文詞語(yǔ)相似度還沒(méi)有形成統(tǒng)一的規(guī)范,也沒(méi)有相關(guān)標(biāo)注語(yǔ)料提供實(shí)驗(yàn)平臺(tái),因此中文詞語(yǔ)相似度計(jì)算的實(shí)驗(yàn)設(shè)計(jì)與數(shù)據(jù)篩選困難較大,如果隨機(jī)的選取一些詞語(yǔ),很難說(shuō)明問(wèn)題。我們從本文中文詞語(yǔ)相似度的功用目的出發(fā),在遴選實(shí)驗(yàn)數(shù)據(jù)時(shí)側(cè)重那些能說(shuō)明語(yǔ)義特征和句法特征以及語(yǔ)義相關(guān)性的詞語(yǔ)。

表1是實(shí)驗(yàn)中的相關(guān)參數(shù),分為3個(gè)不同的參數(shù)組,通過(guò)不同參數(shù)的權(quán)重的不同設(shè)置,觀察實(shí)驗(yàn)結(jié)果的合理性。

表1 相關(guān)參數(shù)設(shè)置

表2是相關(guān)實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)數(shù)據(jù)表明,主類(lèi)義原及其框架對(duì)概念之間的類(lèi)別區(qū)別貢獻(xiàn)較大,如在參數(shù)組1和參數(shù)組3中,由于β1和β3的值設(shè)置的相對(duì)較高,在(“盜墓人”、“盜墓”)和(“盜墓人”、“小偷”)、(“雨傘”、“打傘”)和(“雨傘”、“雨衣”)這幾組數(shù)據(jù)的計(jì)算中,能較好地體現(xiàn)類(lèi)別區(qū)別。

表2 實(shí)驗(yàn)結(jié)果

續(xù)表

“色調(diào)”的DEF={Hue|濃淡:host={Color|顏色}},“藍(lán)色”的DEF={blue|藍(lán)},其對(duì)應(yīng)的主類(lèi)義原的上位關(guān)系鏈分別為:屬性→外觀→濃淡,屬性值→外觀值→顏色值→藍(lán),也就是說(shuō)這連個(gè)看似關(guān)系密切的詞語(yǔ),在《知網(wǎng)》的概念架構(gòu)中分別屬于“屬性”和“屬性值”兩個(gè)不同的類(lèi)別,因此計(jì)算相似度為0。從能否替換的角度看,這兩個(gè)詞確實(shí)可替換性較差,但是它們確實(shí)存在一定的語(yǔ)義關(guān)聯(lián),針對(duì)不同的應(yīng)用目標(biāo),在相似度計(jì)算中,應(yīng)考慮進(jìn)屬性和屬性值之間的關(guān)系。

實(shí)驗(yàn)結(jié)果中的正負(fù)值,較好地反映出語(yǔ)義特征相似度和句法特征相似度,如(“合算”、“得不償失”),語(yǔ)義相反,但句法結(jié)構(gòu)中具有替代性?!棒~(yú)類(lèi)”和“鯉魚(yú)”的相似度為1,是因?yàn)樗鼈兊腄EF都是{fish|魚(yú)}。HowNet中有一些詞語(yǔ)的定義的細(xì)致程度還有待進(jìn)一步的完善。

由于《知網(wǎng)》中,概念的語(yǔ)義是從概念特性描述、主類(lèi)義原、主類(lèi)義原框架3個(gè)方面進(jìn)行定義的,具體到某些詞語(yǔ),在這3個(gè)方面的描述分量并不是很平衡,有些特性描述較細(xì)致,但義原或義原框架卻較簡(jiǎn)略,而有些卻正好相反。如“北”、“北部”,它們的主類(lèi)義原框架描述較細(xì)致,且相似性高,因此在參數(shù)組3等到結(jié)果最大。固定地設(shè)定某組參數(shù),對(duì)某些詞效果叫好,可能對(duì)另外一些詞,則不然。針對(duì)這一情況,進(jìn)行參數(shù)的動(dòng)態(tài)設(shè)定,即綜合考慮概念定義的3個(gè)方面,動(dòng)態(tài)調(diào)節(jié)參數(shù)。參數(shù)計(jì)算公式(8)所示:

(8)

其中,n1、m1分別為參與比較的兩個(gè)概念的主類(lèi)義原在義原樹(shù)上的深度,n2、m2分別為兩個(gè)概念的特性描述中的節(jié)點(diǎn)數(shù)目,n3、m3分別為兩個(gè)主類(lèi)義原框架中的節(jié)點(diǎn)數(shù)目。

6 結(jié)論與展望

詞語(yǔ)相似度的分析與計(jì)算是自然語(yǔ)言處理關(guān)鍵技術(shù)之一,對(duì)句法分析、機(jī)器翻譯、信息檢索等能提供很好的幫助。本文充分分析和利用新版HowNet的概念架構(gòu)和語(yǔ)義多維表達(dá)形式,從概念的主類(lèi)義原、主類(lèi)義原框架以及概念特性描述三個(gè)方面綜合分析詞語(yǔ)相似度,并從實(shí)際功用出發(fā),將詞語(yǔ)相似度細(xì)分為語(yǔ)義特征相似度和句法特征相似度,并在計(jì)算中區(qū)分和體現(xiàn)出兩種相似度的不同。實(shí)驗(yàn)結(jié)果較為理想,與人的直觀判斷基本一致。

《知網(wǎng)》含有豐富的詞匯語(yǔ)義知識(shí)和世界知識(shí),尤其是新版《知網(wǎng)》除了規(guī)模有很大的擴(kuò)充外,概念描述架構(gòu)體系有了較大的改進(jìn)和完善,為中文語(yǔ)義處理提供了很好的平臺(tái)。在本文后繼的工作中,將著力于挖掘和利用HowNet中的動(dòng)態(tài)角色與特征提供的概念之間更為細(xì)致的語(yǔ)義關(guān)聯(lián),分析詞語(yǔ)相似性與相關(guān)性之間的內(nèi)在聯(lián)系和轉(zhuǎn)換。

致謝:衷心感謝語(yǔ)義分析與處理支撐平臺(tái)——《知網(wǎng)》。

[1] 劉群,李素建. 基于《知網(wǎng)》的詞匯語(yǔ)義相似度的計(jì)算[C]//第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì). 中國(guó)臺(tái)北,2002.

[2] Green, Rebecca and Bonnie J. Dorr. Inducing A Semantic Frame Lexicon from WordNet Data[C]//Proceedings of the 2nd Workshop on Text Meaning and Interpretation (ACL 2004).

[3] 李涓子.漢語(yǔ)詞義排歧方法研究[D].清華大學(xué)博士論文,1999.

[4] 魯松.自然語(yǔ)言中詞相關(guān)性知識(shí)無(wú)導(dǎo)獲取和均衡分類(lèi)器的構(gòu)建[D].中國(guó)科學(xué)院計(jì)算技術(shù)研究所博士論文.2001.

[5] Dagan I., Lee L. and Pereira F. (1999), Similarity-based models of word cooccurrence probabilities[C]//.Machine Learning, Special issue on Machine Learning and Natural Language, 1999.

[6] 董振東, 董強(qiáng). 《知網(wǎng)》[DB/OL]. http://www.keenage.com

[7] 董振東,董強(qiáng),郝長(zhǎng)伶.《知網(wǎng)》的理論發(fā)現(xiàn)[J]. 中文信息學(xué)報(bào),2007,21(4):3-9.

[8] Dekang Lin. An Information Theoretic Definition of Similarity Semantic distance in WordNet [C]//Proceedings of the Fifteenth International Conference on Machine Learning. 1998.

[9] Eneko Agirre, German Rigau. A Proposal for Word Sense Disambiguation using Conceptual Distance[C]//Proceedings of the First International Conference on Recent Advanced in NL P. 1995.

[10] BUDANITSKY, A. AND HIRST, G. Semantic distance in WordNet:An experimental, application oriented evaluation of five measures[C]//Workshop on WordNet and Other Lexical Resources, Second meeting of the North American Chapter of the Association for Computational Linguistics. 2001.

[11] 李峰,李芳. 中文詞語(yǔ)語(yǔ)義相似度計(jì)算——基于《知網(wǎng)》2000[J]. 中文信息學(xué)報(bào),2007,21(3):99-105.

[12] 吳健,吳朝暉,李瑩,等. 基于本體論和詞匯語(yǔ)義相似度的Web服務(wù)發(fā)現(xiàn)[J]. Chinese Journal of Computers,2005, 28 (4).

[13] 朱嫣嵐,閔錦,周雅倩,黃萱菁,等. 基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J]. 中文信息學(xué)報(bào), 2006, 20(1):14-20.

猜你喜歡
句法語(yǔ)義詞語(yǔ)
容易混淆的詞語(yǔ)
述謂結(jié)構(gòu)與英語(yǔ)句法配置
找詞語(yǔ)
語(yǔ)言與語(yǔ)義
句法二題
詩(shī)詞聯(lián)句句法梳理
批評(píng)話語(yǔ)分析中態(tài)度意向的鄰近化語(yǔ)義構(gòu)建
“社會(huì)”一詞的語(yǔ)義流動(dòng)與新陳代謝
“吃+NP”的語(yǔ)義生成機(jī)制研究
一枚詞語(yǔ)一門(mén)靜