張瑞霞,楊國增,吳慧欣
(1. 華北水利水電學(xué)院 信息工程學(xué)院,河南 鄭州 450011;2.鄭州師范學(xué)院 數(shù)學(xué)系 河南 鄭州 450044)
在自然語言信息處理領(lǐng)域中,詞匯相似度的計算廣泛應(yīng)用于基于實例的機器翻譯、信息檢索、信息抽取和詞義消歧等領(lǐng)域,并取得了豐富成果,如文獻[1-6]利用不同方法計算了詞匯相似度。而隨著網(wǎng)絡(luò)的出現(xiàn),涌現(xiàn)出了大量未登錄詞,關(guān)于未登錄詞識別有很多研究[7-11],但關(guān)于其語義相似度計算的研究甚少,在計算漢語詞匯語義相似度的眾多文獻中,只有文獻[3]涉及了,并且其計算方法也有待完善。因此設(shè)計合理的未登錄詞相似度計算方法有利于促進應(yīng)自然語言處理相關(guān)領(lǐng)域的發(fā)展。
鑒于上述原因,提出了一種基于《知網(wǎng)》2005的漢語未登錄詞語義相似度計算方法。該方法首先形式化描述了《知網(wǎng)》的動態(tài)角色與意合網(wǎng)絡(luò)的語義關(guān)系,并在此基礎(chǔ)上構(gòu)造了語義關(guān)系匹配函數(shù);接著在用概念圖表示未登錄詞語義信息的基礎(chǔ)上,根據(jù)節(jié)點在語義表示中的不同作用,對其分類;然后根據(jù)匹配函數(shù)定義了不同弧、節(jié)點對及節(jié)點對集的構(gòu)成方法;最后提出了未登錄詞的整體相似度、不同類型節(jié)點對及節(jié)點對集相似度的計算方法。實驗結(jié)果證明此方法是有效的。
《知網(wǎng)》是一個以英漢雙語所代表的概念以及概念的特征為基礎(chǔ)的常識知識庫,它主要描述了概念與概念之間以及概念所具有的特性之間的關(guān)系[12]。董振東先生強調(diào)“關(guān)系是知識的核心,關(guān)系是《知網(wǎng)》的靈魂”[13]。本計算方法是在利用《知網(wǎng)》的《知識詞典》和《中文信息結(jié)構(gòu)庫》構(gòu)造未登錄詞語義信息的基礎(chǔ)上提出的,它在計算過程中能夠有效的利用語義關(guān)系,能夠充分的利用語義信息。
意合網(wǎng)絡(luò)是魯川先生根據(jù)漢語自身的特點,對語義網(wǎng)絡(luò)的內(nèi)容和形式進行了相應(yīng)改進而提出的關(guān)于漢語語法語義表示方面的系統(tǒng)理論;它是由各級“語義單位”組成的,清晰表示“語義關(guān)系”、“語義依附”和“語義指向”的有層次網(wǎng)絡(luò),是“語義組合系統(tǒng)”的形式化圖解[14];當代語言學(xué)家胡明揚先生認為它是中國計算機專家寫的第一部現(xiàn)代漢語語法理論著作,值得每一個從事漢語研究的人一讀[15]。
文獻[3]中利用《知網(wǎng)》2000版計算了未登錄詞語義相似度,計算方法不適用于知網(wǎng)新版本;文獻[5]利用《知網(wǎng)》2005版計算了漢語登錄詞的相似度,但此方法若應(yīng)用于未登錄詞,則會忽略去部分語義信息從而影響計算效果。例如未登錄詞“制造商”和“癡迷者”,根據(jù)對未登錄詞語義分析的研究,利用《知網(wǎng)》的《知識詞典》和《中文信息結(jié)構(gòu)庫》,得到兩個詞語的概念圖分別如圖1、圖2所示。若采用文獻[5]中語義相似度計算方法,則只有圖1的節(jié)點“人”與圖2的節(jié)點“人”參與相似度計算,這樣“制造商”與“癡迷者”的語義相似度就被簡化為“商”與“者”的相似度,顯然不合理。所以計算未登錄詞語義相似度的主要問題有以下三個:
圖1 “制造商”的概念圖
圖2 “癡迷者”的概念圖
(1)如何實現(xiàn)語義關(guān)系的模糊匹配,以使各種語義信息有效的參與計算;
(2)如何按照語義關(guān)系的匹配分類節(jié)點對;
(3)如何計算節(jié)點對、節(jié)點對集合及未登錄詞整體的相似度。
《知網(wǎng)》對語義關(guān)系的描述是比較細化的,如圖1中“人”作為“制造”的agent與圖2中“人”作為“喜歡”的experiencer是不同的;但若語義關(guān)系的粒度稍微粗略一些,圖1“人”是 作為“制造”的主體,圖2“人”也是作為“喜歡”主體,因此兩者的語義關(guān)系是相同的,這樣計算語義相似度時,“制造”與“喜歡”模糊匹配成功,從而參與計算,提高計算的準確性。魯川先生的意合網(wǎng)絡(luò)理論對語義關(guān)系劃分的粒度比較合適,因此參照其首先形式化描述了語義關(guān)系匹配集,然后構(gòu)造了語義關(guān)系匹配函數(shù)。
意合網(wǎng)絡(luò)的語義關(guān)系集合記為Roleyihe,《知網(wǎng)》的動態(tài)角色集合記為Rolehownet,語義關(guān)系標識號集合記為Sid,父語義關(guān)系標識號集合記為SparentId。
語義關(guān)系記為一個四元組x:x=
根據(jù)意合網(wǎng)絡(luò)語義關(guān)系的層次,對語義關(guān)系集合按層次進行劃分,分別稱為:
語義關(guān)系第一匹配集,記為MatchFirst={(周邊)}。
語義關(guān)系第二匹配集,記為MatchSecond={(參與),(情景)}。
語義關(guān)系第三匹配集,記為MatchThird={(主體),(客體),(鄰體),(系體),……}。
語義關(guān)系第四匹配集,記為MatchForth={(施事),(當事),(領(lǐng)事),(受事),……}。
語義關(guān)系第五匹配集,記為:
MatchFifth={
下面定義了匹配集間的函數(shù)關(guān)系f,g,稱為語義關(guān)系匹配函數(shù):
f:MatchFifth→MatchForth,?x∈MatchFifth,y=f(x)?x.parentId=y.id,則f確定了動態(tài)角色按照MatchForth的匹配規(guī)則,即若f(xi)=f(xj),則xi.name與xj.name可模糊匹配。
g:MatchForth→MatchThird, ?y∈MatchForth,z=g(y)?y.parentId=z.id,則g確定了意合網(wǎng)絡(luò)第四層語義關(guān)系按照MatchThird的匹配規(guī)則,即若g(yi)=g(yj),則yi.name與yj.name可模糊匹配。
由函數(shù)的傳遞性可知,復(fù)合函數(shù)g°f:MatchFifth→MatchThird,?x∈MatchFifth,z=g(f(x))?f(x).parentId=z.id,則g°f確定了動態(tài)角色按照MatchThird的匹配規(guī)則,即若g(f(xi))=g(f(xj)),則xi.name與xj.name可匹配。
構(gòu)造匹配函數(shù)后,就增強了動態(tài)角色模糊匹配的可操作性,如動態(tài)角色experiencer和agent按照匹配函數(shù)g°f可以進行匹配。
設(shè)概念圖G1、G2分別為詞語W1、W2的概念圖,其中:
G1= G2= 令v1i∈V1,e1j∈E1且e1j與v1i相關(guān)聯(lián),e1j的關(guān)系類型為《知網(wǎng)》的動態(tài)角色kind,則其對應(yīng)的語義關(guān)系為x1j=(kind);令v2k∈V2,e2l∈E2且e2l與v2k相關(guān)聯(lián),e2l對應(yīng)的語義關(guān)系四元組為x2l;有x1j,x2l∈MatchFifth。 文獻[16]對詞圖中的節(jié)點分為詞語節(jié)點、中心義原節(jié)點、基本義原節(jié)點,由于未登錄詞的概念圖是由詞圖合并得到的,因此在文獻[16]對節(jié)點分類的基礎(chǔ)上添加了次中心義原節(jié)點。 定義1:次中心義原節(jié)點:若一節(jié)點在概念圖合并之前是中心義原節(jié)點,在合并之后不是中心義原節(jié)點,則稱此節(jié)點為次中心義原節(jié)點。 對圖1和圖2中的節(jié)點進行分類如表1所示: 表1 圖例節(jié)點分類表 根據(jù)弧被加入概念圖中的時間不同將其分為基本弧和擴展弧,根據(jù)語義關(guān)系的匹配性可分為基本同型弧、α擴展同型弧、β擴展同型弧、χ擴展同型弧。 定義2:基本?。簶?gòu)建登錄詞概念圖過程中添加的弧稱為基本弧。 定義3:擴展?。汉喜蓚€概念圖過程中添加的弧稱為擴展弧。 定義4:基本同型?。篹1j與e2l為基本同型弧當且僅當e1j與e2l是基本弧且x1j=x2l。 定義5:α擴展同型弧:e1j與e2l為α擴展同型弧當且僅當e1j與e2l是擴展弧且x1j=x2l。 定義6:β擴展同型弧:e1j與e2l為β擴展同型弧當且僅當e1j與e2l是擴展弧且x1j≠x2l且f(x1j)=f(x2l)。 定義7:χ擴展同型?。篹1j與e2l為χ擴展同型弧當且僅當e1j與e2l是擴展弧且f(x1j)≠f(x2l)且g°f(x1j)=g°f(x2l)。 對圖1和圖2中的弧進行分類如表2所示: 表2 圖例弧分類表 跟據(jù)節(jié)點所關(guān)聯(lián)的弧的類型不同,對節(jié)點對可分為不同的類別。 定義8:節(jié)點v1i與v2k是基本同構(gòu)節(jié)點對:當v1i和v2k滿足下列所有條件時,稱v1i與v2k為基本同構(gòu)節(jié)點對,記為 (1)e1j和e2l為基本同型??; (2)v1i與v2k均為基本義原節(jié)點; (3)v1i與v2k分別為e1j和e2l的始點或終點。 對于 類似的當v1i與v2k分別為G1和G2的次中心義原節(jié)點時,可定義α擴展同構(gòu)節(jié)點對,記為 定義9:默認次中心同構(gòu)節(jié)點對:當vi是概念圖G的次中心義原節(jié)點且vi不包含在與G關(guān)聯(lián)的任一α擴展同構(gòu)節(jié)點對、β擴展同構(gòu)節(jié)點對及χ擴展同構(gòu)節(jié)點對中,則稱vi與是默認次中心同構(gòu)節(jié)點對,記為(vi,)s。 類似的可定義默認基本同構(gòu)節(jié)點對,記為(vj,)。 對圖1和圖2中的節(jié)點對進行分類,其中基本同構(gòu)節(jié)點對、α擴展同構(gòu)節(jié)點對、β擴展同構(gòu)節(jié)點對、默認次中心節(jié)點對均無,χ擴展同構(gòu)節(jié)點對有<制造,喜歡>χ,默認基本同構(gòu)節(jié)點對有(職位,)、(經(jīng)濟,)。 由不同類型的節(jié)點對可構(gòu)成不同的節(jié)點對集,如基本同構(gòu)節(jié)點對集ISO(G1,G2)、α擴展同構(gòu)節(jié)點對集αEISO(G1,G2)、β擴展同構(gòu)節(jié)點對集βEISO(G1,G2),χ擴展同構(gòu)節(jié)點對集χEISO(G1,G2)、默認次中心同構(gòu)節(jié)點對集DSISO(G1,G2)、默認基本同構(gòu)節(jié)點對集DNISO(G1,G2)。 計算詞語W1和W2的相似度也即計算其概念圖G1和G2的相似度sim(G1,G2)。根據(jù)概念圖中節(jié)點對的分類,局部相似度包括中心義原節(jié)點對的相似度sim0、ISO(G1,G2)相似度sim1、αEISO(G1,G2)相似度sim2、βEISO(G1,G2)相似度sim3、χEISO(G1,G2)相似度sim4、DNISO(G1,G2)相似度sim5、DSISO(G1,G2)相似度sim6,G1、G2相似度由局部相似度加權(quán)和得到,如公式(1)所示。 (1) 下面探討不同類型節(jié)點對及節(jié)點對集相似度的計算。 (1)基本同構(gòu)節(jié)點對相似度的計算: 設(shè) (2)α擴展同構(gòu)節(jié)點對相似度的計算: 設(shè) (3)β擴展同構(gòu)節(jié)點對相似度的計算: 設(shè) 由于v1i和v2k是基于語義關(guān)系模糊匹配的,所以加入?yún)?shù)β′對原相似度進行調(diào)節(jié),并令β′=f(x1j).weight;δi為一調(diào)參數(shù),同公式(1)的設(shè)置。 類似的有χ擴展同構(gòu)節(jié)點對相似度的計算方法,設(shè) 其中χ′為一調(diào)節(jié)參數(shù),χ′=(g°f(x1j)).weight,δi為一調(diào)參數(shù),同公式(1)的設(shè)置。 (4)默認基本同構(gòu)節(jié)點對和默認次中心同構(gòu)節(jié)點對的相似度分別設(shè)定為較小的常數(shù)ε1和ε2。 (5)中心義原節(jié)點對相似度sim0的計算,按文獻[5]中的義原相似度計算方法。 (6)sim1的計算,參照文獻[5]中同構(gòu)節(jié)點對集的計算,如公式(4)所示: (4) 同理可計算sim2、sim3及sim4。 (7)sim5和sim6的計算如公式(5)和公式(6)所示: 其中n=|DNISO(G1,G2)|,m=|DSISO(G1,G2)|。 如,計算“制造商”與“癡迷者”的相似度即計算圖1與圖2的相似度,根據(jù)實驗經(jīng)驗,主要參數(shù)設(shè)置如表3所示: 表3 參數(shù)設(shè)置 計算過程中有sim0=1.0,sim1=0.0,sim2=0.0,sim3=0.0,sim4=0.277 777 8,sim5=0.002,sim6=0.0,按照公式(1)有“制造商”與“癡迷者”的相似度為0.705 565 6。 主要參數(shù)設(shè)置如表3所示,表4列舉了一些未登錄詞相似度的計算結(jié)果。 表4中實驗舉例分兩部分,一部分是未登錄詞“體育部”和一些詞語的相似度,另一部分是未登錄詞“中國隊”和一些詞語的相似度。在第一部分中,前4行與人的直覺一致;第5行相似度和第6行相似度人的直覺不容易分辨,但是若從語義結(jié)構(gòu)來分析,“體育部”和“讀書人”的語義結(jié)構(gòu)要比“體育部”和“美少女”的語義結(jié)構(gòu)更相近,所以實驗結(jié)果是合理的;第6行和第7行相似度大小從直覺上不易區(qū)別,但結(jié)果顯示第6行相似度略大于第7行,是因為兩者的概念圖中第6行中的默認基本同構(gòu)節(jié)點對多于第7行中的;第7~10行結(jié)果與直覺一致。 第二部分中,“中國隊”和一些未登錄詞的相似度計算,除了第7行,其他均和人的直覺一致,第7行相似度較第6行高,主要原因在于“隊”與“畫”的相似度大于“隊”與“人”的相似度,改善方法為豐富知網(wǎng)對這些詞語概念項的描述。 表5 未登錄詞與登錄詞相似度實驗結(jié)果舉例 表5列舉了未登錄詞“俄國人”和一些登錄詞的相似度計算結(jié)果,從整體上看,由于未登錄詞的概念圖是根據(jù)知網(wǎng)中的《中文信息結(jié)構(gòu)庫》構(gòu)造的,所以按照提出的相似度計算方法,單個來看,相似度值偏低,當整體來看,計算結(jié)果是合理的。第4行和第5行相似度相同,因為“熊貓”的主要義原“走獸”和“鴿子”的主要義原“禽”在知網(wǎng)的“實體”義原樹中處于同一層次,因此在計算其與“人”的相似度時,按照語義距離計算方法無法區(qū)分。 本實驗的實驗集由兩部分組成,第一部分來自《PFR人民日報標注語料》,從中統(tǒng)計出13 890個未登錄詞,其中名詞60%、動詞20%、日常用語10%、其他詞性的未登錄詞10%,以及來自哈工大信息檢索研究室語言技術(shù)平臺的標注語料,從中選出4 000個未登錄詞,其中名詞60%、動詞20%、其他詞性的未登錄詞20%;第二部分是隨機選取《PFR人民日報標注語料》中的2 000個登錄詞和2 000個未登錄詞。根據(jù)實驗結(jié)果統(tǒng)計,名詞性的未登錄詞相似度中85.2%和人的直覺一致,動詞性未登錄詞的 70.1% 和直覺一致,日常用語的51.7%和直覺一致,其他詞性未登錄詞的72.4%和直覺一致。名詞性未登錄詞相似度計算效果較好主要原因在于《知識詞典》對名詞性概念項的描述較詳盡,《中文信息結(jié)構(gòu)庫》中關(guān)于名詞性短語的語義結(jié)構(gòu)也較豐富,因此根據(jù)《知識詞典》和《中文信息結(jié)構(gòu)庫》對名詞性未登錄詞概念圖構(gòu)造的正確性比較高,所以其相似度計算效果較好;《知識詞典》對動詞性概念的描述較簡單,《中文信息結(jié)構(gòu)庫》中關(guān)于動詞性短語的語義結(jié)構(gòu)相對不如名詞性短語的語義結(jié)構(gòu)豐富,因此其概念圖構(gòu)造的正確性就不如名詞性未登錄詞,其相似度計算效果也不如名詞;對于日常用語相似度計算效果較差,主要原因在于《中文信息結(jié)構(gòu)庫》中難以找到與其對應(yīng)的準確語義結(jié)構(gòu);這些體現(xiàn)了基于知識庫的語義相似度計算的缺點。 以《知網(wǎng)》2005版為語義資源提出了漢語未登錄詞語義相似度的計算方法,該方法首先形式化描述了知網(wǎng)的動態(tài)角色與意合網(wǎng)絡(luò)的語義關(guān)系,構(gòu)造了匹配函數(shù);接著在用概念圖表示未登錄詞語義信息的基礎(chǔ)上,根據(jù)節(jié)點的作用不同對其分類,并根據(jù)匹配函數(shù)對弧、節(jié)點對及節(jié)點對集分類;最后提出了未登錄詞整體相似度、不同類型節(jié)點對及節(jié)點對集相似度的計算方法。實驗結(jié)果證明此方法是有效的。 在下一步的工作中,需要繼續(xù)完善本方法。例如在計算過程中,目前所有的參數(shù)都是經(jīng)驗值,應(yīng)嘗試一些參數(shù)估計法或機器學(xué)習(xí)法,來自動尋找最優(yōu)參數(shù);再如,計算過程中,由于《知網(wǎng)》對概念項或?qū)φZ義結(jié)構(gòu)信息描述的不詳盡,而影響了計算效果,應(yīng)嘗試結(jié)合統(tǒng)計方法修正計算結(jié)果;還有,目前計算詞語相似度是單從詞語角度來做的,應(yīng)嘗試把詞語放入具體語境中計算相似度等。 [1]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[C]//第三屆漢語詞匯語義研討會,臺北,2002. [2]關(guān)毅,王曉龍.基于統(tǒng)計的漢語詞匯間語義相似度計算[C]//全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集,哈爾濱,2003,221-227. [3]夏天.漢語詞語語義相似度計算研究[J].計算機工程, 2007,33(6):191-194. [4]李峰,李芳.中文詞語語義相似度計算——基于《知網(wǎng)》2002[J].中文信息學(xué)報,2007,21(4):99-105. [5]張瑞霞,朱貴良,楊國增.基于知試圖的漢語詞匯語義相似度計算[J].中文信息學(xué)報,2009,23(3):116-120. [6]葛斌,李芳芳,郭絲路,等.基于知網(wǎng)的詞匯語義相似度計算方法研究[J].計算機應(yīng)用研究,2010,27(9):3329-3333. [7]鄒綱,劉洋,劉群,等.面向Internet的中文新詞語檢測[J].中文信息學(xué)報,2004,18(6):1-9. [8]劉華.一種快速獲取領(lǐng)域新詞語的新方法[J].中文信息學(xué)報,2006,20(5):17-23. [9]韓艷,林煜熙,姚健民.基于統(tǒng)計信息的未登錄詞的擴展識別方法[J].中文信息學(xué)報,2009,23(3):24-30. [10]程沖,黃水清.自適應(yīng)分詞算法中的未登錄詞識別技術(shù)研究[J].情報學(xué)報,2009,28(4):530-536. [11]張海軍,史樹敏,朱朝勇,等.中文新詞識別技術(shù)綜述[J].計算機科學(xué),2010,37(3):6-10. [12]董振東,董強.《知網(wǎng)》——《知網(wǎng)》簡介[R].http://www.keenage.com [13]董振東,董強,郝長伶.《知網(wǎng)》的理論發(fā)現(xiàn)[J].中文信息學(xué)報,2007,21(4):3-9. [14]魯川.漢語語法的意合網(wǎng)絡(luò)[M].北京:商務(wù)印書館,2001:39-69. [15]胡明揚.讀魯川著.《漢語語法的意合網(wǎng)絡(luò)》[J].漢語學(xué)習(xí),2003(2):73-75. [16]張瑞霞,肖漢.基于知網(wǎng)的詞圖構(gòu)造[J].華北水利水電學(xué)院學(xué)報(自然版),2008,29(3):53-56.3.3 未登錄詞相似度計算
4 實驗與分析
4.1 相似度計算舉例
4.2 實驗結(jié)果分析
5 結(jié)束語
——以指數(shù)、對數(shù)函數(shù)同構(gòu)問題為例