邱莉榕,翁 彧,趙小兵
(1. 中央民族大學(xué) 信息工程學(xué)院,北京 100081;2. 國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心 少數(shù)民族分中心,北京 100081)
藏文顯示技術(shù)、藏文編碼技術(shù)以及藏文輸入技術(shù)得到了較好的解決[1]。藏文信息處理在字處理、詞和短語(yǔ)處理方面已經(jīng)陸續(xù)取得了相對(duì)突破,句處理階段的攻關(guān)已經(jīng)開(kāi)始。在句處理階段,句法知識(shí)、語(yǔ)義知識(shí)、語(yǔ)用知識(shí)的基礎(chǔ)理論研究是亟待解決的關(guān)鍵性問(wèn)題。
詞典中定義的概念本身并沒(méi)有二義性,它能唯一地、準(zhǔn)確地指向現(xiàn)實(shí)世界中的實(shí)體或?qū)ο?。但在句處理中,句中的概念是由詞表示的。例如概念詞“木馬”在下面三個(gè)句子中至少可以表示三種概念:
(1) 木馬是一種玩具。
(2) 木馬是一種運(yùn)動(dòng)器械。
(3) 木馬是一種病毒。
因此所謂概念二義性,就是由于一個(gè)概念詞可以表示多個(gè)概念引起的。而藏語(yǔ)也會(huì)因?yàn)樯舷挛恼Z(yǔ)境的不同,其漢語(yǔ)有不同譯文:
同學(xué)們正在學(xué)習(xí)。
圣人的如釋迦牟尼。
語(yǔ)言文字本身存在的語(yǔ)義模糊性和歧義性增加了機(jī)器分析的難度。文字(對(duì)于計(jì)算機(jī)而言就是二進(jìn)制數(shù)據(jù))僅僅是傳達(dá)語(yǔ)義的媒介,而語(yǔ)義的表達(dá)才是交流的核心和關(guān)鍵。
對(duì)具有某種知識(shí)水平的人來(lái)說(shuō),可以根據(jù)句子的語(yǔ)境理解概念要傳達(dá)的明確語(yǔ)義。例如: 如果“木馬”同“計(jì)算機(jī)”“程序”等詞同時(shí)在文中出現(xiàn)的話,那么可以根據(jù)已有知識(shí),得到此處的“木馬”應(yīng)該指“木馬”病毒的可能性最大。
知網(wǎng)(HowNet)的作者董振東先生提出“自然語(yǔ)言處理系統(tǒng)最終需要更強(qiáng)大的知識(shí)庫(kù)的支持”[2]。語(yǔ)義的核心是知識(shí),語(yǔ)義本體就是共享概念模型顯示的形式化規(guī)范說(shuō)明[3],用于描述(特定領(lǐng)域的)知識(shí)。
我們可以創(chuàng)建計(jì)算機(jī)領(lǐng)域本體,如果這個(gè)領(lǐng)域本體中包含了“木馬、計(jì)算機(jī)、程序”等概念,并定義了這些概念之間的關(guān)系,那么計(jì)算機(jī)在使用這個(gè)本體的時(shí)候,就相當(dāng)于有了這些儲(chǔ)備知識(shí)。
藏語(yǔ)的語(yǔ)義本體的創(chuàng)建研究在以下問(wèn)題解決上,具有突出意義:
(1) 有助于擴(kuò)大詞典規(guī)模: 當(dāng)前已經(jīng)手工建立了許多詞典用于自然語(yǔ)言處理,但是詞典的容量畢竟是有限的,不可能包含所有的詞,特別是未登錄詞。本體中的上下位關(guān)系定義了概念和概念之間的層次,基于這種上下位關(guān)系,可以獲得更多語(yǔ)義新詞。
(2) 支持進(jìn)一步的高層(語(yǔ)義級(jí)、知識(shí)級(jí))智能應(yīng)用: 語(yǔ)義本體的最終目標(biāo)是將雜亂無(wú)章的信息源轉(zhuǎn)變?yōu)橛行蛞子玫闹R(shí)源,通過(guò)語(yǔ)義本體的描述,可以整合浩如煙海且瞬息萬(wàn)變的信息,從中發(fā)現(xiàn)、選擇和組織有用的信息和知識(shí),傳遞給需要的人或需要的系統(tǒng),從而支持進(jìn)一步的高層(語(yǔ)義級(jí)、知識(shí)級(jí))智能應(yīng)用。
(3) 緩解民族語(yǔ)言數(shù)據(jù)稀疏問(wèn)題: 雖然藏文是少數(shù)民族語(yǔ)言中使用人口較多的語(yǔ)言,但相對(duì)于漢語(yǔ)和英語(yǔ)來(lái)說(shuō),藏文語(yǔ)言資源相對(duì)匱乏,特別是帶標(biāo)注文本和雙語(yǔ)對(duì)齊的文本稀少,這對(duì)藏文的信息處理帶來(lái)不利影響。利用本體中詞的語(yǔ)義關(guān)系,可以減少數(shù)據(jù)稀疏的影響,大大提高藏語(yǔ)信息處理精度。
本文首先介紹了藏文語(yǔ)義本體的創(chuàng)建過(guò)程,詳細(xì)描述藏文語(yǔ)義本體創(chuàng)建的各個(gè)步驟。然后針對(duì)上下位這種基礎(chǔ)的語(yǔ)義關(guān)系,提出了藏文上下位關(guān)系模式,以及基于這種模式的匹配算法。
20世紀(jì)90年代初期,國(guó)際計(jì)算機(jī)界舉行了多次關(guān)于本體的專題研討會(huì),本體成為包括知識(shí)工程、自然語(yǔ)言處理和知識(shí)表示在內(nèi)的諸多人工智能研究團(tuán)體的熱門課題,其主要原因在于本體使人與人、人與機(jī)器、機(jī)器與機(jī)器之間的交流建立在共識(shí)知識(shí)的基礎(chǔ)上。
目前中英文自然處理領(lǐng)域,已經(jīng)有很多語(yǔ)義本體的研究成果,其中最突出的是WordNet和HowNet。
英文本體WordNet[4]的詞匯包括名詞、動(dòng)詞、形容詞、副詞和功能詞。每個(gè)詞(更確切地說(shuō)是詞的一條意項(xiàng))是一個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)。節(jié)點(diǎn)之間通過(guò)“同義關(guān)系”、“反義關(guān)系”、“上位關(guān)系”、“下位關(guān)系”、“部分—整體關(guān)系”、“形態(tài)關(guān)系”等聯(lián)系在一起。
中文本體HowNet[5]是揭示概念與概念之間以及概念所具有屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù),從1996年研發(fā)至今,已有漢語(yǔ)詞項(xiàng)96 744條,多家科研單位研發(fā)基于HowNet知識(shí)表示的信息處理技術(shù)。
在藏語(yǔ)的語(yǔ)義層面的研究中,一些工作對(duì)藏語(yǔ)句法行為的規(guī)律性進(jìn)行了研究,有些研究者利用句法和語(yǔ)義信息將詞劃分成類別,從而更細(xì)致全面地反映各種類型藏語(yǔ)句式的語(yǔ)法結(jié)構(gòu)框架,如句子的語(yǔ)序、詞格標(biāo)記和句法助詞,并對(duì)藏語(yǔ)從句行為進(jìn)行了分析[6]。多杰卓瑪給出了基于框架的藏語(yǔ)詞語(yǔ)語(yǔ)義研究[7],通過(guò)對(duì)框架進(jìn)行結(jié)構(gòu)信息的描述增加語(yǔ)義信息。龍從軍研究了藏語(yǔ)名詞語(yǔ)義關(guān)系,提出組織名詞的基本單位是義類,聯(lián)系名詞與名詞、名詞與其他詞之間的關(guān)系是語(yǔ)義關(guān)系[8]。
但目前,查新還沒(méi)有查到藏文語(yǔ)義本體表示層面的藏文處理相關(guān)研究?jī)?nèi)容。基于語(yǔ)義的本體庫(kù)在文本處理、信息抽取、基于文本的數(shù)據(jù)挖掘、自動(dòng)翻譯中都有廣泛的應(yīng)用,合適的本體庫(kù)將成為文本自動(dòng)處理中的一個(gè)重要環(huán)節(jié)。
語(yǔ)義本體的創(chuàng)建是耗時(shí)耗力的艱苦工作,需要語(yǔ)言學(xué)家、知識(shí)工程師和信息處理人員合作完成。目前的語(yǔ)義本體的創(chuàng)建,有手工創(chuàng)建和自動(dòng)生成兩種策略。完全手工創(chuàng)建的本體一般規(guī)模較小,無(wú)法應(yīng)付海量的知識(shí)源。自動(dòng)策略一般采用有監(jiān)督或無(wú)監(jiān)督的機(jī)器學(xué)習(xí)技術(shù)從文本語(yǔ)料中自動(dòng)獲取概念和關(guān)系,人工干預(yù)程度較低。但自然語(yǔ)言處理的語(yǔ)義表達(dá)的復(fù)雜性和模糊性,完全的自動(dòng)處理精度太低,處理結(jié)果的可用性很差。況且針對(duì)藏語(yǔ)來(lái)說(shuō),不同于英語(yǔ)和漢語(yǔ)具有大規(guī)模的標(biāo)注語(yǔ)料和現(xiàn)有的語(yǔ)義詞典,藏語(yǔ)語(yǔ)義本體建設(shè)可用的藏語(yǔ)資源很有限。
基于此,本文采用半自動(dòng)本體創(chuàng)建策略,第一步,由知識(shí)工程師和語(yǔ)言專家手工建立上層本體,利用電子詞典進(jìn)行同義詞擴(kuò)充后,在多語(yǔ)言本體庫(kù)(漢英語(yǔ)言創(chuàng)建的本體)中根據(jù)對(duì)應(yīng)的上下位關(guān)系模式進(jìn)行基于模式匹配的詞匯擴(kuò)充和翻譯。第二步,根據(jù)本體概念和對(duì)應(yīng)的上下位關(guān)系,在已標(biāo)注語(yǔ)料或電子詞典中查找近義詞,并基于詞匯語(yǔ)義相似度算法進(jìn)行相似度從高到低的排序。知識(shí)工程師對(duì)排序結(jié)果進(jìn)行修訂,編輯本體。
采用半自動(dòng)本體創(chuàng)建策略,如圖所示,分以下步驟展開(kāi):
(1) 由知識(shí)工程師和語(yǔ)言專家手工編輯建立基于HowNet的上位本體,并研究藏語(yǔ)上下位關(guān)系的模式表示方法;
(2) 上位本體中出現(xiàn)的概念,利用電子詞典的釋義,創(chuàng)建概念的同義詞詞匯集;
(3) 在多語(yǔ)言本體庫(kù)(漢英語(yǔ)言創(chuàng)建的本體)中進(jìn)行概念的上下位關(guān)系模式匹配,擴(kuò)充本體概念層次;
(4) 本體概念和抽取的上下位關(guān)系模式匹配,在已標(biāo)注語(yǔ)料或電子詞典中查找近義詞;
(5) 基于詞匯語(yǔ)義相似度算法進(jìn)行相似度從高到低的排序[9];
(6) 知識(shí)工程師對(duì)排序結(jié)果進(jìn)行修訂、編輯本體。
在整個(gè)本體創(chuàng)建過(guò)程中,上下位關(guān)系是確定本體中概念分層的語(yǔ)義因素。上下位關(guān)系的模式可以輔助進(jìn)行概念擴(kuò)充,也可以作為建立和維護(hù)本體的輔助工具,這在一定程度上降低了創(chuàng)建和維護(hù)本體的成本。
首先,我們借鑒劉磊博士的博士學(xué)位論文[10],給出上下位關(guān)系的定義。
定義1上下位關(guān)系, Hyponymy: 如果給定概念C1和C2,C1的同義集合為{C1,C1′, …},C2的同義集合為{C2,C2′, …},若C2的外延包含C1的外延,則認(rèn)為C1和C2具有上下位關(guān)系,其中C1稱為C2的下位概念(hyponym),C2稱為C1的上位概念(hypernym),記作hr(C1,C2)。判斷hr(C1,C2)是否成立的簡(jiǎn)單方法是看句子: “C1是一種/類/個(gè)C2”是否可以接受。
上下位關(guān)系模式學(xué)習(xí)主要包括三個(gè)問(wèn)題:
1) 種子上下位關(guān)系的選取;
2) 模式的獲取算法——模式自動(dòng)生成器的構(gòu)造問(wèn)題;
3) 獲取模式分類和評(píng)價(jià)。
(1) 單對(duì)單模式: 只提取一個(gè)下位概念C1和一個(gè)上位概念C2,組成一個(gè)上下位關(guān)系hr(C1,C2)。如:
【是一種】
{冰箱}C1【是一種】{電器}C2。
hr(冰箱,電器)
(2) 多對(duì)單模式: 多對(duì)單模式提取多個(gè)下位概念C1, C2, …, Cm和一個(gè)上位概念 Cm+1,組成一組上下位關(guān)系hr(C1, Cm+1), hr(C2, Cm+1), …, hr(Cm, Cm+1)。如:
.、..【等】.
衣柜里面有{上衣}C1、{褲子}C2、{袍子}C3【等】很多{服裝 }C4
hr(上衣,服裝),hr(褲子,服裝),hr(袍子,服裝)
(3) 單對(duì)多模式: 單對(duì)多模式提取一個(gè)下位概念C1和多個(gè)上位概念C2, C3, …, Cm,組成一組上下位關(guān)系hr(C1, C2), hr(C1, C3), …, hr(C1, Cm)。如:
.【即是】..【又是】.
{扎西}C1【即是】{老師的一個(gè)好{學(xué)生}C2}【又是】媽媽的乖{兒子}C3
hr(扎西,學(xué)生),hr(扎西,兒子)
(4) 多對(duì)多模式: 多對(duì)多模式提取多個(gè)下位概念C1, C2, …, Cm和多個(gè)上位概念Cm+1, Cm+2, …, Cm+n,組成一組上下位關(guān)系hr(C1, Cm+1), hr(C2, Cm+1), …, hr(Cm, Cm+1), …, hr(C1, Cm+2), hr(C2, Cm+2), …, hr(Cm, Cm+2), …, hr(C1, Cm+n), hr(C2, Cm+n), …, hr(Cm, Cm+n)。如:
.<、>..【既是】..【又是】.
{卓瑪}C1、{格桑}C2【既是】校醫(yī)院的{大夫}C3【又是】醫(yī)學(xué)院的{老師}C4
(5) 多層次模式: 多層次模式可以提取一組概念C1, C2, C3。使得hr(C1, C2),hr(C2, C3)多層上下位關(guān)系成立,如:
.【是所有】..【中】.
{次央}C1【是所有】{服務(wù)員}C2【中】文化程度最高的{人}C3
提取關(guān)系: hr(次央, 服務(wù)員),hr(服務(wù)員, 人)
模式匹配問(wèn)題可以描述為: 上下位關(guān)系模式集合P={p1,p2, …,pm},語(yǔ)料庫(kù)G,G中含有句子集合S={s1,s2, …,sn},對(duì)任意s∈S,若通過(guò)模式匹配算法得到p1,p2, …,pk(pi∈P,i=1, 2, …k)與s匹配,記作(s, {p1,p2, …,pk}),若不存在模式與s相匹配,則記作(s, ?)。
模式匹配算法步驟如下:
上下位關(guān)系模式匹配算法
輸入: 上下位關(guān)系模式集合P,語(yǔ)料庫(kù)G,
輸出: 模式匹配結(jié)果
Step 1: 預(yù)處理,將語(yǔ)料G分割轉(zhuǎn)換為句子序列S={s1,s2, …,sn};
Step 2: 若S不為空,對(duì)每一個(gè)句子s∈S,執(zhí)行Step3-Step5;
Step 3: 對(duì)s先進(jìn)行分詞處理;
Step 4: 在P中搜索s所滿足的上下位關(guān)系模式,得到s所滿足上下位關(guān)系模式p1,p2, …,pk(pi∈P,i=1, 2, …,k);
Step 5: 根據(jù)p1,p2, …,pk中每個(gè)模式的上位概念域和下位概念域?qū)傩蕴崛?duì)應(yīng)的上位概念部分和下位概念部分;
Step 6: 輸出所有匹配結(jié)果。
例句s:
衣柜里面有上衣、褲子、袍子等很多服裝。
模式p:
Defpattern 上下位關(guān)系模式 //定義一個(gè)多對(duì)一模式
{
基本模式:
.、..【等】.
下位概念域:
下位變量項(xiàng): ,和
下位概念個(gè)數(shù): 多個(gè),和 單個(gè)
下位概念位置: 右,和 右
上位概念域:
上位變量項(xiàng):
上位概念個(gè)數(shù): 單個(gè)
上位概念位置: 右
}
模式匹配結(jié)果:
衣柜里面有/上衣/、/褲子/、/袍子/等很多服裝。
提取上位概念部分和下位概念部分:
下位概念域 =衣柜里面有上衣、褲子
下位概念域 =袍子
上位概念域 =服裝
候選上下位關(guān)系:
hr(上衣、褲子, 服裝)
hr(袍子, 服裝)
正確上下位關(guān)系:
hr(上衣,服裝)
hr(褲子,服裝)
hr(袍子,服裝)
語(yǔ)義本體是共享概念模型的顯示的形式化規(guī)范說(shuō)明,其目標(biāo)是將雜亂無(wú)章的信息源轉(zhuǎn)變?yōu)橛行蛞子玫闹R(shí)源。目前語(yǔ)義本體還主要依賴于手工創(chuàng)建模式。上下位關(guān)系是一種基本的語(yǔ)義關(guān)系,常用于語(yǔ)義本體中概念的自動(dòng)獲取和驗(yàn)證。本文首先描述了藏語(yǔ)語(yǔ)義本體的創(chuàng)建方法,進(jìn)而給出了藏文中的上下位關(guān)系模式以及模式匹配算法。
后續(xù)的工作包括用于上下位關(guān)系驗(yàn)證的概念空間構(gòu)造方法研究、模式匹配驗(yàn)證算法、基于概念空間的上下位關(guān)系迭代概念學(xué)習(xí)算法等。
[1] 江荻,龍從軍.藏文字符研究—字母、讀音、編碼、排序、圖形、拉丁字母轉(zhuǎn)寫(xiě)規(guī)則研究[M].北京: 社會(huì)科學(xué)文獻(xiàn)出版社.2010.
[2] 董振東,董強(qiáng),郝長(zhǎng)伶.知網(wǎng)的理論發(fā)現(xiàn)[J].中文信息學(xué)報(bào),2007,21(4): 3-9.
[3] R. Studer, V. R. Benjamins, and D. Fensel. Knowledge engineering: Principles and methods[J]. Data and Knowledge Engineering, 1998,25(1-2):161-197.
[4] WordNet[OL],http://wordnet.princeton.edu/wordnet/.
[5] HowNet[OL], http://www.keenage.com/.
[6] 江荻.現(xiàn)代藏語(yǔ)動(dòng)詞的句法語(yǔ)義分類及相關(guān)語(yǔ)法句式[J].中文信息學(xué)報(bào),2006,20(1): 37-43.
[7] 龍從軍,周學(xué)文.藏語(yǔ)名詞語(yǔ)義關(guān)系研究. http://d.g.wanfangdata.com.cn/Conference_7143464.aspx.
[8] 多杰卓瑪.藏語(yǔ)語(yǔ)義框架的理解與描述[J].西北民族大學(xué)學(xué)報(bào),2009,30(74): 17-21.
[9] 劉群, 李素建. 基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[C]//第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì),中國(guó)臺(tái)北, 2002.
[10] 劉磊,概念和上下位關(guān)系的獲取理論和方法研究[D].中科院計(jì)算所博士論文,2007.