文 亮,李 娟,劉智穎,晉耀紅
(北京師范大學(xué) 中文信息處理研究所,北京 100875)
在自然語言處理(NLP)領(lǐng)域,知識表示(knowledge representation)的主要目標(biāo)是把知識數(shù)字化、形式化、系統(tǒng)化,便于計(jì)算機(jī)儲存、識別、理解和處理知識。知識表示是自然語言理解的前提和基礎(chǔ),任何語言的理解都要建立在知識表示的基礎(chǔ)上。
在人工智能領(lǐng)域,本體(ontology,又稱為本體論)是一種“形式化的,對于共享概念體系的明確而又詳細(xì)的說明”[1]。本體提供的是一種共享詞表,也就是特定領(lǐng)域之中那些存在著的對象類型或概念及其屬性和相互關(guān)系[2]。所以,本體實(shí)際上是依據(jù)某種類別體系,對實(shí)體、概念、事件及其屬性和相互關(guān)系的形式化表達(dá)。
概念層次網(wǎng)絡(luò)(hierarchical network of concepts, HNC)[3]理論以概念聯(lián)想脈絡(luò)為主線,建立了一種模擬大腦語言感知過程的自然語言表述、理解和處理模式,使計(jì)算機(jī)獲得消解歧義、理解自然語言的能力。HNC通過類別符號、層次符號以及結(jié)構(gòu)符號的組合,構(gòu)建了自然語言概念空間的符號化表述體系,可以表述詞語、句子、句群和篇章層面的語義知識;同時,HNC以概念基元為基本單位,概念基元的聯(lián)想脈絡(luò)模擬了人腦的認(rèn)知機(jī)制,可以實(shí)現(xiàn)概念之間的激活、聯(lián)想、擴(kuò)展、濃縮和存儲功能。
本文基于概念層次網(wǎng)絡(luò)的知識表示方式,構(gòu)建了多語言本體詞語知識庫。具體來說,是以HNC概念節(jié)點(diǎn)表為綱,對每一個概念進(jìn)行文字解釋,并列出概念所對應(yīng)的多語言詞語,目前為中英雙語詞語捆綁。
目前的知識表示方式主要有兩種方式: (1)以WordNet[4]、知網(wǎng)(HowNet)[5]等本體知識庫為代表的知識表示方式;(2)以Word Embedding為代表的詞向量的知識表示方式。
WordNet是一個包含了語義信息的機(jī)讀詞典,它能夠支持自動文本分析以及人工智能應(yīng)用。首先,WordNet 描述了每一個詞的基本意義;然后,根據(jù)詞條的意義,WordNet 將具有相同意義的詞條集合為一個Synset(同義詞集合);其次,WordNet 描述了不同Synset之間的語義關(guān)系。但是,WordNet只描述了名詞、動詞、形容詞和副詞組成的同義詞網(wǎng)絡(luò),既不深入到義素分析中的義原(primitive)或概念,也不擴(kuò)展到超越單詞層面的腳本(script)或框架(frame),其描述的語義信息和關(guān)系相對有限,有其不足之處。
知網(wǎng)是一個描述詞語(漢語和英語)所代表的概念,揭示概念與概念之間以及概念間各種關(guān)系的常識知識庫。知網(wǎng)定義了事件、萬物、屬性、屬性值、部件、空間和時間七類最頂層的概念。建立了這七類概念之間的關(guān)系。知網(wǎng)通過800個“義原”對這些概念進(jìn)行描述。義原指的是最基本的、不能再分割的表達(dá)意義的最小單位。為了描述概念間的關(guān)系,知網(wǎng)定義了同義、反義、對義、上下義等語義關(guān)系。但知網(wǎng)對概念的定義過于模糊,使用義原解釋概念,雖然有利于整合概念之間的關(guān)系,但這種描述語言的方式不夠形式化和結(jié)構(gòu)化,在計(jì)算機(jī)處理語言時不能很好地被利用。
詞向量的知識表示方式一種是one-hot representation,另一種是distributed representation, Tomas Mikolov 等提出的詞向量表示工具Word2Vec[6]很有代表性,它將詞語轉(zhuǎn)化為向量,之后,Tomas Mikolov團(tuán)隊(duì)也將其推廣到了句子和文檔的表示中[7],將它們轉(zhuǎn)換為一個低維語義空間中的數(shù)值向量。其優(yōu)勢在于將自然語言處理過程中的語義鴻溝現(xiàn)象,通過低維空間中向量間數(shù)值計(jì)算得以一定程度的改善或解決[8],因此基于深度學(xué)習(xí)知識表示技術(shù)在自然語言處理領(lǐng)域得到了廣泛應(yīng)用。但是,向量表示難以具體描述具體的語義信息,在消解歧義方面還面臨著巨大的挑戰(zhàn)[9]。
基于概念層次網(wǎng)絡(luò)的知識表示體系和其他知識表示方式相比,該體系以語言理解基因?yàn)楹诵?,綜合語義和語境信息,描述跨越詞匯、句子、句群篇章多個層面的、統(tǒng)一的語義知識表示方法,解決語義信息系統(tǒng)化問題。這種表示體系可以解決面向海量文本處理時,知識表示不統(tǒng)一、語義信息無法系統(tǒng)化利用的問題。不僅可以為大規(guī)模中文語義處理核心關(guān)鍵技術(shù)和應(yīng)用系統(tǒng)研究提供理論基礎(chǔ),建設(shè)的知識庫也可以為面向領(lǐng)域的知識資源建設(shè)提供支持。
同時,HNC多語言本體表示方式以數(shù)字化、基元化的概念表示為基礎(chǔ),給出概念之間的關(guān)聯(lián)性、句子的表述模式、句群和篇章的表述框架,以及概念在句子、句群和篇章中的語義、語用信息。語言理解基因不僅可以激活詞匯之間的語義計(jì)算,也可以激活句子層面的關(guān)聯(lián)計(jì)算,同時可以激活句群和篇章層面的語境計(jì)算,把大規(guī)模文本內(nèi)容轉(zhuǎn)換為動態(tài)記憶。將知識推理蘊(yùn)含于符號表示之中,與其他工作相比具有獨(dú)特性與優(yōu)勢。
概念層次網(wǎng)絡(luò)(hierarchical network of concepts,HNC)是模擬大腦對語言感知的過程建立起的表示概念聯(lián)想脈絡(luò)的語義網(wǎng)絡(luò)[10]。這個理論框架是以語義表達(dá)為基礎(chǔ)的,它對語義的表達(dá)是概念化、層次化、網(wǎng)絡(luò)化的,所以稱它為概念層次網(wǎng)絡(luò)理論[11]。
HNC理論認(rèn)為概念無限而概念基元有限、語句無限而句類有限、語境無限而語境單元(理解基因)有限、顯記憶無限而隱記憶有限,所以HNC將語言概念空間分為概念基元空間、句類空間、語境單元空間、語境框架空間四個層級。HNC對這四層級的結(jié)構(gòu)體設(shè)計(jì)了相應(yīng)的符號體系,建立了語言概念空間體系(包括語義概念基元體系和語句基元體系),通過作用效應(yīng)鏈,建立起層次性、網(wǎng)絡(luò)性的概念表述模式,從而使計(jì)算機(jī)能夠理解詞語、句子、句群及篇章的語義。
2.2.1 語言概念空間符號體系
詞匯層面的表示模式主要通過概念節(jié)點(diǎn)來表示,對應(yīng)于概念基元表示式,即概念基元符號體系。這種表示模式具有語義完備性,能夠與自然語言的詞語建立起語義映射關(guān)系。同時,它高度形式化,每一個符號基元(每個字母或數(shù)字)都具有確定的意義,可充當(dāng)概念聯(lián)想的激活因子。
HNC把概念分為抽象概念和具體概念。具體概念是指必須確定“所指對象”的概念,基本物概念和掛靠概念屬于具體概念,如光和房子;抽象概念是指不必確定“所指對象”的概念,除了基本物概念和掛靠概念的都屬于抽象概念。
抽象概念的第一子類即作用效應(yīng)鏈,HNC命名為主體基元概念,黃曾陽先生認(rèn)為“所謂一個事物的知識表示,歸根結(jié)底就是對作用、過程、轉(zhuǎn)移、效應(yīng)、關(guān)系和狀態(tài)這六個側(cè)面的表述”[12],這六個節(jié)點(diǎn)是自然語言對萬事萬物進(jìn)行描述的六個基本角度,也是一切事物發(fā)生、發(fā)展和消亡的六個基本環(huán)節(jié)。在這六個一級節(jié)點(diǎn)之下,衍生出許多子節(jié)點(diǎn),共同描述每個概念的不同方面。
抽象概念的第二子類為“擴(kuò)展基元概念”,主要描述人類活動的方方面面,包括生理本能活動、心理活動及精神狀態(tài)、思維活動、社會活動等一級節(jié)點(diǎn)及其衍生的子節(jié)點(diǎn)。HNC理論用五元組特性表示抽象概念的特性?,F(xiàn)代漢語將詞分為動詞、名詞、形容詞、副詞等詞性,HNC理論用五元組來描述同一概念的不同側(cè)面,分別代表概念的動態(tài)(v)、靜態(tài)(g)、值(z)、屬性(u)和效應(yīng)(r),具體如表1所示。
表1 抽象概念的五元組特性
具體概念中,基本物概念節(jié)點(diǎn)主要包括熱、光、聲、電磁、微觀基本物、宏觀基本物和生命體這些一級節(jié)點(diǎn)及其衍生子節(jié)點(diǎn),但基本物只是具體物的一小部分,掛靠概念也用來描述具體物。掛靠指把一個概念的層次符號與相關(guān)概念的層次符號拼接在一起。例如,表示“教師”這個具體物,首先p代表人,其次基元概念的a行是專業(yè)活動,所以就將p(人)和 a71(a代表專業(yè)活動,a7代表教育,a71代表教)的層次符號拼接在一起,pa71就代表“教師”。
HNC使用英語字母、數(shù)字、組合結(jié)構(gòu)符作為概念或概念基元的表示符號。描述抽象概念的字母主要有j(表示基本概念)、l(語法邏輯概念)、f(語習(xí)邏輯概念)、s(綜合邏輯概念),抽象概念具有五元組特性(字母表示如表1所示);描述具體概念的字母主要有p(人)、w(物),這些字母表示的符號稱為類別符號。數(shù)字0~14表示概念的層次性內(nèi)涵,稱為層次符號。HNC定義了12 種概念組合符,即: 作用(#)、效應(yīng)($)、對象(&)、內(nèi)容(|)、偏正(/)、主謂(‖)、展開(+)、并(,)、選(;)、一般邏輯組合(lyy)、非(!)、反(^),這些字母用來表示符合概念的組合結(jié)構(gòu)。
HNC對自然語言概念的符號化表述可以一般化為:
∑{類別符號串}{層次符號串}{組合結(jié)構(gòu)符號}{類別符號串}{層次符號串}
類別符號串和層次符號串構(gòu)成一個概念基元的表達(dá)式,組合結(jié)構(gòu)符號可以將兩個或多個概念基元組合成新的概念。
例如: “思考”的表達(dá)式v80,v代表類別符號,表示這個概念是動態(tài)的作用,80代表層次符號,8表示思維活動,80是8的子節(jié)點(diǎn),表示一般思維活動。“阻礙”的表達(dá)式為v376#v362, v376表示阻礙,v362表示抑制,前者是作用,后者是該作用產(chǎn)生的效應(yīng),#表示作用產(chǎn)生了后面的效應(yīng),組合起來就表示阻礙這個概念。
基于HNC的詞語表示在計(jì)算語義距離時非常方便,如“國家”表示為pj2,“亞洲國家”表示為pj2*1,“中國”表示為pj2*16,從它們的HNC表達(dá)式可以看出“國家”和“中國”之間是有關(guān)聯(lián)關(guān)系的。其中,p表示人,pj表示人化的基本概念,數(shù)字表示概念的層次性。
人工生成HNC符號的效率和成本很低,在應(yīng)用過程中,也產(chǎn)生了HNC符號與詞匯的映射工具[13],這一自動化映射工具大大減輕了詞匯與HNC符號的轉(zhuǎn)換成本,為后續(xù)的詞匯理解、句子理解、句群和篇章理解奠定了基礎(chǔ)。
2.2.2 語言理解基因
語言概念空間符號體系的數(shù)字化表示是語言理解基因的基礎(chǔ)結(jié)構(gòu),語言理解基因主要靠詞語直接激活,有了詞語層面的激活才有語句和篇章層面上層建筑的實(shí)現(xiàn)。
語言理解基因的總體設(shè)計(jì)思路可以用如下語言表述:
理解基因::=范疇表示+結(jié)構(gòu)與功能的各級綜合表示 (::=表示等價于)
范疇描述層次性;結(jié)構(gòu)與功能描述網(wǎng)絡(luò)性(關(guān)聯(lián)性)。下文以多語言本體知識庫構(gòu)建為例實(shí)現(xiàn)基于語言概念空間符號體系的本體構(gòu)建。
2.3.1 多語言本體知識庫構(gòu)建的具體標(biāo)準(zhǔn)
2.3.1.1 概念節(jié)點(diǎn)的選擇
HNC語義網(wǎng)絡(luò)中任何一個節(jié)點(diǎn)都代表一個概念,同時也都是概念的基元。雖然在現(xiàn)實(shí)生活中概念是無限的,但作為概念的“元素”的基元是有限的,這些概念基元可以組合成無窮無盡的概念,從而描述自然語言的所有概念。
HNC理論認(rèn)為大腦自然語言理解基因的直接主體構(gòu)成大約是15 000個的概念基元,這有限的15 000個概念基元基本可以描述無限的概念。這項(xiàng)理解基因的探索屬于大腦研究的戰(zhàn)略性課題,目前HNC詞語知識庫針對性地選取了全部的5 000個高層概念節(jié)點(diǎn)對它們進(jìn)行描述,這5 000個高層概念節(jié)點(diǎn)囊括了約10萬條詞語。
2.3.1.2 標(biāo)注規(guī)范
多語言本體知識庫以HNC概念節(jié)點(diǎn)表為綱,對每一個概念進(jìn)行符號化表示和詳細(xì)描述,囊括概念涉及的各個側(cè)面的詞語,并且通過概念間的關(guān)聯(lián)表示出概念與概念之間的關(guān)系。標(biāo)注主要從對單個概念節(jié)點(diǎn)的具體描述、概念與概念間的關(guān)聯(lián)兩方面展開。
1) 概念節(jié)點(diǎn)的描述
HNC將概念節(jié)點(diǎn)映射為由字母、數(shù)字、一些代表組合結(jié)構(gòu)符號組成的HNC表達(dá)式。表達(dá)式的每一個符號都具有確定的意義,充當(dāng)概念聯(lián)想的激活因子。如2.2.1節(jié)所述,HNC把概念區(qū)分為具體概念和抽象概念,抽象概念節(jié)點(diǎn)具有五元組特性中的全部或部分屬性,每個詞語從不同側(cè)面描述這個概念節(jié)點(diǎn)的多元性表現(xiàn)。具體概念(除基本物概念外)則通過掛靠的方式來表示。
知識庫中描述的概念節(jié)點(diǎn)的信息[14]應(yīng)包括: ①該節(jié)點(diǎn)的中英文命名,②概念節(jié)點(diǎn)之間的層次關(guān)系(上位概念、下位概念和同位概念),③該節(jié)點(diǎn)所捆綁的詞語(動態(tài)詞語、靜態(tài)詞語、屬性詞語、值詞語、效應(yīng)詞語),④概念之間的關(guān)聯(lián)性。
2) 概念關(guān)聯(lián)性
詞語知識庫中,概念之間具有關(guān)聯(lián)性,概念關(guān)聯(lián)式是語言理解基因的主體信息渠道。關(guān)聯(lián)主要通過節(jié)點(diǎn)的定義和結(jié)構(gòu)符號的運(yùn)用規(guī)定節(jié)點(diǎn)之間的關(guān)系,具體包含以下幾類:
(1) 概念間的層次性
概念節(jié)點(diǎn)之間具有高層、中層和底層之分,高層節(jié)點(diǎn)表達(dá)概念的層次性,中層節(jié)點(diǎn)表達(dá)概念的對偶、對比和包含特性,底層概念表達(dá)概念的網(wǎng)絡(luò)性。HNC語義網(wǎng)絡(luò)中高層層數(shù)是確定的,如j類: 基本概念,其高層節(jié)點(diǎn)的層數(shù)是兩層,表示為j0,j1,j2,…,j8。中層節(jié)點(diǎn)的例子在自然語言中非常常見,如“強(qiáng)u00c21”與“弱u00c22”是對比關(guān)系,“對jgu841”與“錯jgu842”是對偶關(guān)系,“年wj10”“月wj10-0”“日wj10-00”之間是包含關(guān)系。層次性判斷可簡化為概念表達(dá)式的數(shù)字串是否相同,因而語義距離計(jì)算的部分問題就可使用逐層比較數(shù)字串的方法來解決。
(2) 概念間的網(wǎng)絡(luò)性
概念的網(wǎng)絡(luò)性分為兩種形式: 交式關(guān)聯(lián),鏈?zhǔn)疥P(guān)聯(lián)。
① 交式關(guān)聯(lián)指的是兩個概念有交叉,即同一概念本體從不同觀察角度看到的不同映象。如“死亡”這個概念,從過程看,它是“代謝”的“謝14e62”;從“效應(yīng)”看,它是“消失312”;從狀態(tài)看,它是“減少50041e42”,所以過程節(jié)點(diǎn)14e62、效應(yīng)節(jié)點(diǎn)312和狀態(tài)節(jié)點(diǎn)50041e42是交式關(guān)聯(lián)的。
② 鏈?zhǔn)疥P(guān)聯(lián)是作用效應(yīng)鏈各環(huán)節(jié)的因果性表現(xiàn)。例如,“效應(yīng)的擴(kuò)展與縮小vg34”鏈?zhǔn)疥P(guān)聯(lián)于“量與范圍j4”。
(3) 概念關(guān)聯(lián)符號定義的關(guān)聯(lián)性
上述幾種關(guān)聯(lián)類型主要通過概念節(jié)點(diǎn)本身的表征符號來揭示概念之間的關(guān)聯(lián)性。除此之外,HNC理論還定義了常見的10種邏輯關(guān)聯(lián)類型,并設(shè)計(jì)了特定的關(guān)聯(lián)符號將概念關(guān)聯(lián)起來,用于描述概念之間的內(nèi)容邏輯關(guān)系。
比如,關(guān)聯(lián)符號“=%”表示一個概念包含另一個概念。具體的關(guān)聯(lián)符號及其含義如表2所示。
表2 概念關(guān)聯(lián)式的10個特定內(nèi)容邏輯符號
2.3.1.3 標(biāo)注一致性
針對選取的5 000個高層概念節(jié)點(diǎn),我們希望盡可能地根據(jù)概念找到概念所描述的所有詞語,將描述它的不同側(cè)面的詞語窮盡性地填寫在知識庫中。知識庫的每個概念由兩個不同的填寫者進(jìn)行填寫,經(jīng)過對比,對填寫者不確定或兩位填寫者標(biāo)注不一致之處進(jìn)行討論,經(jīng)過討論決定最終標(biāo)注結(jié)果。
根據(jù)以上的標(biāo)注規(guī)范,我們對選取的5 000個高層概念節(jié)點(diǎn)進(jìn)行了描述,具體實(shí)例以節(jié)點(diǎn)“3a1”即概念“獲得”來展示,如表3所示。
表3 概念“獲得”的具體描述
概念節(jié)點(diǎn)“3a1”的中文命名為【獲得】,英文命名為“obtain”。
概念【獲得】的形式化表示符號為“3a1”, 其上位概念為“3a【獲得與付出】”,下位概念為“3a13【不道德的獲得】;3a19【需求】;3a1a【索取】”,同位概念為“3a2【付出】”。
概念關(guān)聯(lián)的五元組中動態(tài)詞語為“獲得; 博得; 捕獲; 得到; 取得; 贏得; 攫取 obtain; receive; gain; achieve; win; get; procure; attain; acquire”,靜態(tài)詞語有“obtaining; procurement; acquisition”,值詞語為“獲得性”,效應(yīng)詞語為“得分; 薪水; 收入; 稅收; 成果 score; payment; achievement; tax; outcome”,屬性詞語為“available; obtainable; handy”。
掛靠類型和具體概念這兩處為空值。
關(guān)聯(lián)式為“::=”表示節(jié)點(diǎn)【3a1】等價于關(guān)聯(lián)節(jié)點(diǎn)【(201∪3818)$461】。
通過表3中各項(xiàng)信息的描述,“獲得”這一概念就以概念層次網(wǎng)絡(luò)的表示方式被描述出來了。
2.3.2 知識庫中概念的更新
HNC理論認(rèn)為概念無限而概念基元有限,現(xiàn)有的HNC概念符號能夠表示任何概念,而具體概念向抽象概念掛靠,新出現(xiàn)的具體概念可以通過向抽象概念掛靠實(shí)現(xiàn)。
目前,本體廣泛應(yīng)用的一個瓶頸在于本體構(gòu)建的自動化程度不高,多數(shù)本體還依賴于手工構(gòu)建。如何提高本體構(gòu)建的自動化程度,減少本體構(gòu)建的成本,提高本體的共享程度,是目前亟待解決的問題。我們所構(gòu)建的多語言本體知識庫是一個動態(tài)更新的系統(tǒng),填寫者可以按要求填寫概念知識,管理員經(jīng)過審核后可以確認(rèn)刪除或修改填寫的概念節(jié)點(diǎn)。我們希望不斷有新的填寫者加入本體知識庫的構(gòu)建中,采用眾包的方式,不斷擴(kuò)展、完善知識庫,使之成為能被調(diào)用的活知識。填寫界面如圖1所示。
圖1 多語言本體知識庫中概念知識填寫細(xì)目
填寫者可以填寫概念符號的屬性值,包括中英文命名,此概念捆綁的動態(tài)詞語、靜態(tài)詞語、屬性詞語、值詞語、效應(yīng)詞語(填寫的詞語需有中英文對照),基本概念、上下位概念和概念關(guān)聯(lián)。
2.3.3 多語言本體知識庫的應(yīng)用
多語言本體知識庫目前已應(yīng)用到機(jī)器翻譯的實(shí)際任務(wù)中,可解決漢英概念之間的映射問題,這種映射不單單只是詞語之間的映射,而是兩種自然語言之間的轉(zhuǎn)換,這種自然轉(zhuǎn)換可以提高機(jī)器翻譯系統(tǒng)的譯準(zhǔn)率。同時數(shù)字化、符號化的詞語表示方式對于語義距離的計(jì)算很有優(yōu)勢,在選擇候選詞時,系統(tǒng)能夠根據(jù)HNC編碼優(yōu)先判定常用搭配語塊。
句子層面的知識表示模式是指用句類表示式描述句子的語義結(jié)構(gòu)特征,HNC用句類(sentence category,簡稱SC)表示式來表征無限的語句。HNC定義的句類指的是句子的語義類型,而不是指陳述句、疑問句、祈使句和感嘆句之分[15]。句類體系主要由廣義作用句和廣義效應(yīng)句組成,前者包括作用句、轉(zhuǎn)移句、關(guān)系句和一般判斷句四個類型,后者包括過程句、效應(yīng)句、狀態(tài)句和基礎(chǔ)判斷句四個類型[16]。這八大類型細(xì)分為57種基本句類,57種基本句類理論上可以衍生出3 192組混合句類。以57種基本句類為基元,通過句類的混合和復(fù)合就可以實(shí)現(xiàn)對自然語言語句的語義結(jié)構(gòu)描述。句類命名和句類符號對應(yīng)關(guān)系如表4所示。
表4 句類命名和句類符號對應(yīng)關(guān)系
句類表示式由語塊構(gòu)成,語塊是語句的下一級語義構(gòu)成單位。HNC定義語塊是句類的函數(shù),即句類決定句類表示式中含有哪些語塊的表示式。語塊存在主塊和輔塊兩種基本類型,語塊和主塊用同一個字母K表示,輔塊用字母fK表示。主塊四要素為: 特征要素(E)、作用者(A)、對象(B)和內(nèi)容(C),輔塊七要素為: 手段(Ms)、工具(In)、途徑(Wy)、比照(Re)、條件(Cn)、起因(Pr)、目的(Rt)。
HNC句類一般表示式如下:
SC=JK1+{EK+JKm}(m=2~4)
SCR= SC+fKm
舉例如下:
例1李四||拒絕了||領(lǐng)導(dǎo)的要求。
X21J=X2A+X2+XBC
主動反應(yīng)句=反應(yīng)者+反應(yīng)行為+反應(yīng)引發(fā)者及其表現(xiàn)
例子中,X21是句類代碼,X表示作用句,等號右邊是這個句子的句類表示式。其中,X2A表示反應(yīng)者,X2表示反應(yīng)行為,XBC表示反應(yīng)引發(fā)者及其表現(xiàn)。
主動反應(yīng)句屬于廣義作用句,還可以有不同的格式代碼,例子可以變?yōu)椤袄钏陌杨I(lǐng)導(dǎo)的要求拒絕了(!11X21J=X2A+XBC+X2)”、“領(lǐng)導(dǎo)的要求被李四拒絕了(!12X22J=XBC+X2A+X2)”。
通過字母符號及句類衍生,HNC句類表示式可以實(shí)現(xiàn)對有限的句類的表示,從而解決無限的語句形式化問題。
在HNC表示體系下,我們把信息抽象成三個側(cè)面: 領(lǐng)域、情景、背景,三個側(cè)面構(gòu)成語境三要素[17]。(在這里,我們把句群、段落、篇章稱為信息的載體。)對句群、段落、篇章的表示就是對不同顆粒度大小的語境的描述。通過對表征信息的三個不同側(cè)面(領(lǐng)域、情景、背景)的描述,我們可以形式化地表示出語境。
在HNC語境框架理論中,領(lǐng)域描述事件的所屬類型,可以看成是對事件范疇的靜態(tài)描述。情景用來描述事件的作用效應(yīng)鏈的具體表現(xiàn)。各參與者以及他們之間的語義關(guān)系、事件的內(nèi)容通常由情景描述指定。背景則用來描述事件發(fā)生的條件、敘述者和論述者的背景、敘述者和論述者的特定視野等。情景和事件背景可以理解為是領(lǐng)域的函數(shù)。
HNC理論認(rèn)為,任何語段、篇章等構(gòu)成的語境都是由若干個有限的基本構(gòu)件組合而成。我們把這些基本構(gòu)件稱為語境單元。語境單元由領(lǐng)域DOM、情景SIT和背景BAC三要素構(gòu)成,而背景BAC又分為事件背景BACE和述者背景BACA。語境框架被用來抽象表示語境各要素的構(gòu)成方式。語境各要素的構(gòu)成方式可以形式化地表示如下[18]:
SGUN=(DOM;SIT;BACE;BACA)
SGUD=(8y: |DOM;SIT;BACE;BACA)
SIT=SCD(A,B,C)
其中,SGUN—語境單元,分為敘述(Narrate)型、論述(Discuss)型;DOM—領(lǐng)域;SIT—情景;BAC—背景;BAC[E//A]——事件//述者背景;SGUD—語境框架;SCD—領(lǐng)域句類。
語境描述的基礎(chǔ)來源于對上下文詞語的HNC概念符號的解析。在HNC中,概念基元體系網(wǎng)絡(luò)中的擴(kuò)展基元概念專門用來描述人類活動。人類不同的領(lǐng)域活動由不同的符號表示。HNC定義了11大類的領(lǐng)域,每一大類都可以有不同的子類,不同的子類也可以進(jìn)行組合。語境三要素中的領(lǐng)域信息可以通過解析相關(guān)詞語的HNC語義符號得到。在確定領(lǐng)域信息后,根據(jù)不同領(lǐng)域所蘊(yùn)含的世界知識,通過進(jìn)行HNC特有的語義句類分析就可以形成對領(lǐng)域句類SCD的判定。此后,再利用人類專家設(shè)計(jì)完成的領(lǐng)域句類知識為指導(dǎo),我們就可以確定語境的情景SIT描述。另外,在領(lǐng)域句類知識的指導(dǎo)下,通過分析輔語義塊或某些HNC 語義符號,我們就可以用HNC符號形式化地描述出背景BAC。語境的三要素(領(lǐng)域、情景、背景)確定之后,語境的表示也就自然出來了。
本文構(gòu)建的多語言本體詞匯知識庫可以作為自然語言理解系統(tǒng)的基礎(chǔ)資源,應(yīng)用于信息檢索、自動問答、機(jī)器翻譯等領(lǐng)域。相較于WordNet和HowNet,HNC詞匯知識庫是完全符號化、數(shù)字化的,具有形式化、層次化、網(wǎng)絡(luò)化的特點(diǎn),在具體應(yīng)用及任務(wù)中更加便于計(jì)算機(jī)分析和處理自然語言。
基于概念層次網(wǎng)絡(luò)的知識表示方法能更好地解決自然語言歧義性這一難題,本文描述了概念層次網(wǎng)絡(luò)多個層次(詞匯、句子、句群、篇章)的語義知識表示方式,限于篇幅和實(shí)際描述的浩大工程,本文對詞匯層面的知識表示方式及其本體實(shí)現(xiàn)做了具體描述,對句子和句群及篇章層面只介紹了基本的表示模式,對于其具體實(shí)現(xiàn)及應(yīng)用將另行撰文闡述。
[1] Gruber T R. A translation approach to portable ontology specifications[J]. Knowledge Acquisition, 1993, 5(2): 199-220.
[2] Fensel D. Ontologies[M]. Berlin and Heidelberg: Springer, 2001: 11-18.
[3] Liu Z, Hu R, Jin Y, et al. The multi-language knowledge representation based on hierarchical network of concepts[C]//Proceedings of the 16th Workshop on Chinese Lexical Semantics. Springer International Publishing, 2015: 471-477.
[4] Miller G A. WordNet: A lexical database for English[J]. Communications of the ACM, 1995, 38(11): 39-41.
[5] Dong Z, Dong Q. HowNet Chinese-English conceptual database[R]. Technical Report Online Software Database, ACL, 2000.
[6] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. Proc of ICLR. 2013,arXiv: 1301.3781.
[7] Le Q V, Mikolov T. Distributed representations of sentences and documents[C]//Proceedings of the ICML 2014, 2014: 1188-1196.
[8] 劉康,張?jiān)?紀(jì)國良,等. 基于表示學(xué)習(xí)的知識庫問答研究進(jìn)展與展望[J]. 自動化學(xué)報(bào),2016,(06): 807-818.
[9] 劉知遠(yuǎn),孫茂松,林衍凱,等. 知識表示學(xué)習(xí)研究進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展,2016(02): 247-261.
[10] 黃曾陽. HNC理論全書[M].北京: 科學(xué)出版社,2015.
[11] 黃曾陽. HNC理論概要[J]. 中文信息學(xué)報(bào),1997,11(04): 12-21.
[12] 黃曾陽. HNC的發(fā)展和未來[C]. HNC 與語言學(xué)研究學(xué)術(shù)研討會, 2001: 53-68.
[13] 熊亮,姚娟. HNC符號與詞匯的映射工具的設(shè)計(jì)[C]. HNC 與語言學(xué)研究學(xué)術(shù)研討會, 2001: 368-372.
[14] 李偉.基于HNC理論的本體知識表示研究[D].北京: 北京師范大學(xué)碩士學(xué)位論文, 2016.
[15] 苗傳江. HNC(概念層次網(wǎng)絡(luò))理論導(dǎo)論[M ].北京: 清華大學(xué)出版社, 2005.
[16] 晉耀紅. HNC(概念層次網(wǎng)絡(luò))語言理解技術(shù)及其應(yīng)用[M ].北京: 科學(xué)出版社, 2006.
[17] 黃曾陽.語言概念空間的基本定理和數(shù)學(xué)物理表示式[M].北京: 海洋出版社, 2004.
[18] 黃曾陽. 語境表示式與記憶[J]. 云南師范大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版),2010,(04): 7-14.
E-mail: liuzhy@bnu.edu.cn