王慧蘭, 張克亮
(1. 空軍指揮學(xué)院,北京 100097;2. 解放軍外國語學(xué)院,河南 洛陽 471003)
?
面向機(jī)器翻譯的句類依存樹庫構(gòu)建及應(yīng)用
王慧蘭1, 張克亮2
(1. 空軍指揮學(xué)院,北京 100097;2. 解放軍外國語學(xué)院,河南 洛陽 471003)
該文以漢英機(jī)器翻譯為應(yīng)用目標(biāo),以概念層次網(wǎng)絡(luò)理論的語義網(wǎng)絡(luò)和句類分析方法為理論基礎(chǔ),探討了句類依存樹庫構(gòu)建的理論和標(biāo)注實(shí)踐等問題,描述了構(gòu)建樹庫所需的概念類別標(biāo)注集和句類關(guān)系標(biāo)注集。并通過與已有漢語樹庫進(jìn)行對比,以漢語顯性輕動詞句的標(biāo)注為例,分析了漢語句類依存樹庫的特點(diǎn)。該文在應(yīng)用層面定義了面向漢英機(jī)器翻譯的融句法語義信息于一體的“句類依存子樹到串”雙語轉(zhuǎn)換模板,嘗試基于漢語句類依存樹庫提取漢英轉(zhuǎn)換模板。
機(jī)器翻譯;概念層次網(wǎng)絡(luò)理論;句類依存樹庫
以句法樹為基本元素的樹庫是自然語言理解與處理的重要資源。目前國內(nèi)外的樹庫基本上可以分為兩大類,一類是主要呈現(xiàn)句法信息的樹庫,例如,英國的Lancaster-Leeds樹庫、美國的賓州樹庫;還有一類主要呈現(xiàn)詞語之間的語義支配關(guān)系,例如,德國的Tiger樹庫、捷克的布拉格依存樹庫PDT,另外Fillmore主導(dǎo)建設(shè)的框架網(wǎng)絡(luò)FrameNet中每個框架都配有若干經(jīng)過句法語義分析的例句,從廣義角度講FrameNet也可以看作某種樹庫。
目前國內(nèi)外比較有影響的漢語樹庫主要包括,賓州大學(xué)漢語樹庫PennCTB、“臺灣中央研究院”(以下簡稱“中研院”)漢語樹庫Sinica、清華大學(xué)樹庫TCT、北京大學(xué)漢語樹庫、哈爾濱工業(yè)大學(xué)漢語依存樹庫HIT-IR-CDT以及山西大學(xué)漢語框架語義知識庫Chinese FrameNet(CFN)。文獻(xiàn)[1]對現(xiàn)有漢語樹庫的規(guī)模、應(yīng)用領(lǐng)域等進(jìn)行了總結(jié),現(xiàn)有漢語樹庫均有各自的標(biāo)注體系以及標(biāo)注特點(diǎn),樹庫包含的標(biāo)注信息決定了樹庫已開發(fā)的以及潛在的應(yīng)用領(lǐng)域。本文綜述的重點(diǎn)則在于現(xiàn)有漢語樹庫所標(biāo)注的句法和語義信息,如表1所示(√表示已標(biāo)注,其后的數(shù)字表示標(biāo)注集的大小;×表示未標(biāo)注相關(guān)信息)。
表1 現(xiàn)有漢語句法樹庫已標(biāo)注信息
PennCTB[2]以喬姆斯基的短語結(jié)構(gòu)語法為理論基礎(chǔ),標(biāo)注了句子的層次關(guān)系、短語的結(jié)構(gòu)類型、功能類型以及詞語的詞類。臺灣中研院語言所和資訊所聯(lián)合建設(shè)的Sinica樹庫[3]以信息為本的格語法為理論基礎(chǔ),兼顧了句法和語義信息,不僅標(biāo)注了句子的層次關(guān)系、短語的結(jié)構(gòu)類型以及詞類,還標(biāo)注了名詞短語的語義角色,并開發(fā)了包含9個特征標(biāo)記的標(biāo)注集。北京大學(xué)計算語言學(xué)研究所的漢語句法樹庫[4]與清華大學(xué)TCT句法樹庫[5]二者一脈相承,均以漢語傳統(tǒng)的層次分析法為理論基礎(chǔ)來標(biāo)注句子層次,采用了相對較小的詞類標(biāo)注集,并在詞類標(biāo)注的基礎(chǔ)上對于直接成分之間的句法關(guān)系進(jìn)行了標(biāo)注。國家語委的現(xiàn)代漢語語料庫也基本上采用了相似的構(gòu)建思路[6]。哈工大漢語依存句法樹庫[7]以依存語法為理論基礎(chǔ),采用了國家語委863項(xiàng)目開發(fā)的詞類標(biāo)注集(由23個詞類標(biāo)記符組成)[8],并開發(fā)了一個包含24種句法依存關(guān)系的關(guān)系標(biāo)注集。山西大學(xué)CFN句子庫的標(biāo)注信息包括詞類、短語類型、語法功能以及框架元素[9-10]。
現(xiàn)有的漢語樹庫在句法、語義的描寫方面各有側(cè)重,采用的句法分析方法也各不相同,但無論在句法標(biāo)注還是語義標(biāo)注層面,都存在一定局限。以往漢語樹庫的共同點(diǎn)在于,基于現(xiàn)有的詞類體系進(jìn)行漢語句法分析,該詞類體系是從印歐語系中引進(jìn)的舶來品,對于漢語而言,由于現(xiàn)代漢語語法體系中詞類和句法成分之間不存在一一對應(yīng)的關(guān)系,導(dǎo)致兼類詞、詞類歧義偏多。而語義層面的標(biāo)注目前主要還停留在語義表層,語義標(biāo)注的類型主要分為語義角色(semantic role)標(biāo)注和語義框架(semantic frame)標(biāo)注,還沒有涉及到深層次的語義信息?!坝捎谡Z義角色類型有限,忽略了語言表達(dá)中的細(xì)節(jié),實(shí)用價值受到限制[9]?!?/p>
“既然我們的普遍共識是,漢語的詞性和句法功能是不像英語中那樣嚴(yán)格對應(yīng)的,那么一個以詞性為基礎(chǔ),以主謂賓等句法功能為架構(gòu)的漢語樹庫,真的能夠全面而真實(shí)地反映漢語的語言現(xiàn)實(shí)嗎?[11]” 對于“詞無定類,離句無品”的現(xiàn)代漢語而言,我們嘗試尋找一種更適用于漢語的詞的分類方法,以及句子分析方法,并在此基礎(chǔ)上構(gòu)建一個更為本土化的漢語樹庫。本文在概念層次網(wǎng)絡(luò)(Hierarchical Network of Concepts, HNC)理論框架下,以HNC語義網(wǎng)絡(luò)和句類理論為理論基礎(chǔ),擬構(gòu)建一個面向機(jī)器翻譯領(lǐng)域的漢語句類依存樹庫,重點(diǎn)標(biāo)注詞語級的概念類別信息和句子級的語義依存信息,并嘗試探討該句類樹庫在漢英機(jī)器翻譯領(lǐng)域的應(yīng)用。
本小節(jié)擬在概念層次網(wǎng)絡(luò)(Hierarchical Network of Concepts, HNC)[12-14]理論框架下,研究漢語句類依存樹庫構(gòu)建中的相關(guān)理論與操作實(shí)踐問題。
3.1 樹庫構(gòu)建的理論背景
目前基于句法的機(jī)器翻譯研究仍然依賴于詞類體系,而詞形、詞類都具有較強(qiáng)的語言個性,但是與詞形詞類相比,概念則具有跨語言共性,可以成為翻譯過程中的中介體系。眾所周知,語義范疇具有相對性,概念體系的具象化亦非常難,我們僅從語義知識顆粒度相對較粗的概念類別出發(fā),構(gòu)建基于詞的語義類的句類依存樹庫,為基于句法的漢英機(jī)器翻譯定義一種新的雙語轉(zhuǎn)換模板。
HNC理論是關(guān)于人類語言認(rèn)知機(jī)制的理論,也是面向計算機(jī)的自然語言理解理論體系,該理論以概念類別為基礎(chǔ),而非詞類,根據(jù)句子核心動詞的語義類別對句子進(jìn)行分類(即句類),更適合于意合的漢語。HNC對于概念之間層次性和關(guān)聯(lián)性的描述體現(xiàn)在三大語義網(wǎng)絡(luò)中: 基本概念、基元概念以及邏輯概念語義網(wǎng)絡(luò)。基本概念語義網(wǎng)絡(luò)包括時間、空間等基本概念;基元概念語義網(wǎng)絡(luò)的構(gòu)建以作用效應(yīng)鏈為基礎(chǔ),包含作用、過程、轉(zhuǎn)移、效應(yīng)、關(guān)系及狀態(tài)六個主體基元概念子網(wǎng)絡(luò),是HNC句類分析的基礎(chǔ);邏輯概念語義網(wǎng)絡(luò)包括語言邏輯概念(如語義塊標(biāo)識符、句間邏輯說明符等)和基本邏輯概念(如比較、判斷等概念)。HNC語義網(wǎng)絡(luò)具有概念化、基元化、層次化和網(wǎng)絡(luò)化等四個基本特征,是概念聯(lián)想脈絡(luò)的線索[13]。
句類由語義塊構(gòu)成,是句子的語義類型,HNC句類劃分的標(biāo)準(zhǔn)是“作用效應(yīng)鏈+判斷”,他們表述事物的基本側(cè)面及句子的基本語義信息,一共有作用句、過程句、轉(zhuǎn)移句、效應(yīng)句、關(guān)系句、狀態(tài)句和判斷句七大句類共57組基本句類,基本句類彼此之間又可以形成混合句類,依靠57組基本句類及其混合句類可以窮盡表達(dá)自然語言中的所有句子,且所有句類都可以利用句類表達(dá)式進(jìn)行形式化表達(dá)[13]。
以 “中國今天公布了去年打擊走私的巨大成果?!睘槔?,句子的特征語義塊(主要動詞)為“公布”,是整個句子的支配者,該句的句類為信息轉(zhuǎn)移(T3)與效應(yīng)(Y30)的混合句,句類表達(dá)式如式(1)所示。
T3Y30*21J=TA+T3Y30+YC
(1)
該句類表達(dá)式可以預(yù)測句子的主要語義類別以及包含的主語義塊數(shù)目和類型等相關(guān)句類知識。“中國”為轉(zhuǎn)移者TA,“今天”為j1(時間概念),即時間輔語義塊,“了”為hv(特征語義塊的后附加成分,也稱為特征語義塊核心的下裝),小句“去年打擊走私的巨大成果”為效應(yīng)內(nèi)容YC。
3.2 樹庫標(biāo)注集
標(biāo)注樹庫需要完善的標(biāo)注體系和規(guī)范的標(biāo)注流程,從而保證標(biāo)注語料的高質(zhì)量和一致性。用于標(biāo)注句類依存樹庫的共有兩個標(biāo)注集,其一為概念類別標(biāo)注集,其二為句類關(guān)系標(biāo)注集。
3.2.1 概念類別標(biāo)注集
概念類別標(biāo)注集基于HNC語義概念體系而建立,用于表示詞語的主要概念類別意義,例如,“普京”標(biāo)注為fp(人名)等。我們構(gòu)建句類依存樹庫時主要利用了已建成的HNC詞語知識庫資源,該知識庫中一共標(biāo)注了53 000多個詞形,每個詞形可能具有多個語義類別,例如,“后院”具有兩個概念類別: wj01(具體空間);pj01(社會空間)。
HNC詞語知識庫中每個詞形的各語義類別都分別標(biāo)注了該詞語的概念類別、HNC符號、句類代碼、語句格式、句類知識等知識,目前在HNC句類自動分析系統(tǒng)中僅僅利用了詞語的概念類別知識,還無法對HNC符號進(jìn)行自動解讀。我們在構(gòu)建句類依存樹庫時主要利用了詞語知識庫中的概念類別、句類代碼等知識,并對其中的概念類別進(jìn)行了規(guī)范統(tǒng)一處理。
概念類別標(biāo)注集分為以下11大類: v類概念(動態(tài)概念)、g類概念(靜態(tài)概念)、u類概念(屬性概念)、z類概念(值概念)、r類概念(效應(yīng)概念)、p類概念(人)、w類概念(物)、jw類概念(基本物)、j類概念(基本概念)、l類概念(語言邏輯概念)、f類概念(語習(xí)概念)。
例1 中國/pj2 今天/j1 公布/v 了/hv 去年/j1 打擊/v 走私/v 的/l41 巨大/u 成果/r 。/pun
例2 此外/lb ,/pun 委員會/pe 還/uv 相繼/uv 派/v 團(tuán)/pe 赴/v 臺/pj2- 訪問/v ,/pun 與/l02 臺灣/pj2- 工商界/pj01 進(jìn)行/vv 了/hv 廣泛/u 的/l41 接觸/v 和/l42 交流/v 。/pun
3.2.2 句類關(guān)系標(biāo)注集
句類關(guān)系標(biāo)注集用于標(biāo)注詞語之間的語義依存關(guān)系,與以往樹庫關(guān)系類標(biāo)注集的最大區(qū)別在于我們的句類關(guān)系標(biāo)注集不是封閉集合,是以HNC句類分析理論為支撐的半開放集。仍以例1 “中國今天公布了去年打擊走私的巨大成果?!睘槔?,來具體說明句類關(guān)系標(biāo)注集的類別。
句類關(guān)系標(biāo)注集分為以下兩大類6小類。
(1) 句類核心成分,其與支配者的句類關(guān)系利用句類表達(dá)式中的符號表示,包括以下a、b兩個小類:
a) v類概念自身的語義類別,包括充當(dāng)全局特征語義塊的v概念以及充當(dāng)局部特征語義塊(塊擴(kuò)、句蛻的核心成分)的v概念,如圖1中全局特征語義塊“公布”,其語義類別為T3Y30(信息轉(zhuǎn)移與效應(yīng)),局部特征語義塊“打擊”的語義類別為X(基本作用);
b) v與相關(guān)廣義對象語義塊之間的關(guān)系,如圖1中“中國” 與其支配者“公布”的關(guān)系類別為TA(轉(zhuǎn)移者),“成果”與其支配者“公布”的關(guān)系類別為YC(效應(yīng)的內(nèi)容),“走私”與其支配者“打擊”的關(guān)系類別為XB(作用的對象);
圖1 句類依存關(guān)系圖示
(2) 句類非核心成分,其與支配者的句類關(guān)系利用其本身的概念類別符號表示,一共有以下4個小類:
c) 特征語義塊Ek的復(fù)合構(gòu)成,如圖1中結(jié)構(gòu)助詞“了”為特征語義塊的后附加成分,也稱為Ek的下裝,關(guān)系類別用“了”本身的概念類別hv表示;
d) 時間、地點(diǎn)、方式、工具、參照等輔語義塊,如圖1中的“今天”、“去年”概念類別均為時間概念,其與支配者的關(guān)系類別用概念類別j1(時間)表示;
e) 語義塊核心成分的修飾性成分,包括傳統(tǒng)的定語及補(bǔ)語,如圖1中的屬性概念“巨大”,其與支配者“成果”的句類關(guān)系利用概念類別u(屬性)表示;
f) 句子的附加成分,主要包括連接詞、插入語等成分,如圖1中的結(jié)構(gòu)助詞“的”,其與支配者“成果”的句類關(guān)系利用概念類別l41(語習(xí)概念l4中的一類,語義塊內(nèi)部的偏正組合)表示。
3.2.3 兩個標(biāo)注集的關(guān)系
正如句法分析以詞類為基礎(chǔ),在句類依存樹庫的構(gòu)建中,句類分析以詞的概念類別為基礎(chǔ),概念類別標(biāo)注集是詞語層面的標(biāo)注集,句類關(guān)系標(biāo)注集則為句法層面的標(biāo)注集(此處的句法更偏向于語義層面)。
我們對于句子的句類依存分析基于以下假設(shè): 漢語中詞語的概念類別決定了詞語在句類中能夠充當(dāng)怎樣的句類角色(即廣義對象語義塊,如上例中的TA、XB、YC等),例如,TA類廣義對象語義塊往往是由人、物、組織機(jī)構(gòu)等具有行為能力的概念來充當(dāng)。因此,對于句類角色的標(biāo)注必然要以概念類別為基礎(chǔ);對于句子中的非句類角色成分而言,其概念類別與句類關(guān)系是一致的,因?yàn)楦拍铑悇e本身就決定了其與相鄰成分間的句類關(guān)系,例如,l41類概念是指修飾關(guān)系,上例中“的”為l41類概念,“的”與“成果”之間的句類關(guān)系也正是修飾關(guān)系,因此直接用概念類別符號l41表示句類關(guān)系。
3.3 句類依存樹例釋及標(biāo)注工具
在現(xiàn)有研究基礎(chǔ)上,本文利用xml語言構(gòu)建了基于HNC句類理論和HNC詞語知識庫的漢語句類依存樹庫,樣例如圖2所示*本文依存樹的可視化方式基本上沿用了哈工大依存樹庫的可視化方法。。
圖2 可視化句類依存樹
句類依存樹上標(biāo)注的句法和語義信息包括: 句子的句類(句子的主要語義類別)與語句格式(語義塊排列的表層順序),句子中每個詞語的概念類別,每一個詞語的父節(jié)點(diǎn)(支配者),詞語之間的有向弧表示了相關(guān)詞語之間的語義支配關(guān)系,有向弧上的標(biāo)記表示詞語之間的句類關(guān)系。在可視化句類依存樹上僅顯示了語義支配關(guān)系及句類關(guān)系。
本研究開發(fā)了基于HNC詞語知識庫和同義詞詞林的句類依存樹輔助標(biāo)注工具(圖3),在構(gòu)建樹庫過程中主要采用半自動化標(biāo)注方法從HNC詞語知識庫中自動查找詞語的概念類別,當(dāng)有多個語義類別時人工選擇其中一個語義類別,并由標(biāo)注者人工標(biāo)注詞語之間的語義支配關(guān)系和句類關(guān)系。目前,HNC詞語知識庫的規(guī)模為53 000個左右詞形。為了擴(kuò)展詞語知識庫,我們利用同義詞詞林進(jìn)行輔助,即當(dāng)在HNC詞語知識庫中無法查詢到目標(biāo)詞時,自動轉(zhuǎn)入同義詞詞林中查詢,并在同義詞詞林中選擇與該詞最接近的一個同義詞重新進(jìn)入HNC詞語知識庫中進(jìn)行查詢,直到在HNC詞語知識庫中找到該詞為止。如果以上兩個步驟都未能查詢到目標(biāo)詞,則由標(biāo)注者人工判斷并手動輸入該詞的概念類別。本樹庫目前的標(biāo)注規(guī)模為試驗(yàn)性的2 000個漢語復(fù)雜句子,語料均為政論語體。
圖3 句類依存樹庫輔助標(biāo)注工具
構(gòu)建句類依存樹庫,并不是為了標(biāo)新立異,本文希望這種新的樹庫模式能夠?yàn)橹形男畔⑻幚硖峁┝硪环N的視野和思路,在現(xiàn)有研究的基礎(chǔ)上進(jìn)一步深化現(xiàn)代漢語句法語義的形式化分析。
4.1 特點(diǎn)之一: 以概念為核心來理解詞與句
漢語句類依存樹庫最大的特點(diǎn)是以概念為核心。首先根據(jù)概念類別對詞進(jìn)行分類。郭銳指出,“詞類本質(zhì)上說是詞在內(nèi)在表述功能上的類別?!睗h語中,詞的表述功能往往是由詞的意義決定的,意義在認(rèn)知層面則體現(xiàn)為概念。因此我們嘗試在HNC語義網(wǎng)絡(luò)框架下為漢語詞匯進(jìn)行概念分類,我們將詞分為11大類(共93個小類),例如,
“調(diào)查”為動態(tài)概念,記作v類概念;
“中國”為行政區(qū)劃概念,記作fpj2;
“主席”為人類概念,記作p。
其次,根據(jù)句子核心動詞的概念類別對句子進(jìn)行句類分析。漢語的句子構(gòu)造并不依賴于詞的功能類別體系。探求漢語句子的本質(zhì),需要以漢語詞匯的概念類別體系為基礎(chǔ),對漢語的詞,特別是句子的中心動詞進(jìn)行概念層面的分門別類。HNC句類分析正是基于句子核心動詞的概念類別,并綜合句子語義塊的切分對句子進(jìn)行分類。
4.2 特點(diǎn)之二: 擅長處理漢語多動詞句
漢語多動詞句是自然語言理解與處理的難點(diǎn)之一,漢語動詞不帶形態(tài)標(biāo)記導(dǎo)致計算機(jī)難以準(zhǔn)確判斷各動詞之間的主從關(guān)系,而以往樹庫對于多動詞句的分析并沒有突出其特點(diǎn),以多動詞結(jié)構(gòu)“顯性輕動詞+V”為例,以往樹庫對于顯性輕動詞(如“進(jìn)行”)的詞性標(biāo)注或該結(jié)構(gòu)的句法語義分析,都與語言事實(shí)存在較大差距,國家語委制定的“信息處理用現(xiàn)代漢語詞類標(biāo)記集規(guī)范”[8]將“進(jìn)行”類動詞處理為“形式動詞”,區(qū)別于一般動詞,符合語言學(xué)家們的判斷,但該標(biāo)記集并沒有在中文信息處理領(lǐng)域獲得廣泛應(yīng)用,而賓州樹庫將“進(jìn)行”標(biāo)注為VV(一般動詞),Sinica樹庫標(biāo)為VC(動作及物動詞),北大樹庫標(biāo)為V(一般動詞),均沒有將這類在句法和語義上有別于一般動詞的顯性輕動詞做特別標(biāo)注,這必然導(dǎo)致該類結(jié)構(gòu)的句法語義分析不夠準(zhǔn)確。句類依存樹庫在構(gòu)建過程中將重點(diǎn)關(guān)注漢語多動詞句的標(biāo)注規(guī)范與技巧,以使之體現(xiàn)和保持漢語本色。
以賓州漢語樹庫為例,調(diào)查發(fā)現(xiàn),賓州樹庫在“進(jìn)行”句的句法分析中將“進(jìn)行+V”處理為一般性的動賓結(jié)構(gòu),例如,
例3 兩岸可先就正式結(jié)束敵對狀態(tài)進(jìn)行談判。
例4 該處現(xiàn)正就6宗較嚴(yán)重的山泥傾瀉事件進(jìn)行詳細(xì)調(diào)查。(本例選自賓州漢語樹庫3.0)
在賓州漢語樹庫中,“進(jìn)行談判”與“進(jìn)行詳細(xì)調(diào)查”的句法分析如圖4所示。
圖4 賓州漢語樹庫對漢語顯性輕動詞結(jié)構(gòu)的句法分析
這樣的分析至少存在以下兩個弊端: 首先,未將“進(jìn)行”與一般動詞進(jìn)行區(qū)別,無法表現(xiàn)出“進(jìn)行”的特殊性,無法體現(xiàn)該類句式在語義表達(dá)上的獨(dú)特之處,即無法突出動詞性賓語的語義中心地位,這在句子的深層理解中將導(dǎo)致句子語義角色確認(rèn)不當(dāng),并影響整個句子的語義理解;其次,“進(jìn)行”后的賓語均處理為一般名詞,這顯然與語言學(xué)家們對“進(jìn)行”后接謂詞性賓語這一共識相沖突。由此可見,賓州樹庫對“進(jìn)行”句的處理并不完全符合語言學(xué)家們的認(rèn)識,對該類句式的句法以及語義分析方法仍有待深入。
文獻(xiàn)[12]將“進(jìn)行”類形式動詞定義為高層v概念,在詞語知識庫中利用5元組符號vv表示,“vv類概念是HNC引入的v類概念之一,它要求補(bǔ)充另一個v類概念,才能形成意義完備的E塊主體。[12]”HNC理論在概念表達(dá)的層面就給形式動詞賦予了特殊的地位,這一處理方式突出了“進(jìn)行”類動詞在句法語義表達(dá)上的特殊性,使之區(qū)別于一般v類概念。
在句類分析層面,仍以例3“兩岸可先就正式結(jié)束敵對狀態(tài)進(jìn)行談判?!睘槔?“vv+v”類特征語義塊,如“進(jìn)行談判”,黃先生稱之為“高低搭配”,是特征語義塊核心構(gòu)成的其中一種形式。這類高低搭配的語義中心在“進(jìn)行”后的低位動詞v,即“談判”,句子的核心動詞由低位動詞“談判”充當(dāng)而非高層概念詞“進(jìn)行”,句中名詞性成分“兩岸”與低位動詞“談判”之間的語義關(guān)聯(lián)構(gòu)成了整個句子的語義結(jié)構(gòu),這與語言學(xué)家們對“進(jìn)行”句的認(rèn)識是一致的。圖5顯示了漢語句類依存樹庫對例3的分析。
圖5 句類依存樹庫對漢語顯性輕動詞結(jié)構(gòu)的句法分析
對于這類結(jié)構(gòu)的分析,我們在FrameNet中找到了類似的分析思路,如例5(摘選自文獻(xiàn)[15])是一個英語的顯性輕動詞句。
例5 The senator paid me a compliment on my work.
Fillmore的分析思路是將動詞“pay”分析為支持動詞(support verb),整個句子的源框架來自于框架“Compliment”,而非“pay”,句中的名詞性成分“senator”、“me”及“work”分別源于框架“Compliment”的框架元素“speaker”、“addressee”及“reason”[15]。這一闡述亦可作為漢語句類依存樹庫對漢語顯性輕動詞句的分析佐證。
句類依存樹在自然語言表征方面與以往樹庫相比,其創(chuàng)新之處在于加入了詞語的語義類別知識以及句子主要成分之間的句類關(guān)系知識,本節(jié)通過實(shí)例說明句類依存樹庫在漢英機(jī)器翻譯領(lǐng)域的應(yīng)用前景。
現(xiàn)有機(jī)器翻譯系統(tǒng)采用的雙語表征方式各不相同,由此得到的翻譯模板也各有千秋,以往基于語料庫的機(jī)器翻譯方法(無論基于實(shí)例的還是基于統(tǒng)計的),主要使用的翻譯模板可以分為以下幾類: 基于非結(jié)構(gòu)化句法的、基于短語結(jié)構(gòu)樹的、基于句法依存樹的及基于語義框架或語義特征的翻譯模板幾大類?;谡Z言學(xué)句法的機(jī)器翻譯方法表現(xiàn)出了一定優(yōu)勢[16],而且目前漢外機(jī)器翻譯研究方法中,“樹到串”的方法應(yīng)用也較為廣泛[17],因此,本文定義的漢英翻譯模板為基于漢語句類依存樹庫的“句類依存樹到串”的語義轉(zhuǎn)換模板。
心理語言學(xué)的研究表明,人在翻譯過程中的翻譯單元(translation unit)往往并不是一個句子,而是比句子低一級的單位。在機(jī)器翻譯領(lǐng)域,隨著雙語對齊技術(shù)的發(fā)展深化,短語級對齊和詞語級對齊技術(shù)不斷發(fā)展完善,語塊(chunk)級的匹配單位以及語塊級的雙語轉(zhuǎn)換模板逐步成為主流。本節(jié)嘗試從經(jīng)標(biāo)注的漢英雙語平行語料(漢語語料標(biāo)注為句類依存樹)中提取基于“句類依存子樹”[18]的雙語語義轉(zhuǎn)換模板庫,期望為漢英機(jī)器翻譯提供一種包含更多語義信息的模板。
仍以例1 “中國今天公布了去年打擊走私的巨大成果?!睘槔?,下圖為該例在模板抽取過程中的子樹劃分圖示(圖6)。
圖6 “句類依存子樹到串”模板抽取子樹
“句類依存子樹到串”的模板抽取結(jié)果:
模板5~13為包含終結(jié)點(diǎn)的底層模板,均源于雙語串的詞級對齊信息,模板2~4為中層模板,模板1為包含根節(jié)點(diǎn)的高層模板?,F(xiàn)以高層模板1為例,對其抽取過程解釋如下: 以T3Y30為支配者的子節(jié)點(diǎn)與T3Y30一起構(gòu)成源語子樹T3Y30(x1:TA x2:j1 x3:hv x4:YC),該子樹包含一個支配節(jié)點(diǎn)與四個子節(jié)點(diǎn)x1-4,其與支配節(jié)點(diǎn)之間的句類關(guān)系分別為TA、j1、hv、YC。通過語料庫中的詞級對齊信息我們得到以下知識,T3Y30(公布)對齊于目標(biāo)語串a(chǎn)nnounced,其對應(yīng)節(jié)點(diǎn)表示為T3Y30: announced,x1:TA(中國)節(jié)點(diǎn)對齊于目標(biāo)語語串的單詞China,x2:j1(今天)節(jié)點(diǎn)對齊于目標(biāo)語語串today,x3:hv(了)節(jié)點(diǎn)無對齊單詞,x4:YC(成果)節(jié)點(diǎn)對齊于目標(biāo)語語串results,圖7展示了從漢英詞對齊“句類依存樹到串”詞級對齊語料中人工抽取“句類依存子樹到串”漢英轉(zhuǎn)換模板的過程。
圖7 “句類依存子樹到串”漢英轉(zhuǎn)換模板抽取
樹庫的構(gòu)建是一項(xiàng)非常復(fù)雜的工程,樹庫標(biāo)注一方面需要標(biāo)注者具備專業(yè)的理論知識以及對于現(xiàn)代漢語的分析能力;另一方面,標(biāo)注的準(zhǔn)確性、一致性等問題都需要重點(diǎn)關(guān)注。在標(biāo)注的過程中,發(fā)現(xiàn)的問題主要集中在兩個標(biāo)注集的規(guī)范上: 概念標(biāo)注集中部分小的類別出現(xiàn)頻率太低,可以合并,其中以l類語言邏輯概念為主;部分小類如hv類概念則可以繼續(xù)細(xì)分;概念關(guān)系的標(biāo)注則表現(xiàn)出了一定主觀性,需要進(jìn)一步細(xì)化標(biāo)注規(guī)范,保持整個語料庫的前后一致。另外,在模板抽取過程中,可嘗試自動抽取的方法以提高效率。
[1] 王躍龍, 姬東鴻. 漢語樹庫綜述[J]. 當(dāng)代語言學(xué), 2009,11(1): 47-55.
[2] Xue N, Xia F, Chiou F D, et al. The Penn Chinese Treebank: phrase structure annotation of a large corpus[J]. Natural Language Engineering, 2004, 10 (4): 1-30.
[3] 陳鳳儀, 蔡碧芳, 陳克健, 等. 中文句結(jié)構(gòu)樹資料庫(Sinica Treebank)的構(gòu)建[J]. Computational Linguistics and Chinese Language Processing, 1999, 4 (2): 87-104.
[4] 周強(qiáng), 張偉, 俞士汶. 漢語樹庫的構(gòu)建[J]. 中文信息學(xué)報, 1997,11(4): 42-51.
[5] 周強(qiáng). 漢語句法樹庫標(biāo)注體系[J]. 中文信息學(xué)報, 2004,18(4): 1-8.
[6] 靳光瑾, 肖航, 富麗,等. 現(xiàn)代漢語語料庫建設(shè)及深加工[J]. 語言文字應(yīng)用, 2005,2:111-120.
[7] Liu T, Ma J, Li S. Building a dependency treebank for improving Chinese parser[J]. Journal of Chinese Language and Computing, 2006, 16(4): 207-224.
[8] 國家語委語言文字應(yīng)用研究所計算語言學(xué)研究室. 信息處理用現(xiàn)代漢語詞類標(biāo)記集規(guī)范[J]. 語言文字應(yīng)用, 2001,3:16-20.
[9] 劉開瑛, 由麗萍. 漢語框架語義知識庫構(gòu)建工程. 中文信息處理前沿進(jìn)展[C]//中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集.北京, 2006:64-71.
[10] 劉開瑛. 漢語框架語義網(wǎng)構(gòu)建及其應(yīng)用技術(shù)研究[J]. 中文信息學(xué)報, 2011,25(6):46-52.
[11] 董振東.下一站在哪里[J].中文信息學(xué)報, 2011,25(6):4-12.
[12] 黃曾陽. HNC(概念層次網(wǎng)絡(luò))理論: 計算機(jī)理解自然語言的新思路[M].北京: 清華大學(xué)出版社, 1998.
[13] 苗傳江. HNC理論導(dǎo)論[M]. 北京: 清華大學(xué)出版社, 2005: 300-315.
[14] 張克亮, 黃曾陽. HNC作用效應(yīng)句的漢英句類轉(zhuǎn)換[J]. 中文信息學(xué)報, 2003,17(5):19-26.
[15] Fillmore, C J. FrameNet and the Linking Between Semantic and Syntactic Relations[C]//Proceedings of COLING 2002, 2002.
[16] 劉群. 機(jī)器翻譯研究新進(jìn)展[J]. 當(dāng)代語言學(xué), 2009(2):147-158.
[17] Liu Y, Liu Q, Lin S. Tree-to-string alignment template for statistical machine translation[C]//Proceedings of COLING/ACL 2006:609-616.
[18] Xie J, Mi H, Liu Q. A novel dependency-to-string model for statistical machine translation[C]//Proceedings of EMNLP 20112011:216-226.
Construction of Chinese Sentence-Category Dependency Treebank and Its Application
WANG Huilan1, ZHANG Keliang2
(1. Air Force Command College, Beijing 100097, China; 2. PLA University of Foreign Languages, Luoyang, Henan 471003, China)
Aimed at the application in Machine translation, this paper conducts a research on the construction of Chinese Sentence-Category Dependency Treebank (CSCDT) based on the theory of Hierarchical Network of Concepts (HNC). The conceptual category tagset and the Sentence-Category relation tagset for the treebank are presented together with the example tree of CSCDT. Compared with other Chinese treebanks, this paper discusses two advantages of CSCDT. In addition, the translation template of Sentence-Category dependency subtree to string are defined to construct translation template library for Chinese-English machine translation.
machine translation; hierarchical network of concepts; sentence-category dependency treebank
王慧蘭(1982—),博士,講師,主要研究領(lǐng)域?yàn)橛嬎阏Z言學(xué),現(xiàn)代漢語語法。E?mail:hlwang9@sina.com張克亮(1964—),博士,教授,主要研究領(lǐng)域?yàn)橛嬎阏Z言學(xué),機(jī)器翻譯,知識工程。E?mail:kliang99@sina.com
1003-0077(2015)01-0075-07
2012-04-15 定稿日期: 2012-11-19
國家社科基金(10BYY009);河南省哲學(xué)社會科學(xué)規(guī)劃一般項(xiàng)目(2012BYY004)
TP391
A