李艷翠,馮繼克,來純曉,馮洪玉,馮文賀
(1. 河南師范大學(xué) 計算機與信息工程學(xué)院,河南 新鄉(xiāng) 453007;2. 河南科技學(xué)院 信息工程學(xué)院,河南 新鄉(xiāng) 453003;3. 廣東外語外貿(mào)大學(xué) 語言工程與計算實驗室,廣東 廣州 510006)
自然語言的單位從小到大分為詞、短語和句子,最后形成篇章。在實際應(yīng)用中,自然語言處理大都要在篇章上進行,不可斷章取義。要正確理解篇章,就需要了解篇章中的銜接。銜接是一個語義概念,當(dāng)篇章中某個成分的含義需要依賴于另一個成分解釋時,就會出現(xiàn)銜接,漢語和英語中都有多種銜接手段。銜接主要有指代、省略和連接: 指代是指用代詞、冠詞等表示特定的事物或已被提及過的事件;省略是指在事理邏輯上應(yīng)有但在字面上卻沒有的成份;連接主要指連接不同篇章并表達語義關(guān)系(如因果、并列、轉(zhuǎn)折等)的詞語。漢英篇章銜接手段有差異,如例1和例2。
[例1]a: (他)r1脫下衣服的時候c1,他a1聽得外面很熱鬧,阿Qa2生平本來最愛看熱鬧,(他)r2便c2即尋聲走出去了。(他)r3尋聲漸漸的尋到趙太爺?shù)膬?nèi)院里,雖然c3在昏黃中,(他)r4卻c4辨得出許多人,趙府一家a3連兩日不吃飯的太太也在內(nèi),還有c5(他們)r5間壁的鄒七嫂,(也有)c6(他們)r6真正本家的趙白眼,趙司晨。(魯迅: 阿Q正傳)
b:Whilec1’her1’was taking off his shirthea1’heard uproar outside,andsincec2’AhQa2’always liked to join in any excitement that was going,her3’went out in search of the sound,her4’traced it gradually right into Mr. Chao’s inner courtyard.Althoughc3’it was duskher4’could see many people there: all theChaofamilya3’including the mistress who had not eaten for two days.Inadditionc5’,theirr5’neighbor Mrs. Tsou was there,aswellasc6’theirr6’relatives Chao Pai-yen and Chao Szu-chen.(楊憲益、戴乃迭譯: The True Story of Ah Q)
[例2]a:盡管c1減輕污染a1的呼聲不斷,(并且)c2公眾日漸憤怒,污染a2還是變得更糟糕了,(這)r1越發(fā)顯出環(huán)保的緊迫性。
b:Despitec1’frequent calls for cuttingpollutiona1’,andc2’growing public anger,theproblema2’has only got worse,whichr1’increasingly shows the urgency of environmental protection.
例1中的篇章銜接方式主要有指代、省略和連接。例1a省略了四個主語“他”(r1~r4),由于省略的主語在上下文中是隱含的,因此并未給讀者在閱讀上造成困難,省略的“他”和“阿Q”形成省略銜接。但在英語中,主語是不能省略的,否則句子的結(jié)構(gòu)將不完整,如例1a的對照翻譯例1b,翻譯時被省略的主語“he”(r1’~r4’)都被補充上。例1a中的“他”(a1)和“阿Q”(a2)和例1b中的“he”(a1’)和“Ah Q”(a2’)形成指代銜接。例1a中的連接成分“雖然”(c3)、“還有”(c5)、“也有”(c6)分別和例1b中的“Although”(c3’)、“In addition”(c5’)、“as well as”(c6’)相對應(yīng),它們的功能相同,其中,連接詞“也有”(c6)在漢語中是省略的,而相應(yīng)的翻譯中卻根據(jù)意義補充了“as well as”(c6’)。例1給出的例子反映了漢英銜接的實際情況,例2是文獻[1]文中的實例,在翻譯時,連接詞“盡管”(c1)和“Despite”(c1’)相應(yīng),“污染”(a2)在翻譯時變成了“the problem”(a2’)。綜合分析例1和例2可知,漢英篇章中都存在各種銜接,銜接手段略有差異。
本文主要進行漢英篇章銜接資源構(gòu)建工作,第1部分介紹相關(guān)工作,第2部分介紹本文的標(biāo)注策略,第3部分介紹語料標(biāo)注情況,第4部分給出實驗結(jié)果及分析,最后總結(jié)了標(biāo)注中存在的難點。本文開展的漢英篇章銜接研究具有非常重要的理論意義和應(yīng)用價值,形成的漢英篇章銜接對齊標(biāo)注策略可用于構(gòu)建語料庫,所構(gòu)建的語料庫既可用于漢英篇章銜接的對比、翻譯、教學(xué)等研究,又有助于推動漢英篇章銜接對齊分析研究及平臺建設(shè)。
Halliday和Hasan[1]、Werth[2]和Cook[3]等人分別將銜接進行了分類,他們文章中均指出主要銜接手段包括連接、省略和指代。胡壯麟[4]在《語篇的銜接與連貫》中第一次系統(tǒng)地介紹了漢語篇章銜接與連貫,這本書是胡壯麟先生對文獻[1]銜接理論的繼承和發(fā)展,除了保留文獻[1]以語法和詞匯為重點的銜接模式外,該書還包含了英語和漢語實例,這對漢英篇章銜接的研究具有很大的啟發(fā)作用。周利芳[5]、曹繼陽[6]分別對漢語篇章銜接的成分和手段進行了研究和分析。在理論研究方面,漢英語篇的銜接基本都包括指代、省略、連接等,漢英語篇的銜接對比也多從這幾個方面展開。奚雪峰等[7]從篇章意圖性角度探討了篇章話題結(jié)構(gòu),并在此基礎(chǔ)上分析了篇章的連貫性和銜接性。朱永生等[8]的《英漢語篇銜接手段對比研究》將銜接理論用于漢英篇章對比,該書基于文獻[1]的銜接理論,運用大量的語料分析了英漢銜接手段的異同。由于漢語是一種意合型語言,人們在選擇詞語和句子方面通常能省則省,英語中大多數(shù)的省略都帶有形式上的標(biāo)記,而漢語的省略是在不用考慮語法,甚至不用考慮邏輯的情況下表達其含義。鐘書能[9]、張獻麗[10]、張易男和李燕鴻[11]等人將銜接理論用于漢英語篇對比研究,這些工作大多數(shù)采用文獻[1]對銜接手段的分類,結(jié)合漢英語料分析漢英篇章銜接方式的異同。以上漢英對比研究取得了一定的效果,但選擇的樣本均較少,往往難以排除隨機性對結(jié)果的影響。英漢對比研究應(yīng)著眼于兩種語言的特點,選擇有代表性且數(shù)量較多的樣本。
語料庫在自然語言處理技術(shù)的發(fā)展過程中起到了非常重要的作用。下面介紹包含指代、連接信息的語料庫,以及漢英平行語料庫。
(1) 包含指代信息的語料庫。目前較知名的標(biāo)注了指代信息的語料庫主要有MUC(Message Understanding Conference)、ACE(Automatic Content Extraction)(1)https://www.ldc.upenn.edu/collaborations/past-projects/ace、OntoNotes語料庫(2)https://catalog.ldc.upenn.edu/LDC2013T19。MUC語料通過指向形成指代鏈。ACE中具有相同指代關(guān)系的實體位于同一指代鏈,且該指代鏈擁有唯一的編號。但MUC和ACE只標(biāo)注了實體指代,并且沒有考慮省略的指代標(biāo)注。OntoNotes語料庫包括詞匯層面,句子層面和篇章層面等多層次的標(biāo)注,在篇章層面主要包含空語類信息、實體間以及事件的共指關(guān)系。OntoNotes語料庫中包含漢語和英語,漢語部分還標(biāo)注了部分零指代信息,但零指代僅標(biāo)注了主語位置,而漢語的零指代種類很多,且每一類別都有其自身的特點,這就制約了漢語零指代消解的研究。文獻[12]在CTB 6.0語料標(biāo)注的空語類(Empty Category)基礎(chǔ)上進行了漢語零指代信息的標(biāo)注,該語料有150篇文本。
(2) 包含連接信息的語料庫。包含連接信息的語料庫主要有賓州篇章樹庫(Penn Discourse Tree Bank)(3)https://www.seas.upenn.edu/~pdtb/、漢語復(fù)句語料庫(4)http://linguist.ccnu.edu.cn/jiansuo/TestFuju.jsp、清華漢語樹庫[13]、哈工大中文篇章結(jié)構(gòu)語料[14]。以上對于篇章的標(biāo)注多采用英語篇章體系,文獻[15]提出一種基于連接依存樹的漢語篇章結(jié)構(gòu)表示方法,連接依存樹的主要特征是葉子節(jié)點為子句,內(nèi)部節(jié)點為連接詞,連接詞通過其層級地位表示篇章結(jié)構(gòu)的層次,通過其語義表示篇章關(guān)系。在此基礎(chǔ)上,作者標(biāo)注了500個文檔的漢語篇章語料,其中有24.8%的篇章關(guān)系有顯式連接詞。以上語料中雖然都涉及了連接詞的相關(guān)標(biāo)注,但均針對單語,篇章關(guān)系中漢語僅25%左右有連接詞,英語則達45.5%,可見英語連接詞使用頻率大于漢語。文獻[16]將文獻[15]的方案擴展到漢英并進行了語料標(biāo)注工作,文獻[17]的標(biāo)注評估表明對齊標(biāo)注是構(gòu)建漢英篇章結(jié)構(gòu)平行語料庫的合理、有效工作方式。
綜上,由于漢英銜接理論不同,銜接方式也有差別,漢英銜接對比多從指代、省略和連接方面進行,但可供選擇對比的樣本均較少,不具有統(tǒng)計學(xué)意義。目前的漢英銜接語料庫主要針對單語,現(xiàn)有的平行語料庫只做了段落、句子等對齊工作,很少進行篇章銜接等深度加工,特別是銜接信息的對齊。這嚴(yán)重制約了基于篇章銜接對齊語料的語言對比及自動對齊分析工作。
在充分分析現(xiàn)有漢英銜接理論、銜接對比分析理論和漢英銜接自動分析研究內(nèi)容的基礎(chǔ)上,本文制定了標(biāo)注策略。詞匯銜接由于有明顯的詞語指示,不是漢英銜接研究的難點,所以本文重點標(biāo)注語法銜接,包括指代(本文將銜接理論中的指稱和替代合并為指代)、連接和省略信息。楊傳鳴[18]對紅樓夢及其英譯本的銜接進行定量統(tǒng)計,發(fā)現(xiàn)在所有銜接手段中(包括詞匯銜接和語法銜接),漢語中指代、省略和連接手段占59.6%,英語占77.0%。本文的標(biāo)注內(nèi)容包括全部語法銜接,且包含大部分銜接手段,具有一定的代表性。
現(xiàn)有的對齊語料庫中,僅僅有句子等單位對齊,而沒有銜接的對齊,這直接影響漢英銜接對齊知識的獲取。本文標(biāo)注了子句、指代、省略和連接及其對齊信息。如例2的標(biāo)注內(nèi)容見圖1,圖1中用“|”切分子句,e1和e1’是對齊子句,用連線表示銜接對齊的信息,如連接詞“盡管”和“Despite”對齊;用括號表示省略的信息,省略的內(nèi)容可以是連接詞,也可以是指代詞,如省略的內(nèi)容“并且”和“and”對齊;同一語言中的指代鏈,用虛線表示,如“污染”和“污染”, “pollution”和“the problem”在同一指代鏈上。實際標(biāo)注中,指代、省略和連接是相互指導(dǎo),交叉進行的。
圖1 例2的標(biāo)注信息
漢英篇章銜接對齊語料庫的對齊標(biāo)注總原則是“單位對齊、詞對齊”。標(biāo)注語料的整體策略是以“源語為主、目標(biāo)語為輔”,即以漢語為主、英語為輔。標(biāo)注目標(biāo)是實現(xiàn)雙語銜接中的子句、指代、連接的對齊標(biāo)注。實質(zhì)上是一個“標(biāo)注中有對齊、對齊中有標(biāo)注”的對齊與標(biāo)注合二為一的過程。
漢英篇章銜接的對齊標(biāo)注,包括子句對齊、連接詞對齊、指代對齊這幾個關(guān)鍵對齊標(biāo)注任務(wù)。本文考查的省略主要是連接詞省略和指代省略,因此將其標(biāo)注合并到相應(yīng)的任務(wù)中,在標(biāo)注時體現(xiàn)省略信息。下面詳述本文標(biāo)注策略。
本文參考文獻[19]的子句定義進行對齊標(biāo)注,假設(shè)具有對譯關(guān)系的篇章,其內(nèi)部的子句是一一對應(yīng)的。英漢雙語篇章子句的對齊,為保證一致性,采用“源語優(yōu)先”即(漢語優(yōu)先)的劃分子句方法,首先按既定的漢語子句進行切分,然后以英語對齊來保證漢英篇章的對應(yīng)關(guān)系。根據(jù)子句定義,英語的從句或句子和子句對應(yīng),子句對齊后便于銜接信息的對齊標(biāo)注。本文子句以漢語為主,將英語相應(yīng)的從句或短語和漢語子句對應(yīng)。事實上,這種分析對于漢語是子句分析,對于英語則是子句對齊。這種分析機制,可以保證所研究的問題是篇章層面的問題。
在實際操作中,主要依據(jù)三點: 第一主要看英漢的句意。對于一個優(yōu)質(zhì)的翻譯文本,源語中的因果、轉(zhuǎn)折、并列等邏輯語義關(guān)系必然在目的語中得到反映,根據(jù)邏輯語義關(guān)系,可以分別從英漢平行語料庫中相鄰的子句中找出其對應(yīng)關(guān)系,從而進行英漢的對齊劃分;第二看結(jié)構(gòu),結(jié)合源語與目的語的結(jié)構(gòu),英漢中主謂賓的順序是一致的,一些名詞性從句、狀語從句的對譯也較為一致,找出英漢中相應(yīng)的詞匯,從而找出英漢相對應(yīng)的句子成分進行劃分。比如,看源語中結(jié)尾的動詞、非謂語動詞、賓語、各種從句或是其他成分在漢語中是否得到了體現(xiàn);第三是看標(biāo)點,在對譯的英文文本中,英文的標(biāo)點大部分會和漢語一致,根據(jù)標(biāo)點情況,可以清楚地推測文意。
如例3中,漢語子句“比開放前的一九九一年增長九成多?!焙陀⒄Z子句“growing more than 90% compared to 1991, before they had opened.”對應(yīng)。
[例3]a: 據(jù)統(tǒng)計,這些城市去年完成國內(nèi)生產(chǎn)總值一百九十多億元,|比開放前的一九九一年增長九成多。
b: According to statistics,these municipalities last year fulfilled more than 19 billion yuan of the gross domestic product,| growing more than 90% compared to 1991, before they had opened.
句子之間或子句之間存在如條件、轉(zhuǎn)折、因果等語義連接關(guān)系,連接詞指具有子句及其以上語法單位連接和關(guān)系提示作用的語言單位,可以根據(jù)連接詞連接的子句和篇章關(guān)系兩方面確定連接詞。文獻[20]將連接詞作為篇章關(guān)系的關(guān)鍵因素在漢語中已進行了標(biāo)注。參考漢語篇章結(jié)構(gòu)中的做法,在漢英連接詞對齊標(biāo)注時,對連接詞是否可添加或刪除進行標(biāo)記,為便于操作,本文僅對在漢語、英語或漢英中都出現(xiàn)的連接詞進行標(biāo)注。對雙語均省略的連接詞,由于添加時可供選擇的詞范圍較大,容易導(dǎo)致對齊標(biāo)注不一致,且在實際應(yīng)用中意義不大,故本文不做處理。漢英對譯篇章由于意義相同,所以對于連接詞的漢英對齊標(biāo)注主要為管轄范圍和邏輯功能的對齊,標(biāo)注時如連接詞缺省則根據(jù)意義對連接詞進行添加。
文獻[20]在漢語連接詞分類中認為,連接詞可分為并列類、轉(zhuǎn)折類、解說類和因果類,在此基礎(chǔ)上又可分為17種不同的關(guān)系類型。例如,并列類可分為并列關(guān)系、順承關(guān)系、遞進關(guān)系、選擇關(guān)系和對比關(guān)系五種關(guān)系類型。每種關(guān)系類型又包含多個連接詞,而某些連接詞可屬于不同的關(guān)系類型。標(biāo)注時主要考慮三種連接詞對齊關(guān)系,如例4的漢語沒有連接詞而英語有連接詞,如例5的漢英均有連接詞,如例6的漢語有連接詞而英語沒有連接詞。
[例4]a: 西藏銀行部門積極調(diào)整信貸結(jié)構(gòu),以確保農(nóng)牧業(yè)生產(chǎn)等重點產(chǎn)業(yè)的投入,|加大對工業(yè)、能源、交通、通信等建設(shè)的正常資金供應(yīng)量。
b: Tibet’s banking sector is actively adjusting its credit structure to ensure the participation of key industries such as agricultural and livestock production, etc., |aswellasto increase the amount of the usual supply of capital funding for the development of industries, energy, transportation and communications, etc.
[例5]a: 并投資一千三百多個億,加強基礎(chǔ)設(shè)施和基礎(chǔ)產(chǎn)業(yè)建設(shè),|為擴大對外開放創(chuàng)造良好環(huán)境。
b: It has invested more than 130 billion yuan to strengthen the construction of infrastructures and basic industries|soastocreate a sound environment for expanding the opening up to the outside world.
[例6]a: 由于茅臺酒制作工藝復(fù)雜,生產(chǎn)周期長,|因而其產(chǎn)量十分有限。
b: Because the art of manufacturing Mao — tai is complicated and its production cycle is long,|the output of Mao — tai is extremely limited.
在翻譯時,允許出現(xiàn)不是一對一的情況,如例7所示。
[例7]a: 在社會主義市場經(jīng)濟體制建設(shè)不斷推進,對外開放進一步擴大的新形勢下,海關(guān)的職能不能削弱,|只能加強。
b: Under the new circumstances in which the construction of a socialist market economy mechanism is continually being promoted and the opening up to the outside world is further expanding, the functions of Customsshouldnotbeweakened, |andshouldonlybestrengthened.
經(jīng)過反復(fù)的研究和實踐,最終確定漢英篇章銜接對齊標(biāo)注的總原則,以篇章為單位將ACE實體類型為人名、地名、機構(gòu)名、時間等具有代表性的且在文章中出現(xiàn)頻率較高的指代實體詞進行漢英對齊標(biāo)注。標(biāo)注原則是單語中的指代信息構(gòu)成指代鏈,漢英指代鏈中的項目兩兩相互對應(yīng)。標(biāo)注時邊標(biāo)注指代鏈邊進行雙語對齊,標(biāo)注和對齊同時進行,這樣可以全面考察雙語的各種信息。
本文標(biāo)注實體指代和事件指代信息,如例8的“金川公司”是實體代詞,“這里”“這家企業(yè)”是實體指代。例8a中的“金川公司”“這里”“金川公司”和“這家企業(yè)”分別對應(yīng)例8b的“Jinchuan Company”“this place”“the Jinchuan Company”和“this enterprise”,同時形成指代關(guān)系,在本篇章中都指的是“金川公司”,因此將有指代信息的漢英指代詞標(biāo)注在同一指代鏈。
[例8]a: 一九六四年,金川公司產(chǎn)出第一批電解鎳。從此以后,逐步改變了中國鎳、鈷及鉑族金屬長期依賴進口的局面。如今,這里已成為中國最大的鎳鈷生產(chǎn)基地和鉑族金屬提煉中心,鎳和鉑族金屬產(chǎn)量分別占全國的百分之八十八和百分之九十以上,被譽為中國的“鎳都”。一九七八年,金川公司被中國政府列為全國礦產(chǎn)資源綜合利用三大基地之一,作為中國鎳工業(yè)代表的這家企業(yè)由此踏上依靠科技進步求振興的發(fā)展之路。
b: In 1964,JinchuanCompanyproduced the first batch of electrolytic nickel.From then on, the situation of China’s long time dependence on import for nickel, cobalt and platinum family metals has been changed gradually.Up to now,thisplacehas become China’s largest nickel and cobalt production base and platinum family metals refining center, with an output of nickel and platinum family metals that respectively account for more than 88% and 90% of the whole country respectively, being praised as China’s “Nickel Capitol “.In 1978,theJinchuanCompanywas listed by the Chinese government as one of the top three bases of integrated utilization of national mineral resources.Since then,thisenterprise, as a representative of China’s nickel industry, began to step onto its vigorous development road by relying on advances in science and technology.
省略可以包含代詞的省略、名詞的省略以及連接詞的省略等,本文認為指代和連接都可以省略。由于對篇章的理解是主觀的,特別是將翻譯者的主觀理解添加到翻譯后的文本中,可更好地反映原文,因此省略處理的原則是,漢英都省略的不做處理,主要處理漢語或者英語省略。由于漢語省略較多,標(biāo)注時以英語為主,在漢語中尋找對應(yīng)內(nèi)容,若不存在則補充,若存在則對齊,若不能補齊,則對空。如圖2中,根據(jù)英語對照補充兩個省略的代詞“他”,圖2中用“()”標(biāo)示?!?他)-he”“他-he”“阿Q-Ah Q”以及“(他)-he”依次對齊。如圖1中的例子“and”在是翻譯時補充的內(nèi)容,可以分析得出漢語中省略了對應(yīng)的詞“并且”。當(dāng)然,也有一些詞是漢語中有,而英語在不影響理解的情況下做了省略,此時英語中也補充并對齊。
圖2 例1省略和指代的對齊標(biāo)注
本文充分利用已有的漢語篇章級資源,在OntoNotes的漢英平行文本上追加與篇章銜接性相關(guān)的指代、省略和連接標(biāo)注信息,并進行漢英標(biāo)注內(nèi)容的對齊。為了便于標(biāo)注,基于標(biāo)注策略,制定了標(biāo)注規(guī)范,開發(fā)了輔助標(biāo)注平臺,并以人工和計算機輔助的方式進行語料標(biāo)注。
OntoNotes中已經(jīng)包含實體、部分省略信息。但這些信息是單語標(biāo)注,沒有體現(xiàn)雙語對齊關(guān)系。本文在此基礎(chǔ)上添加其他銜接信息,考慮雙語,標(biāo)注的同時完成對齊,具體包括: ①將漢英篇章中的子句標(biāo)注擴展到雙語; ②以前期研究為指導(dǎo),標(biāo)注連接詞屬性和對齊信息,包含添加的連接詞和連接詞是否可刪信息,連接詞的管轄范圍,連接詞所連接的篇章單位是否調(diào)序等; ③種類齊全的漢英省略信息: OntoNotes語料中僅包含了主語位置的零指代關(guān)系,而漢語省略涉及多個種類,本文標(biāo)注指代和連接兩種省略信息。
根據(jù)篇章銜接分析機制和對齊策略,針對子句、連接詞、指代、省略的標(biāo)注及對齊分別提出具體的標(biāo)注規(guī)范。標(biāo)注注重可操作性,分別從判定原則、對齊方法等方面入手制定標(biāo)注規(guī)范。
在標(biāo)注規(guī)范的指導(dǎo)下進行標(biāo)注,標(biāo)注工作參考了之前漢語篇章結(jié)構(gòu)語料資源構(gòu)建積累的方法和經(jīng)驗,分4個階段進行: ①由于語料庫處理工作量大,為確保質(zhì)量和通用性,制定了初步的標(biāo)注規(guī)范,同時開發(fā)了標(biāo)注工具,并對參與標(biāo)注的人員進行了培訓(xùn); ②為保證標(biāo)注的一致性,將標(biāo)注者分為三組,分別標(biāo)注若干相同的文檔,然后在一起討論所有標(biāo)注內(nèi)容,包括指代、省略和連接的屬性和對齊方式等,形成統(tǒng)一的標(biāo)注思想,得到修訂后的標(biāo)注規(guī)范; ③標(biāo)注者分組完成60篇相同文檔的標(biāo)注,用標(biāo)注完的文檔兩兩計算標(biāo)注的一致性。選取一致率高的兩組語料,由標(biāo)注成員共同參與討論,經(jīng)過多次研討形成最終的標(biāo)注規(guī)范; ④根據(jù)最終的標(biāo)注規(guī)范,由標(biāo)注一致率高的兩組成員繼續(xù)完成剩下語料的標(biāo)注,另一組成員負責(zé)完成語料校對和一致性的計算,形成最終的漢英篇章銜接對齊語料庫。
對于子句、指代、省略和連接及其對齊信息的標(biāo)注,本文開發(fā)了輔助標(biāo)注平臺,輔助用戶選擇記錄需要添加的詞、標(biāo)注信息的類型、對齊的位置等信息,使用人機結(jié)合的標(biāo)注策略,提高標(biāo)注質(zhì)量和效率。
完成了200個平行文檔的漢英篇章銜接對齊語料標(biāo)注。標(biāo)注了子句切分對齊、連接詞對齊和指代詞對齊及指代鏈信息。根據(jù)制定的漢英子句對齊切分標(biāo)準(zhǔn),通過漢英子句對齊的標(biāo)注規(guī)范,即對平行語料庫進行漢英子句對齊語料標(biāo)注。目前平行語料中共有效標(biāo)注漢英對齊段落1 974段,其中漢語句子2 424句,英語句子2 845句,漢英4 178個子句對,漢語子句平均長度是11個詞語,英語子句平均長度是20個單詞。漢語子句對應(yīng)的英語子句主要句法結(jié)構(gòu)有S、VP、NP、PP等。連接詞對齊標(biāo)注中,共標(biāo)注了817對連接詞,如“但”和“never the less”對應(yīng),共標(biāo)注顯式連接詞462次,出現(xiàn)次數(shù)較多的連接詞(并and)占50.9%,漢語中隱性連接詞達60%。在指代對齊標(biāo)注中,目前共標(biāo)注有效文檔193篇,標(biāo)注了1 613個指代鏈,平均每篇文檔有8.4個指代鏈。共標(biāo)注了3 657個指代詞,平均每個指代鏈上有2.3個指代詞。省略情況主要是連接詞省略和指代省略,在連接詞省略中,中文省略122次,英文省略3次,中文省略現(xiàn)象明顯多于英文。指代省略114次,其中中文省略92次,英文22次。
一致性評估主要考察標(biāo)注者標(biāo)注的一致內(nèi)容與所有標(biāo)注內(nèi)容之比,本文從漢語一致性、英語一致性和漢英對齊一致性三方面進行考察。其中,漢英對齊一致性指的是標(biāo)注者對相同語料的漢語標(biāo)注一致并且漢語相對應(yīng)的英語對齊標(biāo)注也一致的情況。標(biāo)注工作有6名同學(xué)參與,前期將6名同學(xué)兩兩分為A、B和C三組進行標(biāo)注,對其標(biāo)注的60篇文檔進行逐一探討并兩兩計算一致性,得出A-C小組在在漢語一致性、英語一致性和漢英對齊一致率等方面明顯高于其他兩個小組,因此由A-C小組繼續(xù)完成剩下文檔的標(biāo)注工作,B小組成員負責(zé)校驗。由于標(biāo)注內(nèi)容不同,針對子句、連接詞和指代詞分別采用了不同的計算方法。子句對齊、連接詞對齊和指代對齊語料評估結(jié)果如表1所示。
表1 標(biāo)注一致性計算結(jié)果
子句對齊亦可稱作切分對齊,切分對齊的方法有兩種: ①切分對齊方式Ⅰ: 漢語子句的切分位均標(biāo)有標(biāo)點符號,并計算了用作切分標(biāo)記的標(biāo)點符號(,;: 。)一致性。英語子句切分不一定使用標(biāo)點符號作為切分標(biāo)記,可以使用空格(基本上是任意單詞或標(biāo)點符號)的形式作為切分標(biāo)記,以及是否可以使用任何空格作為一致性計算的切分標(biāo)記; ②切分對齊方式Ⅱ: 計算不同標(biāo)注者的所有切分(AUB)之間的共同切分(A∩B)的一致性。對于句子位置SentencePosition=“X1…X2|Y1…Y2”,計算A和B的切分位置相同的情況。與切分對齊方式Ⅰ相比,該方法的評估更準(zhǔn)確,可以統(tǒng)一中英文切分評估標(biāo)準(zhǔn)。
從表1可以看出,子句切分對齊方式Ⅰ在漢語和英語一致性上均較高,主要是每個切分位置都進行計算,計算的無歧義切分位置較多。采用子句切分Ⅱ計算出漢英對齊一致性為0.909,說明子句完全對齊還有待提高,可以從提高英語切分對齊標(biāo)注的位置精準(zhǔn)性和在漢語指導(dǎo)下進一步實現(xiàn)英語切分對齊這兩方面改善。
由于連接詞總是有一定的管轄范圍,且連接詞有顯隱之分。連接詞對齊標(biāo)注評估,從顯隱對齊、顯式連接詞和全部連接詞對齊三個方面進行評估。由表1一致性計算結(jié)果可知,顯隱對齊一致率較高,其中英語一致率達0.987,同時英語普遍高于漢語的一致率。這是因為英語顯式連接詞明顯較漢語的多,相比漢語,英語對于連接詞有比較共性的認識,僅漢語的認識卻有較大分歧。這也說明英語文本在關(guān)系對齊標(biāo)注時作為指導(dǎo)性標(biāo)準(zhǔn)的可靠性。顯式連接詞對齊的一致性高于全部連接詞,主要是表示同種連接關(guān)系所添加的隱式連接詞不固定,如表因果可以是“因為”“因”等詞。為提高連接詞對齊標(biāo)注的準(zhǔn)確率,本文從兩方面入手: 第一,進一步明確漢語連接詞的定義,從而增強漢語顯式連接詞的對齊標(biāo)注效果。第二,規(guī)范隱式連接詞的添加,指定添加連接詞的范圍,減少隱式連接詞添加的分歧。
指代詞對齊主要計算標(biāo)注者選擇指代詞的一致性,由于指代詞通常比較明顯,添加的指代詞多為名詞且固定,所以一致性高于連接詞對齊。漢英指代詞對齊標(biāo)注的一致性達0.920,在指代對齊標(biāo)注一致性計算中除對漢語一致性、英語一致性、漢英對齊一致性進行計算之處,還加入了漢語位置一致性、英語位置一致性、屬性一致性、指代詞個數(shù)一致性和指代鏈個數(shù)一致性的計算,其對應(yīng)的一致率分別為0.926、0.925、0.931、0.932和0.872,其一致率的計算對漢英篇章銜接對齊語料庫的構(gòu)建具有重要的參考意義。由于兩小組同學(xué)進行雙盲標(biāo)注,標(biāo)注結(jié)果存在一定差異。討論過后,進一步規(guī)范標(biāo)注策略,對一些文檔標(biāo)注完善,個別誤差大的文檔進行重新標(biāo)注。
文獻[19]在基于逗號的漢語子句識別研究中,手工標(biāo)注了100篇文檔。實驗結(jié)果表明,最大熵分類器模型使用CTB 6.0提供的標(biāo)準(zhǔn)語法樹,最高準(zhǔn)確率為92.8%,使用Berkeley自動語法分析樹,最高準(zhǔn)確率是89.9%。本文開發(fā)了漢語子句切分平臺和英語子句切分平臺,利用最大熵、決策樹、貝葉斯等模型進行訓(xùn)練,然后分別進行漢語、英語子句的自動切分,得到中文自動切分準(zhǔn)確率90%,英文自動切分準(zhǔn)確率93%。在此基礎(chǔ)上,在文獻[21]中進行基于BiLSTM-CRF模型進行切分,漢英子句切分P、R、F分別為92.3%、94.4%、93.4%和95.5%、93.4%、94.4%。中文連接詞自動識別準(zhǔn)確率為92.5%,英文95.7%。
漢英連接詞的自動識別實驗中,中文連接詞自動識別準(zhǔn)確率為88.4%,英文為92.5%。文獻[20]對中文實驗結(jié)果表明,具有最佳識別效果的解說類的準(zhǔn)確率為82.5%,連接詞自動識別并分類的總正確率為89.1%。文獻[22]對英文顯式篇章關(guān)系識別實驗表明,連接詞識別正確率為92.5%,給定連接詞關(guān)系分類正確率為85.6%。實驗結(jié)果中,由于在關(guān)系類別分布中并列類所占比例最高,訓(xùn)練實例最多,并且連接詞的集中度較高,因此識別率相對較高。轉(zhuǎn)折類識別效果最差,一是因為關(guān)系類別分布中轉(zhuǎn)折類出現(xiàn)次數(shù)最少,二是因為有的轉(zhuǎn)折類連接詞同時對應(yīng)了其他的關(guān)系類別。
在最初的標(biāo)注過程中,發(fā)現(xiàn)標(biāo)注結(jié)果中真正形成指代鏈的實體詞較少,并且存在較多指代詞單獨成鏈的現(xiàn)象,最終造成不同標(biāo)注者的標(biāo)注結(jié)果存在較大差異。經(jīng)過反復(fù)的實踐和討論,最終統(tǒng)一標(biāo)注規(guī)范,將有較多指代詞的ACE Type為GPE、ORG、LOC、PERSON和DATE的實體詞標(biāo)注,存在較少實體詞,甚至往往僅有單獨一個實體詞的ACE Type為MONEY、PERCENT、EVENT、QUANTITY和CARDINAT等實體詞不再單獨標(biāo)注成鏈。
[例9]a: (中國)h1羽絨及其制品行業(yè)是(八十年代中期)d1開始快速發(fā)展的,全行業(yè)利用(中國)h2資源、人力優(yōu)勢,加上注重引進國外先進技術(shù)與設(shè)備,產(chǎn)品產(chǎn)量和質(zhì)量得以大幅度提高。據(jù)不完全統(tǒng)計,目前(中國)h3已有羽絨及制品加工企業(yè)(三千余家)c1,其中上規(guī)模的達(六百多家)c2,從業(yè)人員約(三十萬)c3,形成年產(chǎn)羽絨制品(五千多萬件)c4生產(chǎn)能力,年工業(yè)總產(chǎn)值達(八十億元)c5。通過(十余年)d2市場開拓,(中國)h4現(xiàn)已成為世界主要羽絨生產(chǎn)國和羽絨制品出口國,年出口羽絨近(三萬噸)c6、羽絨制品(二千多萬件)c7,創(chuàng)匯達(八點二億美元)c8,其中羽絨服裝出口額占行業(yè)出口總額(百分之五十)c9以上。
b: (China’s)h1’down and down products industry started its rapid development in (the mid '80s)d1’.The entire industry makes use of (China’s)h2’resources and manpower advantage, and additionally stresses introducing advanced foreign technology and equipment, thus increasing production volume and quality by a large margin.According to incomplete statistics, (China)h3’currently has (over 3,000)c1’down and down product enterprises, among which, those above scale have reached (more than 600)c2’, with employed staff of (about 300,000)c3’.It has an annual production capacity of 50 millionc4 down products with a total annual industrial output value reaching (8 billion yuan)c5’.Through (more than ten years’)d2’market development, (China)h4’has now become the world’s main down manufacturing country and down products export country, annually exporting(nearly 30,000 tons)c6’of down and (over 20 million)c7’down products, with earned foreign exchange reaching (820 million US dollars)c8’, including down clothing export values accounting for more than(50%)c9’of total industry export values.
如例9中ACE Type為GPE的實體詞有(h1~h4),依據(jù)對齊標(biāo)注原則,該實體詞可標(biāo)注成指代鏈。其中ACE Type為DATE的實體詞有d1和d2,因其僅有一個實體詞,不單獨標(biāo)注成鏈。ACE Type為CARDINAT的實體詞(c1~c4和c7)、ACE Type為MONEY的實體詞c5和c8、ACE Type為QUANTITY的實體詞c6以及ACE Type為PERCENT的實體詞c9不在要求標(biāo)注的實體詞范圍內(nèi),同樣不單獨標(biāo)注成鏈。
標(biāo)注中有一些指代詞要在特定語境中才能標(biāo)注,如例10中的 “中”(e1)、“華”(e2)和“中”(e5)若單獨出現(xiàn)時,并不能準(zhǔn)確判斷其具體含義。在本例中,根據(jù)其在文章中的語境,以及上下文信息,很容易判斷其與“中國”(e3和e4)形成指代銜接,將其(e1~e5)標(biāo)注在同一指代鏈,在對應(yīng)的英文中正確翻譯出“China”。同樣“韓”(q1)和“韓”(q4)與“韓國”(q2和q3)形成指代銜接,應(yīng)將其(q1~q4)標(biāo)注在同一指代鏈,對應(yīng)英文翻譯“South Korea”。
[例10]a: 近年來,(中)e1(韓)q1兩國之間的經(jīng)貿(mào)往來發(fā)展迅速。截止去年九月,(韓國)q2在(華)e2投資企業(yè)總數(shù)為五千八百八十三家,(中國)e3已成為(韓國)q3最大的投資對象國。據(jù)(中國)e4海關(guān)統(tǒng)計,一九九五年兩國貿(mào)易額已達一百六十九點八億美元,比前年增長百分之四十四點八。經(jīng)濟專家預(yù)計,今年(中)e5(韓)q4兩國貿(mào)易額將增至二百五十億美元。
b: In recent years, the economy and trade contacts between the countries of (China)e1’and (South Korea)q1’have been developing rapidly.By September of last year, the total number of (Korean)q2’enterprises investing in (China)e2’totaled 5,883.(China)e3’has become(Korea’s)q3’largest target country for investment.According to (Chinese)e4’Customs statistics, in 1995, trade between the two countries reached 16.98 billion US dollars, increasing 44.8% compared with that of the previous year.Economic experts estimate that this year trade between the two countries of (China)e5’and (South Korea)q4’would increase to 25 billion US dollars.
本文進行了漢英篇章銜接語料庫的標(biāo)注工作,主要實現(xiàn)了子句、連接詞、指代和省略的對齊標(biāo)注。漢英篇章銜接對齊語料庫的對齊標(biāo)注總原則是“單位對齊、詞對齊”,標(biāo)注語料的整體策略是以漢語為主、英語為輔,省略添加的原則是漢語或英語有對應(yīng)顯式詞出現(xiàn)。子句以漢語為主,將英語相應(yīng)的從句或短語和漢語子句對應(yīng)。連接詞對齊標(biāo)注連接詞位置及其語義關(guān)系,體現(xiàn)為管轄范圍和邏輯功能的對齊。單語中的指代信息構(gòu)成指代鏈,漢英指代鏈中的詞兩兩相互對應(yīng),漢英都省略的不做處理,主要處理漢語或者英語一方省略的情況。
在本文漢英銜接對齊標(biāo)注策略基礎(chǔ)上,選擇漢英平行文本進行了漢英篇章銜接資源的構(gòu)建,目前完成了200篇平行文檔的標(biāo)注工作。標(biāo)注中采用輔助平臺,對子句、連接詞、指代的標(biāo)注質(zhì)量分別進行評估,評估結(jié)果說明本文方法切實可行,簡單實驗結(jié)果表明本語料子句切分、連接詞識別具有較強的可計算性。
下一步工作將不斷完善本標(biāo)注策略,擴大標(biāo)注語料,進行指代和省略的計算分析工作。