馮文賀 ,李艷翠,任 函,周國棟
(1. 廣東外語外貿(mào)大學(xué) 語言工程與計(jì)算實(shí)驗(yàn)室,廣東 廣州 510006;2. 河南科技學(xué)院 中文系,河南 新鄉(xiāng) 453003;3. 河南科技學(xué)院 信息工程學(xué)院,河南 新鄉(xiāng) 453003;4. 蘇州大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 蘇州 215006)
漢英篇章結(jié)構(gòu)平行語料庫的對(duì)齊標(biāo)注評(píng)估
馮文賀1,2,李艷翠3,任 函1,周國棟4
(1. 廣東外語外貿(mào)大學(xué) 語言工程與計(jì)算實(shí)驗(yàn)室,廣東 廣州 510006;2. 河南科技學(xué)院 中文系,河南 新鄉(xiāng) 453003;3. 河南科技學(xué)院 信息工程學(xué)院,河南 新鄉(xiāng) 453003;4. 蘇州大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 蘇州 215006)
漢英篇章結(jié)構(gòu)平行語料庫是為漢英翻譯文本標(biāo)注對(duì)齊篇章結(jié)構(gòu)信息的語料庫,對(duì)齊標(biāo)注是其核心工作,基本原則是“結(jié)構(gòu)對(duì)齊、關(guān)系對(duì)齊”。該文基于所開發(fā)的對(duì)齊標(biāo)注平臺(tái),進(jìn)行人工對(duì)齊標(biāo)注實(shí)驗(yàn),提出切分對(duì)齊、結(jié)構(gòu)對(duì)齊、關(guān)系對(duì)齊、連接詞對(duì)齊、關(guān)系角色與中心對(duì)齊等對(duì)齊標(biāo)注任務(wù)的評(píng)估方法,并給出評(píng)估分析。實(shí)驗(yàn)表明,對(duì)齊標(biāo)注是構(gòu)建漢英篇章結(jié)構(gòu)平行語料庫的合理、有效工作方式。
篇章結(jié)構(gòu);平行語料庫;對(duì)齊標(biāo)注;結(jié)構(gòu)對(duì)齊;對(duì)齊評(píng)估
漢英篇章結(jié)構(gòu)平行語料庫(Chinese-English discourse treebank,CEDT)是為漢英翻譯文本標(biāo)注了對(duì)齊篇章結(jié)構(gòu)信息的語料庫[1]。例1給出了一個(gè)漢英篇章結(jié)構(gòu)對(duì)齊標(biāo)注文本。
例1現(xiàn)在,我代表國務(wù)院,A//@[條件] 向大會(huì)做政府工作報(bào)告,B@/// [目的]請(qǐng)予審議,C@/@[并列] 并請(qǐng)全國政協(xié)各位委員提出意見。D(《中國政府工作報(bào)告》,2014年)
On behalf of the State Council,1//@[條件] I now present to you the report on the work of the government2@/// [目的]for your deliberation,3@/@[并列] and I welcome comments on my report from the members of the National Committee of the Chinese People’s Political Consultative Conference (CPPCC).4
(說明: 例1中上標(biāo)的字母和數(shù)字分別表明漢英小句,“/”多少表明篇章結(jié)構(gòu)層次高低,篇章關(guān)系用[ ]標(biāo)記,連接詞用下劃線標(biāo)記,@標(biāo)明每一個(gè)關(guān)系中心項(xiàng)所在位置)
可以看出,這種對(duì)齊既要求語言單位對(duì)齊,也要求語言層次結(jié)構(gòu)對(duì)齊。結(jié)構(gòu)對(duì)齊是CEDT的核心理念,標(biāo)注了結(jié)構(gòu)對(duì)齊信息的雙語篇章結(jié)構(gòu)語料庫可以為機(jī)器翻譯等提供較為直接的雙語篇章結(jié)構(gòu)轉(zhuǎn)換知識(shí)。
現(xiàn)有漢英平行語料庫[2-4],一般僅進(jìn)行段落、句子等語言單位對(duì)齊,并不提供雙語篇章結(jié)構(gòu)等結(jié)構(gòu)對(duì)齊信息。而現(xiàn)有篇章結(jié)構(gòu)語料庫主要面向單語(如英語[5-6]、漢語[7-9])。這些工作篇章結(jié)構(gòu)體系不盡一致,也沒有基于雙語文本,由此,難以提供直接的漢英篇章結(jié)構(gòu)轉(zhuǎn)換知識(shí)。至今雙語篇章結(jié)構(gòu)知識(shí)資源還相當(dāng)匱乏,這直接制約著篇章機(jī)器翻譯等研究的進(jìn)展。
結(jié)構(gòu)對(duì)齊是漢英篇章結(jié)構(gòu)平行語料庫的關(guān)鍵所在,然而由于雙語差異等,實(shí)踐漢英篇章結(jié)構(gòu)對(duì)齊標(biāo)注相當(dāng)有挑戰(zhàn)性。漢英篇章結(jié)構(gòu)對(duì)齊標(biāo)注的可行性如何,還有待驗(yàn)證評(píng)估。本文對(duì)漢英篇章結(jié)構(gòu)對(duì)齊標(biāo)注進(jìn)行實(shí)驗(yàn)評(píng)估研究。
在篇章結(jié)構(gòu)模式上,CEDT采用連接依存樹模式[10],這種模式融合修辭結(jié)構(gòu)[11]的層次化結(jié)構(gòu)和賓州篇章模式的連接詞論元結(jié)構(gòu)。連接依存樹的主要特征: 篇章結(jié)構(gòu)為層次化結(jié)構(gòu),其中葉子節(jié)點(diǎn)為子句,內(nèi)部節(jié)點(diǎn)為連接詞,連接詞通過其層級(jí)地位表示篇章層次結(jié)構(gòu),通過其語義表示篇章關(guān)系,連接詞所連接的篇章單位根據(jù)篇章整體意圖區(qū)分主次,又根據(jù)語義關(guān)系區(qū)分不同關(guān)系角色。該模式已成功應(yīng)用于漢語篇章結(jié)構(gòu)語料庫構(gòu)建與分析技術(shù)研究[10-12]。
不過,CEDT并非各自獨(dú)立對(duì)漢英平行語料標(biāo)注篇章結(jié)構(gòu)。結(jié)構(gòu)對(duì)齊是CEDT的核心思想,基本原則是“結(jié)構(gòu)對(duì)齊,關(guān)系對(duì)齊”,基礎(chǔ)假設(shè)在于具有對(duì)譯關(guān)系的篇章,其內(nèi)部的層次結(jié)構(gòu)和關(guān)系也一一對(duì)應(yīng)。本質(zhì)上篇章結(jié)構(gòu)是一種邏輯語義結(jié)構(gòu),對(duì)于一個(gè)優(yōu)質(zhì)翻譯文本,源語的因果、轉(zhuǎn)折等邏輯語義關(guān)系必然在目的語中反映,而且關(guān)系的結(jié)構(gòu)層級(jí)也會(huì)得到反映?!敖Y(jié)構(gòu)對(duì)齊、關(guān)系對(duì)齊”本質(zhì)上是邏輯語義結(jié)構(gòu)對(duì)齊。圖1是 例1的結(jié)構(gòu)對(duì)齊圖。
圖1 例1的漢英篇章結(jié)構(gòu)對(duì)齊標(biāo)注實(shí)例注: 箭頭指向關(guān)系中心項(xiàng),“*”表示無顯式連接詞
基于以上思想,形成漢英篇章結(jié)構(gòu)的對(duì)齊標(biāo)注任務(wù)及對(duì)齊標(biāo)注策略,主要包括:
(1) 切分對(duì)齊標(biāo)注: 雙語基本篇章單位(elementary discourse unit,簡稱EDU或子句)的對(duì)齊。如圖1所示,例1的漢英EDU對(duì)齊為: A-1、B-2、C-3、D-4。切分對(duì)齊標(biāo)注的基本策略以漢語子句分析[13]為指導(dǎo)標(biāo)準(zhǔn),對(duì)齊切分英語。
(2) 結(jié)構(gòu)對(duì)齊標(biāo)注: 雙語相應(yīng)切分的層次結(jié)構(gòu)對(duì)齊。如圖1所示,漢語層次結(jié)構(gòu)與相應(yīng)英語結(jié)構(gòu)一一對(duì)應(yīng),即((A (B C))D) —— ((1 (2 3))4)。層次結(jié)構(gòu)對(duì)齊標(biāo)注的基本策略以英語為指導(dǎo)標(biāo)準(zhǔn),對(duì)齊分析漢語。
(3) 關(guān)系對(duì)齊標(biāo)注: 對(duì)于雙語對(duì)齊的層次結(jié)構(gòu),其相應(yīng)篇章關(guān)系對(duì)齊。如圖1所示,漢語的層次結(jié)構(gòu)關(guān)系與英語層次結(jié)構(gòu)關(guān)系一一對(duì)應(yīng),即(并列(條件A (目的B C))D) —— (并列(條件1 (目的2 3))4)。篇章關(guān)系對(duì)齊標(biāo)注的基本策略以英語為指導(dǎo)標(biāo)準(zhǔn),對(duì)齊標(biāo)注漢語。
(4) 連接詞對(duì)齊標(biāo)注: 對(duì)于雙語對(duì)齊的層次結(jié)構(gòu),其相應(yīng)的篇章連接詞對(duì)齊。如圖1所示,漢語的連接詞及其管轄與英語的層次結(jié)構(gòu)及其管轄一一對(duì)應(yīng),即(并(*A (*B C))D) —— (and(*1 (for2 3))4)。連接詞對(duì)齊標(biāo)注的基本策略以雙語對(duì)齊的結(jié)構(gòu)層次為基礎(chǔ),標(biāo)注雙語實(shí)際相應(yīng)的連接詞。
(5) 關(guān)系角色對(duì)齊標(biāo)注: 對(duì)于雙語對(duì)齊的層次結(jié)構(gòu)及關(guān)系,其相應(yīng)的篇章關(guān)系角色項(xiàng)對(duì)齊。例1各關(guān)系的角色項(xiàng)對(duì)應(yīng)的線性順序位置正好一致,而在另外情況下可能不一致,如因果關(guān)系,漢語可能為前因后果,相應(yīng)英語卻前果后因。關(guān)系角色對(duì)齊標(biāo)注的基本策略以漢語的關(guān)系角色位置分布常規(guī)為指導(dǎo)標(biāo)準(zhǔn),標(biāo)注雙語具體關(guān)系角色是否符合這一常規(guī)。
(6) 中心對(duì)齊標(biāo)注: 對(duì)于雙語對(duì)齊的層次結(jié)構(gòu)及關(guān)系,其中心項(xiàng)對(duì)齊。如圖1所示,目的關(guān)系中,雙語的“行為”均為中心項(xiàng),而“目的”均為非中心項(xiàng)。中心對(duì)齊標(biāo)注的基本策略以英語主從句等結(jié)構(gòu)形式區(qū)分為指導(dǎo),對(duì)齊標(biāo)注具體關(guān)系的中心。
以上對(duì)齊標(biāo)注策略中,子句對(duì)齊分析的漢語(源語)優(yōu)先策略保證對(duì)齊分析始終在篇章范疇內(nèi),又反映篇章單位對(duì)應(yīng)句法結(jié)構(gòu)等情況;結(jié)構(gòu)與關(guān)系對(duì)齊分析的英語(目的語)優(yōu)先策略保證對(duì)齊結(jié)構(gòu)是翻譯者構(gòu)造的翻譯結(jié)構(gòu);連接詞、關(guān)系角色及中心的對(duì)齊標(biāo)注策略,保證基于結(jié)構(gòu)對(duì)齊準(zhǔn)確,反映雙語的篇章語法形式差異。
CEDT的價(jià)值在于: 第一,不同于單語篇章結(jié)構(gòu)分析,這種雙語篇章結(jié)構(gòu)對(duì)齊分析,是一種反映了翻譯關(guān)系的篇章結(jié)構(gòu)分析。對(duì)比例2的A、B及例1,其對(duì)于相同漢語語段,不同翻譯者有不同的結(jié)構(gòu)理解,由此有不同的翻譯結(jié)構(gòu)。本質(zhì)上CEDT構(gòu)造的對(duì)齊結(jié)構(gòu)反映的是翻譯者的理解結(jié)構(gòu)(源語)與翻譯結(jié)構(gòu)(雙語)。由此,CEDT對(duì)于翻譯研究有更直接的價(jià)值。第二,不同于一般平行語料庫,CEDT既有單位對(duì)齊又有結(jié)構(gòu)對(duì)齊,并且基于結(jié)構(gòu)對(duì)齊,標(biāo)注了雙語的連接詞、中心等重要語篇屬性。由此,CEDT可以提供更豐富的雙語篇章結(jié)構(gòu)翻譯信息。具體而言,CEDT在篇章單位(含其主從地位)、篇章結(jié)構(gòu)與關(guān)系(含關(guān)系角色順序)、連接詞等方面的漢英篇章結(jié)構(gòu)翻譯等研究中起基礎(chǔ)性資源作用。
例2(A) 現(xiàn)在,我代表國務(wù)院,//@[條件] 向大會(huì)作政府工作報(bào)告,@///[目的]請(qǐng)各位代表審議,@/@ [并列]并請(qǐng)全國政協(xié)委員提出意見。(中國政府工作報(bào)告,2011)
On behalf of the State Council,1//@[條件] I now present to you my report on the work of the government2@///[目的]for your deliberation and approval.3@/@ [并列]I also invite the members of the National Committee of the Chinese People’s Political Consultative Conference (CPPCC) to submit comments and suggestions.4(2011譯)
(B) 現(xiàn)在,我代表國務(wù)院,/@ [條件]向大會(huì)報(bào)告政府工作,//@[目的] 請(qǐng)各位代表審議,@///@[并列] 并請(qǐng)全國政協(xié)委員提出意見。(中國政府工作報(bào)告,2012)
On behalf of the State Council,1/@ [條件]I now present to you my report on the work of the government2//@[目的] for your deliberation and approval3@///@[并列] and for comments and suggestions from the members of the National Committee of the Chinese People’s Political Consultative Conference (CPPCC).4(2012譯)
基于對(duì)齊標(biāo)注任務(wù)和策略,開發(fā)了對(duì)齊標(biāo)注平臺(tái)[1],以方便大規(guī)模語料庫的創(chuàng)建與應(yīng)用。本文在標(biāo)注平臺(tái)上進(jìn)行人工對(duì)齊標(biāo)注實(shí)驗(yàn),以考察這種對(duì)齊標(biāo)注策略的可行性。
3.1 語料選擇
標(biāo)注實(shí)驗(yàn)語料為2014年《中國政府工作報(bào)告》(漢英雙語)的前半部分,共16 000多個(gè)字/詞。對(duì)于該語料,標(biāo)注者A標(biāo)注有效標(biāo)注段落156個(gè),共1 136個(gè)子句,816個(gè)關(guān)系;標(biāo)注者B標(biāo)注有效標(biāo)注段落156個(gè),共1 163個(gè)子句,819個(gè)關(guān)系。
語料選擇的主要考慮: 第一,政府公文及其英譯嚴(yán)謹(jǐn)規(guī)范,可以較好實(shí)現(xiàn)篇章結(jié)構(gòu)的對(duì)齊標(biāo)注;第二,語段的長度和深度具有代表性,包含7個(gè)左右子句,結(jié)構(gòu)深度在3~4層,比較符合一般的段落長度和深度。
3.2 標(biāo)注訓(xùn)練
兩名中文系大四學(xué)生在項(xiàng)目導(dǎo)師指導(dǎo)下進(jìn)行標(biāo)注訓(xùn)練,隨機(jī)從《中國政府工作報(bào)告》選擇十個(gè)平行段落標(biāo)注訓(xùn)練語料。標(biāo)注訓(xùn)練主要由三個(gè)階段構(gòu)成: (1)導(dǎo)師示范標(biāo)注兩個(gè)段落,講解主要標(biāo)注策略及標(biāo)注規(guī)范與標(biāo)注平臺(tái)操作;(2)學(xué)生各自完成剩余八個(gè)段落的標(biāo)注;(3)兩名學(xué)生各自與導(dǎo)師校對(duì)自行標(biāo)注的八個(gè)段落,校對(duì)分三次完成,主要討論存在問題及校正與標(biāo)注策略方法等。在此基礎(chǔ)上,兩名學(xué)生各自進(jìn)行實(shí)驗(yàn)語料標(biāo)注。
3.3 對(duì)齊標(biāo)注實(shí)現(xiàn)
對(duì)齊標(biāo)注工作在對(duì)齊標(biāo)注平臺(tái)上實(shí)現(xiàn),功能包括切分對(duì)齊標(biāo)注、層次結(jié)構(gòu)對(duì)齊標(biāo)注、連接詞對(duì)齊標(biāo)注、關(guān)系對(duì)齊標(biāo)注、角色分布對(duì)齊標(biāo)注、中心對(duì)齊標(biāo)注。對(duì)齊標(biāo)注主要操作規(guī)范: (1)從上到下,從左至右,雙語步步對(duì)齊分析;(2)雙語都是句群結(jié)構(gòu),以漢語分析對(duì)齊到英語分析,主要方便母語為漢語的標(biāo)注者的理解分析,而雙語句群結(jié)構(gòu)一般完全對(duì)應(yīng);(3)復(fù)句結(jié)構(gòu)的對(duì)齊標(biāo)注以英語分析為指導(dǎo)。主要考慮英語有較好形式標(biāo)志,也從根本上反映翻譯結(jié)構(gòu)。
3.4 標(biāo)注結(jié)果
標(biāo)注結(jié)果保存為XML格式,雙語標(biāo)注結(jié)果各自獨(dú)立保存。漢英雙語的對(duì)齊關(guān)系可通過段落號(hào)(P ID)和段內(nèi)關(guān)系號(hào)(R ID)體現(xiàn)。例1的部分對(duì)齊標(biāo)注保存結(jié)果見圖2。
中文標(biāo)注結(jié)果(限于篇幅僅給出第一層的關(guān)系,英文同):
標(biāo)注一致性(consistency)是衡量語料庫標(biāo)注質(zhì)量的重要標(biāo)準(zhǔn),也是衡量標(biāo)注模式可行性的關(guān)鍵標(biāo)準(zhǔn)。不同理論下的篇章結(jié)構(gòu)語料庫一致性評(píng)估內(nèi)容有所差異,如針對(duì)修辭結(jié)構(gòu)和賓州篇章模式的評(píng)估[5,9,13]。這些語料庫均為單語,還不涉及雙語結(jié)構(gòu)對(duì)齊標(biāo)注的評(píng)估。對(duì)CEDT的對(duì)齊標(biāo)注評(píng)估,既要考慮篇章結(jié)構(gòu)的獨(dú)特性,又要考慮雙語結(jié)構(gòu)對(duì)齊的獨(dú)特性。
對(duì)兩名標(biāo)注者A和B的共同標(biāo)注語料進(jìn)行標(biāo)注一致性分析。根據(jù)CEDT的對(duì)齊標(biāo)注任務(wù),對(duì)雙語的切分、結(jié)構(gòu)、關(guān)系、連接詞、關(guān)系角色、中心等對(duì)齊標(biāo)注項(xiàng)目進(jìn)行評(píng)估。其中結(jié)構(gòu)對(duì)齊是基礎(chǔ)評(píng)估,關(guān)系、連接詞、關(guān)系角色、中心等的對(duì)齊評(píng)估在結(jié)構(gòu)對(duì)齊基礎(chǔ)上進(jìn)行評(píng)估。在每一個(gè)評(píng)估項(xiàng)目上,均考慮兩名標(biāo)注者的漢語標(biāo)注一致性、英語標(biāo)注一致性、漢英混合標(biāo)注一致性、漢英對(duì)齊標(biāo)注一致性四個(gè)方面:
(1) 漢語標(biāo)注一致性: 計(jì)算兩名標(biāo)注者對(duì)相同漢語文本標(biāo)注的一致性。
(2) 英語標(biāo)注一致性: 計(jì)算兩名標(biāo)注者對(duì)相同英語文本標(biāo)注的一致性。
(3) 漢英混合標(biāo)注一致性: 計(jì)算兩名標(biāo)注者對(duì)所有漢語、英語文本標(biāo)注的一致性。
(4) 漢英對(duì)齊標(biāo)注一致性: 計(jì)算兩名標(biāo)注者對(duì)相同文本的漢語標(biāo)注一致且相應(yīng)英語對(duì)齊文本標(biāo)注也一致的一致性。
一致性評(píng)估主要計(jì)算標(biāo)注一致率,即考察兩名標(biāo)注者標(biāo)注的一致內(nèi)容與所有標(biāo)注內(nèi)容之比,一致率=A∩B/ AUB。對(duì)于不同的對(duì)齊標(biāo)注任務(wù),其計(jì)算內(nèi)容根據(jù)具體情況有所不同。
另外,也對(duì)標(biāo)注效率進(jìn)行了評(píng)估。
4.1 切分對(duì)齊標(biāo)注
4.1.1 評(píng)估方法
切分對(duì)齊即基本篇章單位(子句)對(duì)齊。評(píng)估方法有二。
切分對(duì)齊I: 計(jì)算所有可能切分的標(biāo)注一致性。漢語子句的切分位置均有標(biāo)點(diǎn)標(biāo)記,對(duì)可能作為切分標(biāo)記的標(biāo)點(diǎn)進(jìn)行切分與否的一致性計(jì)算。英語的子句切分并不一定以標(biāo)點(diǎn)作為標(biāo)記切分,形式上空格(實(shí)質(zhì)是任意單詞或標(biāo)點(diǎn))均可做切分標(biāo)記,對(duì)任一空格可否作為切分標(biāo)記進(jìn)行一致性計(jì)算。
切分對(duì)齊II: 計(jì)算不同標(biāo)注者所有切分(AUB)中共同切分(A∩B)的一致性。對(duì)于句子位置SentencePosition="X1…X2|Y1…Y2",計(jì)算A、B標(biāo)注切分位置相同的情況。
這里方法I考慮了所有可能的切分結(jié)果,可以反映切分的分析難度,并且該方法和自動(dòng)切分過程一致,便于和自動(dòng)切分結(jié)果對(duì)比。而方法II根據(jù)標(biāo)注者的具體標(biāo)注結(jié)果進(jìn)行計(jì)算,可以準(zhǔn)確反映標(biāo)注者間的一致程度,并可統(tǒng)一漢英語的切分評(píng)估標(biāo)準(zhǔn),便于跨語言比較。
4.1.2 結(jié)果與分析
表1顯示,切分對(duì)齊表現(xiàn)出較好的一致性,“漢語一致”可達(dá)0.971(共有需要判斷的標(biāo)點(diǎn)位置700個(gè),A、B均判斷切分395個(gè),均不切分285個(gè),A切分B不切分7個(gè),A不切分B切分13個(gè))/0.968(A、B共切分408個(gè)標(biāo)點(diǎn),A、B均切分395個(gè)),“英語一致”可達(dá)0.992(英文共有需要判斷的位置6 974個(gè),A、B均切分514個(gè),A、B均不切分6 403個(gè),A切分B不切分 22個(gè),A不切分B切分35個(gè))/0.936(A、B共切分位置549個(gè),A、B均切分514個(gè)),最嚴(yán)格情況下(“漢英對(duì)齊一致”)“切分對(duì)齊II”也可達(dá)到0.909的一致率。然而,“漢英對(duì)齊一致”還有待進(jìn)一步提高,相比“漢語一致”(0.968)還有一定提高空間。漢英對(duì)齊一致切分制約著各項(xiàng)對(duì)齊工作的性能,其進(jìn)一步提高具有重要性和必要性。
表1 漢英篇章結(jié)構(gòu)的切分對(duì)齊標(biāo)注一致率
值得注意,在“切分對(duì)齊I”下,“英語一致”好于“漢語一致”(0.992/0.943>0.971/0.941),而在“切分對(duì)齊II”下,“漢語一致”好于“英語一致”(0.968>0.936),這是因?yàn)樵贗中漢英一致性計(jì)算的基數(shù)不一致,漢語僅對(duì)有限標(biāo)點(diǎn)符號(hào)計(jì)算,而英語卻對(duì)任一空格計(jì)算,由于空格不切分的情況較多且容易判斷,這就使得英語的切分一致性表現(xiàn)得好于漢語。
然而實(shí)際是漢語切分好于英語。這一結(jié)果可以在“切分對(duì)齊II”下得到顯示(0.968>0.936),此時(shí)雙語均采用同樣的對(duì)齊評(píng)估標(biāo)準(zhǔn)。漢語切分對(duì)齊好于英語,是因?yàn)闈h語切分有標(biāo)點(diǎn)做標(biāo)記,相對(duì)容易;而英語切分并不以標(biāo)點(diǎn)為標(biāo)記,具體切分位置容易判斷錯(cuò)誤。所以,相比“切分對(duì)齊I”,“切分對(duì)齊II”可以更準(zhǔn)確地反映雙語對(duì)齊效果差異。
可從兩方面改善切分對(duì)齊標(biāo)注: 第一,注意英語切分對(duì)齊標(biāo)注的位置精準(zhǔn)性。第二,進(jìn)一步在漢語指導(dǎo)下,實(shí)現(xiàn)英語切分對(duì)齊,并從根本上提高漢英切分對(duì)齊一致的性能。
4.2 結(jié)構(gòu)對(duì)齊標(biāo)注
4.2.1 評(píng)估方法
對(duì)于結(jié)構(gòu)對(duì)齊,采用三種方法進(jìn)行評(píng)估。
篇章單位對(duì)齊: 計(jì)算不同標(biāo)注者所標(biāo)注語料中所有篇章單位的一致性。即對(duì)于一個(gè)標(biāo)注切分SentencePosition=“X1…X2|Y1…Y2”,計(jì)算不同標(biāo)注者所有標(biāo)注切分中,任意一個(gè)切分塊“X1…X2”或“Y1…Y2”之間的一致性。這種算法的依據(jù)在于,不同層級(jí)上的篇章單位首尾跨度不同,所以篇章單位的跨度一致性一定程度上可以反映篇章結(jié)構(gòu)對(duì)齊。
論元部分對(duì)齊: 對(duì)于一個(gè)相同的切分位置,計(jì)算不同標(biāo)注者對(duì)于該切分的左論元或右論元的一致性。即對(duì)于一個(gè)標(biāo)注切分SentencePosition=“X1…X2|Y1…Y2”,計(jì)算A=“X1…X2”=B,或A=“Y1…Y2”=B。與篇章單位對(duì)齊不同之處在于,這種對(duì)齊基于一個(gè)共同切分位置(X2|Y1),比對(duì)對(duì)象要求同時(shí)是該切分的左論元(“X1…X2”)或右論元(“Y1…Y2”)。相對(duì)于篇章單位對(duì)齊,論元部分對(duì)齊要求嚴(yán)格一些。
論元完全對(duì)齊: 對(duì)于一個(gè)相同的切分位置,計(jì)算不同標(biāo)注者對(duì)于該切分的左論元和右論元的一致性。相比論元部分對(duì)齊,這種對(duì)齊要求同一個(gè)切分位置(X2|Y1)的左論元(X1…X2)和右論元(Y1…Y2)完全一致。對(duì)于一個(gè)切分或一個(gè)關(guān)系來說,這種對(duì)齊是完全對(duì)齊。
4.2.2 結(jié)果與分析
表2顯示,(1)“篇章單位對(duì)齊”一致率整體基本達(dá)到0.80以上,由于篇章單位有大有小,處于不同層級(jí),這一效果顯示漢英篇章結(jié)構(gòu)對(duì)齊呈現(xiàn)良好一致性。
表2 漢英篇章結(jié)構(gòu)的層次結(jié)構(gòu)對(duì)齊標(biāo)注一致率
(2) 在切分位置對(duì)齊的情況下,論元部分對(duì)齊達(dá)到更好效果,整體平均約0.90(漢語共標(biāo)注關(guān)系594個(gè),論元部分對(duì)齊551個(gè);英語標(biāo)注關(guān)系605個(gè),論元部分對(duì)齊533個(gè)),說明切分位置的準(zhǔn)確把握,對(duì)于結(jié)構(gòu)對(duì)齊是非常有幫助的。
(3) 論元完全對(duì)齊的效果基本可以,一致率整體為0.630~0.709(漢語標(biāo)注關(guān)系594個(gè),論元完全對(duì)齊421個(gè);英語標(biāo)注關(guān)系605個(gè),論元完全對(duì)齊381個(gè)),但還不盡如人意。說明對(duì)每個(gè)關(guān)系的管轄范圍還不夠精準(zhǔn)。其原因與結(jié)構(gòu)理解歧義等有關(guān)。如例3的A、B,切分雖然完全一致,但由于英語的狀語管轄(On behalf of the State Council)歧義,A、B的論元完全對(duì)齊毫無一致。關(guān)于結(jié)構(gòu)對(duì)齊困難見文獻(xiàn)[14]。
(4) 各種對(duì)齊的“英語一致”整體低于“漢語一致”,原因在于漢語切分有標(biāo)點(diǎn)符號(hào)做標(biāo)記,較易統(tǒng)一,而英語不以標(biāo)點(diǎn)符號(hào)作標(biāo)記,準(zhǔn)確切分位置難于確定,導(dǎo)致錯(cuò)誤和不一致。
結(jié)構(gòu)對(duì)齊制約進(jìn)一步的關(guān)系、連接詞、中心等對(duì)齊標(biāo)注,還需提高結(jié)構(gòu)對(duì)齊,特別是論元完全對(duì)齊的水平??蓮膬煞矫娓倪M(jìn)結(jié)構(gòu)對(duì)齊標(biāo)注: 第一,針對(duì)英文,提高精確結(jié)構(gòu)切分水平;第二,進(jìn)一步提高切分點(diǎn)的對(duì)齊水平,從而以對(duì)齊切分點(diǎn)為基礎(chǔ)明確論元管轄。
以上評(píng)估沒有考慮句群結(jié)構(gòu)和復(fù)句結(jié)構(gòu)的不同,一般來說復(fù)句結(jié)構(gòu)對(duì)齊標(biāo)注難度大,但對(duì)于翻譯的指導(dǎo)意義更大。進(jìn)一步的評(píng)估研究中,將考慮對(duì)句群和復(fù)句結(jié)構(gòu)賦予不同權(quán)重。
例3(A) 現(xiàn)在,我代表國務(wù)院,///向大會(huì)做政府工作報(bào)告,//請(qǐng)予審議,/并請(qǐng)全國政協(xié)各位委員提出意見。(《中國政府工作報(bào)告》,2014年)
On behalf of the State Council,/// I now present to you the report on the work of the government//for your deliberation,/and I welcome comments on my report from the members of the National Committee of the Chinese People’s Political Consultative Conference (CPPCC).(2014譯)
(B)現(xiàn)在,我代表國務(wù)院,/向大會(huì)作政府工作報(bào)告,///請(qǐng)予審議,//并請(qǐng)全國政協(xié)各位委員提出意見。
On behalf of the State Council,/I now present to you the report on the work of the government///for your deliberation,//and I welcome comments on my report from the members of the National Committee of the Chinese People’s Political Consultative Conference (CPPCC).
4.3 關(guān)系對(duì)齊標(biāo)注
4.3.1 評(píng)估方法
在結(jié)構(gòu)對(duì)齊(論元完全對(duì)齊)基礎(chǔ)上,計(jì)算不同標(biāo)注者關(guān)系類型*共設(shè)置并列、順承、選擇、遞進(jìn)、對(duì)比、因果、假設(shè)、條件、目的、推斷、背景、轉(zhuǎn)折、讓步、解說、總分、例證、評(píng)價(jià)等共17個(gè)類,本語料涉及較多的類別主要有: 并列、解說、目的、因果、條件、評(píng)價(jià)等。的標(biāo)注一致性。
4.3.2 結(jié)果與分析
表3顯示,關(guān)系對(duì)齊標(biāo)注整體達(dá)到較高的一致率,其中最嚴(yán)格的“漢英對(duì)齊一致”可達(dá)0.835(A、B標(biāo)注漢英結(jié)構(gòu)位置都相同的有802個(gè),其中關(guān)系相同的有670個(gè))。同時(shí)顯示,“漢語一致”和“英語一致”的對(duì)齊情況接近(0.872|0.860)。英語關(guān)系形式(連接詞)標(biāo)記多,易于判斷,對(duì)齊策略采用以英語為指導(dǎo)標(biāo)準(zhǔn)的關(guān)系對(duì)齊,評(píng)估顯示這種策略非常有效。
表3 漢英篇章結(jié)構(gòu)的關(guān)系對(duì)齊標(biāo)注一致率
關(guān)系對(duì)齊還有一定提高空間,對(duì)齊結(jié)果顯示,“英語一致”還略遜于“漢語一致”(0.860<0.872),說明英語的關(guān)系判定還有一些難點(diǎn)。根據(jù)分析[14],其難點(diǎn)在無關(guān)系詞、關(guān)系詞一詞多義、主從復(fù)句和句內(nèi)關(guān)系等情況。
4.4 連接詞對(duì)齊標(biāo)注
4.4.1 評(píng)估方法
連接詞對(duì)齊標(biāo)注評(píng)估在結(jié)構(gòu)對(duì)齊(論元完全對(duì)齊)的基礎(chǔ)上進(jìn)行。從以下三個(gè)方面評(píng)估。
(1) 顯隱對(duì)齊: 同一結(jié)構(gòu)下,對(duì)連接詞顯式、隱式的標(biāo)注一致性計(jì)算。
(2) 顯式連接詞對(duì)齊: 同一結(jié)構(gòu)下,對(duì)顯式連接詞的具體取值一致性進(jìn)行計(jì)算。
(3) 全部連接詞對(duì)齊: 對(duì)于同一結(jié)構(gòu)關(guān)系,對(duì)連接詞的具體取值進(jìn)行比對(duì)計(jì)算。
4.4.2 結(jié)果與分析
表4顯示,顯隱對(duì)齊標(biāo)注一致率非常高。其中,漢英混合一致率達(dá)0.974(A、B標(biāo)注結(jié)構(gòu)位置相同的有802個(gè),顯隱關(guān)系相同的有781個(gè))。
表4 漢英篇章結(jié)構(gòu)的連接詞對(duì)齊標(biāo)注一致率
表4又顯示,對(duì)于連接詞對(duì)齊標(biāo)注,“英語一致”明顯高于“漢語一致”,特別表現(xiàn)在“連接詞對(duì)齊(顯式)”0.950 > 0.400(英語結(jié)構(gòu)位置相同的顯式連接詞位置201個(gè),其中連接詞相同的有191個(gè);漢語結(jié)構(gòu)位置相同的顯式連接詞位置有32個(gè),其中連接詞相同的有13個(gè))和“連接詞對(duì)齊(全部)”上0.690>0.278(英語結(jié)構(gòu)位置相同的連接詞位置381個(gè),其中連接詞相同的有263個(gè);漢語結(jié)構(gòu)位置相同的連接詞位置421個(gè),其中連接詞相同的有117個(gè))。這一結(jié)果不難理解,英語顯式連接詞多,且對(duì)于連接詞有比較共性的認(rèn)識(shí);漢語顯式連接詞少,且對(duì)于連接詞的認(rèn)識(shí)分歧較大。這也證明在關(guān)系對(duì)齊標(biāo)注時(shí)以英語為指導(dǎo)性標(biāo)準(zhǔn)的可靠性。
結(jié)果又顯示,“連接詞對(duì)齊(全部)”低于“連接詞對(duì)齊(顯式)”,這是因?yàn)槲覀優(yōu)殡[式連接詞添加了可以表達(dá)該結(jié)構(gòu)關(guān)系的連接詞,由于表達(dá)同一結(jié)構(gòu)關(guān)系的連接詞可能有多個(gè),比如表達(dá)“并列關(guān)系”的有“并且、同時(shí)”等,這就使得對(duì)齊較難統(tǒng)一。
可從兩方面改進(jìn)連接詞對(duì)齊標(biāo)注: 第一,進(jìn)一步明確漢語連接詞的定義,從而增強(qiáng)漢語顯式連接詞的對(duì)齊標(biāo)注效果;第二,規(guī)范隱式連接詞的添加,減少隱式連接詞添加的分歧。
4.5 關(guān)系角色與中心的對(duì)齊標(biāo)注
4.5.1 評(píng)估方法
相對(duì)于一定的結(jié)構(gòu)關(guān)系,對(duì)關(guān)系角色和中心的對(duì)齊標(biāo)注的評(píng)估在結(jié)構(gòu)對(duì)齊(論元完全對(duì)齊)的基礎(chǔ)上進(jìn)行。
關(guān)系角色對(duì)齊: 對(duì)于相同的結(jié)構(gòu),計(jì)算不同標(biāo)注者對(duì)于其關(guān)系角色的分布取值(“符合常規(guī)”和“不合常規(guī)”)的標(biāo)注一致性。
關(guān)系中心對(duì)齊: 對(duì)于相同的結(jié)構(gòu),計(jì)算不同標(biāo)注者對(duì)于其關(guān)系中心分布位置取值[(1)中心在前;(2)中心在后;(3)前后均為中心]的標(biāo)注一致性。
4.5.2 結(jié)果與分析
表5中,關(guān)系角色對(duì)齊“漢英混合一致”、“漢語一致”和“英語一致”的一致率分別為0.961、0.957和0.966,其中,A、B標(biāo)注漢英結(jié)構(gòu)位置相同的有802個(gè),角色相同的有771個(gè);漢語結(jié)構(gòu)位置相同的有421個(gè),角色相同的有403個(gè);英語結(jié)構(gòu)位置相同的有381個(gè),角色相同的有368個(gè)。
表5 漢英篇章結(jié)構(gòu)的關(guān)系角色與中心對(duì)齊標(biāo)注一致率
關(guān)系中心對(duì)齊“漢英混合一致”“漢語一致”“英語一致”均接近85%。其中,漢英結(jié)構(gòu)位置相同的有802個(gè),中心相同的有676個(gè);漢語結(jié)構(gòu)位置相同的有421個(gè),中心相同的有355個(gè);英語結(jié)構(gòu)位置相同的有381個(gè),中心相同的有321個(gè)。
表5顯示,漢語和英語的“關(guān)系角色對(duì)齊”“關(guān)系中心對(duì)齊”標(biāo)注一致率整體較高。同時(shí)呈現(xiàn)兩個(gè)特點(diǎn): 第一,兩種對(duì)齊水平基本相同,表現(xiàn)出語言平衡性;第二,兩種對(duì)齊一致率有差異,“關(guān)系角色對(duì)齊”高于“關(guān)系中心對(duì)齊”。前者的原因在于,這兩項(xiàng)對(duì)齊工作均采用同步對(duì)齊標(biāo)注的策略,即對(duì)于同一個(gè)關(guān)系項(xiàng)一般總是同時(shí)應(yīng)用于漢英雙語標(biāo)注,所以表現(xiàn)出雙語對(duì)齊標(biāo)注一致的平衡性。后者的原因在于,兩項(xiàng)對(duì)齊工作采用不同的對(duì)齊標(biāo)注指導(dǎo)標(biāo)準(zhǔn),“關(guān)系角色對(duì)齊”以漢語角色分布常規(guī)為標(biāo)準(zhǔn),標(biāo)準(zhǔn)易于把握;而“關(guān)系中心對(duì)齊”主要以英語的主從句等形式為指導(dǎo)標(biāo)準(zhǔn),對(duì)于沒有顯性形式的情況則難以把握。
改善中心對(duì)齊的關(guān)鍵是,對(duì)于英語沒有形式標(biāo)記的情況,提出明確的中心判定標(biāo)準(zhǔn)。
4.6 標(biāo)注效率
對(duì)標(biāo)注效率進(jìn)行評(píng)估。根據(jù)標(biāo)注語料的時(shí)間屬性取值,計(jì)算每一個(gè)關(guān)系標(biāo)注的耗費(fèi)時(shí)間(秒/關(guān)系)。每一個(gè)關(guān)系標(biāo)注,包含切分、結(jié)構(gòu)、關(guān)系、連接詞、角色、中心等全部標(biāo)注。表6中,“漢語關(guān)系”計(jì)算只考慮漢語 關(guān)系標(biāo)注所用時(shí)間; “英語關(guān)系”計(jì)算只考慮英語關(guān)系標(biāo)注所用時(shí)間; “漢英混合關(guān)系”對(duì)全部漢英關(guān)系標(biāo)注所用時(shí)間計(jì)算; “漢英對(duì)齊關(guān)系”
表6 漢英篇章結(jié)構(gòu)標(biāo)注耗時(shí)分析(秒/關(guān)系)
計(jì)算對(duì)同一個(gè)關(guān)系,標(biāo)注完漢語和所對(duì)齊的英語所用的時(shí)間。
表6顯示,篇章結(jié)構(gòu)關(guān)系標(biāo)注的效率較高,一個(gè)“漢英混合關(guān)系”的標(biāo)注平均時(shí)間為30秒,一對(duì)“漢英對(duì)齊關(guān)系”標(biāo)注平均耗時(shí)60秒。相比漢語,英語的標(biāo)注效率更高(23<37;137<361;4<8)。這一方面與英語有較多形式標(biāo)記容易判斷有關(guān);另一方面可能也與理解和標(biāo)注策略有關(guān),標(biāo)注者的母語是漢語,總是傾向于從漢語理解入手,初步理解后才進(jìn)行英語分析及對(duì)齊標(biāo)注。
漢英篇章結(jié)構(gòu)平行語料庫對(duì)基于篇章結(jié)構(gòu)的機(jī)器翻譯研究等起基礎(chǔ)性作用,其研制具有重要理論和實(shí)踐意義。結(jié)構(gòu)對(duì)齊是漢英篇章結(jié)構(gòu)平行語料庫的核心工作機(jī)制,本文在“結(jié)構(gòu)對(duì)齊、關(guān)系對(duì)齊”的標(biāo)注策略指導(dǎo)下,進(jìn)行了漢英篇章結(jié)構(gòu)的對(duì)齊標(biāo)注實(shí)驗(yàn),提出了對(duì)齊標(biāo)注的評(píng)估方法,并進(jìn)行了實(shí)驗(yàn)結(jié)果分析。實(shí)驗(yàn)結(jié)果表明,漢英篇章結(jié)構(gòu)的對(duì)齊標(biāo)注在各個(gè)標(biāo)注任務(wù)層面均取得較高一致率,具有可行性和可信性,也取得較高的標(biāo)注效率。
下一步將對(duì)本研究所發(fā)現(xiàn)的一些對(duì)齊標(biāo)注問題進(jìn)行針對(duì)性研究,以改善對(duì)齊標(biāo)注效果,還將改良評(píng)估方法,從而為最終提供良好質(zhì)量的漢英篇章結(jié)構(gòu)平行語料庫打下基礎(chǔ)。
[1] 馮文賀.漢英篇章結(jié)構(gòu)平行語料庫的對(duì)齊標(biāo)注研究[J].中文信息學(xué)報(bào),2013(6): 158-165.
[2] 柏曉靜, 常寶寶, 詹衛(wèi)東, 等. 構(gòu)建大規(guī)模的漢英雙語平行語料庫[C]. 黃河燕. 機(jī)器翻譯研究進(jìn)展:2002年全國機(jī)器翻譯研討會(huì)論文集.北京:電子工業(yè)出版社,2002.
[3] 王克非. 雙語對(duì)應(yīng)語料庫: 研制與應(yīng)用[M].北京: 外語教學(xué)與研究出版社,2004.
[4] 劉澤權(quán),田璐,劉超朋.《紅樓夢(mèng)》中英文平行語料庫的創(chuàng)建[J]. 當(dāng)代語言學(xué), 2008, 10(4): 329-339.
[5] Carlson L, Marcu D, Okurowski M E. Building a discourse-tagged corpus in the framework of rhetorical structure theory [M]. Jan van Kuppevelt, Ronnie W.Smith (eds.),Current and New Directions in Discourse and Dialogue, Kluwer Academic Publishers,2003: 85-112.
[6] Prasad R, Dinesh N, Lee A,et al. The Penn Discourse Treebank 2.0[C]//Proceedings of the 6th International Conference on Language Resources and Evaluation,2008.
[7] 樂明. 漢語篇章修辭結(jié)構(gòu)的標(biāo)注研究[J]. 中文信息學(xué)報(bào), 2008, 22(4): 19-23.
[8] ZhouY, Xue N. PDTB-style Discourse Annotation of Chinese Text[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, 2012: 69-77.
[9] 張牧宇,宋原,秦兵,等.中文篇章級(jí)句間語義關(guān)系體系及標(biāo)注[J].中文信息學(xué)報(bào),2014,(2): 28-36.
[10] Li Y, Feng W, Sun J, et al. Building Chinese discourse corpus with connective-driven dependency tree structure[C]//Proceedings of EMNLP 2014, 2014: 2105-2114.
[11] Mann W C, Thompson S A. Rhetorical structure theory: toward a functional theory of text organization[J]. Text, 1988, 8(3): 243-281.
[12] 李艷翠,馮文賀,周固棟,等. 基于逗號(hào)的漢語子句識(shí)別研究[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013,49(1): 7-14.
[13] Marcu D,Amorrortu E,Romera M.Experiments in constructing a corpus of discourse trees[C]//Proceedings of the ACL Workshop on Standards and Tools for Discourse Tagging,1999: 48-57.
[14] 馮文賀,李艷翠,周國棟.漢英篇章結(jié)構(gòu)平行語料庫對(duì)齊標(biāo)注的難點(diǎn)與對(duì)策[C]. 第十屆全國機(jī)器翻譯研討會(huì),2014: 25-35.
EvaluationforAlignmentAnnotationofChinese-EnglishDiscourseTreebank
FENG Wenhe1,2,LI Yancui3,REN Han1, ZHOU Guodong4
(1. Laboratory of Language engineering and computing, Guangdong University of Foreign Studies, Guangzhou, Guangdong 510006,China; 2. Department of Chinese Language and Literature,Henan Institute of Science and Technology, Xinxiang ,Henan 453003, China; 3. School of Information Engineering, Henan Institute of Science and Technology, Xinxiang,Henan 453003,China; 4. Department of Computer Science and Technology, Soochow University, Suzhou,Jiangsu 215006,China)
Chinese-English discourse treebank (CEDT) is a parallel corpus annotated with alignment discourse structure information for Chinese and English. Its core task is alignment annotation supervised by the principle of structure and relation alignment. With the corresponding annotation platform, we manually annotate the corpus, propose the evaluation methods for the alignment annotation and give the evaluation analysis, including segmentation, structure, relation, connective, relation role and center alignment. Experimental results show that the alignment annotation strategy is a feasible and efficient method of building CEDT.
discourse structure;parallel corpus; alignment annotation; structural alignment;alignment evaluation
馮文賀(1976—),博士,博士后,碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)槔碚撜Z言學(xué)、計(jì)算語言學(xué)。
李艷翠(1982—),博士,主要研究領(lǐng)域?yàn)橛?jì)算語言學(xué)。
任函(1980—),通信作者,博士,主要研究領(lǐng)域?yàn)橛?jì)算語言學(xué)。
1003-0077(2017)03-0086-08
2014-12-05定稿日期: 2015-07-22
教育部人文社科項(xiàng)目(13YJC740022、15YJC740021);河南高校哲社基礎(chǔ)研究重大項(xiàng)目(2015-JCZD-022);中國博士后基金(2013M540594);國家自然科學(xué)基金(61402341,61502149,61273320);廣東外語外貿(mào)大學(xué)語言工程與計(jì)算實(shí)驗(yàn)室2016年招標(biāo)課題(LEC2016ZBKT001,LEC2016ZBKT002)
TP391
: A