吳永芃,李素建,秦沐坤,楊 安,王厚峰
(北京大學(xué) 計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871)
自然語言處理領(lǐng)域中,目前已有較多在詞與句子的層次上進(jìn)行的研究,并取得了豐碩的成果。隨著研究的深入,人們開始著眼于更高層次的自然語言分析——篇章層次。眾所周知,篇章所獨(dú)具的完整性和連貫性使得一個(gè)篇章與一段由若干句子隨機(jī)組合而成的文本具有顯著的不同。我們可以將篇章視為一系列連續(xù)的文本單元(如子句、句子或語段)構(gòu)成的語言整體單位。任何文本單元都不可以被孤立地進(jìn)行解讀,而是需要根據(jù)其上下文來理解。篇章分析與標(biāo)注,旨在對(duì)篇章內(nèi)部的結(jié)構(gòu)和關(guān)系進(jìn)行分析,并在分析的基礎(chǔ)上對(duì)其進(jìn)行相應(yīng)標(biāo)注。篇章分析技術(shù)在自動(dòng)文摘[1]、自動(dòng)問答[2]、指代消解[3]等自然語言處理領(lǐng)域中,具有重要的意義。
當(dāng)前兩個(gè)有代表性的英語篇章樹庫(kù)為賓州篇章樹庫(kù)(penn discourse treebank,PDTB)和RST樹庫(kù)(rhetorical structure theory-discourse treebank,RST-DT)。PDTB由美國(guó)賓夕法尼亞大學(xué)創(chuàng)建,標(biāo)記了約100萬字的華爾街日?qǐng)?bào)文章,最新版本為PDTB 2.0[4]。PDTB將語句看作論元(argument),主要標(biāo)注論元對(duì)之間的篇章語義關(guān)系和可能的連接詞,把一個(gè)大的篇章分解成平面化的論元對(duì),篇章標(biāo)注層次較淺,為淺層篇章標(biāo)注[5]。RST-DT建立在修辭結(jié)構(gòu)理論(rhetorical structure theory,RST)之上,由美國(guó)南加州大學(xué)和美國(guó)國(guó)防部共同創(chuàng)建,共計(jì)標(biāo)記了385篇華爾街日?qǐng)?bào)的文章,總字?jǐn)?shù)超過176 000個(gè)[6]。RST理論通過修辭關(guān)系對(duì)語篇結(jié)構(gòu)進(jìn)行描寫,將整個(gè)篇章構(gòu)建成一棵有層次的RST樹[7]。然而,有層次的RST樹結(jié)構(gòu)較為復(fù)雜,節(jié)點(diǎn)數(shù)目較多,不同層次的篇章單元有包含關(guān)系,難以構(gòu)建一個(gè)統(tǒng)一的用于篇章分析的架構(gòu),給機(jī)器自動(dòng)分析帶來了困難。漢語篇章語料庫(kù)的建設(shè)也取得了一些進(jìn)展,哈工大參考PDTB的標(biāo)準(zhǔn),并結(jié)合中文的特點(diǎn),從分句、復(fù)句和句群三個(gè)層次標(biāo)注顯式和隱式關(guān)系,構(gòu)建了篇章語料庫(kù)HIT-CDTB[8]。蘇州大學(xué)利用漢語依存句法分析技術(shù)構(gòu)造了篇章結(jié)構(gòu)語料庫(kù)CDTB[9],該結(jié)構(gòu)融合了PDTB和RST的優(yōu)點(diǎn),對(duì)每篇文檔構(gòu)建一棵篇章樹,雖然篇章結(jié)構(gòu)的信息量更加豐富,但也加大了自動(dòng)分析的困難。
篇章依存分析結(jié)構(gòu)的引入,一定程度上兼顧了深層篇章結(jié)構(gòu)的標(biāo)注和降低自動(dòng)分析的難度。2014年,李素建等[10]首次提出利用依存結(jié)構(gòu)進(jìn)行篇章分析,不同于CDTB采用的句法依存,這里的依存指的是篇章層面的依存關(guān)系,并在已有的RST-DT的基礎(chǔ)上進(jìn)行轉(zhuǎn)換,建立了一個(gè)英語篇章依存樹庫(kù)。二元非對(duì)稱的依存結(jié)構(gòu)解釋了篇章的深層關(guān)系,保留了RST樹中的大部分信息,又因其具有相對(duì)簡(jiǎn)單的結(jié)構(gòu),可以直接分析各個(gè)單元之間的關(guān)系,使機(jī)器自動(dòng)分析工作能更容易地開展。但RST樹轉(zhuǎn)換而來的篇章依存樹,可能存在一定的問題。例如,無法展現(xiàn)篇章依存樹特有的非投射關(guān)系。到目前為止,較少有人工構(gòu)建篇章依存樹庫(kù)的工作。基于這一背景,本文在篇章依存關(guān)系的基礎(chǔ)上,建立了小規(guī)模中英文篇章依存樹庫(kù),并針對(duì)多核心問題、依存關(guān)系的選擇、長(zhǎng)篇章與復(fù)雜篇章的標(biāo)注、層次結(jié)構(gòu)信息的損失等標(biāo)注過程中遇到的困難進(jìn)行了分析研究,給出了解決方案。同時(shí),對(duì)篇章依存樹庫(kù)進(jìn)行了簡(jiǎn)單的統(tǒng)計(jì)分析,針對(duì)中英文篇章的異同做了簡(jiǎn)單探索。
篇章依存分析思想認(rèn)為,篇章由篇章單元(elementary discourse unit,EDU)構(gòu)成。篇章單元之間由被稱為依存關(guān)系的二元非對(duì)稱關(guān)系連接。其中,我們稱附屬(subordinate)篇章單元為“附屬單元”(dependent),稱被依靠的篇章單元為“頭部單元”(head)。利用篇章依存樹表示篇章依存結(jié)構(gòu)時(shí),我們需要在篇章依存樹起始位置插入一個(gè)人工篇章單元,稱之為e0,并視之為該篇章的根(root),以此簡(jiǎn)化定義與計(jì)算過程。
記一含有n+1個(gè)篇章單元的篇章T為:T=e0e1e2…en,其中e0為根。記該篇章依存關(guān)系集為R,R為有限的功能關(guān)系集合,且R中的關(guān)系存在于兩個(gè)篇章單元之間。記V為篇章的一系列節(jié)點(diǎn),A為篇章的一系列有向標(biāo)記弧。記篇章依存圖為G,則:G=
(1)V={e0e1e2…en};
(2)A?V×R×V,其中 (3) 若 (4) 若 其中,條件(3)確保了每個(gè)篇章單元有且僅有一個(gè)頭部單元。條件(4)確保了兩個(gè)篇章單元之間,不能有多于一種的依存關(guān)系。 一般而言,對(duì)同一個(gè)篇章,篇章依存樹的結(jié)構(gòu)比RST樹更加簡(jiǎn)單,節(jié)點(diǎn)數(shù)更少,復(fù)雜度更低。例如,3個(gè)單元的核心-輔助結(jié)構(gòu)RST樹新增了1個(gè)中間節(jié)點(diǎn)和1個(gè)根節(jié)點(diǎn),而篇章依存樹僅新增了1個(gè)根節(jié)點(diǎn)??梢钥闯?,含有n個(gè)文本單元的核心-輔助結(jié)構(gòu)RST樹,共包含2n-1個(gè)節(jié)點(diǎn);而含有n個(gè)文本篇章單元的篇章依存樹,僅包含了n+1個(gè)節(jié)點(diǎn)。 本文參考了1988年RST理論提出的修辭關(guān)系[7]。根據(jù)所標(biāo)注中英文語言特點(diǎn),刪減與合并了部分關(guān)系,根據(jù)標(biāo)注時(shí)遇到的情況新增了部分篇章關(guān)系,最終確定了如表1所示的26個(gè)篇章依存關(guān)系,由于篇幅限制,這里不再展開篇章關(guān)系的介紹。 表1 本文采用的篇章依存關(guān)系 由于短小但完整、連貫的篇章,可以推動(dòng)篇章依存庫(kù)的構(gòu)建和分析,因此我們選擇了科技論文摘要和新聞作為標(biāo)注文本??萍颊撐恼膶懽饕话憬Y(jié)構(gòu)清晰,邏輯性強(qiáng),容易進(jìn)行標(biāo)注和分析。而我們選擇人民網(wǎng)的時(shí)政要聞快訊作為語料庫(kù),是考慮到人民網(wǎng)作為國(guó)家權(quán)威媒體網(wǎng)站,其發(fā)布的新聞遣詞造句較為嚴(yán)謹(jǐn),結(jié)構(gòu)清晰,邏輯性強(qiáng),質(zhì)量較高,不會(huì)給篇章依存分析帶來困擾。該語料庫(kù)新聞的平均字?jǐn)?shù)較少,但每一篇新聞,都保持了其作為篇章的完整性和連貫性。 基于以上考慮,我們選用了ACL 2014會(huì)議的50篇英文論文摘要和EMNLP 2014會(huì)議的40篇論文摘要進(jìn)行篇章依存關(guān)系標(biāo)注,同時(shí)還標(biāo)注了15篇英文經(jīng)濟(jì)短新聞,中文方面標(biāo)注了33篇人民網(wǎng)新聞。文獻(xiàn)[10]中篇章依存庫(kù)是由RST-DT語料自動(dòng)轉(zhuǎn)換而成,依存關(guān)系的標(biāo)注并不夠準(zhǔn)確,本文中的138篇文檔均為人工標(biāo)注和校對(duì)。 確定劃分篇章單元的標(biāo)準(zhǔn)是進(jìn)行篇章分析的先決條件,也是一項(xiàng)較為獨(dú)立的工作。在英文篇章的篇章單元確定中,涌現(xiàn)出了多種劃分方法。修辭結(jié)構(gòu)理論認(rèn)為,除個(gè)別情況外,從句是最基本的單位[7]。Polanyi堅(jiān)持自然句應(yīng)為最基本的單元[11]。Grosz和Sindner[12]認(rèn)為,篇章單元的確定應(yīng)考慮到該單位在上下文中的位置,且能反映事物的一定狀態(tài)。 本文英文語料庫(kù)的篇章劃分參考修辭結(jié)構(gòu)理論,以從句層面的結(jié)構(gòu)為最基本單位,因此to、that、since等引導(dǎo)從句的介詞會(huì)成為劃分標(biāo)記,包括一些動(dòng)詞的現(xiàn)在分詞作后置定語也會(huì)被劃分為單獨(dú)的篇章單元。 中文語料庫(kù)的篇章單元,與英語中選擇從句較為不同,漢語篇章的從句多為隱性。此外,在漢語中,逗號(hào)常常起著單句切分的作用,被隔開的單元通常以單句或類似于單句的結(jié)構(gòu)出現(xiàn)。因此,本文選擇使用標(biāo)點(diǎn)符號(hào)作為劃分的依據(jù)。本文漢語篇章的篇章單元由逗號(hào)、句號(hào)、分號(hào)、冒號(hào)、問號(hào)、嘆號(hào)、破折號(hào)與省略號(hào)劃分。括號(hào)、頓號(hào)、引號(hào)、連接號(hào)、書名號(hào)、間隔號(hào)等不作為劃分依據(jù)。對(duì)于新聞?wù)Z料,可能由多段組成,每個(gè)篇章單元起始位置用數(shù)字標(biāo)識(shí)其段號(hào)和句號(hào),表明其在文本中的位置。例如,“2.3”表示篇章第二自然段的第三個(gè)篇章單元??萍颊撐恼ǔS梢欢螛?gòu)成,不再區(qū)分其段落。 本文使用篇章依存關(guān)系標(biāo)注工具*http://123.56.88.210/demo/depannotate/為文本標(biāo)注篇章依存關(guān)系。標(biāo)注工具中,我們用白色文本框表示篇章單元;起始于頭部單元并終止于相應(yīng)附屬單元的有向箭頭表示依存關(guān)系;附屬單元左側(cè)寫明該依存關(guān)系的種類;藍(lán)色方框內(nèi)的數(shù)字為相應(yīng)篇章單元對(duì)應(yīng)的頭部單元編號(hào)。通過這種形式,我們將篇章依存關(guān)系表示成一個(gè)帶標(biāo)注的有向圖。 具體使用時(shí),我們首先對(duì)篇章進(jìn)行篇章單元的劃分,再使用該標(biāo)注工具載入已完成篇章單元?jiǎng)澐值奈臋n和自定義標(biāo)簽,開始進(jìn)行依存關(guān)系標(biāo)注。在添加依存關(guān)系時(shí),我們依次單擊頭部單元、附屬單元,并在彈出的對(duì)話框中選擇依存關(guān)系的種類,即可標(biāo)注一個(gè)篇章依存關(guān)系。若出現(xiàn)關(guān)系標(biāo)注錯(cuò)誤,單擊依存關(guān)系的附屬單元后,通過“刪除”功能可以刪除該關(guān)系。標(biāo)注工具還可以通過“撤銷”功能取消之前的添加、刪除與標(biāo)注操作?!凹訕?biāo)簽”“刪標(biāo)簽”功能則可增、刪依存關(guān)系的種類。整篇標(biāo)注完成后,單擊“保存”,即可將結(jié)果存為后綴名為.dep的文檔,以供進(jìn)一步的分析。 篇章依存關(guān)系的直接標(biāo)注,需要為每個(gè)篇章單元選擇其頭部單元,并確定關(guān)系的種類。表面看來,只需要逐一對(duì)每個(gè)篇章單元進(jìn)行分析即可完成,但真正標(biāo)注時(shí)并不容易。在分析每個(gè)篇章單元的時(shí)候,需要從全文去理解,幫助確定每個(gè)依存關(guān)系。下面,我們將介紹標(biāo)注中遇到的問題,以及我們的解決方案。 篇章結(jié)構(gòu)中存在涉及兩個(gè)或多個(gè)單元、且各單元重要程度相等的多核心關(guān)系,如comparision、joint、same-unit等。然而,使用篇章依存關(guān)系表示多核心關(guān)系存在一定的困難: 多核心關(guān)系連接兩個(gè)或多個(gè)單元,而依存關(guān)系僅存在于兩個(gè)篇章單元之間;多核心關(guān)系的各個(gè)單元應(yīng)當(dāng)同等重要,而依存關(guān)系連接的篇章單元重要程度卻不同。這使得多核心關(guān)系必須要進(jìn)行變換才能在篇章依存樹中得以表示。如圖1所示。 圖1 多核心關(guān)系(joint)的處理示例 我們的處理方式為: 選擇多核心關(guān)系內(nèi)部或附近的某一篇章單元作為其余篇章單元的頭部單元,以表達(dá)多核心關(guān)系。頭部單元的選擇視情況而定——可以是多核心關(guān)系中相對(duì)較重要的一個(gè)篇章單元,可以是多核心關(guān)系中的第一個(gè)篇章單元,也可以是多核心關(guān)系前緊鄰的一個(gè)篇章單元。圖1中,我們選取了第一個(gè)篇章單元即圖中第一句作為頭部單元,和其他兩個(gè)篇章單元(第三句和第五句)構(gòu)成joint關(guān)系。這種方式很好地克服了多核心關(guān)系與依存結(jié)構(gòu)的矛盾,使多核心關(guān)系得以在篇章依存樹中得到表示。 本文選擇了26種依存關(guān)系用于篇章依存樹庫(kù)的標(biāo)注。大多數(shù)關(guān)系都容易區(qū)分,但是也有一些特殊情況需要單獨(dú)處理,比如漢語標(biāo)注中遇到elab-addition和elab-aspect這兩種關(guān)系,前者是對(duì)核心句主要內(nèi)容的進(jìn)一步闡述,后者則是對(duì)核心句提到的不同方面進(jìn)行闡述。由于英文中存在從句結(jié)構(gòu),elab-addition和elab-aspect較為容易區(qū)分,但在漢語中,這兩個(gè)標(biāo)簽有時(shí)難以區(qū)分,考慮表達(dá)的“重心”和篇章性,我們選擇用話題鏈[13]來解決這個(gè)問題。關(guān)于話題的說明可以參考趙元任的《漢語口語語法》[14]。 若附屬單元是頭部單元的進(jìn)一步闡述,且屬于同一話題鏈,則關(guān)系標(biāo)注為elab-addition,若不屬于同一話題鏈則標(biāo)注為elab-aspect。 如圖2所示,1.2句的話題是作品展,2.1句的畫展是作品展的回指,則1.2和2.1兩句之間的關(guān)系屬于同一話題,因而標(biāo)注為elab-addition。而2.2句的話題是畫作,則和2.1的關(guān)系標(biāo)注為elab-aspect。 圖2 話題鏈區(qū)別elab-addition和elab-aspect示例 需要說明的是,我們起初試圖用漢語研究中的語句重心[15]來進(jìn)行區(qū)別以上兩種關(guān)系的標(biāo)注,但當(dāng)前漢語中語句重心的研究認(rèn)為,類似1.2句的陳述句,其重心靠后,也就是“拉開帷幕”這一事實(shí),但聯(lián)系上下文不難發(fā)現(xiàn),“作品展”才是串起篇章,聯(lián)結(jié)上下文的關(guān)鍵,因此最后采用了篇章性更強(qiáng)的話題的概念對(duì)關(guān)系進(jìn)行區(qū)分。 與RST結(jié)構(gòu)相比,篇章依存結(jié)構(gòu)沒有中間節(jié)點(diǎn),復(fù)雜度相對(duì)較低。但本質(zhì)上它仍然是一種層次結(jié)構(gòu),對(duì)每一個(gè)篇章關(guān)系的判斷,都需要考慮到上下文信息,也就是其他篇章依存關(guān)系對(duì)它的影響。因此不能簡(jiǎn)單地從每個(gè)篇章單元獨(dú)立地去考慮,也就不容易按線性順序給每個(gè)篇章單元確定頭部單元及關(guān)系。尤其是規(guī)模大、復(fù)雜度高的篇章,標(biāo)注過程更為艱難。 對(duì)此,本文采用了“自頂向下”和“自底向上”相結(jié)合,并兼顧考慮篇章自然段劃分的方法,標(biāo)記長(zhǎng)篇章及復(fù)雜篇章。在“自頂向下”的過程中,我們首先找到包含篇章中心思想的、最重要的篇章單元,令其頭部單元為根節(jié)點(diǎn)。然后,找到包含各自然段中心思想的重要篇章單元,并標(biāo)注它們之間的依存關(guān)系。接著,我們?cè)偃ふ野》秶缕蔚闹行乃枷氲钠聠卧瑢訉酉蛳逻M(jìn)行標(biāo)注。在“自底向上”的過程中,我們運(yùn)用層次結(jié)構(gòu)的思想,從篇章結(jié)構(gòu)底層的某一篇章單元著手,不斷將其周圍更多的篇章單元納入考慮,層層向上進(jìn)行標(biāo)注。 標(biāo)注過程中,篇章的自然段劃分是重要的輔助參考指標(biāo)。多數(shù)情況下,篇章是在自然段內(nèi)部先形成依存關(guān)系后,再與自然段外部形成依存關(guān)系的。兩個(gè)自然段間通常只存在一個(gè)依存關(guān)系。兩種過程可以交替進(jìn)行,在某一過程中遇到瓶頸難以繼續(xù)時(shí),則切換到另一標(biāo)注過程中,繼續(xù)標(biāo)注。二者交替進(jìn)行有助于對(duì)篇章進(jìn)行分塊、分層,能夠增進(jìn)對(duì)篇章的宏觀把握,使依存關(guān)系標(biāo)注更加快速、準(zhǔn)確。 篇章依存樹在一定程度上對(duì)RST結(jié)構(gòu)作了簡(jiǎn)化,這雖然降低了標(biāo)注的難度,但也使其可能缺失了部分篇章層次信息。我們發(fā)現(xiàn),當(dāng)頭部單元兩側(cè)各有一個(gè)附屬單元時(shí),依存樹反映了兩種可能的RST結(jié)構(gòu),參考論文[10],無法判斷篇章單元e2與e1、e3中哪個(gè)的關(guān)系更為密切,一定程度上損失了篇章層次信息。 這種結(jié)構(gòu)在各種篇章中十分常見。例如,圖3所示4.1、4.2、4.3之間的依存結(jié)構(gòu),可能對(duì)應(yīng)著圖4和圖4所示的兩種RST結(jié)構(gòu): A和B。我們知道,因?yàn)?.1說明了4.2及4.3的引用來源,結(jié)構(gòu)A反映了作者的寫作意圖和該篇章的篇章結(jié)構(gòu)。然而,在沒有額外知識(shí)和信息的情況下,我們根本無法做出上述判斷。也就是說,用這種篇章依存樹表示篇章結(jié)構(gòu)出現(xiàn)了信息損失。在未來的工作中,我們將考慮如何處理這種情況。 圖3 層次結(jié)構(gòu)信息損失示例 圖4 RST結(jié)構(gòu) 在使用標(biāo)點(diǎn)符號(hào)作為劃分篇章單元的標(biāo)志時(shí),若不進(jìn)行特殊規(guī)定,在部分情況下會(huì)出現(xiàn)錯(cuò)誤。篇章中出現(xiàn)的漢語冒號(hào),在提起下文、引用話語或總結(jié)上文時(shí),可作為篇章單元的劃分標(biāo)志。但在篇章撰寫過程中,可能出現(xiàn)將冒號(hào)用為“比號(hào)”的情況。例如,“尼泊爾制憲會(huì)議16日晚以507: ”和“25的壓倒性票數(shù)表決通過了新憲法草案”,由于根據(jù)標(biāo)點(diǎn)符號(hào)劃分篇章單元,則被錯(cuò)誤地劃分為了兩個(gè)篇章單元。再例如,“9月16日21時(shí)08分在臺(tái)灣宜蘭縣附近海域(北緯24.3度,”和“東經(jīng)121.9度)發(fā)生5.4級(jí)地震”,括號(hào)中的逗號(hào)導(dǎo)致篇章單元?jiǎng)澐值貌缓侠?,括?hào)內(nèi)的內(nèi)容被分拆進(jìn)了兩個(gè)篇章單元中。更好的劃分方式為分成一個(gè)篇章單元(即不劃分)或三個(gè)篇章單元(括號(hào)前、括號(hào)及括號(hào)內(nèi)、括號(hào)后)。 在現(xiàn)有的劃分標(biāo)準(zhǔn)下,篇章單元的自動(dòng)劃分存在錯(cuò)誤。本文選擇的方法是: 在篇章單元自動(dòng)劃分后,再進(jìn)行一遍人工修正與校對(duì),以排除自動(dòng)劃分造成的問題。 本文篇章依存樹庫(kù)的構(gòu)建及篇章依存關(guān)系的標(biāo)注均只由一人完成。為了提高標(biāo)注語料的一致性,標(biāo)注者對(duì)每一篇語料均進(jìn)行了兩次標(biāo)注。兩次標(biāo)注有一定的時(shí)間差。最后,再對(duì)兩次的標(biāo)注結(jié)果進(jìn)行對(duì)比和分析,對(duì)不一致的標(biāo)注進(jìn)行修改,得到最終的標(biāo)注結(jié)果。這一方法一定程度上彌補(bǔ)了單人標(biāo)注的缺陷,提高了標(biāo)注語料的一致性與篇章依存樹庫(kù)的質(zhì)量。 此次標(biāo)注的語料庫(kù)總計(jì)138篇文獻(xiàn),共對(duì)2 044個(gè)篇章單元進(jìn)行了依存關(guān)系標(biāo)注。其中英文文獻(xiàn)中最長(zhǎng)的篇章單元有39個(gè)單詞,平均長(zhǎng)度為9個(gè)單詞;中文新聞中最長(zhǎng)的篇章單元有70個(gè)漢字,平均長(zhǎng)度為13個(gè)漢字。由于每個(gè)依存樹有且只有一個(gè)ROOT節(jié)點(diǎn),且只有ROOT節(jié)點(diǎn)與文章核心句之間的關(guān)系被標(biāo)注為ROOT,故表中ROOT標(biāo)注的數(shù)量等同于依存樹的數(shù)量。 圖5為篇章關(guān)系在中英文和新聞、科技論文摘要兩個(gè)領(lǐng)域上分布的折線圖,雖然不同語料上的標(biāo)注基數(shù)不同,但其起伏的趨勢(shì)是類似的。只有個(gè)別依存關(guān)系的標(biāo)注差別較大,接下來會(huì)就這些有代表性的關(guān)系標(biāo)注頻率情況做一些對(duì)比分析。由于目前篇章數(shù)量較少,和大規(guī)模數(shù)據(jù)統(tǒng)計(jì)相比,以上數(shù)據(jù)可能會(huì)出現(xiàn)一些偏差。 圖5 篇章依存關(guān)系統(tǒng)計(jì) 中文新聞來自人民網(wǎng),總長(zhǎng)度6 006字,平均長(zhǎng)度為182字。英文新聞數(shù)據(jù)則來自華爾街見聞,全部都是經(jīng)濟(jì)領(lǐng)域,共計(jì)1 656個(gè)單詞,平均長(zhǎng)度為110個(gè)單詞,且標(biāo)注難度較大。 圖6給出了中英文新聞上的篇章依存關(guān)系分布,其中折線圖是依存關(guān)系的平均出現(xiàn)次數(shù)。 圖6 中英文新聞部分篇章依存關(guān)系分布 在新聞標(biāo)注中,中文新聞中一般性背景介紹的bg-general關(guān)系使用頻率比英文新聞高;而英文的elaboration關(guān)系使用得較多,其中比例上更側(cè)重于elab-addition,中文的elab-addition和elab-aspect比例較為均勻,也就是說在對(duì)核心的闡述方面,英文更傾向于深入說明,中文則更傾向于泛泛說明。對(duì)整個(gè)篇章來說,英文新聞的核心與附屬單元之間聯(lián)系相對(duì)更緊密。另外中英文新聞中出現(xiàn)了較多的attribution關(guān)系,對(duì)此我們?cè)跇?biāo)注過程中也有直觀感受,新聞常常會(huì)引用或者轉(zhuǎn)述權(quán)威的分析、看法或者報(bào)道。 盡管使用頻率有區(qū)別,但可以看到不管中文還是英文,其整體的篇章結(jié)構(gòu)還是以bg-general—attribution—elaboration這樣的結(jié)構(gòu)為主。 英文論文摘要包括ACL2014的50篇和Emnlp2014的40篇,共計(jì)12 300個(gè)單詞,平均每個(gè)文檔的長(zhǎng)度約為130個(gè)單詞。 圖7 中英文科技文獻(xiàn)篇章依存關(guān)系分布 圖7給出了中英文科技文獻(xiàn)篇章依存關(guān)系的分布情況,其中折線圖是依存關(guān)系的平均出現(xiàn)次數(shù)??梢钥吹竭@些標(biāo)簽的使用情況基本相同,說明英文科技文獻(xiàn)摘要在寫作上基本有比較統(tǒng)一的規(guī)范。其中三個(gè)背景關(guān)系使用比較平均,還可以看到大量的elab-addition關(guān)系,用于說明其算法或是方案。evaluation關(guān)系用于標(biāo)示出摘要的評(píng)測(cè)部分,這些依存關(guān)系的使用情況也符合論文摘要的寫作目的和要求。 綜合考慮新聞和科技文獻(xiàn)摘要的依存關(guān)系出現(xiàn)頻率可以發(fā)現(xiàn)一些明顯的區(qū)別,圖8是所有科技文獻(xiàn)摘要和中英文新聞中依存關(guān)系平均出現(xiàn)次數(shù)的對(duì)比。 首先是新聞中出現(xiàn)的attribution要遠(yuǎn)多于論文摘要,正如之前提到的,一篇新聞中常有多次轉(zhuǎn)述和引用,而論文摘要的attribution多數(shù)情況下只會(huì)在evaluation部分出現(xiàn)一次。在科技文獻(xiàn)中background關(guān)系的使用更為豐富,為了某種目的提出全新的方法,則用bg-goal關(guān)系;和舊方法進(jìn)行比較,則用bg-compare關(guān)系,而新聞中的背景內(nèi)容相對(duì)單一,主要采用bg-general關(guān)系,目的或比較的背景信息較少。我們還可以看到英文論文摘要和英文新聞的elaboration關(guān)系出現(xiàn)頻率相當(dāng)一致,而與在中文新聞中的使用存在區(qū)別,這意味著該關(guān)系的使用差別并非文體原因而是語言原因。大量的elab-addition表示解釋或說明一個(gè)話題,而英文又相當(dāng)依賴其從句結(jié)構(gòu)。論文摘要與新聞的第一個(gè)顯著區(qū)別表現(xiàn)在enablement和evaluation關(guān)系的頻率上,科技文獻(xiàn)摘要中告訴讀者某項(xiàng)措施、某種方案的采用,其目的是什么,而之后基本也一定會(huì)對(duì)文獻(xiàn)提出的方法進(jìn)行一個(gè)評(píng)價(jià)或是評(píng)測(cè),因此科技文獻(xiàn)中對(duì)于enablement和evaluation這兩種關(guān)系的使用更為頻繁。 圖8 新聞與論文摘要部分篇章依存關(guān)系分布 綜合來說,英文科技文獻(xiàn)摘要內(nèi)容更豐富,邏輯性也比新聞更好,基本上有一個(gè)結(jié)構(gòu)bg-goal/bg-compare—(elaboration—enablement)—evaluation,即大致分成三個(gè)部分: 背景,說明和評(píng)測(cè)。結(jié)合4.1節(jié)對(duì)新聞的分析來看的話,英文科技文獻(xiàn)摘要更傾向于“線性”敘述,即圍繞說明部分,說清其前因(背景)和后果(評(píng)測(cè)),中文新聞則傾向于敘述事件所涉及的多個(gè)方面。 本文建立了一個(gè)小規(guī)模的中英文篇章依存樹庫(kù),并針對(duì)標(biāo)注過程中遇到的困難進(jìn)行了分析研究,給出了解決方案。其中對(duì)于多核心關(guān)系在篇章依存樹中表示的問題,設(shè)立了依存關(guān)系選擇的規(guī)范,采用了“自頂向下”與“自底向上”相結(jié)合的標(biāo)注方法,研究了層次結(jié)構(gòu)信息損失和非投射結(jié)構(gòu),對(duì)篇章單元的錯(cuò)誤劃分進(jìn)行了人工修正與校對(duì),并提高了單人標(biāo)注語料的一致性。同時(shí)通過統(tǒng)計(jì)已構(gòu)建的中英文篇章依存樹庫(kù)中的關(guān)系分布,簡(jiǎn)單分析中英文在科技文獻(xiàn)摘要和新聞兩個(gè)領(lǐng)域上的篇章現(xiàn)象 本文的探索,為未來篇章依存關(guān)系分析與標(biāo)記的研究,指出了一些可供研究或改進(jìn)的方向,其中包括: (1) 擴(kuò)充語料庫(kù)的篇章數(shù)及篇章平均字?jǐn)?shù)?,F(xiàn)有的語料庫(kù)規(guī)模較小,得到的結(jié)果在統(tǒng)計(jì)學(xué)視角下意義有限。(2) 擴(kuò)充語料庫(kù)的種類。標(biāo)注除新聞外的其他語料類型,例如書信、小說、廣告、劇本等。(3)研究如何解決篇章依存樹略簡(jiǎn)化的層次結(jié)構(gòu)帶來的層次結(jié)構(gòu)信息損失。(4) 增強(qiáng)標(biāo)注的一致性。標(biāo)注數(shù)據(jù)的人員由一人改為兩人或多人,相互對(duì)照與校對(duì),提高標(biāo)注的一致性與準(zhǔn)確率。 [1]Louis A, Joshi A, Nenkova A. Discourse indicators for content selection in summarization[C]//Proceedings of SIGDIAL 2010:the 11th Annual Meeting of the Special Interest Group on Discourse and Dialogue. Tokyo, Japan: Association for Computational Linguistics, 2010: 147-156. [2]Verberne S, Boves L, Oostdijk N, et al. Discourse-based answering of why-questions[J]. Traitement Automatique des Langues, Discours et document: traitements automatiques, 2007, 47(2): 21-41. [3]Webber B, Stone M, Joshi A, et al. Anaphora and discourse structure[J]. Computational Linguistics, 2003, 29(4): 545-587. [4]Prasad R, Dinesh N, Lee A, et al. The Penn Discourse TreeBank 2.0[C]//Proceedings of the International Conference on Language Resources & Evaluation.Marrakech, Morocco:LREC,2008: 2961-2968 [5]Miltsakaki E, Prasad R, Joshi A K, et al. The Penn Discourse TreeBank[C]//Proceedings of the International Conference on Language Resources & Evaluation. Lisbon,Portugal:LREC,2004. [6]Carlson L, Marcu D, Okurowski M. Building a discourse-tagged corpus in the framework of rhetorical structure theory[J]. Sigdial Workshop on Discourse & Dialogue, 2001, 18(18):1-10. [7]Mann W C, Thompson S A. Rhetorical structure theory: Toward a functional theory of text organization[J]. Text-Interdisciplinary Journal for the Study of Discourse, 1988, 8(3): 243-281. [8]張牧宇, 秦兵, 劉挺. 中文篇章級(jí)關(guān)系體系及類型標(biāo)注[J]. 中文信息學(xué)報(bào), 2014, 28(2): 28-36. [9]Li Y, Feng W, Kong F, et al. Building Chinese discourse corpus with connective-driven dependency tree structure[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar:EMNLP,2014: 2105-2114. [10]Li S, Wang L, Cao Z, et al. Text-level discourse dependency parsing[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics(Volume 1: Long Papers). Baltimore, USA: Association for Computational Linguistics, 2014: 25-35. [11]Polanyi L. A formal model of the structure of discourse[J]. Journal of Pragmatics, 1988, 12(5): 601-638. [12]Grosz B J, Sidner C L. Attention, intentions, and the structure of discourse[J]. Computational Linguistics, 1986, 12(3): 175-204. [13]屈承熹. 漢語篇章語法[M]. 潘文國(guó),譯. 北京: 北京語言大學(xué)出版社, 2006: 248-249. [14]趙元任. 漢語口語語法[M]. 呂叔湘,譯. 北京: 商務(wù)印書館, 1979: 45-47. [15]楊曉宇. 句子的表達(dá)重心及其與相關(guān)概念的關(guān)聯(lián)[J]. 寧夏大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版), 2015, 37(4): 8-13.1.2 依存關(guān)系
2 篇章依存樹庫(kù)構(gòu)建
2.1 語料庫(kù)的選擇
2.2 確定篇章單元的劃分方式
2.3 標(biāo)注工具
3 標(biāo)注難度與解決方法
3.1 多核心關(guān)系處理
3.2 依存標(biāo)注中的話題鏈問題
3.3 長(zhǎng)篇章及復(fù)雜篇章的標(biāo)注
3.4 層次結(jié)構(gòu)信息損失
3.5 篇章單元?jiǎng)澐皱e(cuò)誤
3.6 一致性問題
4 篇章依存樹庫(kù)統(tǒng)計(jì)分析
4.1 中英文新聞標(biāo)注
4.2 英文科技文獻(xiàn)摘要標(biāo)注
4.3 新聞與科技文獻(xiàn)摘要對(duì)比
5 結(jié)語和未來工作