閆培藝,李 斌,黃 彤,霍凱蕊,陳 瑾,曲維光
(1. 南京師范大學(xué) 文學(xué)院,江蘇 南京 210097;2. 鄭州金桂中學(xué),河南 鄭州 450040;3. 南京師范大學(xué) 計(jì)算機(jī)與電子信息學(xué)院,江蘇 南京 210023)
隨著人工智能的發(fā)展,自動(dòng)問答[1]、對(duì)話機(jī)器人[2]等領(lǐng)域成為了研究的熱點(diǎn),其中疑問句的自動(dòng)理解是自然語言處理中一項(xiàng)非?;A(chǔ)而復(fù)雜的任務(wù)。而現(xiàn)階段疑問句的自動(dòng)分析主要采用問句分類[3]、句型識(shí)別[4]、疑問焦點(diǎn)語義角色標(biāo)注[5]等方法,精度和效率不理想。同時(shí),隨著聊天機(jī)器人[6]、智能問答[7]等系統(tǒng)的發(fā)展,疑問句的自動(dòng)分析越來越重要,這就需要從整體結(jié)構(gòu)上把握疑問句的語義,為自動(dòng)句法分析奠定基礎(chǔ)。
然而,傳統(tǒng)的疑問句分析存在三個(gè)問題: 首先,疑問句表示需要將問句分類和依存分析分別進(jìn)行建模計(jì)算后再進(jìn)行組合,效率較為低下。其次,現(xiàn)有疑問句分類方法難以解決一句多問的情況。例如,“誰知道怎么贏?”是特指疑問句且擁有兩個(gè)疑問焦點(diǎn),傳統(tǒng)方法難以清楚表示此類疑問句結(jié)構(gòu)。最后,目前標(biāo)注體系缺乏對(duì)省略、指代消解、小句關(guān)系等語言現(xiàn)象的有效表示方法,因此難以完整地表示疑問句的語義結(jié)構(gòu)。
在語言學(xué)領(lǐng)域,疑問句相關(guān)研究集中在疑問句的結(jié)構(gòu)類型等方面。而漢語疑問句以其結(jié)構(gòu)復(fù)雜、形式多樣等特點(diǎn)備受關(guān)注,如邵敬敏[8]、閆亞平[9]、趙睿藝[10]等人的研究,但是在形式化表示方面的研究較少,對(duì)計(jì)算沒有直接幫助。
因此,本文嘗試通過一種新的語義表示方法——抽象語義表示(Abstract Meaning Representation,AMR)來描寫漢語疑問句,解決疑問句的疑問焦點(diǎn)、疑問結(jié)構(gòu)、省略、指代等問題,形成一個(gè)完整的疑問句語義表示體系來服務(wù)于漢語疑問句理論和自動(dòng)分析研究。本文通過2 000多句真實(shí)語料的標(biāo)注,測(cè)試了抽象語義表示的形式化表征能力,并統(tǒng)計(jì)分析疑問句在疑問焦點(diǎn)和疑問結(jié)構(gòu)上的分布特點(diǎn)。
全文結(jié)構(gòu)如下: 第1節(jié)梳理了疑問句的理論以及形式化表示的研究脈絡(luò)。第2節(jié)總結(jié)了使用抽象語義表示標(biāo)注漢語各類疑問句的特點(diǎn),介紹了數(shù)據(jù)來源和標(biāo)注方法。第3節(jié)統(tǒng)計(jì)了疑問概念標(biāo)簽amr-unknown的語義關(guān)系,分析了疑問代詞的語義功能特點(diǎn)。第4節(jié)是結(jié)論和未來工作。
傳統(tǒng)語法時(shí)期,疑問句的研究主要圍繞分類和表達(dá)效果展開,如Curme等[11]、Jespersen[12]等的工作。從語法角度,根據(jù)表層結(jié)構(gòu)將疑問句分為一般疑問句、特殊疑問句、選擇疑問句以及附加疑問句,認(rèn)為疑問句除了表示詢問等情感外,還有寒暄等語用含義。這些研究以描寫為主,雖然Nesfield提到了變換(transformation),但未能觸及語義層面[13]。該時(shí)期疑問代詞研究集中在指示代詞和疑問代詞的對(duì)比分析等方面[14]。結(jié)構(gòu)主義語言學(xué)強(qiáng)調(diào)句子在語法研究中的重要性。布拉格學(xué)派提出了主位的概念,認(rèn)為主位是一個(gè)句子的話題。主位的提出和疑問焦點(diǎn)的相關(guān)理論在某種程度上是一樣的。Vachek還提出了標(biāo)記(markedness)理論,一開始標(biāo)記用來分析音位的區(qū)別性特征,后來也用來分析疑問句標(biāo)記[15]。
英語疑問句通常把系動(dòng)詞、助動(dòng)詞及疑問詞置于句首,這和漢語保持原位不一樣。生成學(xué)派將小句的根設(shè)置為一個(gè)CP,英語助動(dòng)詞和疑問詞在疑問句中從原位移入CP的C位;而在肯定句中,這個(gè)C由that充當(dāng)。以Chomsky為代表的生成語法學(xué)派最有代表性的研究成果是對(duì)疑問句語序生成機(jī)制的分析。Chomsky針對(duì)特殊疑問句提出了wh-移位說,但該學(xué)派只關(guān)注句法層面疑問句的生成機(jī)制,不關(guān)注語義層面的表示[16]。Baker認(rèn)為疑問句本質(zhì)上是在生成時(shí)包含了一個(gè)疑問成分[+Q][17]。系統(tǒng)功能語法認(rèn)為言語功能通過語氣選擇體現(xiàn)在合乎語法規(guī)律的小句中。Halliday等認(rèn)為對(duì)一個(gè)語言項(xiàng)目進(jìn)行分類時(shí),應(yīng)按照精密度的階,由一般趨向特殊,對(duì)每一個(gè)選擇點(diǎn)上的可選項(xiàng)給以近似值[18]。
國(guó)內(nèi)對(duì)疑問句的研究主要集中于語氣范疇。馬建忠把語氣分為傳信和傳疑兩種[19]。陸儉明則將疑問句的研究從宏觀分類轉(zhuǎn)向微觀描寫[20]。呂叔湘把疑問語氣分為“詢問、反詰、測(cè)度”三種[21]。在疑問句分類方面,王力把疑問句分為敘述句、描寫句和判斷句[22]。黃伯榮提出疑問句類型有特指問、是非問、正反問和選擇問四類[23]。邵敬敏等則將語法、語義、語用三個(gè)平面的理論運(yùn)用到漢語疑問句的研究中[8]。在疑問代詞方面,黎錦熙認(rèn)為有些疑問代詞有“不定稱”和“虛指”的用法[24],還有邵敬敏等[25]、劉月華[26]等人的研究。
通過對(duì)國(guó)內(nèi)外疑問句理論研究的梳理,可看出國(guó)外側(cè)重于通過疑問句的形式探究疑問句本質(zhì),不斷研究其生成機(jī)制。國(guó)內(nèi)雖對(duì)疑問句進(jìn)行了細(xì)致描寫,比如分類體系等,這些有助于學(xué)科語言教學(xué)和句法理論研究,但對(duì)于疑問句的語義結(jié)構(gòu)問題涉及較少,未能從整體上刻畫疑問句的語義。
隨著疑問句理論的不斷發(fā)展,國(guó)內(nèi)外不斷有學(xué)者嘗試對(duì)疑問句進(jìn)行表示,大致分為兩類: 一類是建立疑問句語料庫,確定標(biāo)注體系;另一類是一般語料庫附帶對(duì)疑問句標(biāo)注方法的簡(jiǎn)單說明。
首先是疑問句語料庫,國(guó)外比較著名的是Clark等從TRC評(píng)測(cè)語料中抽取了1 171句以what開頭的疑問句,主要標(biāo)注了詞性信息[27]。Judge等構(gòu)建了一個(gè)含有4 000個(gè)疑問句的語料庫,數(shù)據(jù)主要來源于TREC跟蹤測(cè)試集,以期生成的句法分析樹對(duì)問答系統(tǒng)有所幫助[28]。Myers針對(duì)法語wh-疑問句中不同句法結(jié)構(gòu)可以表示相同語義的特點(diǎn),建立了法語疑問句語料庫[29]。Mrozinski提供了一個(gè)關(guān)于提問“為什么”疑問句的語料庫,695句語料均來源于維基百科,此外還使用Amazon Mechanical Turk框架收集了問句的匹配答案[30]。Sidi構(gòu)建了馬來語疑問知識(shí)語料庫,以期完善馬來語語法和語義規(guī)則[31]。
接著是一般語料庫中的疑問句標(biāo)注,基于短語結(jié)構(gòu)語法的賓州樹庫選取了華爾街日?qǐng)?bào)的真實(shí)語料,著重標(biāo)注了句子中的短語結(jié)構(gòu)和短語功能,從中我們可得到疑問句中的短語結(jié)構(gòu)分析以及一些統(tǒng)計(jì)語義角色的淺層語義分析[32]。基于依存語法的布拉格依存樹庫主要由形態(tài)層(morphological level)、句法層(analytical level)和語義層(tectogrammatical level)構(gòu)成,分別標(biāo)注了句子的詞法、句法和語義信息。和其他句型一樣,疑問句也標(biāo)注了這些信息,可以為我們提供疑問句中各個(gè)詞語間的依存關(guān)系、配價(jià)關(guān)系以及體現(xiàn)句子信息結(jié)構(gòu)的話題-焦點(diǎn)連接信息[33]。這兩個(gè)大型語料庫數(shù)據(jù)豐富,但是都沒有為疑問句設(shè)計(jì)系統(tǒng)的表示方案,對(duì)其處理相對(duì)簡(jiǎn)單。
國(guó)內(nèi)關(guān)于疑問句形式化表示的研究發(fā)展比較緩慢,疑問句語料庫偏少。比較著名的是山西大學(xué)彭洪保的基于漢語框架網(wǎng)的疑問句語義角色標(biāo)注語料庫,其語料主要來源于山西旅游景點(diǎn),共計(jì)3 011個(gè)疑問句[34]。該語料庫提出了一種根據(jù)疑問句目標(biāo)詞共現(xiàn)率來判別疑問句所屬框架的方法。李茹等構(gòu)建的小型疑問句語料庫包含1 566個(gè)關(guān)于旅游景點(diǎn)五臺(tái)山的疑問句,主要根據(jù)焦點(diǎn)進(jìn)行了疑問句類別統(tǒng)計(jì)[35]。
關(guān)于疑問句分類體系,國(guó)內(nèi)較為著名的是哈爾濱工業(yè)大學(xué)的分類體系。文勖等在UIUC[37]的基礎(chǔ)上,根據(jù)漢語特點(diǎn)將疑問句分為人物、地點(diǎn)、數(shù)字、時(shí)間、實(shí)體、描述、未知七大類,以及根據(jù)實(shí)際情況又定義了60小類[36]。在一般語料庫中,基本上未對(duì)疑問句的標(biāo)注方法進(jìn)行單獨(dú)說明,比如哈爾濱工業(yè)大學(xué)依存語料庫、清華大學(xué)語義依存網(wǎng)絡(luò)語料庫等。下面以哈工大的依存庫為例,對(duì)“誰想去公園???”進(jìn)行標(biāo)注示例:
哈工大語義依存分析已經(jīng)不像以往簡(jiǎn)單進(jìn)行語義角色標(biāo)注等淺層語義分析,而是通過依存結(jié)構(gòu)將詞匯之間的語義關(guān)系表示出來。在圖1中,Root表示根節(jié)點(diǎn),AGT表示施事,dCONT表示操作的客事,LOC表示地點(diǎn),mDEPD表示依附標(biāo)記,mPUNC表示標(biāo)點(diǎn)。句子的基本架構(gòu)較為清晰,但對(duì)于疑問信息的表示還不夠明確。例如,我們需要根據(jù)“誰”來確定疑問焦點(diǎn),但是“誰”也有無疑而問的情況,例如“誰也做不出來?!蓖瑫r(shí),“啊”的意義也比較多樣,僅根據(jù)mPUNC也難以判斷其疑問含義。疑問句最重要的就是應(yīng)該清楚知道該句到底在問什么,即疑問焦點(diǎn)是什么。該句是特指疑問句,那么疑問代詞就是疑問焦點(diǎn)。圖1并沒有標(biāo)識(shí)出疑問焦點(diǎn),只有在語料庫中將其標(biāo)注出來,點(diǎn)明其語義關(guān)系,才有利于計(jì)算機(jī)的自動(dòng)分析。再者該分析也忽略了“去”“想”和“誰”的論元共享關(guān)系,不利于把握完整的語義結(jié)構(gòu)。
圖1 “誰想去公園???”的語義依存樹分析
隨著自然語言處理的發(fā)展,國(guó)內(nèi)外學(xué)者越來越重視疑問句的形式化表示。國(guó)外集中在詞性標(biāo)注等方面;而國(guó)內(nèi)關(guān)注分類等研究。總體而言,這些研究對(duì)于疑問句整體語義表示研究涉及較少,且研究重點(diǎn)較為分散,不利于疑問句計(jì)算和自動(dòng)分析,也不利于其系統(tǒng)研究。作為自然語言處理界新興的句子語義表示方法,抽象語義表示能夠更為完整地表示整句的語義結(jié)構(gòu)和疑問結(jié)構(gòu)信息。因此本文將基于抽象語義表示來標(biāo)注漢語疑問句,系統(tǒng)介紹其標(biāo)注方法,統(tǒng)計(jì)疑問焦點(diǎn)的語義關(guān)系等相關(guān)信息,以期對(duì)疑問句的研究和自動(dòng)語義分析起到一定作用。
抽象語義表示(AMR)是一種新興的較完整的句子語義表示方法。它將句子中的詞語抽象為概念,分析概念之間的語義關(guān)系,并將這些語義關(guān)系抽象為帶有語義關(guān)系標(biāo)簽的有向弧,把句子語義抽象為一個(gè)單根有向無環(huán)圖[38]。AMR將句子中詞語抽象為概念,用圖結(jié)構(gòu)來表示概念以及概念之間的關(guān)系,并擁有新增、刪除、替換的抽象機(jī)制[39]。利用這一機(jī)制,AMR可突破表層句法結(jié)構(gòu)的差異,將深層的語義結(jié)構(gòu)統(tǒng)一表示出來。
AMR是基于英語制定的,李斌等針對(duì)漢語特有的語法特點(diǎn)完善標(biāo)注體系,形成了中文抽象語義表示(Chinese Abstract Meaning Representation,CAMR)[40]。在CAMR標(biāo)注體系中,概念的編號(hào)不再由標(biāo)注器隨機(jī)分配,而是先對(duì)句子進(jìn)行分詞,根據(jù)詞語序列分配相應(yīng)編號(hào)。下面以“誰想去公園???”為例,對(duì)改進(jìn)后的CAMR標(biāo)注方法進(jìn)行簡(jiǎn)要展示。
如圖2所示,“誰”在該特指疑問句中是疑問焦點(diǎn),是理解語義的關(guān)鍵,用核心語義關(guān)系arg0(原型施事)和疑問概念amr-unknown共同來表示,并且使用關(guān)系mode和概念interrogative點(diǎn)明了疑問語氣類型。相對(duì)于傳統(tǒng)的依存句法樹表示來說,CAMR也兼顧了“想-01”、“去-01”和“誰”的論元共享關(guān)系,語義結(jié)構(gòu)表示較為完整,并且分詞對(duì)應(yīng)編號(hào)實(shí)現(xiàn)了語義圖中的概念與原句詞語的對(duì)齊。
圖2 “誰想去公園???”的CAMR表示
自2013年標(biāo)注規(guī)范公開發(fā)布以來,AMR語料標(biāo)注工作不斷推進(jìn)。目前AMR已經(jīng)有近五萬句的英文語料庫,語料內(nèi)容來自新聞等領(lǐng)域。CAMR也公布了中文《小王子》語料庫(1)https://amr.isi.edu/,還有通過LDC發(fā)布的1萬句對(duì)齊版的標(biāo)注語料(2)https://catalog.ldc.upenn.edu/LDC2019T07,語料內(nèi)容除CTB 8.0外,還兼顧語文課本、微博等領(lǐng)域的數(shù)據(jù)。在自動(dòng)分析方面,F(xiàn)值達(dá)到了80%[41]。本文主要基于CAMR對(duì)漢語疑問句進(jìn)行標(biāo)注。
本文語料主要是從已經(jīng)標(biāo)注過的語料中抽取出來的疑問句: 來源一是CTB 8.0版的10 149句網(wǎng)絡(luò)媒體語料,其中疑問句1 215句;二是2001年人教版一到六年級(jí)的語文課本中的8 696句語料[42],其中疑問句692句;三是和英文《小王子》句對(duì)齊的中文《小王子》1 563句,其中疑問句164句,共計(jì)2 071句疑問句。
通過1.2節(jié)的梳理,我們可以發(fā)現(xiàn): 以往的疑問句形式化表示沒有完整的標(biāo)注體系,研究重點(diǎn)集中在分類和語義角色標(biāo)注上。如果要理清疑問句的句子語義結(jié)構(gòu),這些是不夠的。
CAMR的標(biāo)注體系在AMR的基礎(chǔ)上,根據(jù)漢語特點(diǎn)進(jìn)行了優(yōu)化,形成了一套較為完整的疑問句標(biāo)注方法,具體特色如下:
(1)設(shè)置虛節(jié)點(diǎn)(新增概念節(jié)點(diǎn))標(biāo)簽。AMR中的虛節(jié)點(diǎn)標(biāo)簽由概念單詞的首字母表示,對(duì)于首字母相同的概念,不容易區(qū)分。但CAMR使用xn(n∈N)的形式表示虛節(jié)點(diǎn),n是基于分詞結(jié)果分配的有序編號(hào)。若為人工添加,則由系統(tǒng)隨機(jī)分配。這樣一來就實(shí)現(xiàn)了概念、關(guān)系與詞的對(duì)齊。特別地,對(duì)于部分形式意義較為凝固的構(gòu)式成分,CAMR將其整體作為一個(gè)謂詞標(biāo)注或只標(biāo)注其表層義。
(2)標(biāo)注疑問語氣。語氣信息對(duì)句子語義影響很大,尤其在書面漢語中。漢語沒有嚴(yán)格意義上的形態(tài)變化,語氣詞和語法意義之間是多對(duì)多的關(guān)系,是否添加標(biāo)點(diǎn)符號(hào)“?”、是否具有語氣詞等都會(huì)使整句的情感和語義發(fā)生變化。
(3)既可以從整體上理解疑問句的深層語義結(jié)構(gòu),又能清晰把握疑問焦點(diǎn)的語義關(guān)系。CAMR允許根據(jù)句子語義增刪概念節(jié)點(diǎn),允許論元共享,如圖2所示。它可以通過圖結(jié)構(gòu)清晰而完整地將整句語義表示出來。再加上疑問概念amr-unknown與不同語義關(guān)系的搭配使用設(shè)置,我們可以清楚地知道句子的疑問焦點(diǎn)是什么、具有什么樣的語義關(guān)系,以及疑問焦點(diǎn)的對(duì)齊信息。
CAMR中的語義關(guān)系分為兩種: 核心語義角色關(guān)系和非核心語義角色關(guān)系。用形如“argx(x∈[0,4])”的5個(gè)標(biāo)簽來表示核心關(guān)系,用如“cause(起因)”等48個(gè)語義標(biāo)簽來表示非核心關(guān)系。表1列出了CAMR表示疑問句常用的語義關(guān)系標(biāo)簽以及含義。
在處理疑問句時(shí),除了常規(guī)的標(biāo)注操作外,需特別注意的是對(duì)疑問語氣和疑問代詞的處理。表1中的關(guān)系標(biāo)簽mod在CAMR中對(duì)應(yīng)祈使(imperative)、疑問(interrogative)、感嘆(expressive)和判斷(judgement)四種語氣概念,即用關(guān)系mode和概念interrogative共同表示疑問語氣,將其標(biāo)注在整句的根(root)上。若遇到有多個(gè)分句的長(zhǎng)句,并且最后一個(gè)分句有疑問語氣,則標(biāo)注在此分句的根上。
表1 常用語義關(guān)系標(biāo)簽以及含義
主要標(biāo)注對(duì)象有標(biāo)點(diǎn)符號(hào)“?”、疑問語氣詞“嗎”等。當(dāng)句子中只有“?”或者疑問語氣詞時(shí),疑問語氣由“?”或者疑問語氣詞單獨(dú)承擔(dān);當(dāng)二者一起出現(xiàn)時(shí),疑問語氣由其共同承擔(dān)。但當(dāng)一個(gè)句子有多種語氣時(shí),如“他為什么這樣呢!”既有疑問又有感嘆,此時(shí)由“呢”承擔(dān)疑問語氣,由“!”承擔(dān)感嘆語氣,將這兩種語氣都表示出來。最后,疑問代詞“誰”“什么”等使用概念標(biāo)簽amr-unknown搭配不同的語義關(guān)系標(biāo)簽來表示。
本文的疑問句標(biāo)注借鑒現(xiàn)代漢語傳統(tǒng)的分類體系——將疑問句分為是非疑問句、選擇疑問句(包含正反疑問句)和特指疑問句三大類,同時(shí)也兼顧了一些特殊的疑問句結(jié)構(gòu)[8]。各類疑問句使用的主要關(guān)系及概念標(biāo)簽如表2所示。
表2 各類疑問句的基本關(guān)系及概念標(biāo)簽
2.3.1 是非疑問句
對(duì)于是非疑問句,CAMR使用關(guān)系標(biāo)簽mode和表示疑問的概念標(biāo)簽interrogative共同描寫句子的疑問語氣。
圖3例子中,“?”和“嗎”一起承擔(dān)了疑問語氣,用“_”連接分詞編號(hào)。“被找到”表示被動(dòng),因此增加了虛節(jié)點(diǎn)person來引出“找到”的行為施事,其標(biāo)簽編號(hào)由系統(tǒng)隨機(jī)分配。再者,CAMR增加了詞語和概念關(guān)系的對(duì)齊信息,使得虛詞對(duì)應(yīng)于概念節(jié)點(diǎn)或節(jié)點(diǎn)之間的關(guān)系弧,“被”字引出施事,標(biāo)注在實(shí)詞“男孩”和“找到”之間的有向弧上[43]。另外AMR不標(biāo)注體,CAMR根據(jù)漢語特點(diǎn)增加了關(guān)系標(biāo)簽aspect,用于標(biāo)注助詞“著”“了”等。
圖3 “男孩被找到了嗎”的CAMR表示
另外,是非疑問句中經(jīng)常出現(xiàn)的“是不是”“是否”等副詞成分,如“他是否收集蝴蝶標(biāo)本呀?”。這些副詞是對(duì)事件的真實(shí)性進(jìn)行發(fā)問,本質(zhì)上也屬于是非疑問句的范疇。所以CAMR在處理這些成分時(shí),也會(huì)將其抽象表示為關(guān)系標(biāo)簽mode和概念標(biāo)簽interrogative。
2.3.2 選擇疑問句
CAMR會(huì)將表示選擇概念的“或者”“還是”等替換為概念or。同時(shí),和關(guān)系標(biāo)簽operatorx,即opx,一起使用。另外,在正反疑問句中,使用關(guān)系polarity和概念“-”表示否定概念。
在圖4左例中,“還是”被等價(jià)替換為or,關(guān)系標(biāo)簽op1和op2對(duì)選擇項(xiàng)進(jìn)行了說明。右邊例子中的選擇項(xiàng)“走”和“不走”屬于正反兩種情況,將“不走”中的否定項(xiàng)“不”等價(jià)替換為否定符號(hào)“-”。
圖4 選擇(包含正反)疑問句的CAMR表示
2.3.3 特指疑問句
在特指疑問句中,會(huì)將“什么”“怎么”等疑問代詞抽象為概念amr-unknown。
圖5左例中,“幫忙”是一個(gè)離合詞,使用“_”把“幫”和“忙”連接合并處理,且可將“窩”更正為正確的概念“我”。但是在傳統(tǒng)的語義依存分析體系中,“幫”和“窩(我)”的關(guān)系則無法顯示出來。在右邊的例子中,CAMR使用關(guān)系標(biāo)簽poss表示“誰”和“玩具”之間的領(lǐng)屬關(guān)系,“的”作為虛詞,將其標(biāo)注在“誰”和“玩具”之間的弧上。
圖5 特指疑問句的CAMR表示
2.3.4 其他疑問句的處理
一是“非疑問句+疑問小句”類附加問結(jié)構(gòu)。該結(jié)構(gòu)通常是由一個(gè)陳述小句,加逗號(hào)(也可不加),最后加上一個(gè)“是吧”“是嗎”等疑問小句組成。因?yàn)镃AMR表示的是句子深層結(jié)構(gòu)的抽象語義,所以語序?qū)ζ錁?biāo)注沒有影響。所以“是嗎”等疑問小句本質(zhì)上還是對(duì)前面陳述句所表達(dá)事實(shí)的質(zhì)疑,如圖6左側(cè)例子。
二是“難道”類反問結(jié)構(gòu)。在CAMR中,使用關(guān)系標(biāo)簽mod(modifier)來表示一般的修飾關(guān)系,用來銜接上下文的關(guān)系詞,如“難道”“又”“再”等,如圖6右側(cè)例子。
圖6 附加問和反問類疑問句的CAMR表示
三是間接問句。疑問短語可以單獨(dú)成句,也可以作為一個(gè)結(jié)構(gòu)成分出現(xiàn)在另一個(gè)句子中,通常是充當(dāng)賓語。疑問短語做賓語有兩種類型,一是全句為陳述句,如“你了解這是為什么?!边@時(shí)賓語已經(jīng)失去了疑問性質(zhì)和功能,故不關(guān)注該類用法。二是全句為疑問句,如圖7左側(cè)例子。
四是自問自答類的設(shè)問句。自問和自答是設(shè)問句不可分割的一個(gè)整體,可以看出發(fā)問者其實(shí)是無疑而問,如圖7右側(cè)例子。采用multi-sentence(多句關(guān)系)概念標(biāo)簽來處理多個(gè)句子之間的關(guān)系,與關(guān)系標(biāo)簽sntx(x∈N)配合使用。
圖7 間接問句和設(shè)問句的CAMR表示
在這一節(jié)中,我們對(duì)是非、選擇(包含正反)、特指這三大類疑問句的標(biāo)注方法進(jìn)行了舉例說明,同時(shí)也對(duì)一些特殊疑問句結(jié)構(gòu)進(jìn)行了標(biāo)注展示。CAMR既可以處理常規(guī)的疑問句標(biāo)注,表達(dá)出深層的語義結(jié)構(gòu),也可以較好地表示一些無疑而問等特殊的疑問句表達(dá)。
雖然CAMR無須借助分類系統(tǒng)分析疑問句的語義結(jié)構(gòu),但我們也可以利用表2相關(guān)標(biāo)簽統(tǒng)計(jì)出三大類疑問句的占比情況,如表3所示。從表中可以看出,特指疑問句的占比最高,達(dá)51.71%,選擇疑問句最少,只有4.73%。
表3 各類疑問句的比例分布
CAMR允許根據(jù)句子語義增刪概念節(jié)點(diǎn),允許論元共享,既可以通過圖結(jié)構(gòu)清晰而完整地將整個(gè)句子深層語義表示出來,又可以通過語義關(guān)系和疑問概念amr-unknown搭配使用等把握疑問焦點(diǎn)信息,這對(duì)于我們準(zhǔn)確理解疑問句非常有幫助。呂叔湘[21]指出“回答問話,一般不用全句,只要針對(duì)疑問焦點(diǎn),用一個(gè)詞或短語就夠了”。對(duì)于疑問句來說,我們需要清楚的就是疑問句是針對(duì)什么提出疑問,疑問語義中心在哪里,即疑問焦點(diǎn)在哪里[44],這對(duì)于計(jì)算機(jī)自動(dòng)分析是非常重要的。是非疑問句是對(duì)整個(gè)句子的客觀事實(shí)提出疑問,那么疑問焦點(diǎn)就落在了整句的語義上;選擇疑問句有選擇項(xiàng),那么opx關(guān)系標(biāo)簽所對(duì)應(yīng)的概念標(biāo)簽就是我們需要關(guān)注的疑問焦點(diǎn)語義項(xiàng)。
但是特指疑問句比較特殊,具有不一樣的構(gòu)成要素——疑問代詞,比如“怎么”“什么”“哪里”等。疑問代詞作為句法功能和意義的結(jié)合,是特指疑問句的疑問焦點(diǎn)[44]。林裕文也指出“特指是對(duì)準(zhǔn)疑問代詞回答的”[45]。再加上有的特指疑問句不止一個(gè)疑問焦點(diǎn),僅從疑問句分類角度難以準(zhǔn)確把握完整的語義信息,如圖8所示,該句有“誰”和“怎么”兩個(gè)疑問焦點(diǎn),分別具有arg0(原型施事)和manner(方式)兩種語義關(guān)系,傳統(tǒng)計(jì)算研究方法難以直接處理。針對(duì)特指疑問句要素特點(diǎn),CAMR使用疑問概念amr-unknown,同時(shí)搭配各種語義關(guān)系來共同表示疑問焦點(diǎn)信息。疑問代詞的不同使用方法可能會(huì)有不同的語義關(guān)系,下面將通過統(tǒng)計(jì)數(shù)據(jù)詳細(xì)分析疑問代詞語義角色的分布特點(diǎn),總結(jié)疑問代詞的語義功能特點(diǎn)。
圖8 “誰知道怎么贏?”的CAMR表示
本文對(duì)2 071個(gè)疑問句中的1 410個(gè)疑問代詞所對(duì)應(yīng)的1 410個(gè)概念amr-unknown的語義關(guān)系信息進(jìn)行了統(tǒng)計(jì),不同語義關(guān)系的使用分布情況如表4所示。
表4 疑問概念amr-unknown的語義關(guān)系分布
從表4可以看出,疑問概念amr-unknown各類語義關(guān)系有23種,總共出現(xiàn)了1 410次,但分布不平衡,使用頻率較高的前三大類依次是cause、mod以及arg1,分別用來提問原因、修飾成分以及原型受事,分別占比26.45%、16.74%以及16.45%。在出現(xiàn)的4種核心語義關(guān)系中,概念amr-unknown為受事的語義關(guān)系最常見。非核心語義關(guān)系有19種,種類比較多,且出現(xiàn)總次數(shù)是核心語義關(guān)系的兩倍左右,達(dá)67.87%。這些不同的語義關(guān)系代表的是說話人不同的提問對(duì)象,所以弄清疑問代詞的不同語義關(guān)系是什么,是我們把握特指疑問句語義的重點(diǎn)所在,也是問答系統(tǒng)提高回答準(zhǔn)確率的關(guān)鍵所在。
通過對(duì)2 071個(gè)疑問句的標(biāo)注,我們可以看出CAMR可以完整而清晰地表示出漢語疑問句的整體結(jié)構(gòu)。而以往處理疑問句的方法,比如問句分類、依存分析等,很難完整表示出疑問句結(jié)構(gòu)的深層語義。通過對(duì)1 410個(gè)疑問概念amr-unknown的語義角色種類進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)cause、mod以及arg1的語義關(guān)系使用最為頻繁。在CAMR的標(biāo)注體系下,處理疑問句有一套完整的標(biāo)注體系,無須設(shè)置分類標(biāo)簽,通過語義關(guān)系標(biāo)簽就可以知道句子的疑問焦點(diǎn)是什么、位置在哪里,從而準(zhǔn)確把握整句的語義結(jié)構(gòu)。
隨著自然語言處理領(lǐng)域的不斷發(fā)展,疑問句的形式化表示越來越受到各界學(xué)者的重視,但是由于漢語疑問句形式多樣、結(jié)構(gòu)復(fù)雜,目前還沒有比較完整的標(biāo)注體系可以很好地表示漢語疑問句的整體結(jié)構(gòu)。本文首先梳理了國(guó)內(nèi)外疑問句的相關(guān)理論與計(jì)算研究。接著使用改進(jìn)之后的CAMR體系針對(duì) 2 071個(gè)漢語疑問句,對(duì)不同結(jié)構(gòu)類型疑問句的標(biāo)注方法進(jìn)行了說明。最后對(duì)1 410個(gè)疑問概念amr-unknown的語義關(guān)系種類進(jìn)行了統(tǒng)計(jì)分析,發(fā)現(xiàn)其非核心語義角色的使用頻率最高。這一標(biāo)注體系不需要進(jìn)行疑問句分類,就可以更好地描寫疑問代詞的功能,把握其語義關(guān)系,并解決一句多問的問題,對(duì)問答系統(tǒng)作出正確回答有很大的幫助。
在未來工作中,我們會(huì)擴(kuò)大漢語疑問句的語料規(guī)模,豐富語料類型,關(guān)注口語化的疑問句表達(dá),進(jìn)而繼續(xù)完善CAMR標(biāo)注體系,推動(dòng)相關(guān)理論研究。最后,希望通過標(biāo)注語料庫進(jìn)行機(jī)器學(xué)習(xí),不斷提高CAMR語義自動(dòng)分析效果,推進(jìn)疑問句的自動(dòng)分析和應(yīng)用。