楊 敏,常寶寶
(北京大學(xué) 計(jì)算語(yǔ)言所,北京 100871;北京大學(xué) 計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871)
語(yǔ)義角色標(biāo)注是當(dāng)前淺層語(yǔ)義分析的一種主要的實(shí)現(xiàn)方式,主要任務(wù)是找出給定句中每個(gè)謂詞的動(dòng)詞——論元結(jié)構(gòu)。語(yǔ)義角色標(biāo)注意義廣泛,在許多復(fù)雜的自然語(yǔ)言處理中,都有很大的用處,它對(duì)信息抽取、機(jī)器翻譯等研究都會(huì)產(chǎn)生巨大的幫助。
語(yǔ)義角色標(biāo)注的研究最早關(guān)注于英文,最早研究開(kāi)始于Dan Gildea和Dan Jurafsky[1],隨著賓州大學(xué)命題庫(kù)的建立,語(yǔ)義角色標(biāo)注任務(wù)得到廣泛的國(guó)際關(guān)注,并取得了許多很好的結(jié)果,例如Carreras等[2-3],Moschitti[4]等。另一方面出現(xiàn)了一些相關(guān)的國(guó)際評(píng)測(cè):CoNLL 2004[2]、CoNLL 2005[3]、EMNLP-CoNLL 2007和CoNLL 2008都包含了語(yǔ)義角色標(biāo)注的任務(wù)也促進(jìn)了語(yǔ)義角色標(biāo)注研究的蓬勃發(fā)展。國(guó)內(nèi)對(duì)語(yǔ)義角色標(biāo)注的關(guān)注最早起始于劉挺等[5],他們主要關(guān)注的依然是英文語(yǔ)義角色性能的提升。而關(guān)注于中文的語(yǔ)義角色標(biāo)注工作較晚,最開(kāi)始研究的是Sun等[6]。后來(lái)伴隨著中文PropBank的構(gòu)建,Xue Nianwen開(kāi)始了比較系統(tǒng)的中文語(yǔ)義角色標(biāo)注的工作[7-8]。國(guó)內(nèi)還有劉懷軍等[9],丁偉偉等[10-11]對(duì)漢語(yǔ)的語(yǔ)義角色研究進(jìn)行了系統(tǒng)的研究。
縱觀以前的有指導(dǎo)的語(yǔ)義角色標(biāo)注任務(wù),無(wú)論是對(duì)英文還是中文的研究工作,大都是基于賓州大學(xué)命題庫(kù)的語(yǔ)義角色標(biāo)注體系進(jìn)行的,CoNLL 2004[2]、CoNLL 2005[3]更是推動(dòng)了所有研究都基于賓州大學(xué)命題庫(kù)的研究這一趨勢(shì),因此研究的一大類方法便是在賓州大學(xué)命題庫(kù)的基礎(chǔ)上,基于特征的研究方法。由于北京大學(xué)中文網(wǎng)庫(kù)(以下簡(jiǎn)稱北大網(wǎng)庫(kù))的建立,網(wǎng)庫(kù)的標(biāo)注方法與賓州命題庫(kù)的標(biāo)注方法有所區(qū)別,本文的主要任務(wù)是將之前的研究方法使用到新的標(biāo)注語(yǔ)料中,考察之前的研究方法在新標(biāo)注體系中的作用,進(jìn)而討論是否以前的特征選擇會(huì)有對(duì)標(biāo)注體系的依賴性問(wèn)題。
本文以下部分是這樣組織的:第2節(jié)介紹中文Proposition Bank和pku網(wǎng)庫(kù)標(biāo)注語(yǔ)料;第3節(jié)是具體介紹實(shí)驗(yàn)的相關(guān)設(shè)置;實(shí)驗(yàn)的相關(guān)結(jié)果在第4節(jié);第5節(jié)主要介紹兩個(gè)改進(jìn)實(shí)驗(yàn)。最后一節(jié)是結(jié)論與展望。
中文Proposition Bank(以下簡(jiǎn)稱中文PropBank)是賓州大學(xué)建設(shè)的中文語(yǔ)義角色標(biāo)注語(yǔ)料庫(kù)。它是在中文TreeBank的基礎(chǔ)上添加了一個(gè)語(yǔ)義角色標(biāo)注層,標(biāo)記出來(lái)動(dòng)詞和對(duì)應(yīng)論元在TreeBank中的位置。表1列出了PropBank中出現(xiàn)的所有論元。PropBank中出現(xiàn)的語(yǔ)義角色可以分為兩大類:核心論元和非核心論元。前一類又可以分為施事、受事、與事等多種論元,由于PropBank中的論元?jiǎng)澐忠罁?jù)的是Dowty[12]的原型理論,所以施事、受事等角色包括的范圍都是很廣的。非核心論元又可以按照功能分出小類,比如ADV、MNR、TMP等就是其中的小類。 結(jié)合圖1可知,ARG0-ARG5是核心論元,其他都屬于非核心論元。
表1 PropBank中的論元
與賓州大學(xué)命題庫(kù)相似,北大網(wǎng)庫(kù)是在由詹衛(wèi)東等開(kāi)發(fā)的北大漢語(yǔ)句法分析樹(shù)庫(kù)的基礎(chǔ)上進(jìn)行語(yǔ)義標(biāo)注的,由北京大學(xué)中文系袁毓林[13]教授組織完成,語(yǔ)義角色標(biāo)簽標(biāo)注在句法樹(shù)的節(jié)點(diǎn)上。在語(yǔ)義角色設(shè)置方面,與PropBank有些區(qū)別,尤其是核心論元的設(shè)置。具體論元設(shè)置如下[13]:
(一) 必有論元:
A. 主體論元:(1)施事A:自主性動(dòng)作行為的施行者。(2)感事Se:非自主性的心理感覺(jué)的主體。(3)經(jīng)事Ex:某種變化的具有感知性的主體。(4)致事Cau:某種致使性事件的引起者。(5)主事Th:性質(zhì)、狀態(tài)等無(wú)施動(dòng)、感知性的主體。
B. 客體論元:(1)受事P:因施事的行為而受到影響的事物。(2)與事D:動(dòng)作、行為的非主動(dòng)的參與者。(3)結(jié)果R:動(dòng)作、行為造成的結(jié)果。(4)對(duì)象Ta:感知性動(dòng)作、行為的對(duì)象和目標(biāo)。(5)系事Re:事件中跟主體論元相對(duì)的其他各種客體。
(二) 非必有論元
A. 憑借論元:(1)工具I:動(dòng)作、行為所憑借的器具。(2)材料Ma:動(dòng)作、行為所用的材料。(3)方式M:動(dòng)作、行為所采取的方式、方法。(4)原因Rn:動(dòng)作、行為、事件等發(fā)生的原因。(5)目的Ai:發(fā)生動(dòng)作、行為、事件等的目的。
B. 環(huán)境論元:(1)時(shí)間T:動(dòng)作、行為、事件等發(fā)生的時(shí)間。(2)處所L:動(dòng)作、行為、事件等發(fā)生的處所。(3)源點(diǎn)So:動(dòng)作、行為、事件等開(kāi)始的時(shí)間或處所。(4)終點(diǎn)Go:動(dòng)作、行為、事件等結(jié)束的時(shí)間、處所或狀態(tài)。(5)路徑Pa:動(dòng)作、行為、事件等中途經(jīng)過(guò)的時(shí)間或處所。(6)范圍Ra:動(dòng)作、行為、事件等所涉及的數(shù)量、頻率、幅度、時(shí)間等事項(xiàng)。(7)量幅EXT。
圖1是北大網(wǎng)庫(kù)中的一個(gè)例子。在這個(gè)例子中,出現(xiàn)了三個(gè)謂詞,分別是:“毫不在意”、“抹去”、“當(dāng)作”。對(duì)于“毫不在意”,句子中對(duì)應(yīng)的論元成分有:感事“他”,對(duì)象“這一切”;對(duì)于謂詞“抹去”,句中對(duì)應(yīng)的論元有:施事“他”,受事“它們”和方式“當(dāng)作蛛絲一樣”;對(duì)于謂詞“當(dāng)作”,對(duì)應(yīng)的論元有:施事“他”,受事“它們”,系事“蛛絲”。
圖1 網(wǎng)庫(kù)例句示例
直觀從論元分類上看,相比PropBank,北大網(wǎng)庫(kù)的論元更細(xì)致,分別在主體論元和客體論元內(nèi)部各劃分出五個(gè)子類。從語(yǔ)義角色精細(xì)等級(jí)的理論上[1]看,兩種語(yǔ)料庫(kù)確實(shí)有所不同。
PropBank的語(yǔ)義角色是編了號(hào)的原型角色,是中觀層次上基于特定動(dòng)詞的角色,又借鑒了宏觀層次上原型角色的抽象性地指派的做法,于是用了數(shù)目相對(duì)有限的帶編號(hào)的論元,每一個(gè)具體動(dòng)詞的語(yǔ)義論元被編了號(hào)。對(duì)于一個(gè)特定的動(dòng)詞,ArgO通常是表現(xiàn)出Dowty[12]中的原型施事的有關(guān)特征的論元,Argl則是原型受事和主事(Theme)。對(duì)于這種被編了號(hào)的高級(jí)論元,無(wú)法做出適合于不同動(dòng)詞的具有一致性的概括。而動(dòng)詞的特定用法相對(duì)應(yīng)的一組角色叫角色集合,這組角色可以跟一組句法框架相聯(lián)系,這組句法框架顯示了那組角色的各種可能的句法變化。而中文網(wǎng)庫(kù)的語(yǔ)義角色是屬于所謂中觀層級(jí)的語(yǔ)義角色,雖不是基于一個(gè)個(gè)具體的動(dòng)詞,而是基于具有句法、語(yǔ)義共性的一類動(dòng)詞。雖然北大網(wǎng)庫(kù)也配套給出了動(dòng)詞的框架描述,但是針對(duì)每個(gè)動(dòng)詞,它的各類角色都標(biāo)注在語(yǔ)料中,并不需要像PropBank一樣從框架描述中才能確定具體的語(yǔ)義角色。
一般的語(yǔ)義角色標(biāo)注系統(tǒng)分為四個(gè)步驟,分別是剪枝pruning、語(yǔ)義角色識(shí)別、語(yǔ)義角色分類以及后處理階段。國(guó)內(nèi)外很多學(xué)者對(duì)每個(gè)過(guò)程的研究也非常豐富,對(duì)于識(shí)別、分類階段的特征挑選方面也進(jìn)行了細(xì)致的研究。本文將只對(duì)論元分類部分進(jìn)行研究。
北大網(wǎng)庫(kù)共70個(gè)文件,包括的句子總數(shù)為 12 434,論元總數(shù)為65 967。我們?cè)趧澐钟?xùn)練集、開(kāi)發(fā)集以及測(cè)試集時(shí)采用了與文獻(xiàn)[8]大概一致的比例。圖2是網(wǎng)庫(kù)中各類論元的分布圖,由圖可見(jiàn),論元的分布很不均勻,不僅各大類(共四類)的論元總數(shù)相差很遠(yuǎn),主體論元、客體論元、憑借論元和環(huán)境論元的比例大概為16.5∶18∶6∶1,各類論元內(nèi)部分布也不均勻。
圖2 網(wǎng)庫(kù)中各論元分布圖
本實(shí)驗(yàn)采用Zhang Le的最大熵分類器MaxEnt*下載地址http://homepages.inf.ed.ac.uk/s0450736/maxent_toolkit.html.,該分類器實(shí)現(xiàn)了包含高斯平滑的最大熵算法,采用LBFGS參數(shù)估計(jì)方法,可以很方便地處理多類劃分的問(wèn)題。
實(shí)驗(yàn)的參數(shù)設(shè)置如下:迭代次數(shù)500,高斯平滑參數(shù)為15。
在改進(jìn)實(shí)驗(yàn)中采用了CRF++分類器*下載地址http://chasen.org/~taku/software/CRF++/#features.。
為了使實(shí)驗(yàn)結(jié)果與前人實(shí)驗(yàn)結(jié)果具有可比較性,本實(shí)驗(yàn)中采用的特征集合與文獻(xiàn)[8]的Baseline一致。特征模版如下:位置:句法成分在謂詞前面還是后面;動(dòng)詞的框架:動(dòng)詞的父節(jié)點(diǎn)及其所有子節(jié)點(diǎn)構(gòu)成的框架;短語(yǔ)類型:該論元成分的短語(yǔ)類型;首詞:句法成分的第一個(gè)詞;尾詞:該句法成分的尾詞;左兄弟的短語(yǔ)類型;擴(kuò)展的動(dòng)詞框架:動(dòng)詞框架及圍繞動(dòng)詞的np ;目標(biāo)謂詞;路徑:句法分析樹(shù)上句法成分到謂詞的路徑;中心詞:該句法成分的中心詞;中心詞詞性;復(fù)合特征:謂詞+中心詞;復(fù)合特征:謂詞+短語(yǔ)類型。
在網(wǎng)庫(kù)語(yǔ)料上,論元分類的準(zhǔn)確率為78.86%。對(duì)比文獻(xiàn)[8]中的93.1%的準(zhǔn)確率,可見(jiàn)該組特征在網(wǎng)庫(kù)上的表現(xiàn)差很多。圖3描述了Baseline各類論元的分類準(zhǔn)確率。由圖3可見(jiàn),各類論元中都有分類準(zhǔn)確率比較高的論元,也有準(zhǔn)確率很低的論元。
為了確定被錯(cuò)誤分類的論元是被誤歸類到所屬大類的集合中,還是被錯(cuò)誤的分為別的大類中,我們分別將各大類論元合并,即采用各種不同顆粒的論元分類法,同樣適用上述特征集合,具體實(shí)驗(yàn)結(jié)果如表2,由表2可知,當(dāng)將屬于主體論元類的五種論元合并成一個(gè)大類、屬于客體論元類的五中論元合并成另一大類時(shí),分類準(zhǔn)確率明顯提升至89.18%,由此可見(jiàn),這兩大類論元在分類時(shí)的內(nèi)部錯(cuò)誤占了整個(gè)系統(tǒng)錯(cuò)誤的很大一部分。同時(shí),如果將所有論元按最大粒度的分類方法,分成四大類,相比于第二種分類法,分類的準(zhǔn)確率提高了1.7個(gè)百分點(diǎn),由此可見(jiàn),依然有部分論元被錯(cuò)誤地分到其他大類別中。
圖3 各論元分類的正確率圖
表2 采用不同論元分類法的實(shí)驗(yàn)結(jié)果
由上述實(shí)驗(yàn)結(jié)果可知,論元分類的主要錯(cuò)誤來(lái)自各大類論元內(nèi)部,產(chǎn)生這個(gè)結(jié)果也是與語(yǔ)料標(biāo)注有關(guān)的。網(wǎng)庫(kù)的語(yǔ)義角色是基于特定謂詞的各論元成分的論旨角色,是屬于所謂中觀層級(jí)的語(yǔ)義角色,同一動(dòng)詞雖然可以有多種義項(xiàng),但同一義項(xiàng)所帶的論元框架是統(tǒng)一的,因此動(dòng)詞框架信息對(duì)于論元分類,尤其是判斷主體、客體論元會(huì)有很多作用。同時(shí),由于同一謂詞的論元配置具有相對(duì)固定性,因此采用序列標(biāo)注的思想對(duì)于論元分類也會(huì)有正面作用。以下兩個(gè)改進(jìn)實(shí)驗(yàn)就是分別基于上面兩個(gè)思想進(jìn)行。
由上述分析可知,在對(duì)主體、客體論元分類時(shí),謂詞相關(guān)的特征非常重要。因此仿照前人在PropBank中使用的方法,提取每個(gè)句中每個(gè)謂詞的論元框架,并添加以下三個(gè)特征verbFrame,VerbFrame+headword,verbFrame+phraseType后,總體分類準(zhǔn)確率從78.86%提高到94.34%,提升幅度非常大,而在文獻(xiàn)[8]試驗(yàn)中,加入謂詞框架相關(guān)特征后的分類準(zhǔn)確率也只是有一個(gè)百分點(diǎn)的提升,可見(jiàn)謂詞框架信息對(duì)網(wǎng)庫(kù)角色分類的至關(guān)重要性。
但是這種方法有一個(gè)很嚴(yán)重的弊端就是:它將所有語(yǔ)料中(包括測(cè)試語(yǔ)料中)的每個(gè)謂詞—論元框架提取出來(lái)當(dāng)做特征,而在真實(shí)情況中,是不可能預(yù)先知道測(cè)試語(yǔ)料中謂詞的論元框架,因此這種提取特征的方法一定程度上夸大了分類的準(zhǔn)確率。前人在針對(duì)PropBank的研究中,使用框架特征時(shí)普遍存在著這個(gè)問(wèn)題。因此,我們提出一種更貼切現(xiàn)實(shí)的謂詞框架提取方法,即只提取訓(xùn)練語(yǔ)料中的謂詞—論元框架。實(shí)驗(yàn)結(jié)果如我們預(yù)期的一樣,這種改進(jìn)的方法使分類準(zhǔn)確率較Baseline提升到88.24%,但相比之前提取謂詞—論元框架的方法,準(zhǔn)確率降低6個(gè)百分點(diǎn)。這樣驗(yàn)證了我們的觀點(diǎn)。
圖4給出了使用改進(jìn)后框架特征與使用未改進(jìn)框架特征的分類結(jié)果對(duì)比情況??梢?jiàn),謂詞框架的相關(guān)特征對(duì)提高論元分類準(zhǔn)確率的效果很大。而且當(dāng)去除測(cè)試語(yǔ)料中謂詞—論元框架信息時(shí)的各類論元分類準(zhǔn)確率都有所下降,尤其是一些本身數(shù)量就比較少的論元,如主體論元中的CAU、EX。
圖4 謂詞框架信息修改前后的分類結(jié)果對(duì)比
在前面的所有實(shí)驗(yàn)中,我們都是將所有節(jié)點(diǎn)一個(gè)一個(gè)單獨(dú)地提取特征,進(jìn)行分類,各論元之間沒(méi)有任何聯(lián)系。但實(shí)際在一個(gè)句子中,某一謂詞的論元之間具有相關(guān)性,特定動(dòng)詞的論元成對(duì)出現(xiàn)的可能性很大,例如:受事論元被定義為因施事的行為而受到影響的事物,因此受事常與施事論元成對(duì)出現(xiàn),當(dāng)前面論元已判定為施事時(shí),后面很可能會(huì)出現(xiàn)受事論元。采用序列標(biāo)注的思想,考慮論元之間的相關(guān)性。因此使用CRF++分類器進(jìn)行分類,總體分類準(zhǔn)確率為88.50%。具體每一類論元的分類準(zhǔn)確率如圖4。
將上面所有實(shí)驗(yàn)結(jié)果與前人結(jié)果綜合起來(lái),比較結(jié)果如表3。從表3可以看到,相比較與在PropBank上的論元分類,Baseline在網(wǎng)庫(kù)上的效果差很多,也就是說(shuō)Baseline中所使用的特征集合對(duì)網(wǎng)庫(kù)論元分類的效果并不很明顯,而謂詞框架信息對(duì)網(wǎng)庫(kù)中的角色分類的作用更加關(guān)鍵。然而,在使用修正后的謂詞框架信息,分類準(zhǔn)確率明顯下降了不少,由此我們也可以看出前人在PropBank上中使用的謂詞框架信息一定程度上夸大了分類的準(zhǔn)確率。另外,采用序列標(biāo)注的思想,將前一個(gè)論元的分類結(jié)果加入作為特征,對(duì)每種論元的分類準(zhǔn)確率都有提升還是很大的,這里只是在Baseline的基礎(chǔ)上使用序列標(biāo)注,準(zhǔn)確率比Baseline提高了近十個(gè)百分點(diǎn),這也驗(yàn)證了我們對(duì)論元之間相關(guān)性的猜想。
表3 實(shí)驗(yàn)結(jié)果比較
本文中,我們?nèi)碌恼Z(yǔ)料庫(kù)上建立了一個(gè)中文語(yǔ)義角色分類系統(tǒng),并將前人基于PropBank廣泛使用的分類方法應(yīng)用到新語(yǔ)料庫(kù)中,在論元分類階段取得與在PropBank上相當(dāng)?shù)膶?shí)驗(yàn)結(jié)果。從實(shí)驗(yàn)結(jié)果可以看出,雖然之前的實(shí)驗(yàn)方法在網(wǎng)庫(kù)中也能獲得良好的效果,但是我們也驗(yàn)證了之前研究方法中的在提取謂詞框架信息方面普遍存在的問(wèn)題。另外論元框架信息在新語(yǔ)料中對(duì)提高正確率的重要作用,說(shuō)明了此特征在不同語(yǔ)料上的良好擴(kuò)展性,同時(shí)Baseline的低準(zhǔn)確率也說(shuō)明其他特征的作用比較弱,可見(jiàn)這些特征在不同語(yǔ)料上的重要性大有不同,因此我們認(rèn)為特征對(duì)語(yǔ)料的依賴性是存在的,因此下一步工作是分別找出兩種語(yǔ)料中的最佳特征組合,進(jìn)行研究每個(gè)特征在兩種語(yǔ)料上的重要性并找出真正不依賴于標(biāo)注語(yǔ)料的特征集合。另外本文研究只是在北大網(wǎng)庫(kù)上的語(yǔ)義角色分類,將來(lái)的工作可以繼續(xù)關(guān)注語(yǔ)義角色標(biāo)注的第一階段——語(yǔ)義角色識(shí)別,并使其與現(xiàn)有的工作結(jié)合起來(lái),從而構(gòu)建一個(gè)完整的基于北大網(wǎng)庫(kù)的漢語(yǔ)語(yǔ)義角色標(biāo)注系統(tǒng)。
[1] D.Gildea, D. Jurafsky. Automatic labeling of semantic roles[J]. Computational Linguistics, 2002,28(3):245-288..
[2] Carreras X, Màrques L. Introduction to the conll-2004 shared task: Semantic role labeling[C]//Proceedings of CoNLL-2004,Boston, MA, USA, 2004:89-97.
[3] Carreras X, Màrques L. Introduction to the conll-2005 shared task: Semantic role labeling[C]//Proceedings of CoNLL-2005,stroudsburg, PA,USA, 2005:152-164.
[4] A. Moschitti. A Study on Convolution Kernels for Shallow Statistic Parsing[C]//Proceedings of the 42nd Meeting of the Association for Computational Linguistics, Barcelona, Spain, 2004:335-342.
[5] 劉挺,車萬(wàn)翔,李生. 基于最大熵分類器的語(yǔ)義角色標(biāo)注 [J]. 軟件學(xué)報(bào),2007,18(3):565-573.
[6] H. Sun,D. Jurafsky. Shallow Semantic Parsing of Chinese[C]//Proceedings of the HLT/NAACL, 2004.
[7] N. Xue, M. Palmer. Automatic semantic role labeling for Chinese verbs[C]//19th International Joint Conference on Artificial Intelligence, Edinburgh, Scotland.2005:1160-1165.
[8] N. Xue. Labeling Chinese Predicates with Semantic Roles [J]. Computational Linguistics, 2008,34(2):225-255.
[9] 劉懷軍,車萬(wàn)翔,劉挺. 中文語(yǔ)義角色標(biāo)注的特征工程 [J]. 中文信息學(xué)報(bào), 2007,21(1):79-84.
[10] 丁偉偉,常寶寶. 基于最大熵原則的漢語(yǔ)語(yǔ)義角色分類[J].中文信息學(xué)報(bào).2008,22(6):20-26.
[11] 丁偉偉,常寶寶.基于語(yǔ)義組塊分析的漢語(yǔ)語(yǔ)義角色標(biāo)注[J].中文信息學(xué)報(bào),2009,23(5):53-61,74.
[12] Dowty,D. Thematic Proto-Role and Argument Selection [J]. Language,1991,67(3):547-561.
[13] 袁毓林. 語(yǔ)義角色的精細(xì)等級(jí)及其在信息處理中的應(yīng)用 [J]. 中文信息學(xué)報(bào), 2007,21(4):10-20.