李 生,孔 芳 ,周國棟
(蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
基于PDTB的自動顯式篇章分析器
李 生,孔 芳 ,周國棟
(蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
自動篇章處理是自然語言處理中非常有挑戰(zhàn)的一個任務(wù),對自然語言處理的其他任務(wù),如問答系統(tǒng),自動文摘以及篇章生成都有重要的作用。近年來,大規(guī)模篇章語料PDTB的出現(xiàn)為篇章研究提供了一個公共的平臺。該文在PDTB語料之上提出了一個完整的基于條件隨機場模型的顯式篇章分析平臺,該平臺包含連接詞識別、篇章關(guān)系分類和關(guān)系論元提取三個子任務(wù)。給出了在PDTB上各模塊的實驗結(jié)果,并針對錯誤傳播問題,給出了完整平臺的性能及詳細(xì)分析。
篇章處理;條件隨機場;賓州篇章樹庫
自動篇章處理是自然語言處理中一項極具挑戰(zhàn)的任務(wù),是自然語言理解的基礎(chǔ),對許多自然語言處理的應(yīng)用而言(如問答系統(tǒng)、自動文章摘要、篇章生成等)意義重大。
近年來,篇章理論的發(fā)展以及大規(guī)模篇章語料的構(gòu)建,使得篇章級的分析應(yīng)用越來越受到研究者的關(guān)注。2008年發(fā)布的最新版的賓州篇章樹庫(The Penn Discourse Treebank,PDTB)[1]是一個在D-LTAG[2]框架下標(biāo)注的篇章級語料庫。它以詞法為基礎(chǔ),標(biāo)注了謂詞論元形式的篇章結(jié)構(gòu)。該語料庫同時還和賓州樹庫(The Penn Treebank,PTB)[3]進(jìn)行了對齊,研究者可以很方便地從詞法、句法、語義等多個視角分析篇章。PDTB語料庫標(biāo)注了顯式和隱式兩類關(guān)系。其中顯式關(guān)系由連接詞觸發(fā),驅(qū)動兩個論元,形成的關(guān)系都具有明確的語義類別。該語料庫為篇章分析提供了一個統(tǒng)一的平臺,針對該標(biāo)注體系,目前已有一些子任務(wù)得到了大量的關(guān)注,取得了很好的效果。本文給出了一個基于條件隨機場模型的完整的顯式篇章分析器平臺,該平臺由三部分構(gòu)成: (1)連接詞識別,判斷某一給定的候選連接詞是否真的承擔(dān)連接詞角色;(2)關(guān)系類別識別,判斷連接詞驅(qū)動的關(guān)系所屬的語義類別;(3)關(guān)系論元的抽取,提取給定連接詞驅(qū)動的文本域,并識別文本域承擔(dān)的角色(Arg1或者Arg2)。三部分級聯(lián)構(gòu)成了一個自動顯式篇章分析器,本文通過PDTB上的實驗分析了影響顯式篇章分析器性能的各類因素,并對三個模塊間的錯誤傳播進(jìn)行了評測和分析。
本文其他部分的組織如下:第二節(jié)給出了基于PDTB語料庫的顯式篇章分析的相關(guān)研究;第三節(jié)提出了完整的基于條件隨機場模型的顯式篇章分析器平臺;第四節(jié)給出了PDTB語料庫上的詳細(xì)實驗結(jié)果及分析;最后給出了結(jié)論,并對下一步工作進(jìn)行了展望。
近年來,篇章理論的發(fā)展以及大規(guī)模篇章語料庫的構(gòu)建使得篇章級的分析受到越來越多的關(guān)注。本文關(guān)注焦點是基于PDTB語料庫的顯式篇章分析,下面就基于PDTB語料庫的顯式篇章分析的相關(guān)工作進(jìn)行介紹。
在連接詞識別研究方面,代表性工作包括: Pilter等[4]使用最大熵分類模型詳細(xì)探討了句法信息對連接詞消歧的貢獻(xiàn)。Lin等[5]在Pilter等工作的基礎(chǔ)上又針對連接詞消歧提出了一些補充特征,進(jìn)一步提升了連接詞識別的性能。目前,在正確句法樹上,連接詞識別的F值達(dá)到了95%;在自動句法樹上,該模塊的F值約為93%。
在關(guān)系類別的識別方面,代表性的工作包括: Pilter等在連接詞識別的基礎(chǔ)上使用樸素貝葉斯方法依據(jù)連接詞和句法信息特征對第一層顯式關(guān)系進(jìn)行識別,其準(zhǔn)確率(Accuracy)達(dá)到了94.15%。Lin等針對第二層顯式關(guān)系使用最大熵分類模型依據(jù)連接詞上下文特征進(jìn)行了關(guān)系分類。在正確的句法樹上,關(guān)系類型識別的F值達(dá)到了86%;在自動句法樹上,該模塊的F值約為80%。
在關(guān)系論元的抽取方面,代表性的工作包括: Dinesh等[6]針對Subordinate類型的連接詞提出了一個tree subtraction算法來自動完成論元的抽取,但該方法使用了一套具有很強針對性的規(guī)則,對其他類別的連接詞并不完全適用。Lin等借鑒Dinesh的tree subtraction算法,借助機器學(xué)習(xí)方法首先識別覆蓋論元的最小子樹,再利用tree subtraction算法在子樹中抽取論元。但覆蓋論元的最小子樹也會包含非論元的部分,造成后續(xù)的抽取不能完全正確。他們的實驗結(jié)果也證實了這一點: 完全精確匹配的標(biāo)準(zhǔn)下,Arg1和Arg2同時正確的性能僅為40%,而在部分匹配的標(biāo)準(zhǔn)下,這一性能可達(dá)到80%以上。Wellner等[7]提出一個機器學(xué)習(xí)的方法來確定連接詞對應(yīng)論元Arg1和Arg2的head,但是PDTB語料中并沒有標(biāo)注論元的head信息,因而評測上缺乏一致的標(biāo)準(zhǔn)。Ghosh等[8]基于條件隨機場模型將論元抽取看成序列標(biāo)注問題,給出了一個論元識別方案,但他們使用了一些來自PDTB的標(biāo)準(zhǔn)信息,例如語義類別、Arg2信息等,給出的結(jié)果也只考慮了標(biāo)準(zhǔn)句法樹,未對自動句法分析結(jié)果進(jìn)行評測。
本文側(cè)重于顯式關(guān)系篇章分析器的構(gòu)建,與他們方法不同的是,連接詞方面我們提出一個基于CRFs的序列標(biāo)注模型;論元抽取方面,我們抽取完整的論元而不是論元的head,此外我們分為兩步建模,先識別Arg2部分,再完全自動化地識別Arg1(未使用任何標(biāo)準(zhǔn)信息,所有特征均自動獲取);為了系統(tǒng)的完整性,還構(gòu)建了顯式關(guān)系類別的識別模塊。在此基礎(chǔ)上,我們探討了兩種句法樹類型以及模塊之間錯誤傳播對篇章分析器的性能影響。
本文提出的篇章分析器的框架如圖1所示*PDTB體系認(rèn)為連接詞是篇章級的驅(qū)動謂詞,它驅(qū)動兩個論元形成一定的語義關(guān)系。已有的研究表明,對顯式關(guān)系而言,連接詞及其上下文已經(jīng)提供了足夠的信息來確定語義關(guān)系的類別。此外,我們的初步實驗表明引入任何的論元信息都將降低語義類別的識別性能,再加上自動論元識別的性能低于50%,它的引入必將降低語義類別的識別性能。因此,本文提出的顯式篇章分析器框架采用僅利用連接詞信息進(jìn)行關(guān)系類別的識別,在關(guān)系類別識別的基礎(chǔ)上,結(jié)合連接詞信息進(jìn)行關(guān)系論元的抽取。,可以看到該框架由三部分構(gòu)成:連接詞識別、顯式關(guān)系類型判別和論元抽取。其中,論元抽取分兩步進(jìn)行,首先識別與連接詞關(guān)系密切的Arg2論元,在已經(jīng)識別出Arg2論元的基礎(chǔ)上再抽取Arg1。
圖1 篇章分析整體框架
圖2 一個顯式篇章關(guān)系示例
具體流程我們以圖2給出的示例進(jìn)行解釋。這是摘自wsj_2015文章中表達(dá)時序關(guān)系的一個關(guān)系實例,連接詞用下劃線標(biāo)出,論元Arg1用斜體表示,論元Arg2用粗體表示。我們的平臺首先通過篇章連接詞識別模塊確定候選連接詞“after”的確是一個篇章連接詞;然后利用顯式關(guān)系類型判別模塊識別出當(dāng)前的連接詞“after”表述的語義關(guān)系是Temporal;最后在論元抽取部分對連接詞“after”驅(qū)動的論元進(jìn)行二步式抽取:首先識別出Arg2是“having been unchanged in October”,然后再識別出Arg1是“Factory output dropped 0.2%, its first decline since February”。
下面我們將詳細(xì)介紹顯式篇章分析器中每一構(gòu)成部分。
3.1 篇章連接詞識別
篇章連接詞的識別是顯式篇章分析的第一步,目標(biāo)是根據(jù)上下文信息確定某一候選連接詞是否真正承擔(dān)連接詞角色。由于后續(xù)的篇章關(guān)系類別和論元識別都與連接詞密切相關(guān),這一步的性能對整個顯式篇章分析至關(guān)重要。目前傳統(tǒng)的連接詞識別方法是:根據(jù)PDTB預(yù)設(shè)的候選連接詞列表*在PDTB語料庫中預(yù)先設(shè)定了100個不同類型的候選連接詞。獲取當(dāng)前上下文中的候選連接詞,針對每個候選連接詞提取其所在的上下文詞匯、句法及語義信息來判斷其是否真正承擔(dān)連接詞角色。可以看到,傳統(tǒng)的連接詞識別方法對預(yù)設(shè)的候選連接詞有著極大的依賴。有些研究表明這些預(yù)設(shè)的候選連接詞具有一定的領(lǐng)域性。例如,Balaji等[10]針對PDTB和BIODRB[11](生物醫(yī)學(xué)篇章關(guān)系語料庫)進(jìn)行了分析,發(fā)現(xiàn)兩個語料庫公共的候選連接詞僅占各自候選連接詞的40%左右,使用不同的候選連接詞列表將嚴(yán)重影響篇章連接詞識別的性能。
本文將連接詞識別問題看成是一個序列化標(biāo)注問題,提出一個基于條件隨機場模型的連接詞識別方法。該方法不依賴候選連接詞列表,可方便地應(yīng)用于多個不同領(lǐng)域、不同語言的篇章關(guān)系語料庫。
在序列化標(biāo)注問題中,我們首先需要確定需要使用的標(biāo)注集合。依據(jù)連接詞是否可以跨句,是否由不連續(xù)的幾部分構(gòu)成,我們將連接詞分成三類:(1)group:連續(xù)的不可分的,只能出現(xiàn)在一個句子中,例如,as a result;(2)senIntra:只能出現(xiàn)在一個句子中,包含分散的多個部分,例如,if...then;(3)senInter:出現(xiàn)在兩個句子中,包含分散的多個部分,例如,on one hand...on the other hand。其中第三類連接詞出現(xiàn)的頻度極低,本文后續(xù)的工作暫時忽略了這一類型。借鑒中文分詞以及短語識別的標(biāo)注集合,我們使用了五個標(biāo)注符:B,連接詞包含多個單詞,當(dāng)前詞為這一連接詞的開始;I,連接詞包含多個單詞,當(dāng)前詞位于連接詞的中間;E,連接詞包含多個單詞,當(dāng)前詞是連接詞的最后一個詞;S,連接詞僅包含一個單詞;O,不屬于連接詞。標(biāo)注符與連接詞類別相結(jié)合,在我們的連接詞識別模塊中共使用八個標(biāo)注符,B/I/E分成group和senIntra兩種,而S只針對group類別,O與連接詞無關(guān)。具體標(biāo)注符如表1所示。
表1 篇章連接詞識別使用的標(biāo)注集
確定了標(biāo)注集合后,我們從詞法、句法等方面提出了一系列上下文特征用于連接詞的識別,連接詞識別使用的相關(guān)特征如表2所示(我們假設(shè)當(dāng)前詞是圖2給出的示例中的連接詞“after”,該示例對應(yīng)的標(biāo)準(zhǔn)句法樹如圖3所示。
表2 篇章連接詞識別使用的特征及對應(yīng)描述
圖3 圖2給出示例對應(yīng)的標(biāo)準(zhǔn)句法樹
特征F1~F4都是自然語言處理中常見的特征,除了當(dāng)前詞,我們還同時考慮了詞的上下文環(huán)境以及相關(guān)組合特征。特征F5描述了一個詞的句法范疇,我們稱之為Parent Category,從句法樹上來看它的值就是該詞的詞性節(jié)點的父節(jié)點的值。特征F6也是一個句法類型的特征, 它描述了節(jié)點的語法推導(dǎo)信息,句法特征對連接詞的消歧被證明是非常有效的[3]。特征F7描述了一個詞出現(xiàn)在句子中的位置信息,通過觀察語料我們發(fā)現(xiàn)一些詞出現(xiàn)在特殊的位置,例如,but出現(xiàn)在句子的開始,那么它很有可能是作為篇章連接詞。特征F8和F9是兩個相似的特征,描述了詞的上下文是否含有標(biāo)點符號。標(biāo)點符號的出現(xiàn)常常表示關(guān)鍵信息(如連接詞,命名實體等)的開始或結(jié)束。特別的,一個句子的開始詞我們認(rèn)為其前面是有標(biāo)點符號的;相似的,一個句子的末尾詞其后面也是有標(biāo)點符號的。
3.2 顯式關(guān)系類型識別
識別出篇章連接詞后,我們需要進(jìn)一步對其表達(dá)的篇章關(guān)系的語義類別進(jìn)行識別。PDTB語料中關(guān)系的語義類別分為三個層次, Class、Type和Subtype。第一層共有四種類型:TEMPORAL, COMPARISON, CONTINGENCY和EXPANSION。TEMPORAL是一種時序關(guān)系,表明關(guān)系論元在時間上存在先后或者交叉等某種聯(lián)系;COMPARISON表明兩個論元之間存在對比關(guān)系;CONTINGENCY表示一種偶然性,表明論元之間存在因果或條件依賴等某種聯(lián)系;EXPANSION表示擴展關(guān)系,一個論元對另一個可能進(jìn)行了補充說明等。
已有的研究表明,連接詞本身已經(jīng)蘊含了足夠的信息來對其所屬的語義類別進(jìn)行分類,采用與Lin等[8]提出的類似的方法,我們使用連接詞本身、連接詞前后的詞及其詞性為特征,使用最大熵分類器實現(xiàn)了一個顯式篇章關(guān)系類別識別模塊。雖然第一層四大類語義類別的定義略顯寬泛,但對許多NLP應(yīng)用(例如文本摘要)已經(jīng)足夠。相比而言,第二層的16類定義更加嚴(yán)謹(jǐn)規(guī)范。鑒于此,本文分別給出了第一層和第二層上顯式關(guān)系類型的識別結(jié)果。
3.3 論元文本域的抽取
確定了篇章連接詞以及對應(yīng)的篇章關(guān)系語義類別后,我們嘗試進(jìn)行精確的論元文本域的識別。
根據(jù)PDTB手冊中對論元Arg1和Arg2的定義我們可以看到,Arg2與連接詞的關(guān)系非常緊密,它嚴(yán)格受連接詞的驅(qū)動,常規(guī)情況下都與連接詞同屬一個語句;相比Arg2,Arg1與連接詞間的關(guān)系松散很多,位置也更加靈活,既可以與連接詞同屬一個語句,也可出現(xiàn)在連接詞所在語句之前的任意句子中。因此,已有的研究已經(jīng)明確,Arg1論元的識別更具挑戰(zhàn)性。此外,PDTB語料中Arg1所處位置的統(tǒng)計表明,60.9%的Arg1論元與連接詞處于同一語句,30.1%的Arg1論元位于連接詞所屬語句前直接相鄰的語句中,其他情況僅占10%。因此,傳統(tǒng)的論元識別方法是:同時進(jìn)行Arg1和Arg2論元的識別。其中Arg2論元的搜索空間限定在連接詞所在句子,而Arg1則首先根據(jù)連接詞所處的上下文判別其所處位置(與連接詞處于同一語句SS,還是不同語句PS),再根據(jù)結(jié)果采用不同的策略進(jìn)行Arg1論元的抽取。
考慮到連接詞與Arg1和Arg2之間的關(guān)系并不等價,同時也想探究一下自動識別出的Arg2論元是否有助于Arg1論元的抽取,我們將論元文本域的抽取分成兩個步驟:首先以連接詞所在語句為搜索空間進(jìn)行Arg2論元的識別;在已知Arg2論元信息(自動識別)的基礎(chǔ)上,以論元所在語句和前一語句為搜索空間進(jìn)行Arg1論元的識別。雖然這兩個步驟的搜索空間不同,使用的特征也存在一定的差異,但都可以看作獨立的序列標(biāo)注問題。同時序列標(biāo)注任務(wù)在確定搜索空間后也無需再區(qū)分SS或是PS的狀況,而對于這兩類序列標(biāo)注問題,我們可以采用統(tǒng)一的B/I/E/O標(biāo)注集進(jìn)行標(biāo)注。表3給出了這兩個步驟所使用的特征集合。
表3 論元抽取的特征描述
續(xù)表
特征F1描述了一個詞以及它的上下文信息,是自然語言處理中常見的特征。特征F2是指PDTB標(biāo)注體系中語義關(guān)系的第一層,我們使用關(guān)系語義識別模塊自動確定關(guān)系的語義類型。顯然只有那些是連接詞的token才有Top Sense值,非連接詞的該特征取值為none。特征F3是從句法樹中提取的路徑信息,我們的路徑從詞性節(jié)點開始到連接詞的父節(jié)點。如果連接詞是一個短語,我們?nèi)∷鼈兊淖畹凸补?jié)點作為父節(jié)點。特征F4主要是用來判斷Arg1的句子邊界,我們認(rèn)為如果下一個句子的開始詞是某一連接詞驅(qū)動的論元的一部分時,Arg1很有可能在前一個句子中。特征F5是指當(dāng)前詞是否屬于第一步識別出的Arg2中的一部分,因為Arg2和Arg1是不重合的,我們使用該特征可以進(jìn)一步限定Arg1的范圍。
4.1 實驗設(shè)置和評測方法
為了與已有的研究進(jìn)行性能比較,我們采用了與Lin等一致的數(shù)據(jù)集和評測方法。
所有實驗均使用PDTB語料,將其中的section 02~21作為訓(xùn)練集,section23作為測試集,section 00~01作為開發(fā)集。整個平臺中,我們使用了CRF++*http://crfpp.sourceforge.net/這一序列化標(biāo)注工具,OpenNLP中附帶的maxent工具包*http://maxent.sourceforge.net/作為最大熵分類器,所有參數(shù)均選擇默認(rèn)值。為了和Lin等進(jìn)行公平的比較,自動句法樹也使用Charniak句法分析器*ftp://ftp.cs.brown.edu/pub/nlparser/得到。
評測指標(biāo)采用標(biāo)準(zhǔn)的準(zhǔn)確率(Precision),召回率(Recall)以及F1值。特別說明的是,在評測論元抽取的性能時,我們采用嚴(yán)格的精確匹配標(biāo)準(zhǔn)進(jìn)行評測,即排除開始和結(jié)尾的標(biāo)點符號后使用字符串嚴(yán)格匹配來判定論元提取是否正確。
我們考察了三個不同實驗設(shè)置下顯式篇章分析的性能,分別是:
(1) GS+noEP: 使用標(biāo)準(zhǔn)句法樹,模塊之間沒有錯誤傳播,即每一步的前一個環(huán)節(jié)完全正確;
(2) GS+EP:使用標(biāo)準(zhǔn)句法樹,模塊之間有錯誤傳播;
(3) Auto+EP:使用自動句法樹,模塊之間有錯誤傳播。這一評測給出了整個端對端自動顯式篇章分析的性能,可以應(yīng)用于完全自動的顯式篇章分析。
4.2 實驗結(jié)果與分析
表4給出了在標(biāo)準(zhǔn)句法樹下三種類別特征對連接詞識別性能的貢獻(xiàn),僅用詞匯特征(F1-F4)已經(jīng)能達(dá)到88.43%的F1值,結(jié)合句法特征(F5-F6)能顯著提高識別性能。使用位置特征(F7-F9)也能進(jìn)一步提高連接詞的性能。
表4 標(biāo)準(zhǔn)句法樹下不同類別特征對連接詞的貢獻(xiàn)(—表示0)
表5給出了分別使用標(biāo)準(zhǔn)句法樹和自動句法樹時獲得的連接詞識別的性能,連接詞識別處于整個框架的第一步,不存在錯誤傳播問題。
表5 兩種不同句法樹下篇章連接詞識別的性能
從連接詞的識別效果來看,GS和Auto的性能相差1.86%,自動句法樹對連接詞識別性能的影響較小。分析識別結(jié)果我們發(fā)現(xiàn),“and”和“but”引起的歧義最大。表6的最后一列給出了目前性能最好的Lin等[5]的連接詞識別的性能,比較發(fā)現(xiàn),我們給出的基于CRFs的連接詞識別的性能略遜于Lin等系統(tǒng)的性能,但我們的連接詞識別方法的優(yōu)勢在于它可應(yīng)用于不同領(lǐng)域、不同語言。
表6給出了不同實驗配置下關(guān)系語義類別識別的性能。Prasad等人[10]指出整個顯式關(guān)系中,標(biāo)注人員對第一層和第二層語義關(guān)系一致認(rèn)可率有94%和84%,實驗中我們僅使用連接詞及其前后詞的信息在第一層語義上就獲得了95.88%的F1值,這也說明連接詞識別的性能是至關(guān)重要的,如果不能正確識別連接詞,就無法確定它表達(dá)的關(guān)系語義信息。
表6 關(guān)系分類的性能
我們按照平臺構(gòu)建的順序評測論元抽取的性能,首先對論元Arg2的抽取性能進(jìn)行評測,GS+noEP下提取的性能最好,F(xiàn)1值達(dá)到了81.57%,GS+EP下性能相較GS+noEP配置下獲得的性能下降了2.71%, Auto+EP配置下F1值相比GS+EP又下降了3.85%。論元Arg2抽取的誤差有兩個來源:連接詞識別的誤差和顯式關(guān)系類型識別的誤差。只有連接詞被識別為篇章連接詞時才有論元識別過程,這兩方面的誤差傳播導(dǎo)致在Auto+EP配置下,我們系統(tǒng)的性能較GS+noEP配置下衰減了6.56%。
表7 Arg2 抽取性能
抽取出論元Arg2后我們利用其結(jié)果輔助論元Arg1的抽取。從前文分析可知,Arg2和連接詞在同一個句子,而Arg1的位置并不固定,所以Arg1的識別不如Arg2容易。從表8結(jié)果來看也證實了我們的猜測,沒有誤差傳播情況下GS+noEP的性能最高,F(xiàn)1值達(dá)到58.94%。由于誤差傳播的原因,GS+EP和Auto+EP下性能都有不同程度的衰減。論元Arg1之間存在三個誤差來源,分別是連接詞識別、篇章關(guān)系類型以及論元Arg2的抽取誤差。對比分析Arg2和Arg1識別性能,我們發(fā)現(xiàn)一點相似之處,CRF給出的召回率相對準(zhǔn)確率較低,這可能由于CRF在預(yù)測時偏于保守。
表8 Arg1 抽取性能
在論元Arg1抽取中,我們使用了Arg2識別的結(jié)果作為Arg1的一個特征。表9給出了在GS+noEP環(huán)境下Arg2特征對Arg1抽取性能的影響,可以看出使用Arg2能顯著提高Arg1的抽取性能約0.54%(p<0.005)。
表9 特征Arg2對Arg1抽取性能的影響
相對于Arg2,論元Arg1的位置比較靈活,實驗中我們將連接詞所在的句子以及前一個句子作為Arg1的候選空間。表10評測了Arg1在不同位置的抽取性能,從結(jié)果來看不同句的論元Arg1抽取性能相對于同句的低了很多,這導(dǎo)致了Arg1的整體性能在50%左右。此外,可以看出不同實驗設(shè)置下的性能差異主要來源是與連接詞同句的Arg1的性能間的差異。
表10 不同位置的Arg1的抽取性能
按照PDTB的標(biāo)注要求,每個顯式篇章關(guān)系有一個篇章連接詞和對應(yīng)的兩個論元Arg1和Arg2。為此我們評測了Arg1和Arg2同時抽取成功的性能。表11給出了不同配置下的抽取性能,并給出了相同配置下Lin等的性能。相對于GS+noEP配置,GS+EP和Auto+EP配置下論元抽取的F1值分別下降了約3%和5%,最終Auto+EP配置下系統(tǒng)的F1值只有45.13%。分析識別結(jié)果發(fā)現(xiàn)有些連接詞我們的CRF方法無法提取出對應(yīng)的論元,這顯然違背了PDTB標(biāo)注要求。我們在將來準(zhǔn)備嘗試進(jìn)行全局化的學(xué)習(xí),加上這一約束,來提高論元識別性能。
表11 Arg1 和Arg2同時抽取正確的性能
表11最后一列給出了Lin等論元抽取性能,與Lin等提出的平臺對比,我們的平臺在Auto+EP環(huán)境下的性能好于他們,主要原因是:Lin等采用的是傳統(tǒng)論元識別方法,即首先確定論元Arg1與連接詞的位置關(guān)系,然后使用不同策略進(jìn)行Arg1的抽取。顯然論元Arg1位置識別是否正確將會嚴(yán)重影響后續(xù)抽取的性能,而他們匯報的結(jié)果表明,在Auto+EP配置下位置識別的性能低于90%。因此Lin等論元抽取性能,在Auto+EP配置下相對于GS+EP配置下降了約12%,而GS+noEP配置與GS+EP配置下的抽取性能僅相差約1%。我們給出的論元抽取方法去除了位置識別步驟,而直接以連接詞所在語句以及前一語句作為搜索空間來識別Arg1論元,從而避免了位置判斷的影響。
至此,我們對每一個模塊進(jìn)行了細(xì)致的評測。最后我們評測了顯式篇章分析平臺的整體性能,評測的依據(jù)是:連接詞正確識別,其所表述的關(guān)系語義類別識別正確,并且由連接詞驅(qū)動的兩個論元Arg1和Arg2也精確識別時,我們認(rèn)為這一顯式關(guān)系分析正確。由于GS+noEP條件下各模塊相互獨立不存在誤差傳播,所以沒有整體性能這一指標(biāo)。
表12 系統(tǒng)整體性能
從表12中可以看出篇章分析器整體性能無論GS+EP還是Auto+EP性能都不算十分理想。一方面模塊之間存在誤差傳播;另一方面論元Arg1的抽取,尤其是與連接詞不同句的Arg1,相對困難給整體的性能帶來了很大的影響。我們在以后的工作準(zhǔn)備對論元抽取進(jìn)一步研究來提高抽取性能。
本文提出了一個基于條件隨機場模型的完整的顯式篇章分析器平臺,該平臺包括連接詞識別、篇章關(guān)系分類和關(guān)系論元提取三個子任務(wù)。在PDTB語料基礎(chǔ)上給出了各模塊的實驗結(jié)果,并針對錯誤傳播問題,給出了完整平臺的性能及詳細(xì)分析。
從實驗結(jié)果來看,論元Arg1的提取性能還有待提高,特別是與連接詞不同句的Arg1提取性能。此外有些連接詞我們CRF方法無法提取出對應(yīng)的論元,這違背了PDTB標(biāo)注的要求。在未來的工作中,一方面我們嘗試全局化的方法來提高顯式篇章分析的整體性能;另一面我們嘗試將篇章分析應(yīng)用于自動文摘、篇章耦合等其他自然語言處理任務(wù)中。
[1] PDTB-Group. The Penn Discourse Treebank 2.0 Annotation Manual[OL]. The PDTB Research Group, 2007.
[2] Bonnie Webber. D-LTAG: Extending lexicalized TAG to discourse[J]. Cognitive Science, 2004,28(5):751-779.
[3] Mitchell P Marcus, Beatrice Santorini, Mary Ann Marcinkiewicz. Building a Large Annotated Corpus of English: the Penn Treebank[J]. Computational Linguistics, 1993,19(2):313-330.
[4] Emily Pitler, Ani Nenkova. Using syntax to disambiguate explicit discourse connectives in text[C]//Proceedings of the ACL-IJCNLP 2009 Conference Short Papers, Singapore,2009.
[5] Ziheng Lin, Hwee Tou Ng, Min-Yen Kan. A PDTB-styled end-to-end discourse parser[C]//Proceedings of the Natural Language Engineering,2012.
[6] Nikhil Dinesh, Alan Lee, Eleni Miltsakaki, et al. Attribution and the (non)-alignment of syntactic and discourse arguments of connectives[C]//Proceedings of the ACL Workshop on Frontiers in Corpus Annotation II: Pie in the Sky, Ann Arbor, MI, USA,2005.
[7] Ben Wellner, James Pustejovsky. Automatically identifying the arguments of discourse connectives[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), 2007: 92-101.
[8] Sucheta Ghosh, Richard Johansson, Giuseppe Riccardi, et al. Shallow discourse parsing with conditional random fields[C]//Proceedings of the 5th International Joint Conference on Natural Language Processing (IJCNLP 2011), 2011:1071-1079.
[9] R Prasad, S McRoy, N Frid, et al. The biomedical discourse relation bank[OL]. BMC Bioinformatics, 2011.
[10] Ramesh Balaji, Hong Yu. Identifying discourse connectives in biomedical text[C]//Proceedings of the AMIA Ann Symp Proc, 2010.
[11] Rashmi Prasad, Nikhil Dinesh, Alan Lee, et al. The Penn Discourse Treebank 2.0[C]//Proceedings of the 6th International Conference on Language Resources and Evaluation,2008.
A PDTB-Based Automatic Explicit Discourse Parser
LI Sheng, KONG Fang, ZHOU Guodong
(School of Computer Sciences and Technology, Soochow University, Suzhou, Jiangsu 215006, China)
Automatic discourse processing is considered as one of the most challenging NLP tasks which is helpful to many downstream NLP tasks, such as question answering, automatic summary and natural language generation. Recently, the large scale discourse corpus PDTB is made available, which provides a common platform for discourse researchers. On the basis of PDTB corpus, the paper proposes an end-to-end explicit discourse parser with conditional random fields. The parser consists of three components joined in a sequential pipeline architecture, which includes connective classifier, explicit relation classifier and relation argument extractor. We report the performance on each component, and, from error-cascading perspectives, we analyses the parser’s overall performance in detail.
discourse processing; conditional random fields; PDTB
李生(1989—),碩士研究生,主要研究領(lǐng)域為自然語言處理、篇章分析。E?mail:shengli.ls@aliyun.com孔芳(1977—),博士,副教授,主要研究領(lǐng)域為機器學(xué)習(xí)、自然語言處理、篇章分析。E?mail:kongfang@suda.edu.cn周國棟(1967—),博士,教授,主要研究領(lǐng)域為自然語言處理、篇章理解。E?mail:gdzhou@suda.edu.cn
1003-0077(2016)02-0018-08
2013-09-09 定稿日期: 2013-12-20
國家自然科學(xué)基金(61003153,61272257,61273320);國家863項目(2012AA011102)
TP391
A