邢雨青,孔 芳
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
篇章分析是自然語(yǔ)言處理中的一個(gè)重要任務(wù),它可以幫助我們梳理篇章脈絡(luò),宏觀把握篇章結(jié)構(gòu),對(duì)自動(dòng)摘要[1]、情感分析[2]、文本分類[3]等自然語(yǔ)言處理上層應(yīng)用意義重大。
篇章關(guān)系識(shí)別是篇章分析的重要組成部分,它以篇章基本單位識(shí)別為基礎(chǔ),服務(wù)于篇章結(jié)構(gòu)生成。該任務(wù)旨在判斷兩個(gè)相鄰篇章單元(子句、句子、句子集合等)之間的語(yǔ)義連接關(guān)系,如并列關(guān)系、因果關(guān)系等。按照是否包含顯著的連接詞,可以將篇章關(guān)系分為顯式和隱式兩種。在顯式篇章關(guān)系中,連接詞作為句子銜接的邏輯工具,能夠直接描述篇章單元內(nèi)部的語(yǔ)義關(guān)系和結(jié)構(gòu)特征,是關(guān)系識(shí)別的強(qiáng)力線索,因而,顯式篇章關(guān)系識(shí)別問(wèn)題常常演化為連接詞的識(shí)別和消岐問(wèn)題;而隱式篇章關(guān)系則只能通過(guò)上下文語(yǔ)境語(yǔ)義進(jìn)行推斷,趨向于自然語(yǔ)言推理問(wèn)題,因而更困難,更具挑戰(zhàn)性。
近年來(lái),隨著PDTB[4]、RST[5]等英文篇章資源,CDTB[6]、HIT-CDTB(1)http://ir.hit.edu.cn/hit-cdtb/等中文篇章資源的正式發(fā)布,以及CoNLL-2015(2)https://www.conll.org/2015和2016(3)https://www.conll.org/2016年的淺層篇章關(guān)系分析的Shared Task的成功舉行,篇章關(guān)系分析得到了眾多研究者的關(guān)注?,F(xiàn)有的篇章關(guān)系識(shí)別研究主要集中在相對(duì)困難的隱式篇章關(guān)系識(shí)別上,且大多針對(duì)英文語(yǔ)料。然而,中英文語(yǔ)言在遣詞造句、表詞達(dá)意方面存在很大區(qū)別,英文重“形合”,句子結(jié)構(gòu)相對(duì)嚴(yán)謹(jǐn)完整,表達(dá)更具規(guī)范性;而中文則重“意合”,表達(dá)更加委婉、靈活、多變,缺省現(xiàn)象也更加嚴(yán)重。同時(shí),隱式關(guān)系在中文中的占比(CDTB中約75.2%)也大大高于英文(PDTB中約40%)。鑒于此,研究者需要根據(jù)不同語(yǔ)言特性展開(kāi)針對(duì)性研究。
本文重點(diǎn)關(guān)注中文篇章關(guān)系的識(shí)別,主要工作有:
(1) 采用一到多的多任務(wù)學(xué)習(xí)框架進(jìn)行篇章關(guān)系和主次的聯(lián)合識(shí)別(一: 統(tǒng)一編碼,多: 兩個(gè)解碼);
(2) 借鑒自然語(yǔ)言推理的相關(guān)方法,提出借助自注意力進(jìn)行多視角的論元獨(dú)立信息的表征,借助交叉注意力進(jìn)行論元間軟對(duì)齊的語(yǔ)義表征,再融合兩者進(jìn)行篇章關(guān)系及主次的聯(lián)合識(shí)別;
(3) 將聯(lián)合學(xué)習(xí)模塊嵌入已有的篇章結(jié)構(gòu)解析器中,構(gòu)建了完整的篇章分析器。
本文的組織結(jié)構(gòu)如下: 第1節(jié)介紹中英文篇章關(guān)系識(shí)別的相關(guān)工作;第2節(jié)給出了本文基于多層局部推理的聯(lián)合學(xué)習(xí)框架;第3節(jié)給出實(shí)驗(yàn)設(shè)置、結(jié)果及分析;第4節(jié)構(gòu)建了一個(gè)完整的篇章分析器,并對(duì)其性能進(jìn)行了分析;最后對(duì)本文的工作進(jìn)行了總結(jié),并對(duì)未來(lái)的工作進(jìn)行了展望。
根據(jù)研究對(duì)象的不同,識(shí)別隱式篇章關(guān)系的研究可以歸納為三類: 基于偽隱式篇章關(guān)系語(yǔ)料的研究,基于純隱式篇章關(guān)系語(yǔ)料的研究和基于偽隱式和純隱式的篇章關(guān)系混合語(yǔ)料研究。Marcu和Echihabi[7]首次提出使用無(wú)監(jiān)督的方法識(shí)別隱式篇章關(guān)系。他們使用一系列文本模式從網(wǎng)絡(luò)上自動(dòng)獲取語(yǔ)料資源,同時(shí)去除篇章連接詞構(gòu)成一個(gè)偽隱式篇章關(guān)系語(yǔ)料。PDTB[4]語(yǔ)料顯式地區(qū)分了隱式篇章關(guān)系和顯式篇章關(guān)系,并且僅針對(duì)段落內(nèi)相鄰句子間的隱式篇章關(guān)系進(jìn)行標(biāo)注。至此,很多工作開(kāi)始側(cè)重研究純隱式篇章關(guān)系識(shí)別。近年來(lái),一些研究表明樣本不平衡問(wèn)題成為了提高隱式篇章分析性能的重大阻礙,有人提出使用偽隱式和純隱式關(guān)系混合的篇章關(guān)系分析來(lái)解決隱式關(guān)系標(biāo)注樣本缺少的問(wèn)題。
根據(jù)研究方法的不同,識(shí)別隱式篇章關(guān)系的研究大致可以分為: 基于特征工程的方法和基于神經(jīng)網(wǎng)絡(luò)的方法。Marcu和Echihabi[7]在基于偽隱式關(guān)系的研究中驗(yàn)證了詞對(duì)特征的作用;Saito等[8]在此基礎(chǔ)上提取了短語(yǔ)模式特征;Pitler和Ani[9]等首次提出使用動(dòng)詞、極性和上下文環(huán)境等不同語(yǔ)言學(xué)特征來(lái)識(shí)別隱式篇章關(guān)系;Lin等[10]強(qiáng)調(diào)了兩類句法特征——成分句法特征和依存句法特征的重要性。徐等[11]探索了篇章中的淺層語(yǔ)義信息和句子級(jí)的情感信息等平面特征對(duì)于隱式篇章關(guān)系識(shí)別的作用,并采用復(fù)合核對(duì)平面特征和結(jié)構(gòu)化的依存句法特征進(jìn)行集成。Kong和Zhou[12]采用流水線的方式構(gòu)建了端到端的中文篇章解析器。隨著深度學(xué)習(xí)的火熱,使用神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行文本表征、對(duì)其語(yǔ)義交互關(guān)系建模成為人們常用的方法。大部分的研究工作都集中在如何對(duì)文本及其關(guān)系進(jìn)行編碼: 在英文PDTB語(yǔ)料上,Bai和Zhao[13]提出一種深度加強(qiáng)的文本編碼方法,融合了字符、子詞、詞、句子等多個(gè)層面的文本表征,并使用了多層雙向注意力機(jī)制來(lái)獲得句對(duì)層面的關(guān)系編碼;Liu和Li[14]利用多層次的注意力來(lái)重復(fù)閱讀文本以動(dòng)態(tài)地提取有效特征;Lan等[15]提出了一種基于多任務(wù)注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)方法來(lái)解決隱式篇章關(guān)系的表示和識(shí)別問(wèn)題;Guo等[16]使用基于交互注意力機(jī)制的多層神經(jīng)張量網(wǎng)絡(luò)來(lái)捕獲論元對(duì)之間的交互信息和一些詞對(duì)模式;Kishimoto等[17]使用外部語(yǔ)言學(xué)知識(shí)和指代消解知識(shí)來(lái)增強(qiáng)單詞在上下文中的語(yǔ)義編碼。在中文方面,R?nnqvist等[18]將具有一定關(guān)系的兩個(gè)論元拼接成一個(gè)完整的序列,利用基于注意力的雙向LSTM網(wǎng)絡(luò)進(jìn)行關(guān)系識(shí)別。同時(shí)他認(rèn)為,單獨(dú)的論元也能表達(dá)一定的語(yǔ)義信息,并且在某些關(guān)系的判別中具備很強(qiáng)的推理能力,故將<論元1,論元2,關(guān)系>實(shí)例擴(kuò)展為{<論元1,論元2,關(guān)系>,<論元1,論元2,關(guān)系>,<論元1,關(guān)系>,<論元2,關(guān)系>}的集合(拷貝<論元1,論元2,關(guān)系>實(shí)例是為了平衡雙論元實(shí)例和單論元實(shí)例的比重)。
圖1給出了基于多層局部推理的篇章關(guān)系及主次識(shí)別模型的總體架構(gòu)。從中我們可以看到該模型包含四個(gè)部分。①嵌入層: 負(fù)責(zé)對(duì)上下文信息進(jìn)行詞嵌入表示; ②局部推理層: 負(fù)責(zé)在詞嵌入之上獲取關(guān)系論元自身和關(guān)系論元對(duì)之間的交互語(yǔ)義信息的表征,并通過(guò)堆疊多層局部推理部件捕獲抽象的深層語(yǔ)義信息; ③組合推理層: 進(jìn)一步使用雙向LSTM來(lái)融合局部推理層得到的論元表征; ④池化層: 采用多種池化操作(最大池化、平均池化)來(lái)壓縮論元表征,并以拼接的方式來(lái)組合論元對(duì)的語(yǔ)義信息; ⑤分類器: 基于論元對(duì)表征進(jìn)行最終的關(guān)系/主次分類。
圖1 模型整體框架
在詞嵌入部分,我們通過(guò)查找預(yù)訓(xùn)練的詞向量表將論元中的每一個(gè)詞映射成固定維數(shù)的向量,并隨機(jī)初始化未登錄詞。
記兩個(gè)論元分別為a=(a1,…,ala),b=(b1,…,blb)。 其中l(wèi)a、lb分別是論元a和論元b的長(zhǎng)度,ai、bj∈l,l為預(yù)訓(xùn)練的詞向量維數(shù)。
單層局部推理的具體構(gòu)成如圖2所示。從中可以看到局部推理主要融合兩類信息,一類是篇章關(guān)系的每個(gè)論元包含的語(yǔ)義及上下文信息,我們稱之為論元的獨(dú)立語(yǔ)義信息;另一類是篇章關(guān)系關(guān)聯(lián)的兩個(gè)論元間的交互語(yǔ)義信息。
圖2 單層局部推理的具體構(gòu)成
首先介紹論元獨(dú)立語(yǔ)義的表征。我們首先借助一層雙向LSTM網(wǎng)絡(luò)獲得攜帶上下文語(yǔ)義的單詞表征,如式(1)、式(2)所示。
其次,為了多層次、多角度地捕獲論元內(nèi)部的語(yǔ)義特征,我們引入了多頭自注意力機(jī)制(Multi-head self-attention)。注意力機(jī)制旨在有選擇性地關(guān)注文本中的某些重要信息,在獲得文本表征時(shí)為其賦予更高的權(quán)重。它可以被描述為一個(gè)查詢(Query)到一組鍵值對(duì)(Key-Value)的映射,常用的有放縮點(diǎn)積注意力,具體計(jì)算如式(3)所示。
自注意力機(jī)制是注意力機(jī)制的特殊形式,它使用相同的Q、K、V值來(lái)尋找序列本身的內(nèi)部聯(lián)系。多頭注意力機(jī)制則是在參數(shù)不共享的前提下,將放縮點(diǎn)積注意力過(guò)程重復(fù)h次,并將結(jié)果進(jìn)行拼接如式(5)所示。
同時(shí),為了防止注意力的過(guò)度集中帶來(lái)的信息流失,我們將經(jīng)過(guò)自注意力機(jī)制得到的文本表征與先前經(jīng)過(guò)雙向LSTM網(wǎng)絡(luò)得到的初始文本表征進(jìn)行殘差連接,如式(6)、式(7)所示。
分別得到雙方論元的獨(dú)立語(yǔ)義表征后,我們借助軟對(duì)齊方式來(lái)獲取論元間的交互語(yǔ)義信息的表征。
首先,我們通過(guò)式(8)來(lái)計(jì)算兩個(gè)論元的構(gòu)成詞對(duì)之間的交叉注意力,并以此作為論元間局部語(yǔ)義推理的權(quán)重,接著,借助式(9)和式(10)分別得到融合了論元間交互語(yǔ)義信息的雙方論元表征。
(8)
(9)
(10)
最后我們將每個(gè)論元的獨(dú)立語(yǔ)義表征和交互語(yǔ)義表征進(jìn)行拼接,并通過(guò)一個(gè)矩陣變換將其降低到拼接操作前的維度,這樣就得到了融合論元獨(dú)立語(yǔ)義信息和交互語(yǔ)義信息的表征ma和mb,如式(11)、式(12)所示。
地圖理論知識(shí)是學(xué)好地圖學(xué)的重要保障,而地圖理論知識(shí)中多會(huì)涉及空間思維,特別是地圖投影部分對(duì)學(xué)生的空間立體想象能力要求較高.因此應(yīng)在傳統(tǒng)課堂講授的基礎(chǔ)上,增加實(shí)驗(yàn)教學(xué)環(huán)節(jié),如在地圖投影部分,制作具有展開(kāi)功能的地球模型教學(xué)用具,使學(xué)生能夠看到從任意角度打開(kāi)的地球模型投影后的平面地圖效果,直觀感受到地圖由曲面到平面轉(zhuǎn)換過(guò)程中發(fā)生的拉伸、壓縮、變形及其分布等特征;而在地圖符號(hào)和制圖綜合過(guò)程中,制作地圖符號(hào)模具,讓學(xué)生在填圖過(guò)程中加深對(duì)地圖符號(hào)和制圖綜合等理論知識(shí)的理解.
相關(guān)研究表明,在多層LSTM網(wǎng)絡(luò)中,低層的LSTM能捕捉到詞法、句法等淺層信息,而高層的LSTM則能捕獲深層的抽象語(yǔ)義信息[19]。因此,我們將上述局部推理模塊進(jìn)行多層堆疊來(lái)獲得最終的論元表征。從第二層開(kāi)始,每一層的輸入為上一層的輸出。此外,我們?cè)趯优c層之間使用殘差連接來(lái)減緩網(wǎng)絡(luò)加深帶來(lái)的信息流失(圖1)。
本文使用一層雙向LSTM網(wǎng)絡(luò)來(lái)組合經(jīng)由多層局部推理模塊得到的論元單詞序列,進(jìn)行攜帶推理信息的上下文語(yǔ)義交互,如式(13)、式(14)所示。
va,i=BiLSTM(ma,i),?i∈[1,…,la]
(13)
vb,j=BiLSTM(mb,j),?j∈[1,…,lb]
(14)
本文對(duì)每一個(gè)論元的單詞表征序列進(jìn)行最大池化和平均池化來(lái)壓縮論元表征,再將兩個(gè)論元的池化結(jié)果進(jìn)行拼接,獲得論元對(duì)的組合語(yǔ)義表征,如式(15)~式(17)所示。
篇章關(guān)系的主次描述了一個(gè)關(guān)系的多個(gè)論元的不同重要程度,其取值范圍為: 左核心、右核心、多核心。直覺(jué)上,篇章關(guān)系的類別與篇章關(guān)系的主次間具有很強(qiáng)的關(guān)聯(lián)性,因此本文采用相同的編碼策略,同時(shí)給出篇章關(guān)系和篇章主次兩個(gè)獨(dú)立的解碼器(分類器),我們將拼接后的最終論元對(duì)表征v分別送入兩個(gè)softmax分類器,再通過(guò)損失函數(shù)將兩者聯(lián)合訓(xùn)練,獲得兩個(gè)任務(wù)性能上的全局最優(yōu),實(shí)現(xiàn)了“統(tǒng)一編碼,兩個(gè)解碼”的多任務(wù)聯(lián)合識(shí)別??傮w損失函數(shù)值為關(guān)系分類器和主次分類器的交叉熵?fù)p失之和,如式(18)所示。
本文的實(shí)驗(yàn)基于CDTB語(yǔ)料。該語(yǔ)料標(biāo)注了來(lái)自中文樹(shù)庫(kù)CTB的500篇新聞文本,共包含7 310個(gè)篇章關(guān)系。其中,隱式篇章關(guān)系5 496個(gè),占比75.2%。篇章關(guān)系類別按層級(jí)可劃分為頂層四大類(因果類、并列類、轉(zhuǎn)折類、解說(shuō)類)與次級(jí)十七小類。本文主要關(guān)注頂層的四大類關(guān)系。為了充分利用語(yǔ)料,我們參考Xu[20]的做法,不考慮顯式篇章關(guān)系的連接詞信息,將所有樣本當(dāng)作隱式篇章關(guān)系處理,共同進(jìn)行訓(xùn)練和評(píng)測(cè)。
表1 訓(xùn)練集和測(cè)試集各關(guān)系類別實(shí)例數(shù)
本文使用HanLP(4)https://github.com/hankcs/HanLP來(lái)對(duì)文本進(jìn)行分詞,使用pytorch(5)https://pytorch.org/進(jìn)行編碼。本文使用由Word2Vec在人民日?qǐng)?bào)語(yǔ)料上預(yù)訓(xùn)練的300維詞向量(6)https://github.com/Embedding/Chinese-Word-Vectors來(lái)初始化單詞嵌入。各編碼塊的隱層輸出均為300維,dropout為0.5。自注意力的頭數(shù)為30。模型參數(shù)的優(yōu)化使用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為0.000 5,L2正則系數(shù)為1e-5。
在進(jìn)行模型性能比較的過(guò)程中,本文使用了三種評(píng)測(cè)標(biāo)準(zhǔn): ①對(duì)于每個(gè)關(guān)系類別的分類性能,我們給出了其二元分類的F1值; ②對(duì)于總體的分類性能,我們使用宏平均F1值(Macro-F1)和微平均F1值(Micro-F1)作為評(píng)測(cè)標(biāo)準(zhǔn)。一般來(lái)說(shuō),宏平均比微平均更為公平合理,因?yàn)樗C合考慮了每一類別的性能,也更能兼顧稀疏類別;但當(dāng)數(shù)據(jù)的類別分布呈現(xiàn)明顯的不平衡時(shí),稀疏類別識(shí)別性能的微小變化會(huì)造成該類別F1值的巨大波動(dòng),從而造成整體宏平均F1值的不穩(wěn)定性??紤]到本任務(wù)所使用的數(shù)據(jù)集的類別不平衡性,我們?cè)黾恿藢?duì)于微平均F1值的評(píng)測(cè)。
本文選擇了3個(gè)具有代表性的模型進(jìn)行比較,它們分別是: Liu&Li[14],一個(gè)基于多層注意力機(jī)制的篇章關(guān)系模型;R?nnqvist[18],基于單論元實(shí)例擴(kuò)展的雙向LSTM模型;Guo[16],基于交叉注意力的神經(jīng)張量模型。這些模型的共同點(diǎn)是,都對(duì)注意力的使用方式進(jìn)行了變換與改進(jìn),與本文基于多層局部推理的篇章關(guān)系識(shí)別方法具有一定的可比較性。
表2給出了各個(gè)模型在CDTB語(yǔ)料頂層四大類關(guān)系上的分類結(jié)果,同時(shí)也列出來(lái)關(guān)系分類的宏平均和微平均F1值(7)本章使用與Xu相同的數(shù)據(jù)集,3個(gè)比較模型的實(shí)驗(yàn)結(jié)果均摘自其文獻(xiàn)[20]。。由表2的結(jié)果可知,我們的模型在宏平均和微平均F1值方面都取得了最佳的性能。
表2 四類篇章關(guān)系識(shí)別結(jié)果對(duì)比 (單位: %)
表3詳細(xì)分析了模型的各組成部分對(duì)性能的影響程度。表格第2~4行分別展示了多層推理之間的殘差連接、單層推理內(nèi)部的自注意力和單層推理內(nèi)部的交叉注意力(即論元對(duì)間交互語(yǔ)義信息)對(duì)于模型性能的影響(每一行均在Ours基礎(chǔ)上進(jìn)行消融)。分析表3可以看出,殘差連接對(duì)于多層神經(jīng)網(wǎng)絡(luò)中前饋信息的有效傳遞具有不可忽視的作用。當(dāng)信息流向高層神經(jīng)元時(shí),殘差結(jié)構(gòu)有助于在提取深層抽象語(yǔ)義的同時(shí),有選擇性地保留淺層有效語(yǔ)義。同時(shí),在進(jìn)行單層推理時(shí),自注意力機(jī)制和交叉注意力機(jī)制分別對(duì)于提取單論元核心特征和提取論元對(duì)間的交互特征具有重要作用。
表3 模型各組成部分的性能貢獻(xiàn)對(duì)比 (單位: %)
表4探究了局部推理模塊的層數(shù)對(duì)于實(shí)驗(yàn)性能的影響。由表4可知,當(dāng)層數(shù)為3時(shí)關(guān)系分類的性能最佳。隨著層數(shù)的疊加,模型能夠提取更多的深層抽象語(yǔ)義,但當(dāng)層數(shù)到達(dá)某個(gè)閾值而繼續(xù)增加時(shí),容易造成模型參數(shù)的過(guò)擬合,且易丟失淺層重要語(yǔ)義信息。
表4 不同局部推理層數(shù)的實(shí)驗(yàn)結(jié)果對(duì)比 (單位: %)
此外,為了驗(yàn)證多任務(wù)學(xué)習(xí)框架的效用,本文提供了獨(dú)立篇章關(guān)系識(shí)別與篇章關(guān)系、主次聯(lián)合識(shí)別的性能對(duì)比。其中,獨(dú)立篇章關(guān)系識(shí)別在分類器部分只使用關(guān)系分類器并計(jì)算其交叉熵?fù)p失。我們將獨(dú)立篇章關(guān)系識(shí)別系統(tǒng)簡(jiǎn)稱為獨(dú)立系統(tǒng)(Sys),將篇章關(guān)系與篇章主次識(shí)別的系統(tǒng)稱為聯(lián)合系統(tǒng)(Joint Sys)。如表5所示,相對(duì)于獨(dú)立系統(tǒng),聯(lián)合系統(tǒng)將宏平均F1值提升了2.8%,并對(duì)于低頻樣本類別更加友好,有效提高了樣本數(shù)較少的關(guān)系類別的識(shí)別性能,如因果類、解說(shuō)類。
表5 獨(dú)立篇章關(guān)系識(shí)別與篇章關(guān)系、主次聯(lián)合識(shí)別性能對(duì)比 (單位: %)
完整的篇章解析器主要包含三個(gè)部分: 篇章基本單元識(shí)別、篇章結(jié)構(gòu)生成和篇章關(guān)系及主次識(shí)別,三者通常以流水線的方式一脈相承。目前,前兩個(gè)部分的研究已取得較高的性能,而第三部分尤其是隱式篇章關(guān)系識(shí)別(也即本文的主要研究?jī)?nèi)容)仍處于較低水平。
在篇章關(guān)系的識(shí)別問(wèn)題上,一種策略是將其與篇章結(jié)構(gòu)生成一并考慮。譬如,假設(shè)基本篇章單元已知,基于轉(zhuǎn)移的篇章結(jié)構(gòu)解析器將篇章樹(shù)的構(gòu)建過(guò)程看作是shift、reduce兩類動(dòng)作的預(yù)測(cè)問(wèn)題,通過(guò)預(yù)測(cè)不同動(dòng)作來(lái)實(shí)現(xiàn)子樹(shù)的合并和子樹(shù)的切換,并最終完成整棵篇章樹(shù)的構(gòu)建。但正如Li[21]等的研究所指出的,如果將篇章關(guān)系的識(shí)別也編碼成轉(zhuǎn)移動(dòng)作,篇章關(guān)系各類別間的分布不均將會(huì)導(dǎo)致轉(zhuǎn)移動(dòng)作的稀疏和分布不均,從而影響篇章結(jié)構(gòu)的構(gòu)建。另一種策略則是將篇章關(guān)系識(shí)別單獨(dú)考慮,再將其嵌入篇章解析器。最簡(jiǎn)單的方法是,在訓(xùn)練集和開(kāi)發(fā)集上獨(dú)立訓(xùn)練調(diào)參,形成可用的關(guān)系分類模型;在測(cè)試集上,我們使用已有的篇章結(jié)構(gòu)解析器來(lái)自動(dòng)生成篇章樹(shù)結(jié)構(gòu)(8)本文復(fù)現(xiàn)了孫成等2018年發(fā)布的基于轉(zhuǎn)移的篇章結(jié)構(gòu)解析器自動(dòng)獲取結(jié)構(gòu)信息。在標(biāo)準(zhǔn)EDU下,該篇章樹(shù)構(gòu)建的性能F1值達(dá)到了84.0%,篇章主次的識(shí)別性能也達(dá)到了53.9%的F1值,具體構(gòu)建過(guò)程可參見(jiàn)論文。,然后后根遍歷得到的篇章樹(shù)中的每個(gè)非葉子結(jié)點(diǎn),根據(jù)非葉子結(jié)點(diǎn)的子結(jié)點(diǎn)跨度確定各個(gè)結(jié)點(diǎn)對(duì)應(yīng)篇章關(guān)系的論元,再對(duì)論元進(jìn)行編碼,使用訓(xùn)練得到的模型進(jìn)行篇章關(guān)系及主次的預(yù)測(cè)。本文正是采用這一策略,將使用前文方法訓(xùn)練得到的聯(lián)合學(xué)習(xí)模型嵌入孫等[22]構(gòu)建的基于轉(zhuǎn)移的篇章解析器(Baseline),最終得到標(biāo)準(zhǔn)子句分割、自動(dòng)篇章結(jié)構(gòu)下的篇章關(guān)系、主次識(shí)別性能,如表6、7所示(9)孫構(gòu)建的篇章結(jié)構(gòu)解析器同時(shí)進(jìn)行篇章結(jié)構(gòu)和篇章主次識(shí)別,未進(jìn)行篇章關(guān)系識(shí)別,本文復(fù)現(xiàn)了孫的模型,并將其轉(zhuǎn)移標(biāo)簽集合由<動(dòng)作,主次>的二元組擴(kuò)展為<動(dòng)作,主次,關(guān)系>的三元組來(lái)同時(shí)進(jìn)行關(guān)系識(shí)別。孫和Xu均使用蘇州大學(xué)發(fā)布的CDTB語(yǔ)料庫(kù)作為語(yǔ)料資源,但在訓(xùn)練集、測(cè)試集的劃分上存在差異。為了與孫進(jìn)行自動(dòng)結(jié)構(gòu)下篇章關(guān)系和主次識(shí)別性能的比較,本章采用孫的語(yǔ)料劃分方式。。
表6 標(biāo)準(zhǔn)子句分割、自動(dòng)篇章結(jié)構(gòu)下篇章關(guān)系的識(shí)別性能 (單位: %)
從表6可以看到,相比表5中給出的性能,在自動(dòng)篇章樹(shù)上各個(gè)類別的識(shí)別性能都有了大幅度下降,這主要是由于篇章樹(shù)的結(jié)構(gòu)識(shí)別錯(cuò)誤所帶來(lái)的級(jí)聯(lián)性錯(cuò)誤。分析表6可以發(fā)現(xiàn),相對(duì)于孫的基準(zhǔn)平臺(tái),僅是獨(dú)立的篇章關(guān)系識(shí)別系統(tǒng)(Sys),就在四大類關(guān)系的Macro-F1值和Micro-F1值上分別取得了6.7%和3.7%的顯著提升,展現(xiàn)了本文提出的融合自身注意力和交叉注意力的論元自身信息和論元間語(yǔ)義軟對(duì)齊表征策略的有效性。而相比較獨(dú)立篇章關(guān)系識(shí)別系統(tǒng),基于多任務(wù)的篇章關(guān)系和主次聯(lián)合識(shí)別系統(tǒng)(JointSys),在多數(shù)關(guān)系類別上均取得了更好的性能表現(xiàn),其Macro-F1值和Micro-F1值更是分別提高了0.7%和1.2%,驗(yàn)證了本文采用的“統(tǒng)一編碼,兩種解碼”的篇章關(guān)系及主次聯(lián)合識(shí)別方法的有效性。
表7詳細(xì)列出了自動(dòng)篇章結(jié)構(gòu)下聯(lián)合系統(tǒng)在篇章主次識(shí)別上的性能。與基準(zhǔn)平臺(tái)將主次標(biāo)簽融入動(dòng)作標(biāo)簽集合、從而和結(jié)構(gòu)、關(guān)系一起識(shí)別的做法相比,本文提出的基于多層局部推理的篇章關(guān)系及主次聯(lián)合識(shí)別模型在各個(gè)主次類別識(shí)別上性能均有大幅提升,Macro-F1值和Micro-F1值分別提升了5.4%和4.7%。這也進(jìn)一步說(shuō)明,篇章主次和篇章關(guān)系確實(shí)存在緊密聯(lián)系,并且,行之有效的篇章主次及篇章關(guān)系識(shí)別方法都需要對(duì)論元語(yǔ)義進(jìn)行深度挖掘和推理。
表7 標(biāo)準(zhǔn)子句分割、自動(dòng)篇章結(jié)構(gòu)下篇章主次識(shí)別性能 (單位: %)
由此可知,在篇章解析器的構(gòu)建過(guò)程中,我們可以首先構(gòu)建純粹的篇章結(jié)構(gòu)樹(shù),再進(jìn)行篇章關(guān)系的類別和主次的聯(lián)合學(xué)習(xí),從而得到完整篇章解析器的最佳性能。
本文提出了一種基于多層局部推理的篇章關(guān)系識(shí)別方法,提出融合自身注意力和交叉注意力的論元自身信息和論元間語(yǔ)義軟對(duì)齊表征策略,從不同層面挖掘論元信息以進(jìn)行關(guān)系推理,并采用“統(tǒng)一編碼,兩種解碼”的多任務(wù)學(xué)習(xí)框架來(lái)進(jìn)行篇章關(guān)系及主次聯(lián)合識(shí)別,取得了比較良好的性能。同時(shí),本文將訓(xùn)練得到的聯(lián)合模型嵌入現(xiàn)有的基于轉(zhuǎn)移的中文篇章結(jié)構(gòu)解析平臺(tái)上,形成了完整的篇章解析器。
未來(lái)我們將首先分別針對(duì)篇章結(jié)構(gòu)和語(yǔ)義獨(dú)立進(jìn)行研究,再探討一種更高效的整合方式將兩者有效融合,以實(shí)現(xiàn)篇章解析器整體性能的提升。此外,盡管本文將篇章結(jié)構(gòu)解析和篇章語(yǔ)義分析以一種流水線的方式有序地處理,但對(duì)篇章語(yǔ)義的分析也可能反作用于篇章結(jié)構(gòu)解析,而如何充分挖掘這種語(yǔ)義與結(jié)構(gòu)的潛在關(guān)聯(lián),使兩者相輔相成,也將成為以后的探討方向。