鐘茂生,孫 磊,羅賢增,王明文
(江西師范大學(xué) 計(jì)算機(jī)信息工程學(xué)院,江西 南昌 330200)
文本蘊(yùn)含(Recognizing Textual Entailment,RTE)定義為一對(duì)文本之間的有向推理關(guān)系,其中前提句記作P(Premise),假設(shè)句記作H(Hypothetical)。如果人們依據(jù)自己的常識(shí)認(rèn)為H的語義能夠由P的語義推理得出的話,那么稱P蘊(yùn)含H,記作P→H[1]。文本蘊(yùn)含識(shí)別任務(wù)的目的是判斷這兩個(gè)文本之間的語義關(guān)系:蘊(yùn)含(Entailment)、矛盾(Contradiction)、中立(Neutral)。從另一個(gè)角度來看,這是融合語義關(guān)系的三分類問題,具體示例如表1所示。
表1 數(shù)據(jù)示例
近些年來,隨著深度學(xué)習(xí)的快速發(fā)展,以及大規(guī)模數(shù)據(jù)集的發(fā)布,越來越多的研究者開始將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于文本蘊(yùn)含關(guān)系識(shí)別任務(wù)中[2-4],并在一些數(shù)據(jù)集上取得了巨大的提升。在深度學(xué)習(xí)的方法中,許多研究者都采用長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)對(duì)句子進(jìn)行建模,分別得到兩個(gè)句子的句向量表征,再通過互注意力機(jī)制學(xué)習(xí)兩個(gè)文本之間的交互信息,最后通過分類器判定兩個(gè)句子之間的語義關(guān)系[5-7],當(dāng)前的大多數(shù)研究也都是基于句向量表征和互注意力機(jī)制的方法。雖然這些方法相比之前的傳統(tǒng)方法有著巨大的提升,但是仍面臨一些問題需要解決:
(1)互注意力機(jī)制的方法只能捕獲局部交互信息。僅考慮局部交互信息,易弱化句子的整體信息。
(2)未考慮句子的句法信息。大多數(shù)方法都注重句子之間的信息交互,忽略了句子的句法結(jié)構(gòu)信息。
針對(duì)上述問題,該文提出了融合句法結(jié)構(gòu)和摘要信息的文本蘊(yùn)含識(shí)別模型,并將文本蘊(yùn)含識(shí)別的思想應(yīng)用于公務(wù)員試題中,主要貢獻(xiàn)如下:
(1)在句子交互基礎(chǔ)之上,兼顧句子的全局信息。將互注意力機(jī)制和自注意力機(jī)制相結(jié)合,從局部交互信息和全局信息出發(fā),推測句子之間的語義關(guān)系。
(2)融入句子的句法信息。捕捉句法結(jié)構(gòu)這一重要特征,并融入句子表示。
(3)將該模型應(yīng)用于公務(wù)員試題答題中。首先,從公務(wù)員試題的選擇題中整理出符合語義關(guān)系的語句對(duì),構(gòu)建出八千余組數(shù)據(jù);然后,將該模型遷移至這些數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),嘗試?yán)梦谋咎N(yùn)含識(shí)別的思想。
2015年,Bowman等人[8]發(fā)布了大規(guī)模的文本蘊(yùn)含識(shí)別數(shù)據(jù)集SNLI,SNLI數(shù)據(jù)集一共包含570k個(gè)文本對(duì),其中訓(xùn)練集550k,驗(yàn)證集10k,測試集10k,一共包含蘊(yùn)含(Entailment)、矛盾(Contradiction)和中立(Neutral)三種語義關(guān)系標(biāo)簽。
隨著大規(guī)模語料庫的出現(xiàn),越來越多的研究者開始將深度學(xué)習(xí)應(yīng)用于文本蘊(yùn)含識(shí)別研究領(lǐng)域。Chen等人[9]將LSTM和Attention機(jī)制相結(jié)合,在SNLI數(shù)據(jù)集上達(dá)到了88.6%的準(zhǔn)確度,并且,時(shí)至今日該研究仍被應(yīng)用于文本匹配、問答任務(wù)等多個(gè)領(lǐng)域。Kim等人[10]引入了DenseNet的思想,利用LSTM搭建5層RNN網(wǎng)絡(luò),同時(shí)將上一層的參數(shù)拼接到下一層,然后使用AutoEnconder進(jìn)行降維,在公共數(shù)據(jù)集上達(dá)到了當(dāng)時(shí)的最優(yōu)性能。Sainz等人[11]將事件抽取和文本蘊(yùn)含任務(wù)相結(jié)合,使得模型在文本蘊(yùn)含識(shí)別任務(wù)上的性能得到一定程度的提升。Bauer等人[12]將外部知識(shí)融入文本蘊(yùn)含識(shí)別任務(wù)中,實(shí)驗(yàn)結(jié)果表明,在跨領(lǐng)域數(shù)據(jù)集中引入外部知識(shí),能夠顯著提高模型性能。
近些年來,也有部分研究者開始關(guān)注中文文本蘊(yùn)含識(shí)別領(lǐng)域的研究。2018年,CCL2018發(fā)布了包含11萬條數(shù)據(jù)的中文數(shù)據(jù)集CNLI。2020年,Hu等人[13]構(gòu)建了第一個(gè)非翻譯的、使用原生漢語的大型中文文本蘊(yùn)含數(shù)據(jù)集(OCNLI),OCNLI數(shù)據(jù)集包含5萬余訓(xùn)練數(shù)據(jù),3千條驗(yàn)證數(shù)據(jù)及3千條測試數(shù)據(jù),數(shù)據(jù)來源于政府公報(bào)、新聞、文學(xué)、電視談話節(jié)目等多個(gè)領(lǐng)域。
譚詠梅等人[14]將句子的字符特征、句法特征、語義特征等提取出來,使用貝葉斯邏輯回歸模型進(jìn)行蘊(yùn)含識(shí)別得到初步結(jié)果,然后使用規(guī)則集合進(jìn)行過濾,得到最終的蘊(yùn)含結(jié)果,但是傳統(tǒng)的機(jī)器學(xué)習(xí)方法需要人工篩選大量特征,所以又提出了基于神經(jīng)網(wǎng)絡(luò)的方法[15],該方法使用CNN與LSTM分別對(duì)句子進(jìn)行建模,自動(dòng)提取相關(guān)特征,然后使用全連接層進(jìn)行分類。于東等人[16]將文本蘊(yùn)含識(shí)別的三分類擴(kuò)展為七分類的蘊(yùn)含類型識(shí)別和蘊(yùn)含語塊邊界類型識(shí)別,在ESIM[8]和BERT[17]模型上分別達(dá)到了69.19%和62.09%的準(zhǔn)確率。王偉等人[18]認(rèn)為現(xiàn)有推理模型的訓(xùn)練時(shí)間較久,提出了輕量級(jí)的文本蘊(yùn)含模型,在保持識(shí)別準(zhǔn)確率的同時(shí),相對(duì)于其他主流文本蘊(yùn)含模型,推理速度提升了一倍。
目前,大多數(shù)方法都是采用互注意力機(jī)制實(shí)現(xiàn)句子之間的交互,這種方法弱化了句子的全局信息,并且沒有考慮句子的句法結(jié)構(gòu)信息。鑒于上述情況,該文提出融合句法結(jié)構(gòu)和摘要信息的文本蘊(yùn)含識(shí)別模型,該模型能夠抽取出文本的主要信息,并在編碼過程中融入句子的句法信息,在實(shí)現(xiàn)句子之間局部信息交互的基礎(chǔ)之上,獲取句子全局信息,從而更準(zhǔn)確地識(shí)別兩個(gè)句子的語義關(guān)系。最后,將該模型應(yīng)用于公務(wù)員試題答題中,嘗試解決實(shí)際問題。
本節(jié)描述了融入句法結(jié)構(gòu)和摘要信息的文本蘊(yùn)含識(shí)別模型,如圖1所示。
圖1 模型圖
該模型共分為4部分:
(1)摘要抽取層。該層僅應(yīng)用于公務(wù)員試題中,主要是利用TextRank[19]算法,抽取出前提句的主要信息,以解決公務(wù)員試題題目冗長、答案簡短導(dǎo)致的句子長度不對(duì)稱問題。
(2)編碼層。這一部分主要是將前提句和假設(shè)句輸入到ONLSTM[20]網(wǎng)絡(luò)中,得到融合句法結(jié)構(gòu)和上下文信息的特征表示。
(3)交互層。該層主要是利用互注意力機(jī)制和自注意力機(jī)制,分別捕獲句間的交互信息和句子的全局信息。
(4)池化和分類層。利用池化操作,將交互信息和全局信息轉(zhuǎn)化為固定維度的特征表示,然后將其輸入到全連接層中,得到最終的分類結(jié)果。
在公務(wù)員試題中,前提句(題目)實(shí)際上是一段長文本,如果對(duì)前提句這樣的長文本進(jìn)行建模,部分與答案無關(guān)的句子信息反而會(huì)成為建模過程中的噪聲,導(dǎo)致主要信息被掩埋,從而影響最終的結(jié)果。因此,引入TextRank算法,既能從題目中抽取出主要信息,也能最大程度避免信息的損失。
TextRank算法是將一段文本構(gòu)建為一個(gè)加權(quán)圖,文本中的句子視為網(wǎng)絡(luò)中的節(jié)點(diǎn),根據(jù)節(jié)點(diǎn)權(quán)重的大小對(duì)句子進(jìn)行排序,從而生成文本的摘要。計(jì)算每個(gè)句子的權(quán)重,首先需要計(jì)算句子Si和Sj之間的相似度,如果Si和Sj相似,則認(rèn)為句子之間存在一條無向有權(quán)邊,相似度的計(jì)算是由句間的內(nèi)容重疊率得出,TextRank算法計(jì)算相似度的公式如公式(1)所示:
(1)
上述相似度計(jì)算方法,依賴于兩個(gè)句子包含相同詞語的個(gè)數(shù),兩個(gè)句子包含相同詞語的個(gè)數(shù)越多,則相似度越高,這種計(jì)算方法僅考慮了詞語的共現(xiàn),沒有考慮句子本身的句意。因此,將句子轉(zhuǎn)化為向量化表示,通過余弦相似度計(jì)算兩個(gè)句子之間的相似度。首先對(duì)前提句進(jìn)行分詞,然后使用Word2Vec[20-21]獲取每個(gè)詞語的詞向量,再對(duì)這些詞向量加和求平均,以此得到每個(gè)句子的句向量S,最后計(jì)算每個(gè)句子之間的余弦相似度,以此作為句子相似度的衡量標(biāo)準(zhǔn):
Similarity(Si,Sj)=cos(Si,Sj)
(2)
得到句子相似度之后,以句子作為節(jié)點(diǎn),句間相似度作為邊,利用權(quán)重公式得出每個(gè)句子的權(quán)重,權(quán)重計(jì)算公式如下:
(3)
其中,WS(Vi)是節(jié)點(diǎn)Vi的權(quán)重;d為阻尼系數(shù),一般取0.85,表示某一節(jié)點(diǎn)跳轉(zhuǎn)到另一節(jié)點(diǎn)的概率;wij是兩個(gè)句子之間的相似度Similarity(Si,Sj);In(Vi)表示指向節(jié)點(diǎn)Vi的節(jié)點(diǎn)集合;Out(Vi)是節(jié)點(diǎn)Vi指向的節(jié)點(diǎn)集合。
利用TextRank算法,抽取出權(quán)重排名前2的句子作為前提句,關(guān)于句子抽取數(shù)量對(duì)實(shí)驗(yàn)結(jié)果的影響,該文也會(huì)在實(shí)驗(yàn)環(huán)節(jié)進(jìn)行實(shí)驗(yàn)分析。
表2中展示的是原始的公務(wù)員試題,其中,前提句表示試題的題目,假設(shè)句是試題的答案,在標(biāo)簽列中,“蘊(yùn)含”是正確答案的語句對(duì),“矛盾”是錯(cuò)誤答案的語句對(duì),并且,兩條數(shù)據(jù)的前提句均相同。
表2 試題示例(抽取前)
在接下來的表3中,展示了對(duì)試題題目進(jìn)行摘要抽取后的試題示例。
表3 試題示例(抽取后)
該部分主要作用是將前提句和假設(shè)句分別進(jìn)行建模,并在建模過程中,融入句子的句法信息。
句法是指短語和句子的結(jié)構(gòu)方式,表現(xiàn)為詞語在句子中的排列方式及其相互關(guān)系。在處理句子信息時(shí),句法信息是一條極其重要的規(guī)則化信息,一些完全相同的詞語根據(jù)不同的排列形式進(jìn)行組合,可能得到語義完全不同的句子,如:“我站在他身后”和“他站在我身后”,就是詞語完全相同,但是語義相反的一對(duì)句子。Shen等人[20]提出了ONLSTM(Ordered Neurons LSTM),它能夠在邏輯上將不同的神經(jīng)元?jiǎng)澐值讲煌膶蛹?jí)中,從而將句子的層級(jí)結(jié)構(gòu)融入到LSTM中,使得模型具有更強(qiáng)大的表示能力。
(4)
[x1,x1+x2,…,x1+x2+…+xn]
(5)
[x1+x2+…+xn,…,xn+xn-1,xn]
(6)
圖2 ONLSTM結(jié)構(gòu)
判斷文本蘊(yùn)含關(guān)系的大部分方法都是利用互注意力機(jī)制捕獲句子之間的交互信息,將交互信息作為句子分類的重要標(biāo)準(zhǔn),但是這種方法并沒有充分考慮句子的全局信息。因此,該文在利用互注意力實(shí)現(xiàn)句子交互的同時(shí),使用自注意力機(jī)制獲取句子的全局信息,以此兼顧句間的交互信息和句子本身的全局信息。
2.3.1 自注意力
在對(duì)句子建模時(shí),句子中的一個(gè)詞語往往不是獨(dú)立的,它的語義和上下文息息相關(guān),所以,在處理單個(gè)詞語的同時(shí),也要重點(diǎn)關(guān)注它的上下文信息,以及和它本身關(guān)聯(lián)性較高的詞語,而自注意力機(jī)制能夠?qū)⒕渥觾?nèi)部的每個(gè)詞語相互匹配,并將更多的注意力聚焦在重點(diǎn)信息上,從而更有效地捕獲句子的全局信息。
Up=softmax(Ws1tanh(Ws2P))
(7)
Uh=softmax(Ws1tanh (Ws2H))
(8)
在上述公式中,使用兩層前向神經(jīng)網(wǎng)絡(luò)計(jì)算self-Attention矩陣U,其中P和H是經(jīng)過ONLSTM得到的向量表征,Ws1和Ws2是需要學(xué)習(xí)的參數(shù)。
Ps=UpPT
(9)
Hs=UhHT
(10)
其中,Ps和Hs是經(jīng)過self-Attention矩陣加權(quán)后得到的向量,表示句子中每個(gè)詞語之間的依賴關(guān)系。
(11)
(12)
公式(11)(12)的主要作用對(duì)信息進(jìn)行增強(qiáng),其中減法運(yùn)算能夠突出兩個(gè)序列信息之間的差異程度,⊙表示點(diǎn)乘運(yùn)算,能夠突出兩個(gè)序列信息之間的相同程度。
2.3.2 互注意力
互注意力機(jī)制的關(guān)注對(duì)象是兩個(gè)不同的序列,根據(jù)序列中詞語的權(quán)重,重點(diǎn)關(guān)注權(quán)重高的部分,降低對(duì)權(quán)重較低部分的關(guān)注度。在文本蘊(yùn)含識(shí)別這一任務(wù)中,互注意力機(jī)制能夠捕獲前提句和假設(shè)句之間不同詞語的依賴關(guān)系。
該部分的主要工作是在對(duì)句子建模后,利用互注意力機(jī)制獲取句子間的交互信息,然后,使用和公式(11)(12)相同的方法對(duì)交互信息進(jìn)行增強(qiáng)。
eij=PTH
(13)
公式(13)是計(jì)算前提句和假設(shè)句中詞語之間相關(guān)性矩陣eij。
(14)
(15)
再將eij按照兩個(gè)維度進(jìn)行歸一化,分別和P、H進(jìn)行計(jì)算,得到交互后的向量表示Pc和Hc。
(16)
(17)
公式(16)(17)和2.3.1小節(jié)的方法相同,用以突出兩個(gè)向量之間的差異程度和對(duì)齊程度。
此模塊的主要作用是將自注意力模塊和互注意力模塊的輸出融合,以此作為判斷語義關(guān)系的依據(jù)。
(18)
(19)
其中,公式(18)(19)是將互注意力和自注意力模塊的輸出向量分別進(jìn)行最大池化和平均池化,以此將信息壓縮成固定維度的向量。
(20)
上述公式表示分別將互注意力模塊與自注意力模塊的池化向量進(jìn)行拼接。
y=F(O)
(21)
F為兩層全連接層,使用tanh激活函數(shù),通過softmax函數(shù)預(yù)測最終的語義蘊(yùn)含結(jié)果。
在上述整個(gè)模型中,將交叉熵?fù)p失函數(shù)(Cross Entropy)定義為損失函數(shù),公式如下:
(22)
其中,N表示樣本個(gè)數(shù),yi表示語義關(guān)系標(biāo)簽(0,1),Pi表示每種語義關(guān)系標(biāo)簽的概率。
首先在SNLI和CNLI數(shù)據(jù)集上驗(yàn)證模型的有效性,然后將模型和文本蘊(yùn)含識(shí)別的思想遷移至公務(wù)員試題中進(jìn)行實(shí)驗(yàn)。接下來,將具體介紹公務(wù)員試題收集和處理過程。
在公務(wù)員試題中,包含主旨概括、意圖判斷和細(xì)節(jié)理解等多種題型,該文經(jīng)過多次篩選,最終選取了主旨概括和意圖判斷類型試題,這是因?yàn)檫@兩種類型試題的答案大多都是對(duì)題目本身的概括或總結(jié),是一種自然的語義蘊(yùn)含語句對(duì)。滿足語義蘊(yùn)含條件的同時(shí),還需要滿足語義矛盾的語句對(duì),因此,在將這些試題爬取后,又對(duì)這些試題進(jìn)行了再次篩選,從5 127條試題中篩選出4 199條試題,在這一輪的篩選中,將這些答案和題目組成語義矛盾的語句對(duì)。最終,從公務(wù)員試題中構(gòu)建了8 398組數(shù)據(jù)的語義蘊(yùn)含和語義矛盾的語句對(duì),并將其命名為:CSEQ(Civil Service Examination Questions),具體細(xì)節(jié)如表4所示。
表4 3種數(shù)據(jù)集規(guī)模
在CSEQ數(shù)據(jù)集中,僅有“Entailment”和“Contradiction”標(biāo)簽,這是由于,CSEQ來源于該文收集和整理的公務(wù)員試題,其受限于試題本身僅有正確和錯(cuò)誤答案的限制,因而并未設(shè)置“Neutral”標(biāo)簽。
模型的損失函數(shù)為交叉熵?fù)p失函數(shù),使用反向傳播算法更新模型參數(shù),BatchSize設(shè)置為32,為防止模型過擬合,采用Dropout策略,Dropout Rate設(shè)置為0.5,學(xué)習(xí)率設(shè)置為0.000 05。模型在SNLI數(shù)據(jù)集上的實(shí)驗(yàn),使用預(yù)訓(xùn)練好的300維Glove詞向量[22],在中文數(shù)據(jù)集上的實(shí)驗(yàn),使用預(yù)訓(xùn)練好的300維的Word2Vec詞向量[20]。
準(zhǔn)確率是文本蘊(yùn)含識(shí)別任務(wù)的通用評(píng)價(jià)指標(biāo),即所有樣例中被預(yù)測正確的比例,具體計(jì)算公式如公式(23)所示:
(23)
其中,TP表示將正類預(yù)測為正類數(shù),TN表示將負(fù)類預(yù)測為負(fù)類數(shù),FP表示將負(fù)類預(yù)測為正類數(shù),FN表示將正類預(yù)測為負(fù)類數(shù)。
選取了多個(gè)實(shí)驗(yàn)對(duì)比模型,以此分析文中模型的性能。
在基于SNLI數(shù)據(jù)集(英文)的實(shí)驗(yàn)中,對(duì)比了多個(gè)基準(zhǔn)模型:
①BiMPM[23]:使用BiLSTM在兩個(gè)方向上對(duì)前提句P和假設(shè)句H進(jìn)行匹配,最后使用全連接層進(jìn)行分類。
②ESIM[8]:利用BiLSTM對(duì)前提句和假設(shè)句進(jìn)行編碼,利用互注意力機(jī)制交互,再通過另一個(gè)BiLSTM將信息融合。
③KIM[24]:采用BiLSTM+Atten的方法,同時(shí)將WordNet作為外部知識(shí)引入,以此提升詞向量的質(zhì)量。
④DMAN[25]:利用強(qiáng)化學(xué)習(xí)來整合不同樣本的標(biāo)注意見不統(tǒng)一的情況,從而提升模型的穩(wěn)定性。
⑤EFL[26]:該模型利用二分類數(shù)據(jù)預(yù)訓(xùn)練roBERTalarge模型,然后將其應(yīng)用于文本蘊(yùn)含識(shí)別任務(wù)中,取得了當(dāng)前最好的性能。實(shí)驗(yàn)結(jié)果如表5所示。
表5 實(shí)驗(yàn)結(jié)果(SNLI)
從表5可以看出:(1)與模型BiMPM相比,文中模型具有一定的優(yōu)勢,這是因?yàn)锽iMPM注重捕捉兩個(gè)句子之間的交互特征,忽略了句子的全局信息,而文中模型在捕捉交互特征的同時(shí),也捕獲了句子的全局信息;(2)與模型ESIM、KIM和DMAN對(duì)比,文中模型表現(xiàn)更佳,這是因?yàn)檫@三種模型雖然分別采用了信息融合、引入外部知識(shí)和強(qiáng)化學(xué)習(xí)的方法,但是忽略了句子本身的句法信息,然而,在語義理解這一類型的任務(wù)中,句法信息是更加重要的特征;(3)模型EFL的性能更佳,這是因?yàn)樵摲椒ㄊ褂枚诸悢?shù)據(jù)預(yù)訓(xùn)練roBERTaLarge模型,其主要優(yōu)勢源于二分類預(yù)訓(xùn)練語料庫,而文中模型專注于文本蘊(yùn)含識(shí)別這一任務(wù)。
在基于CNLI數(shù)據(jù)集(中文)展開的實(shí)驗(yàn)中,由于KIM引入WordNet作為外部知識(shí)、DMAN建立在標(biāo)簽意見不統(tǒng)一的基礎(chǔ)之上以及EFL使用大規(guī)模的英文語料庫預(yù)訓(xùn)練roBERTaLarge模型,所以該文并未對(duì)以上三種模型進(jìn)行復(fù)現(xiàn),而是額外增添了中文領(lǐng)域的文本蘊(yùn)含識(shí)別模型作為基準(zhǔn)模型:
①混合注意力模型[27]:利用混合注意力獲取詞語和句子級(jí)別的語義信息,根據(jù)融合后的語義信息獲取最終的分類結(jié)果;
②SRL-Attention[28]:將語義角色和自注意力機(jī)制融合,以此提升模型性能。CNLI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表6所示。
表6 實(shí)驗(yàn)結(jié)果(CNLI)
從表6可以看出,BiMPM和ESIM在中文數(shù)據(jù)上的表現(xiàn)稍遜一籌,這可能由于這兩種模型在SNLI數(shù)據(jù)集的基礎(chǔ)之上進(jìn)行實(shí)驗(yàn),由于SNLI數(shù)據(jù)集龐大且存在中英文語義鴻溝的問題,所有這兩種模型的表現(xiàn)并不理想,SRL-Attention模型由于并未公布測試集準(zhǔn)確率,因此以“-”代替。
從表7可以看出,文中模型在性能上優(yōu)于對(duì)比的多個(gè)基準(zhǔn)模型,這是因?yàn)榍皟煞N模型都是將句子之間的交互信息作為主要判別標(biāo)準(zhǔn),與此相比,文中模型能夠在捕捉句子交互特征的同時(shí),利用自注意力機(jī)制捕捉句子的全局信息;相對(duì)于“混合注意力模型”,文中模型表現(xiàn)更佳,這可能由于文中模型融入了句子的句法結(jié)構(gòu)。
表7 實(shí)驗(yàn)結(jié)果(CSEQ)
在多個(gè)數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),以研究各模塊對(duì)模型性能的影響。實(shí)驗(yàn)結(jié)果如表8、表9所示。
表8 消融實(shí)驗(yàn)
表9 消融實(shí)驗(yàn)(CSEQ)
綜合表8、表9的實(shí)驗(yàn)結(jié)果,可以看出:
(1)Ours-TextRank:使用詞向量代替詞語的共現(xiàn)程度,能夠抽取出更加準(zhǔn)確的語句,從而使準(zhǔn)確率提升了0.7百分點(diǎn);
(2)Ours-自注意力:移除自注意力機(jī)制之后,SNLI數(shù)據(jù)集上的準(zhǔn)確率下降了2.7百分點(diǎn),CNLI和CSEQ數(shù)據(jù)集上分別下降了1.9百分點(diǎn)和1.4百分點(diǎn),說明句子的全局信息能夠?yàn)檎Z義關(guān)系的推測,提供更多的理論依據(jù);
(3)Ours-ONLSTM:去除ONLSTM后,使用普通的LSTM對(duì)句子進(jìn)行建模,模型的性能分別下降了1.4、1.5和1.9百分點(diǎn),這說明在句子級(jí)別的任務(wù)中,句子的句法結(jié)構(gòu)是一個(gè)重要的特征;
(4)Ours-摘要抽取:如果不利用文本摘要的方法處理前提句,這一任務(wù)則從句子—句子級(jí)別轉(zhuǎn)換為段落—句子級(jí)別的任務(wù),這背離文本蘊(yùn)含識(shí)別任務(wù)的初衷,且公務(wù)員試題中,題目內(nèi)有大量和答案無關(guān)的句子,這會(huì)帶來大量的噪音以及前提句和假設(shè)句長度不對(duì)稱的問題,因此,在去除前提句處理模塊后,模型的性能下降了4.6百分點(diǎn)。
為了探究摘要抽取的句子數(shù)量對(duì)模型的影響,針對(duì)不同句子數(shù)量分別進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表10所示。
表10 實(shí)驗(yàn)結(jié)果(抽取不同數(shù)量句子)
從表10可以看出,在抽取的句子數(shù)量為2時(shí),準(zhǔn)確率最高,在抽取1個(gè)句子和3個(gè)句子的情況下,準(zhǔn)確率分別下降了2.1和1.6百分點(diǎn),在抽取4個(gè)句子的情況下,則下降了4.0百分點(diǎn)。通過上述實(shí)驗(yàn)數(shù)據(jù)可以發(fā)現(xiàn),如果抽取的句子數(shù)量過少,會(huì)導(dǎo)致信息的缺失,而句子數(shù)量過多,也會(huì)帶來額外的噪音,導(dǎo)致準(zhǔn)確率的下降。
該文提出了融合句法結(jié)構(gòu)和摘要信息的文本蘊(yùn)含識(shí)別模型,該模型利用摘要抽取算法抽取出前提句的主要信息,并在建模階段融合了句子的句法結(jié)構(gòu)信息,同時(shí)兼顧句子的全局信息和局部交互信息,并將該模型和文本蘊(yùn)含識(shí)別的思想應(yīng)用于公務(wù)員試題答題。實(shí)驗(yàn)結(jié)果表明,該模型在英文和中文數(shù)據(jù)集上的表現(xiàn)優(yōu)于多個(gè)基準(zhǔn)模型。
該文仍有一些工作需要改進(jìn)。在構(gòu)建的數(shù)據(jù)集中僅有“蘊(yùn)含”和“矛盾”標(biāo)簽的語句對(duì),缺乏“中立”標(biāo)簽的語句對(duì),這需要進(jìn)一步標(biāo)注工作;在下一步的工作中,也將考慮融入外部知識(shí),以更好地判別句子語義關(guān)系。