金天華,姜 姍,于 東,2,趙美倩,劉 璐
(1. 北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100083;2. 北京語言大學(xué) 語言資源高精尖創(chuàng)新中心,北京 100083)
文本蘊含定義為一對文本之間的有向推理關(guān)系[1],其中蘊含前件記作P(premise),蘊含后件記作H(hypothesis)。文本蘊含識別(recognizing textual entailment, RTE)是基于語義理解,對兩個句子之間的蘊含和矛盾關(guān)系做出判斷的任務(wù)。文本蘊含作為語義理解的基礎(chǔ)任務(wù),可以建立起不同文本之間的語義推理關(guān)系網(wǎng),促進關(guān)系識別、事件抽取、自動文摘等任務(wù)的發(fā)展,同時在問答系統(tǒng)、文本挖掘、閱讀理解、信息檢索等應(yīng)用領(lǐng)域發(fā)揮關(guān)鍵作用。
文本蘊含識別早期的研究工作[2-4]多從詞匯蘊含角度出發(fā),探索近義詞、上下位詞、整體和部分等詞匯關(guān)系在文本蘊含識別中的應(yīng)用。然而單純詞匯蘊含并不能完全涵蓋文本蘊含的所有范疇。目前對文本蘊含成因的定量研究仍處于初步階段。另一方面,近年來,隨著SICK[5]、SNLI[6]、MultiNLI[7]等數(shù)據(jù)集的提出,用機器學(xué)習(xí)方法建立end-to-end模型判斷整句的句法蘊含關(guān)系成為研究熱點[8-10]。此類模型可以有效判斷整句級別的蘊含關(guān)系,但無法確定引起蘊含的關(guān)鍵語塊位置,其結(jié)果缺乏可解釋性,因而大大削弱了其應(yīng)用價值。
針對第一個問題,本文將蘊含成因歸納為詞匯蘊含、句法異構(gòu)蘊含、常識和社會經(jīng)驗三種類型。我們翻譯并校對了SNLI數(shù)據(jù)集中的3 766條蘊含句對數(shù)據(jù),由人工對其蘊含成因類型進行標(biāo)注,其中詞匯蘊含僅占31.5%,說明詞匯蘊含只是蘊含的一種類型。常識和社會經(jīng)驗占比為29.1%,由于常識的概念模糊,包含的信息粒度大,因而不在本文討論范圍內(nèi)。標(biāo)注結(jié)果中,句法異構(gòu)導(dǎo)致的蘊含占比最多,達到占39.4%,故本文以此為研究對象。
所謂句法異構(gòu)蘊含,是指通過語言的位移、添加、刪除、替換等手段[11]對P的形式進行有選擇的篩選和強調(diào),得到H、P和H的句法變化,使得它們在語義上具有蘊含關(guān)系,則P和H是句法異構(gòu)蘊含。如下文T1、T2的兩組例句就是句法異構(gòu)蘊含。
值得一提的是,句法異構(gòu)蘊含與復(fù)述有本質(zhì)區(qū)別。句法異構(gòu)蘊含不追求語義信息的完整性和一致性。分析發(fā)現(xiàn),句法異構(gòu)蘊含會保留或概括P中需要強調(diào)的、不可省略的部分,而刪除不需要強調(diào)的部分。例如,T1的H省略了P的地點狀語“在藍色卡車旁邊”,突出強調(diào)了動詞性謂語“拍攝”,這兩句話具有句法異構(gòu)蘊含關(guān)系。T2的H省略了P的謂語“拍攝”和賓語“電影”,而H的謂語和賓語是由P的地點狀語“在藍色卡車旁邊”充當(dāng)。P和H是句法異構(gòu)的,它們之間也具有句法異構(gòu)蘊含關(guān)系。
T1: P: 一群人在藍色卡車旁邊拍攝電影。
H: 一群人在拍攝電影。
T2: P: 一群人在藍色卡車旁邊拍攝電影。
H: 一群人在藍色卡車旁邊。
本文研究導(dǎo)致蘊含現(xiàn)象的句法異構(gòu)類型,通過觀察大量蘊含句對,分析歸納得出以下結(jié)論: 句法異構(gòu)類型分為結(jié)構(gòu)變化和省略變化;結(jié)構(gòu)變化又分為成分抽取、從句抽取、語序變化;省略變化分為省略修飾語和省略中心語。
針對第二個問題,本文需深入語料內(nèi)部確定引起整句級別蘊含關(guān)系的關(guān)鍵語塊,我們認為這些關(guān)鍵語塊可以被稱為句法異構(gòu)蘊含語塊。語塊的概念最早由Skehan提出[12],指兼具詞匯和句法特征的半固定的語言結(jié)構(gòu)。在本文中,句法異構(gòu)蘊含語塊是P和H中句法成分或句法結(jié)構(gòu)不同,且具有蘊含關(guān)系的部分。蘊含語塊可以是句中充當(dāng)句法成分的詞、短語,甚至是整個單句或者復(fù)句中的某個小句。例如“香甜的蘋果—蘋果”“漫長的夜晚—夜晚”都屬于從“adj+的+n”到“n”的變化,那么“adj+的+n”和“n”就分別是P和H的句法異構(gòu)蘊含語塊。
顯然,句法異構(gòu)蘊含語塊的確認依賴于蘊含成因的研究。從機器學(xué)習(xí)角度來說,句法異構(gòu)蘊含語塊的識別問題可以轉(zhuǎn)化為邊界識別問題。本文主要采用深度學(xué)習(xí)模型,處理整合P和H的蘊含信息用于識別蘊含邊界下標(biāo)。受Wang[13]的啟發(fā),我們利用match_LSTM計算獲得包含P和H蘊含信息的表示向量,作為Ptr-Net的輸入,進而尋找蘊含邊界。
本文首先介紹國內(nèi)外蘊含類型研究,在此基礎(chǔ)上針對句法異構(gòu)蘊含現(xiàn)象進行分析總結(jié),歸納得到句法異構(gòu)蘊含類型;接著介紹我們在蘊含語塊標(biāo)注方面的工作,從標(biāo)注結(jié)果歸納得到一套簡單有效的規(guī)則系統(tǒng),并將該規(guī)則系統(tǒng)與深度學(xué)習(xí)模型應(yīng)用于語塊邊界自動識別,分析比較兩者在實驗上的有效性,并對論文工作進行總結(jié)和展望。
現(xiàn)有的文本蘊含數(shù)據(jù)集都是為解決文本蘊含問題而開發(fā)的,并沒有專門研究蘊含類型成因的數(shù)據(jù)集。早期文本蘊含評測RTE-1至RTE-3[14-16]及SciTail[17]將文本蘊含視為二分類任務(wù),句子對之間只存在蘊含和中立兩種關(guān)系。近年來的大規(guī)模數(shù)據(jù)集,如SNLI、MultiNLI等,把文本蘊含關(guān)系分為“蘊含”“矛盾”“中立”三種,以供學(xué)界研究文本蘊含的整體類型。截止本文寫稿期間,我們尚未看到單獨討論蘊含成因類型的研究和討論句子內(nèi)部導(dǎo)致蘊含關(guān)系的語言片段的研究。
在英文研究領(lǐng)域,Ido Dagan和Oren Glickman[18]從宏觀角度把英語蘊含關(guān)系分成五類:Axion rule(公理),Reflexivity(自反性),Monotone extension(單調(diào)性擴張),Restrictive extension(限制性擴張),Transitive Chaining(傳遞鏈)。這些概念較為抽象,不便理解,在具體標(biāo)注過程中難以實踐。
在中文研究領(lǐng)域,RITE-3任務(wù)針對中文語料提出了19類蘊含現(xiàn)象和9類矛盾現(xiàn)象[19],包含了近義詞、反義詞、上下位詞等詞匯類別和從句、時態(tài)等句法類別。任函[20]提出了面向漢語文本推理的語言現(xiàn)象標(biāo)注類別,包含了20個類別的語言現(xiàn)象體系,同樣包含了同義詞(近義詞)、上下位詞、反義詞等詞匯類別,該類別體系以詞匯為主,句法特征的內(nèi)容不多,僅有一個結(jié)構(gòu)變化,較為籠統(tǒng)。
以上研究是從語言學(xué)角度對蘊含類型進行區(qū)分,沒有考慮數(shù)據(jù)的實際情況,容易出現(xiàn)某些類別數(shù)據(jù)稀疏的情況。因此,本文將數(shù)據(jù)處理和蘊含類型相結(jié)合,利用現(xiàn)有數(shù)據(jù)集,深入語料尋找導(dǎo)致蘊含關(guān)系的語言片段,探究蘊含現(xiàn)象成因。
我們根據(jù)漢語句法特點把句法異構(gòu)蘊含的成因歸納成兩類:一,結(jié)構(gòu)變化:成分抽取、小句抽取、語序變化;二,省略變化:省略修飾語、省略中心語。這兩個類別既可以獨立存在,也可以同時存在。句法異構(gòu)蘊含成因類型匯總?cè)绫?所示。
表1 句法異構(gòu)蘊含成因類型
漢語以語序和虛詞作為主要語法手段[21],語序變化可以同時改變句子的表層結(jié)構(gòu)和深層結(jié)構(gòu),也就是既改變句子的形式,又改變句子的意義。除了語序變化外,成分抽取、小句抽取也屬于結(jié)構(gòu)變化。
2.1.1 語序變化
“語序”不僅是表示語法結(jié)構(gòu)、語法意義的形式,也是言語表達或修辭的手段[22]。語序變化類句法異構(gòu)蘊含就是指由語法結(jié)構(gòu)內(nèi)部成分的線性順序發(fā)生變化導(dǎo)致的蘊含。例如:
T3: P:三個女人和一個小女孩在和小狗玩。
H: 與小狗玩耍的女人們。
P屬于“施受謂”語序,施事是“三個女人和一個小女孩”,受事是“一只小狗”,“謂”指謂語“玩”。在H中受事“小狗”謂語“玩耍”被提前到施事“女人們”前面。同時,H把一個陳述句變成了短語。
T4: P: 一家人正走在一些很大的獨立的幾何雕塑下面。
H: 人們在一些非常大的雕塑下行走。
P屬于“主動——施謂”語序,“動”指動詞,“謂”指謂詞,在動詞后面有一個表示地點的狀語,H把句尾的地點狀語提前到動詞前面,兩句話的語序發(fā)生了改變。
2.1.2 成分抽取
從P中把主謂賓結(jié)構(gòu)的某一部分抽取出來,單獨成句。被抽取出來的結(jié)構(gòu)如果是一個定中結(jié)構(gòu),有可能變成一個簡單的主謂句,也有可能變成一個存在句。例如:
T5: P:一個穿著黃色毛衣的年輕人看著那張上面擺著各種花的桌子。
H:這里有個人。
P的主語“一個穿著黃色毛衣的年輕人”被抽取出來,省略修飾后單獨成句,H是一個表示人物存在的句子“這里有個人”。
T6: P:一個穿著黑色褲子沒穿襯衫的男孩兒正在玩一個白色的氣球。
H:男孩穿著黑色褲子。
P的主語“一個穿著黑色褲子沒穿襯衫的男孩兒”被抽取出來,省略部分修飾語后變成一個簡單的主謂句H,“男孩穿著黑色褲子”。
2.1.3 小句抽取
在有多個小句的復(fù)句中抽出某一個小句,單獨成句。一般情況下,我們會選擇保留包含完整信息的小句,而省略作為從屬地位補充信息的小句。例如:
T7: P: 男人和女人在海灘上漫步,身后是絢麗的晚霞。
H: 一個男人和一個女人在海灘上散步。(NULL)
P是由一個主謂小句和一個表示背景信息的小句構(gòu)成的,H省略了表示背景信息的小句。
T8: P: 小男孩在哭,因為他被雪球擊中了。
H: 小男孩在哭。(NULL)
同理,P由一個包含了完整信息的主謂小句和一個表示原因的小句構(gòu)成,H省略了表示原因的小句。
語言具有遞歸性,相同或不同的語言結(jié)構(gòu)層層嵌套,結(jié)構(gòu)規(guī)則重復(fù)使用而不會造成結(jié)構(gòu)上的混亂[11]?;谡Z言遞歸性,省略部分結(jié)構(gòu)而得到蘊含現(xiàn)象也屬于句法異構(gòu)蘊含。省略變化主要有省略中心語、省略修飾語兩類,這容易與上一節(jié)的小句抽取混淆。兩者之間的區(qū)別主要在于他們作用于不同的語言單位。小句抽取是在復(fù)句中進行,而省略則是在某一簡單句內(nèi)部進行。
2.2.1 省略中心語
在偏正結(jié)構(gòu)中,省略了核心謂詞,而保留修飾語。被保留的修飾語可以是形容詞性成分、地點狀語、時間狀語等。例如:
T9: P: 年長的白人女子在她的廚房做蛋糕。
H: 一位老太太在廚房里。
P是“主謂賓”結(jié)構(gòu),在主語“一位年長的白人女子”和謂語“做”之間有地點狀語“在她的廚房”,H省略謂語和謂語的賓語“蛋糕”,只保留主語和地點狀語。
T10: P: 一群人劃獨木舟穿過熱帶雨林。
H: 一群人正在劃獨木舟。
P中有2個謂詞性短語“劃獨木舟”和“穿過熱帶雨林”,在這里“穿過熱帶雨林”可以看作是中心謂詞,“劃獨木舟”是表示方式的方式狀語,H省略了中心謂語,保留主語和方式狀語,并在方式狀語前加上表示動作持續(xù)的“正在”,構(gòu)成一個新的主謂句。
2.2.2 省略修飾語
在偏正結(jié)構(gòu)中省略修飾性成分,保留中心語。與上面的省略中心語相對,被省略的修飾語可以是表示地點、時間、工具的狀語,也可以是表示事物性狀的形容詞性成分。
T11: P: 一個男人在晴天晾衣服。
H: 男人晾曬衣服。
H省略了時間狀語“在晴天”。
T12: P: 穿著黑色襯衫的吧臺服務(wù)員用一臺大機器做咖啡。
H: 吧臺侍者在做咖啡。(省略工具)
H省略了人物修飾語“穿著黑色襯衫的”和表示工具的狀語信息“用一臺大機器”。
此外,句法異構(gòu)蘊含的成因不一定獨立存在。比如T13中,P的主語“穿著紅色連帽衫的男孩”被提取出來,單獨成句為H,這屬于成分抽取引發(fā)的蘊含。同時,P中的“紅色連帽衫”和H中的“紅色衣服”屬于上下位詞造成的蘊含。并且,P和H中,“穿著紅色連帽衫(紅色衣服)的男孩”和“男孩穿著紅色衣服(紅色連帽衫)”屬于由語序調(diào)換造成的蘊含。文本蘊含語料中類似的實例說明了蘊含成因是混合的,不是單一的。
T13: P:穿著紅色連帽衫的男孩走在人行道上。
H:男孩穿著紅色衣服。
我們從英文開源數(shù)據(jù)集SNLI選取了一部分數(shù)據(jù),將其翻譯成中文,篩選出其中結(jié)構(gòu)清晰、表達合適的4 000條蘊含數(shù)據(jù)進行了人工標(biāo)注。經(jīng)過校對后,獲得有效標(biāo)注3 766例。具體方法和流程在本節(jié)中詳述。
我們的數(shù)據(jù)來源于英文開源數(shù)據(jù)集SNLI。一方面,目前尚未出現(xiàn)大規(guī)模中文文本蘊含數(shù)據(jù)集,在2012年發(fā)布的RITE-2的幾個中文數(shù)據(jù)集規(guī)模太小,并且不太容易獲取,使用不方便,而英文領(lǐng)域有多個大規(guī)模開源數(shù)據(jù)集,例如SNLI、MultiNLI,獲取和使用都很方便。另一方面,文本蘊含本質(zhì)上是一種語義關(guān)系,不同語言之間的蘊含成因會有共同之處,所以我們可以借助英文數(shù)據(jù)集來研究中文蘊含。
SNLI[6]是目前主流的文本蘊含數(shù)據(jù)集,其中的數(shù)據(jù)全部是依靠眾包(Crowdsourcing)人工生成的真實文本,語言形式靈活多樣,數(shù)據(jù)質(zhì)量較高,不會存在明顯的語法錯誤。SNLI的數(shù)據(jù)規(guī)模巨大,擁有560 152條訓(xùn)練數(shù)據(jù)和10 000條測試數(shù)據(jù),每條數(shù)據(jù)包含一句Premise和一句Hypothesis,以及一個關(guān)系標(biāo)簽,有充足的語料挑選余地。標(biāo)注過程中需要考慮句子長度,若句子過長、結(jié)構(gòu)復(fù)雜,則分析困難;若句子過短、信息太少,不具有標(biāo)注價值。SNLI的Premise平均長度為14.1個單詞,Hypothesis的平均長度為8.3,長度適中,便于人工標(biāo)注。
基于以上考慮,我們將SNLI的部分訓(xùn)練數(shù)據(jù)翻譯成中文,挑選出長度在5~35個漢字之間、結(jié)構(gòu)清晰、表達符合漢語用語習(xí)慣的句子進行人工標(biāo)注和分析。
本文標(biāo)注工作實質(zhì)上是在已知蘊含關(guān)系的基礎(chǔ)上確定句法異構(gòu)語塊邊界。標(biāo)注員首先要看完原句P和蘊含句H,對句子表達的內(nèi)容有一個了解。根據(jù)H的內(nèi)容回到P中尋找相關(guān)內(nèi)容,分別標(biāo)注出P和H的句法蘊含語塊。
根據(jù)句法異構(gòu)蘊含的類型劃分標(biāo)注語塊的類型。省略類的蘊含語塊往往是一個定中短語或狀中短語;結(jié)構(gòu)變化的蘊含語塊類型多樣,小句抽取的蘊含語塊是復(fù)句中的小句,我們可以用逗號作為劃分依據(jù);成分抽取的蘊含語塊是句中某個完整的句法成分,若句法成分前有修飾語,那么語塊也要包括修飾語;語序變化的蘊含語塊較為特殊,需要結(jié)合具體語料劃分。
本文使用基于Web的文本標(biāo)注工具BRAT進行蘊含語塊標(biāo)注,標(biāo)注過程如圖1所示。導(dǎo)入待標(biāo)注文本,選擇原句P和蘊含句H中的蘊含語塊,分別標(biāo)記為“Antedt”和“Consqt”。連接“Antedt”和“Consqt”,在彈出的對話框中為兩個語塊選擇相應(yīng)的句法異構(gòu)關(guān)系。如果有標(biāo)注錯誤,雙擊“Antedt”或“Consqt”或者關(guān)系類型,移動、添加、刪除標(biāo)注內(nèi)容。標(biāo)注結(jié)果由BRAT自動保存,示例如圖2所示。完成整個文件中的數(shù)據(jù)標(biāo)注后,得到一個后綴名為.ann的文件。
為了提高標(biāo)注語料的一致性,在第一次標(biāo)注結(jié)束兩周后,我們按照最終標(biāo)準(zhǔn)對數(shù)據(jù)進行了二次標(biāo)注。最后,分析提取得到的句法異構(gòu)蘊含語塊,人工校對修改,得到最后的標(biāo)注結(jié)果。這在一定程度上解決了多人標(biāo)注引起的不一致問題,提高了蘊含語塊標(biāo)注的準(zhǔn)確性。
圖1 BRAT標(biāo)注過程
圖2 BRAT標(biāo)注示例
我們總共篩選出4 000條蘊含數(shù)據(jù),獲得有效標(biāo)注結(jié)果3 766例,如表2所示。其中句法異構(gòu)蘊含有1 483例,占39.40%;詞匯蘊含1 188例,占31.50%;常識和社會經(jīng)驗蘊含1 095例,占29.10%。
最后我們又針對句法異構(gòu)蘊含進行語料擴充,總共標(biāo)注句法蘊含2 000例,結(jié)構(gòu)變化類463例,占比23.15%;省略類1 537例,占比76.85%。
可以看到,文本蘊含主要還是通過詞匯關(guān)系和句法異構(gòu)產(chǎn)生的,其中句法異構(gòu)略多于詞匯關(guān)系,而在句法異構(gòu)蘊含中又是以省略類為主,結(jié)構(gòu)變化導(dǎo)致的蘊含較少。
表2 蘊含分類統(tǒng)計
通過解析句法異構(gòu)蘊含語塊對的詞性和句法依存分析,我們總結(jié)出了一套句法異構(gòu)蘊含的規(guī)則系統(tǒng)。在依存句法體系中,“HED”指的是核心關(guān)系,通常是小句的謂語,“SBV”指的是主語,“VOB”指的是賓語,“IOB”指的是間接賓語,“POB”指的是后置定語,“ATT”指的是定語,“ADV”指的是狀語,“COO”表示兩個重復(fù)的成分。本文的句法異構(gòu)中可以有規(guī)則匹配的類型歸納如下。
1. “被”“把”語塊
我們通過匹配句子中的標(biāo)志字“被”和“把”,并判斷“被”和“把”在語塊中擔(dān)任“ADV”成分,則認為此語塊為“被”結(jié)構(gòu)或“把”結(jié)構(gòu)語塊。
LTP中的句法依存分析結(jié)果,“被”字語塊一般被解析為如下結(jié)構(gòu):
(1) [ATT]* + FOB + 被 + [[ATT]* + POB] + HED
“把”字語塊句法依存分析的主體結(jié)構(gòu)為:
(2) [SVB] + 把 + [ATT]* + POB + HED + [[ATT]* + VOB]
“被”字語塊蘊含的句法依存結(jié)構(gòu)示例如圖3所示。
S1: 大象正被一個男人騎著。
S2: 人在騎大象。
“把”字語塊蘊含的句法依存結(jié)構(gòu)示例如圖4所示。
S3: 走過街道,把它打掃干凈。
S4: 清掃街道。
圖3 S1、S2句法結(jié)構(gòu)
圖4 S3、S4句法結(jié)構(gòu)
2.普通語塊
與“被”字語塊和“把”字語塊對應(yīng),一般語塊的句法依存分析的主體結(jié)構(gòu)如下:
(1) SBV + HED + VOB
蘊含語塊對中,HED必須一致或有蘊含關(guān)系,并且FOB和VOB,POB和SBV一致或H句中的主體結(jié)構(gòu)中某成分被省略。
H省略P中并列的信息: 即句法依存分析樹的結(jié)構(gòu)中,P有多個HED,H缺少P中標(biāo)記為COO部分的子樹。語塊對的主體結(jié)構(gòu)如下:
(2) P: SBV + [HEDP]* + VOB
H: SBV + [HEDH]* + VOB
其中[HEDH]* ∈ [HEDP]*, 示例如圖5所示。
S5: 坐在滑板上在鄉(xiāng)間滑行。
S6: 坐在滑板上。
圖5 S5、S6句法結(jié)構(gòu)
H省略P中修飾的信息: 蘊含句對的HED相同,H中缺少P中的一個或幾個ATT成分,其他成分相同,語塊對的句法結(jié)構(gòu)表示為:
(3) P: [ATT1P]* + SBV + HED + [ATT2P]* + VOB
H: [ATT1H]* + SBV + HED + [ATT2H]* + VOB
其中,[ATTH]* ∈ [ATTP]* ,P和H可以省略某一句子成分,且P的信息包含H的信息。例句如圖6所示。
S7: 一個亞裔小女孩兒。
S8: 一個小女孩兒。
圖6 S7、S8句法結(jié)構(gòu)
H只保留了P中的HED,省略其他的句法成分。語塊對的句法結(jié)構(gòu)表示為:
(4) P: [[ATT]* + HEDP]*
H: HEDH
其中,P的結(jié)構(gòu)為一組或多組修飾語加核心詞,且[HEDH]∈[HEDP],如果[HEDH]包含多個短語,則用“和”連接。例句示例如下:
S9: 一個穿著比基尼的女人和一個打扮正常的男人。
S10: 男人和女人。
圖7 S9、S10句法結(jié)構(gòu)
按照上述6條規(guī)則自動抽取蘊含語料,每條規(guī)則抽取的數(shù)量與數(shù)據(jù)庫中語塊總數(shù)的比值為相應(yīng)規(guī)則的覆蓋度,每條規(guī)則抽取得到的語塊數(shù)量與數(shù)據(jù)庫中符合此規(guī)則的語塊數(shù)量的比值為相應(yīng)規(guī)則的有效性,為規(guī)則的具體評價。規(guī)則覆蓋度評價如表3所示。
表3 句法規(guī)則覆蓋度
句法異構(gòu)的句對結(jié)構(gòu)轉(zhuǎn)化多樣,句法成分位置靈活,以及同義詞及上下位詞的替換,使得我們難以用規(guī)則概括所有的句法異構(gòu)蘊含。本文總結(jié)規(guī)律性強、較為常見的蘊含語塊對,確保了抽取數(shù)據(jù)的有效性,但由于規(guī)則限制比較嚴格,未能覆蓋全部數(shù)據(jù)。本節(jié)規(guī)則識別的結(jié)果為進一步的深度模型實驗提供了參考標(biāo)準(zhǔn)。
4.2.1 模型
圖8 模型結(jié)構(gòu)圖
本文采用深度學(xué)習(xí)模型處理整合P和H的蘊含信息,識別蘊含邊界下標(biāo)。基于Wang[13]的模型,如圖8所示,此模型主要分為兩個模塊: match_LSTM和Pointer Network(Ptr-Net)。Wang[13]針對文本蘊含任務(wù)提出了match-LSTM模型,用來判斷P是否蘊含H。與Wang[13]工作不同的是,我們沒有利用match-LSTM判斷P和H的蘊含類型,而是計算獲得包含P和H蘊含信息的表示向量,作為Ptr-Net的輸入。Ptr-Net由Vinyals[24]提出,它采用attention機制作為指針,選擇輸入序列的位置下標(biāo)作為輸出。在此我們采用Ptr-Net,在整合了P和H蘊含信息的向量中尋找蘊含邊界。
4.2.2 實驗設(shè)計與分析
我們在SNLI數(shù)據(jù)庫中選取2 000條句法異構(gòu)類型的蘊含對,采用前文的規(guī)則進行人工標(biāo)注。其中,訓(xùn)練集包含1 700條數(shù)據(jù),測試集包含300條數(shù)據(jù)。實驗代碼基于tensorflow框架,采用邊界正確率作為評價指標(biāo)。我們分別統(tǒng)計了P和H蘊含片段的前后正確率及總體正確率,實驗結(jié)果如表4所示。
表4 實驗結(jié)果
從表4可以看出,對于兩個模型P和H兩個蘊含邊界識別總正確率分別為68.71%、74.42%,P的蘊含邊界正確率分別為65.40%、72.61%,H的蘊含邊界正確率分別為68.83%、74.75%。由實驗結(jié)果知,模型對于H的蘊含片段識別能力略高于P,attention機制顯著地提高了模型的正確率。
本文首次提出句法異構(gòu)蘊含邊界識別問題,并且首次采用深度學(xué)習(xí)模型探索端到端識別蘊含邊界的可能性。我們對比了LSTM+Ptr-Net和match_LSTM+Ptr-Net兩個模型,前者使用LSTM為序列建模,后者在LSTM的基礎(chǔ)上增加了attention機制。
本文通過標(biāo)注蘊含句對,分析總結(jié)句法異構(gòu)蘊含類型,歸納句法異構(gòu)蘊含規(guī)則,并對該規(guī)則的有效性進行驗證,結(jié)果表明基于規(guī)則的方法可以為進一步的深度模型實驗提供參考標(biāo)準(zhǔn)。本文用深度學(xué)習(xí)模型識別蘊含語塊邊界,在小規(guī)模中文語料上提供了可靠的基準(zhǔn)線。本文的實驗代碼和數(shù)據(jù)已經(jīng)公布在Github網(wǎng)站,網(wǎng)址為https://github.com/blcunlp/CCHEP。
與整句級別的蘊含識別任務(wù)相比,本文在句法異構(gòu)蘊含識別上的正確率還有待提高。我們計劃進一步探討句法異構(gòu)蘊含規(guī)則,擴大規(guī)則覆蓋范圍,為深度學(xué)習(xí)模型提供更為可靠的外部知識。
本文的工作為日后蘊含成因分析與語塊標(biāo)注研究提供了可供改進的方向,其中包括: ①提高語塊標(biāo)注的準(zhǔn)確性,解決因錯誤標(biāo)注帶來的語塊邊界不清問題; ②擴展蘊含成因類型,現(xiàn)有句法異構(gòu)蘊含類型還能繼續(xù)擴充,因常識和社會知識造成的蘊含也值得深入分析; ③擴展句法異構(gòu)蘊含規(guī)則,現(xiàn)有規(guī)則較為簡單,對中文特殊句式的研究不夠深入,未能覆蓋到大部分句法異構(gòu)蘊含現(xiàn)象。