陳 越,何宇豪,孫亞偉,程 龔,瞿裕忠
(南京大學(xué) 計算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023)
標(biāo)準(zhǔn)測試是衡量人工智能的一種方法[1],其中中國的普通高等學(xué)校招生全國統(tǒng)一考試(簡稱高考)已經(jīng)吸引了眾多人工智能學(xué)者的研究,例如, Cheng等[2]開展了歷史學(xué)科選擇題求解的研究,Ding[3]、Huang[4]和Li[5]等開展了地理學(xué)科選擇題求解的研究。然而,目前在簡答題求解任務(wù)上仍缺乏相應(yīng)的研究工作。簡答題求解任務(wù)需要針對問題給出一段長文本答案,此外,求解地理學(xué)科的簡答題往往還需要進(jìn)行因果分析,本文將這類簡答題稱為因果簡答題(Casual Essay Question,CEQ),例如:
問題: 簡要分析鄂爾多斯內(nèi)流區(qū)的形成原因。
答案: 地形較封閉,四周略高;降水少,蒸發(fā)旺盛,地表徑流少。
求解高中地理因果簡答題的主要難點(diǎn)在于需要融合多源知識并進(jìn)行多跳因果推理。例如,上文的答案融合了地形和水循環(huán)等多種地理知識,并描述了多跳因果推理的過程。這與現(xiàn)有的問答任務(wù)不同,例如,Iida[6]和Oh[7]研究的“為什么”問題(why-questions),以及其他可以通過檢索等技術(shù)進(jìn)行回答的非因果問題[8]。
本文在自建數(shù)據(jù)集GeoCEQA上進(jìn)行實(shí)驗(yàn),其包含了8 659個來自高中地理測試卷的無重復(fù)的因果簡答題。由于缺乏公開的地理領(lǐng)域知識支撐求解這些問題,本文將GeoCEQA中的4 000個問答對作為領(lǐng)域語料,用于支撐剩余4 659個問題的回答。
為了實(shí)現(xiàn)知識集成和多跳因果推理,本文選擇圖結(jié)構(gòu)表示知識?,F(xiàn)今,比較流行的知識表示形式是知識圖譜,其中,節(jié)點(diǎn)表示實(shí)體,邊表示實(shí)體之間的關(guān)系,例如,ConceptNet[9]。然而,實(shí)體這種簡單的概念并不能夠支撐回答因果簡答題。因果簡答題大都圍繞一些復(fù)雜的概念,包括狀態(tài)(如降水少)、變化(如溫度快速上升)以及動作(如灌溉農(nóng)田)。本文通過概念級別的事件來表示它們,將這種事件稱為抽象事件(Abstract Event,AE),它與某實(shí)體在具體時間發(fā)生的具體事件不同。更進(jìn)一步,本文從語料中抽取抽象事理圖譜(Abstract Event Graph,AEG)來表示抽象事件之間的因果關(guān)系,這與Gottschak等[10]研究的具體事件之間的時序關(guān)系有所不同。
本文使用基于BERT[11]的方法,從領(lǐng)域語料中抽取抽象事件及其因果關(guān)系,構(gòu)建AEG。此外,本文通過識別共指、相反和相似關(guān)系進(jìn)一步擴(kuò)充AEG。在解題時,給定一個因果簡答題,本文首先將其鏈接到AEG中的抽象事件,然后通過個性化PageRank(簡稱PPR)從AEG中抽取一個子圖,之后通過圖神經(jīng)網(wǎng)絡(luò)對子圖中的節(jié)點(diǎn)進(jìn)行排序。最后,本文基于排序得到的最優(yōu)的抽象事件,通過Transformer模型生成一段長文本答案。
本文的貢獻(xiàn)主要有以下三點(diǎn):
(1) 新任務(wù): 提出并研究了一個新的任務(wù)——因果簡答題求解,這項(xiàng)任務(wù)依賴知識集成和多跳因果推理。
(2) 新表示: 提出通過AEG的形式來表示抽象事件及其之間的各種關(guān)系。
(3) 新方法: 提出的模型基于圖結(jié)構(gòu)進(jìn)行推理,可以融合因果簡答題中的非結(jié)構(gòu)化知識和AEG中的結(jié)構(gòu)化知識。本文的方法在自建數(shù)據(jù)集GeoCEQA上顯著超越了已有的基線方法。
數(shù)據(jù)集GeoCEQA和本文方法均已開源(1)https://github.com/nju-websoft/GeoCEQA。
本文的組織結(jié)構(gòu)為: 第1節(jié)介紹相關(guān)工作;第2節(jié)介紹因果簡答題求解任務(wù)的定義;第3節(jié)和第4節(jié)分別介紹AEG的構(gòu)建方法和因果簡答題的求解方法;第5節(jié)介紹實(shí)驗(yàn)結(jié)果及分析,第6節(jié)對全文進(jìn)行總結(jié)。
本文內(nèi)容涉及問答任務(wù)、事件和關(guān)系抽取,以及圖神經(jīng)網(wǎng)絡(luò)等研究。本節(jié)首先回顧已有的問答任務(wù)以及相應(yīng)的方法,然后對事件和關(guān)系抽取,以及圖神經(jīng)網(wǎng)絡(luò)的工作進(jìn)行介紹。
在現(xiàn)有問答任務(wù)中,MS MARCO[12]和NarrativeQA[13]要求從給定文檔中抽取或生成一個短文本作為答案,而本文提出的研究任務(wù)要求生成一段長文本作為答案,傳統(tǒng)的抽取模型難以取得好的效果。ELI5等[14]更具挑戰(zhàn)性的問答任務(wù)盡管也要求生成一段長文本作為答案,但與本文不同,這些任務(wù)并不強(qiáng)調(diào)因果關(guān)系,因此不涉及因果推理;此外,ELI5任務(wù)預(yù)先給定了答題所需的文檔,因此不涉及多源知識集成和多跳因果推理。
在面向其他相關(guān)問答任務(wù)的求解方法中,Shibuki等[8]提出利用檢索解決非因果問題,Wang[15]、Hu[16]、Min等[17]提出從文檔中抽取一個短文本作為答案,Nishida等[18]利用Transformer模型生成答案。這些方法并未顯式地通過圖結(jié)構(gòu)來表示因果關(guān)系,推理能力較弱,難以適用于強(qiáng)調(diào)因果推理的簡答題求解任務(wù)。Iida[6]和Oh等[7]通過文本編碼方法在“為什么”問題上對給定的長答案進(jìn)行壓縮,雖然具有一定的因果關(guān)系處理能力,但該任務(wù)上不同問題間的因果關(guān)系相互獨(dú)立,無須考慮全局的因果鏈,這些方法也未顯式通過圖結(jié)構(gòu)來表示因果關(guān)系,而本文提出的方法構(gòu)建了全局的AEG,實(shí)現(xiàn)了多源知識集成,通過顯式的圖結(jié)構(gòu)為答題提供了較強(qiáng)的推理能力。此外,F(xiàn)an等[19]構(gòu)建了一個特定于問題的知識圖譜作為Transformer模型的輸入,用于生成答案,但知識圖譜只能表示實(shí)體間的關(guān)系,這種簡單的表示形式難以支撐因果簡答題求解任務(wù),而本文定義了新的表示形式AEG,通過構(gòu)建AEG來表示抽象事件之間的因果關(guān)系。
事件和關(guān)系抽取技術(shù)已被廣泛研究,曾提出了BiLSTM-CRF[20]、RNN[21]、預(yù)訓(xùn)練語言模型[22]以及GAN[23]等方法。Dasgupta等[24]利用純文本表示事件,而本文定義的抽象事件是結(jié)構(gòu)化的,抽象事件由事件的類型及其元素組成?,F(xiàn)有的事件關(guān)系抽取主要抽取的是時序關(guān)系[25-26]或者抽取具體事件之間的關(guān)系[27],而本文關(guān)注的是概念級別抽象事件之間的因果關(guān)系抽取。Zhao[28]和Zhang等[29]通過句法模式進(jìn)行事件及其關(guān)系抽取,而本文采用基于BERT的方法。此外,除了抽取句間關(guān)系[30],本文通過共指等關(guān)系貫通多個句子和文檔,構(gòu)建AEG,從而實(shí)現(xiàn)多源知識集成。
圖神經(jīng)網(wǎng)絡(luò)可支持基于圖結(jié)構(gòu)的推理,在自然語言處理領(lǐng)域已經(jīng)被廣泛應(yīng)用。HotpotQA[31]和WikiHop等[32]閱讀理解數(shù)據(jù)集需要多跳推理,針對此數(shù)據(jù)集,Tang等[33]在實(shí)體圖譜上應(yīng)用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行推理。此外,Lin等[34]應(yīng)用GCN和LSTM編碼常識知識圖譜來進(jìn)行常識推理。Kim等[35]將GCN應(yīng)用于多模態(tài)上下文圖譜以解決多模態(tài)閱讀理解任務(wù)。這些工作表明: 將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖結(jié)構(gòu),經(jīng)過多輪信息傳遞,可以更好地融合節(jié)點(diǎn)的向量表示,從而具有一定的推理能力。因此,本文利用圖神經(jīng)網(wǎng)絡(luò)在AEG上進(jìn)行因果推理,基于AEG定義事件之間的因果關(guān)系等,利用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行節(jié)點(diǎn)間信息傳遞及多跳因果推理。本文提出的方法可以融合因果簡答題的非結(jié)構(gòu)化知識和AEG的結(jié)構(gòu)化知識。
求解因果簡答題需要分析因果關(guān)系,其標(biāo)準(zhǔn)答案描述了一系列的原因或者結(jié)果以及中間的推理過程,而推理過程往往需要多源知識集成以及多跳因果推理。
以引言中所示例題為例,問題要求求解“鄂爾多斯內(nèi)流區(qū)的形成原因”,其標(biāo)準(zhǔn)答案描述了一系列原因及推理過程: 鄂爾多斯“地形較封閉”且“四周略高”,導(dǎo)致“形成內(nèi)流區(qū)”;此外,“降水少”且“蒸發(fā)旺盛”導(dǎo)致“地表徑流少”,進(jìn)而導(dǎo)致“形成內(nèi)流區(qū)”。該標(biāo)準(zhǔn)答案融合了地形和水循環(huán)兩大地理知識,體現(xiàn)了多跳因果推理。
為了支持知識集成以及多跳因果推理,并用于求解因果簡答題,本文提出了一種新的圖結(jié)構(gòu)的知識表示,稱為AEG。本文首先定義AEG的結(jié)構(gòu),之后提出基于BERT的方法從文本中抽取AEG,最后將此方法應(yīng)用于GeoCEQA數(shù)據(jù)集的語料。抽取AEG的示例如圖1所示。
圖1 抽取AEG的示例每條虛線表示一對“共現(xiàn)”邊,“原因”關(guān)系被省略。
AEG是一個有向圖G=
● 狀態(tài)(概念,修飾): 例如,“降水少”被表示為狀態(tài)(降水,少);
● 變化(概念,修飾,謂語,程度): 例如,“溫度快速回升”被表示為變化(溫度,,回升,快);
● 動作(概念,修飾,謂語): 例如,“灌溉農(nóng)田”被表示為動作(農(nóng)田,,灌溉);
本文定義了五種抽象事件之間的關(guān)系類型:
● 結(jié)果及其反向關(guān)系原因: 表示抽象事件之間的因果關(guān)系;
● 相反: 表示抽象事件是相反的,例如,相反方向的狀態(tài)和變化;
● 相似: 表示相似但不共指的關(guān)系,例如擁有相似修飾元素的抽象事件;
● 共現(xiàn): 表示出現(xiàn)在相同上下文中的抽象事件。
其中,相反、相似和共現(xiàn)關(guān)系都是對稱的,這些非因果關(guān)系有助于因果分析。相反關(guān)系表明事件之間可能具有較強(qiáng)的負(fù)相關(guān)性;相似關(guān)系表明事件之間可能具有較強(qiáng)的正相關(guān)性;共現(xiàn)關(guān)系表明事件之間可能具有一定的相關(guān)性,但極性和強(qiáng)度未知。值得一提的是,以上的事件元素及其關(guān)系并不局限于地理領(lǐng)域,例如,相反和相似關(guān)系是具有一般性的事件關(guān)系,也適用于其他領(lǐng)域。
本文從給定語料的每篇文檔中抽取抽象事件及其因果關(guān)系。對于每篇文檔d,本文的模型聯(lián)合訓(xùn)練抽象事件的文本及元素的抽取以及因果關(guān)系的抽取??偧軜?gòu)如圖2所示。
圖2 抽象事件及因果關(guān)系抽取模型
識別抽象事件文本: 本文將文檔d輸入BERT,如式(1)所示。
(1)
(2)
(3)
(4)
其中,embed()函數(shù)表示對長度數(shù)值的編碼。本文使用ej和ek之間單詞表示的最大池化結(jié)果來表示
(5)
(6)
其中,W和b是參數(shù)。上式表示將抽象事件ej和ek之間關(guān)系分類成如下類型的概率分布: ①因果,②并列,③無關(guān)。其中,并列關(guān)系有助于補(bǔ)充難以直接抽取的長距離因果關(guān)系,以“降水少,蒸發(fā)旺盛,地表徑流少”為例,抽取出“降水少”與“蒸發(fā)旺盛”之間的并列關(guān)系,以及“蒸發(fā)旺盛”與“地表徑流少”之間的因果關(guān)系后,可得出“降水少”與“地表徑流少”之間的因果關(guān)系。本文選擇概率最大的類別作為最終預(yù)測的抽象事件ej和ek之間的關(guān)系類型。如果被分類為因果關(guān)系,則在AEG中ej和ek之間添加“結(jié)果”邊以及反向關(guān)系“原因”邊;如果被分類成并列關(guān)系,則將ej和ek各自的“結(jié)果”邊和“原因”邊復(fù)制給對方。注意,“結(jié)果”邊和“原因”邊總是成對出現(xiàn)的。
聯(lián)合訓(xùn)練: 以上所有的分類器均采用交叉熵?fù)p失函數(shù),最后將所有損失求和進(jìn)行訓(xùn)練,如式(7)~式(10)所示。
(7)
(8)
(9)
L=Lmention+Largument+Lrel
(10)
為了融合抽取到的因果關(guān)系,增強(qiáng)多跳因果推理的能力,本文進(jìn)一步合并了共指的抽象事件,并增加了其他的關(guān)系類型來關(guān)聯(lián)抽象事件。
具體而言,本文將抽象事件的元素通過分號拼接,將其轉(zhuǎn)化為一個句子。由于效率的原因,本文只考慮了對應(yīng)句子對中至少包含一個相同單詞的抽象事件對。對于任意一對抽象事件ej和ek,將其對應(yīng)的句子對作為BERT句對分類模型的輸入,分類類型包括: ①共指,②相反,③相似,④無關(guān)。其中,相反和相似關(guān)系刻畫了事件之間的相關(guān)性,在很多情況下直接或間接表明了某種因果關(guān)系,故有助于因果推理。本文選擇概率最大的類別作為最終預(yù)測的抽象事件ej和ek之間的關(guān)系類型。當(dāng)預(yù)測為共指關(guān)系時,將AEG中的ej和ek合并;當(dāng)預(yù)測為相反關(guān)系時,在ej和ek之間增加“相反”邊;當(dāng)預(yù)測為相似關(guān)系時,在ej和ek之間增加“相似”邊。
除此以外,在同一篇文檔抽取得到的抽象事件之間增加“共現(xiàn)”邊[36]。
本文將上述方法應(yīng)用于GeoCEQA數(shù)據(jù)集的語料,其中,每篇文檔d就是一個因果簡答題q和其對應(yīng)的標(biāo)準(zhǔn)答案a的組合。
基于GeoCEQA構(gòu)建的AEG的部分?jǐn)?shù)據(jù)如表1所示。下文將介紹訓(xùn)練數(shù)據(jù)和實(shí)驗(yàn)結(jié)果。
表1 從GeoCEQA構(gòu)建的AEG的統(tǒng)計信息
抽取抽象事件及其因果關(guān)系: 本文從GeoCEQA的訓(xùn)練集中采樣了2 082篇文檔用于訓(xùn)練,從GeoCEQA的測試集中采樣了521篇文檔用于測試。邀請了四名標(biāo)注人員標(biāo)注訓(xùn)練集和測試集中的抽象事件及其關(guān)系(例如,因果、并列關(guān)系),標(biāo)注數(shù)據(jù)均被高級標(biāo)注人員檢查過。如表2所示,抽象事件文本的抽取結(jié)果質(zhì)量較高(F1=0.754)。此外,考慮到本文的評估標(biāo)準(zhǔn)要求很高,AE的所有元素必須完全匹配才視為正確,因此事件元素抽取的質(zhì)量尚可(F1=0.693)。實(shí)際上,抽象事件抽取的一些誤差對下游任務(wù)不會有太大影響。關(guān)系抽取的難度較大,這是由于因果關(guān)系通常沒有明顯的語言模式,如圖1所示。
表2 抽象事件及其因果關(guān)系的抽取質(zhì)量
擴(kuò)充AEG: 本文從人工標(biāo)注的抽象事件中采樣了52 858個事件對用于訓(xùn)練,13 215個事件對用于測試。對這些事件對人工標(biāo)注它們之間的關(guān)系,包括共指、相反和相似關(guān)系。實(shí)驗(yàn)結(jié)果如表3所示,分類質(zhì)量較高(F1=0.945)。
表3 擴(kuò)充AEG的質(zhì)量
給定一個因果簡答題,本文基于AEG進(jìn)行因果推理,選擇最優(yōu)抽象事件,生成一段長文本答案。出于效率考慮,本文首先在AEG上抽取一個與問題相關(guān)的子圖,再執(zhí)行上述過程。
給定一個因果簡答題q和一個AEGG=
抽象事件排序: 為了對抽象事件進(jìn)行排序,本文提出了一種新的方法來結(jié)合問題q的無結(jié)構(gòu)文本、V中結(jié)構(gòu)化的抽象事件以及E中的異構(gòu)關(guān)系。
(11)
圖3 基于AEG的因果推理及答案生成模型
(12)
(13)
(14)
(15)
(16)
聯(lián)合訓(xùn)練: 以上所有的分類器均采用交叉熵?fù)p失函數(shù),最后將所有損失求和進(jìn)行訓(xùn)練,如式(17)~式(19)所示。
(17)
(18)
L=Lrank+Lgen
(19)
4.2 抽取與問題相關(guān)的子圖
在一個完整的AEG G=
●抽象事件的鏈接: 本文首先從因果簡答題q中進(jìn)行抽象事件文本抽取,其中式(1)中d的答案a設(shè)置為空字符串,最終得到一個抽象事件文本集合εq。然后,對于其中的每個文本ej∈εq,從AEG中識別一個抽象事件子集Vj∈V,作為候選鏈接事件。Vj中包括了AEG中通過3.3節(jié)所示模型識別出的與ej類型相同且最有可能形成共指或相似關(guān)系的抽象事件,以及與ej的fastText向量表示[39]的余弦相似度最接近的抽象事件。最終,本文將ej鏈接到Vj中排序最優(yōu)的抽象事件,排序應(yīng)用了ROUGE和余弦相似度cos,如式(20)所示。
max{0,cos-0.5}
(20)
由于缺乏高中地理因果簡答題數(shù)據(jù)集,本節(jié)將本文方法與多個前沿的基線模型在自建數(shù)據(jù)集GeoCEQA上進(jìn)行實(shí)驗(yàn)比較。
本文從中國高中地理試卷中收集因果簡答題。從三個網(wǎng)站爬取問題及其答案,并使用Huang[4]提出的方法去除重復(fù)問題。然而,收集到的問題并不都是因果簡答題。為了識別因果簡答題,人工標(biāo)注了1 200個問題,其中456個屬于因果簡答題,另外744個不屬于因果簡答題。使用該標(biāo)注結(jié)果訓(xùn)練BERT二分類模型以預(yù)測剩余的問題是否屬于因果簡答題。對于預(yù)測得到的所有因果簡答題進(jìn)行人工審核,防止分類錯誤。
GeoCEQA數(shù)據(jù)集包含了8 659個無重復(fù)的因果簡答題及其對應(yīng)的標(biāo)準(zhǔn)答案,每個答案都是一段長文本,平均包含7.6個句子,62.3個中文字符。
本文隨機(jī)抽取了其中的4 000個因果簡答題及其對應(yīng)答案作為領(lǐng)域語料支撐解答剩余的因果簡答題。剩余4 659個題目中3 279個作為訓(xùn)練集(70%),560個作為開發(fā)集(12%),820個作為測試集(18%)。
本文使用中文版本的BERT-Base模型,使用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為5e-5,學(xué)習(xí)率預(yù)熱步數(shù)設(shè)置為100。
● 抽取抽象事件及其因果關(guān)系的模型: 768維隱藏層的BERT,訓(xùn)練步數(shù)為3 000,批量大小(batch size)為32。
● 擴(kuò)充AEG的分類模型: 768維隱藏層的BERT,訓(xùn)練輪數(shù)(epoch)為8,批量大小為32。
● 基于AEG的因果推理及答案生成模型: 768維隱藏層的BERT,3層256維隱藏層的GNN(L=3),6層768維隱藏層的Transformer解碼器,解碼時束大小(beam size)設(shè)置為5,訓(xùn)練步數(shù)為10 000,批量大小為16,每16個實(shí)例進(jìn)行梯度累積。
在基于AEG的因果推理及答案生成模型中,為了訓(xùn)練式(14)中的判定抽象事件是否被用于答案生成模塊的分類器,本文使用4.2節(jié)中介紹的方法自動將答案中的抽象事件鏈接到AEG中作為標(biāo)準(zhǔn)正例,用于生成答案段落。
本文抽取200個最優(yōu)節(jié)點(diǎn)構(gòu)成子圖(ρ=200),選擇20個最優(yōu)抽象事件用于生成答案(τ=20)。下文將展示ρ、L、τ不同設(shè)置下的實(shí)驗(yàn)結(jié)果。
由于缺乏直接可以比較的方法,本文將4個相關(guān)任務(wù)下的11個最優(yōu)方法遷移到因果簡答題求解任務(wù)下進(jìn)行對比。
● 句子選擇: 應(yīng)用BM25從語料中檢索最相似的因果簡答題,拼接對應(yīng)的標(biāo)準(zhǔn)答案作為輸出。類似地,利用中文預(yù)訓(xùn)練語言模型ERNIE[41]訓(xùn)練句對分類模型來計算因果簡答題之間的相似度,拼接相似問題對應(yīng)的標(biāo)準(zhǔn)答案作為ERNIE方法的輸出。為了對ERNIE進(jìn)行微調(diào),本文首先通過BM25檢索出20條最相似的因果簡答題,然后通過ROUGE-LF1自動標(biāo)注5個答案最相似的因果簡答題作為正例,其他15個簡答題作為負(fù)例。
● 序列到序列: 本文訓(xùn)練了MASS[42]、DeepNMT[43]、PreSumm[44]、BERT-fused[45]和mBART25[46]模型,這些模型根據(jù)因果簡答題生成答案。本文在Wikipedia上預(yù)訓(xùn)練MASS。
● 開放域問答: 本文應(yīng)用SRMRS[47]和HardEM[17]從語料中檢索相關(guān)段落并抽取答案文本。
● 知識庫問答: 本文應(yīng)用BAMnet[48]對AEG中的節(jié)點(diǎn)進(jìn)行排序,拼接最優(yōu)的節(jié)點(diǎn)作為輸出。為了訓(xùn)練BAMnet,本文使用4.2節(jié)中介紹的方法將因果簡答題及其標(biāo)準(zhǔn)答案中的抽象事件鏈接到AEG中作為主題節(jié)點(diǎn)和答案節(jié)點(diǎn)。進(jìn)一步,將BAMnet的輸出作為本文方法中答案生成模塊的輸入,采用BERT作為編碼器、Transformer作為解碼器,去除基于AEG的推理模塊,最終擴(kuò)展為增強(qiáng)版的新方法BAMnet+。
為了比較的公平性,所有方法包括本文提出的方法均采用BERT的默認(rèn)超參設(shè)置。關(guān)于其他超參數(shù),每個基線方法的配置都遵循原文。
本文將生成答案的最大長度設(shè)置為60個中文字符,與GeoCEQA中標(biāo)準(zhǔn)答案長度的均值(62.3)接近。由于其他長度約束(30,90)的實(shí)驗(yàn)結(jié)果與本文近似,不再展現(xiàn)。對于使用集束搜索的方法,約束最小長度為最大長度的一半。
本文從測試集中隨機(jī)采樣了100個因果簡答題,邀請了兩名來自作者所在學(xué)校的本科生進(jìn)行解題,允許他們在網(wǎng)絡(luò)上搜索地理知識,但禁止直接搜索原題。
本文通過ROUGE得分和BLEU得分將各方法輸出的答案和標(biāo)準(zhǔn)答案進(jìn)行自動比較。此外,本文邀請了一名閱卷經(jīng)驗(yàn)豐富的中學(xué)地理教師作為任務(wù)專家對各方法在上文采樣得到的因果簡答題上輸出的答案進(jìn)行0~10范圍內(nèi)的打分,并邀請了另一名教師對打分結(jié)果進(jìn)行了抽樣復(fù)核。
與基線方法比較: 在ROUGE和BLEU得分上,本文提出的方法在測試集上優(yōu)于所有基線方法(表4)。在專家的人工評分上,本文方法超過基線方法0.42~2.15,并且?guī)缀跛械牟町惗际秋@著的。這些實(shí)驗(yàn)結(jié)果表明了本文方法的有效性。
表4 本文方法與基線方法在ROUGE得分、BLEU得分和專家打分上的對比
表5 消融實(shí)驗(yàn)結(jié)果
在測試集上,本文提出的方法在ROUGE-1、ROUGE-2、ROUGE-L和BLEU-4得分上分別超出句子選擇方法3.2~7.1、3.3~6.1、3.7~6.5和1.9~4.0,超出序列到序列方法1.4~6.7、0.8~5.1、0.8~4.9和0.6~3.3,超出開放域問答方法5.8~9.8、6.5~8.8、6.5~7.6和4.9~7.0。本文提出的方法在專家評分上超出句子選擇方法0.42~1.02,超出序列到序列方法0.63~1.89,超出開放域問答方法1.35~1.69。與句子選擇、序列到序列以及開放域問答的方法相比,本文提出的基于圖的知識表示可以更好地支持多源知識集成和多跳因果推理。在測試集上,本文提出的方法在ROUGE-1、ROUGE-2、ROUGE-L和BLEU-4得分上超出知識庫問答方法1.4~15.2、1.0~11.3、1.0~13.7和0.4~8.2,在專家評分上超出0.50~2.15。與知識庫問答相比,本文提出的R-GCN+可以更好地探索AEG中的信息。這些特點(diǎn)使得本文提出的方法優(yōu)于現(xiàn)有方法。
與人類表現(xiàn)比較: 如表4所示,盡管本文提出的方法優(yōu)于所有基線方法,但在ROUGE、BLEU得分和人工評價上仍不如人類表現(xiàn),因此需要開展進(jìn)一步研究。注意到人類給出的答案在人工評價時也僅獲得了6.40的分?jǐn)?shù),這表明了這項(xiàng)任務(wù)的難度。
消融實(shí)驗(yàn): 本文將標(biāo)準(zhǔn)方法與6個變種進(jìn)行對比。如表5所示,將本文使用的R-GCN+替換為原始的R-GCN或者關(guān)系型版本的R-GIN[49]之后,測試集上ROUGE-1、ROUGE-2和ROUGE-L得分分別下降了0.3~0.5、0.2~0.3和0.5~0.6,這表明了本文提出的新模型的有效性。將關(guān)系的類型或者非因果關(guān)系從AEG中去除之后,測試集上ROUGE-1、ROUGE-2和ROUGE-L得分分別下降了0.2~0.3、0.1和0.3~0.6,體現(xiàn)了這些具有通用性的事件關(guān)系在地理領(lǐng)域因果推理中的有效性。式(15)中,本文提出的方法結(jié)合了gbert和g(L),消融實(shí)驗(yàn)中,只使用其中一項(xiàng)時,測試集上ROUGE-1、ROUGE-2和ROUGE-L得分分別下降了0.4~0.9、0.3~0.6和0.8~0.9,這體現(xiàn)了信息融合的有效性。
超參分析: 本文對方法中涉及的三個超參進(jìn)行了調(diào)節(jié),ρ∈{100,200,300},L∈{1,2,3,4,5}以及τ∈{10,20,30}。如表6~表8所示,本文方法在ρ=200,L=3,τ=20的設(shè)置下取得了開發(fā)集上的最優(yōu)結(jié)果,所以本文默認(rèn)采用該設(shè)置。
表6 不同ρ值設(shè)置下本文方法的ROUGE得分
表7 不同L值設(shè)置下本文方法的ROUGE得分
表8 不同τ值設(shè)置下本文方法的ROUGE得分
本文對測試集中答錯的100個因果簡答題進(jìn)行了原因分析。推理和答案生成模塊的錯誤占26%: 其中,20%來自于抽象事件排序,6%來自于解碼。例如,表9示例1中答案相關(guān)的抽象事件“緯度低”存在于抽取的子圖中,但被抽象事件排序模塊誤排在后面,未被用于答案生成;而抽象事件“山地多”盡管在抽取的子圖中且排在前τ個,但解碼器未利用其生成相關(guān)答案,這是解碼的錯誤。與問題相關(guān)的子圖抽取模塊的錯誤占62%: 其中29%來自于事件鏈接的錯誤,33%來自子圖抽取。例如,表9示例2中從問題抽取的抽象事件為“風(fēng)能密度大”,卻被誤鏈接到抽象事件“線路密度大”;而表9示例1中答案相關(guān)的抽象事件“河谷海拔低”和“相對高差大”則未被子圖抽取模塊抽取。剩余的12%錯誤是由AEG的不完整導(dǎo)致的,例如,從表9示例3的問題抽取的抽象事件為“生產(chǎn)加氣磚”,但在構(gòu)建的AEG中沒有可以鏈接到的抽象事件。
在測試集上,本文提出的方法平均16s可以回答一個因果簡答題,大多數(shù)的時間花費(fèi)在抽象事件鏈接模塊。
表9 錯例分析
本文提出了一項(xiàng)新的任務(wù): 因果簡答題求解,并在自建數(shù)據(jù)集GeoCEQA上開展實(shí)驗(yàn)。本文基于GeoCEQA的語料構(gòu)建了一個AEG進(jìn)行多源知識集成和多跳因果推理。
在實(shí)驗(yàn)中,本文提出的基于AEG的方法,其性能顯著超過了現(xiàn)有的基線方法。注意,該方法可以泛化到其他類型的問題上,例如,本文提出的推理模型創(chuàng)新地融合了非結(jié)構(gòu)化知識和結(jié)構(gòu)化知識,可以與其他基于圖的知識表示(不限于AEG)一起使用,這將是今后的工作。此外,我們還將進(jìn)一步改進(jìn)方法,以解決錯誤分析所發(fā)現(xiàn)的問題。