国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合粗細(xì)粒度信息的長答案選擇神經(jīng)網(wǎng)絡(luò)模型

2021-05-27 06:28:24張益嘉錢凌飛林鴻飛
中文信息學(xué)報 2021年4期
關(guān)鍵詞:細(xì)粒度準(zhǔn)確率向量

孫 源,王 健,張益嘉,錢凌飛,林鴻飛

(大連理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)

0 引言

問答系統(tǒng)的構(gòu)建一直都是自然語言處理領(lǐng)域中一個具有挑戰(zhàn)性的任務(wù),同時還在工業(yè)界有著廣泛的應(yīng)用(如智能助理,聊天機器人等)。答案選擇[1]作為多數(shù)問答系統(tǒng)構(gòu)建過程中的關(guān)鍵步驟,也一直受到廣泛的關(guān)注。該問題可以定義為:給定一個問題及這個問題的候選答案,組成問題-答案對,計算問題-答案對的相關(guān)性評分,最終根據(jù)問題與其所有候選答案的相關(guān)性評分選擇最適合該問題的答案。

長答案選擇是答案選擇任務(wù)的一個變種。如表1所示,不同于選擇一個實體或單個句子的傳統(tǒng)答案選擇任務(wù),長答案選擇任務(wù)選擇的通常是一段多句的長文本(如描述)。這種長答案通常出現(xiàn)在社區(qū)問答系統(tǒng)中,如在StackExchange學(xué)術(shù)論壇上的平均答案長度為229[2]。答案的文本長度和句子數(shù)量都有所增大的特點對當(dāng)前的針對較短答案的答案選擇神經(jīng)網(wǎng)絡(luò)模型提出了新的挑戰(zhàn)。

表1 長答案選擇(上)與傳統(tǒng)答案選擇(下)對比

大多數(shù)的答案選擇問題是通過文本對匹配的方法解決的。該方法可以被分為兩個主要步驟:①將問題序列和答案序列編碼為相應(yīng)的表示向量。②計算兩個表示向量的相關(guān)性評分。早期研究者們使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)及其變種等深度學(xué)習(xí)模型提取序列的上下文或時序信息,接著用拼接、池化等操作獲取整個序列的向量表示。然后使用余弦相似度、神經(jīng)網(wǎng)絡(luò)匹配等方法獲取兩個序列的相關(guān)性得分,最后通過得分對答案池中的答案排序,選擇其中得分最高的答案[1,3]。

如何利用注意力機制捕捉重要信息的能力來對文本序列更好地建模,是近期研究者們主要研究的問題[4]。該方法在答案選擇領(lǐng)域的應(yīng)用主要分為兩類:①使用注意力機制捕捉問題序列和答案序列之間的關(guān)鍵信息,從而增大關(guān)鍵信息的權(quán)重并減小無用信息的權(quán)重。如Wang等[5]在使用RNN編碼答案序列的上下文信息前,使用注意力機制獲取答案中每個單詞相對問題的權(quán)重,并對其加權(quán)。②使兩個序列之間的信息得到交互。這種方法的思想主要是計算一個序列相對另一序列的對齊信息,然后通過原序列信息和對齊序列信息之間的融合(拼接原向量和對齊信息向量后使用多層感知機、拼接后池化等操作)獲得該序列的另一序列感知表示[6-7]。兩種方法都能通過讓模型關(guān)注更重要的信息提升答案選擇的準(zhǔn)確率。

盡管上述方法在許多的文本匹配任務(wù)中取得了較好的效果,但由于長答案選擇領(lǐng)域中答案通常較長(200以上),即使引入了注意力機制,將一個長序列編碼為向量通常也不能很好地獲取該序列的所有重要信息,研究者們采用比較-聚合框架來解決這個問題[2,8-9]。這種方法的思想是:通過對細(xì)粒度的文本(單詞或n元單詞)建模,比較這些細(xì)粒度文本之間的相似度,獲取細(xì)粒度文本的相關(guān)性矩陣,然后聚合(池化、使用神經(jīng)網(wǎng)絡(luò)如CNN等操作)該相關(guān)性矩陣來進(jìn)行下一步的決策。這類方法的主要貢獻(xiàn)是有效利用了長句中更多的重要信息。盡管這種方法擁有長文本匹配效果好、模型參數(shù)少、擬合速度更快等優(yōu)勢,但也有過于關(guān)注細(xì)粒度的比較結(jié)果而缺失對全局信息把握的缺點。使得這類方法在帶有一定推理性質(zhì)的更加復(fù)雜的長答案選擇任務(wù)中表現(xiàn)較差。

綜上所述,現(xiàn)有的方法在長答案選擇任務(wù)上取得了一定進(jìn)展,但都有所不足。使用傳統(tǒng)答案選擇的句子建模方法將一段話編碼為一個長度與單詞數(shù)量相近的向量,即便能充分發(fā)揮注意力機制的優(yōu)勢,難免也會丟失一些重要信息。而針對長句設(shè)計的比較-聚合框架更加關(guān)注的是n元短語和短語之間的相關(guān)性,即便在聚合時使用相對復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,也很難不丟失全局性的語義信息,從而只關(guān)注句子中n元短語的相關(guān)性匹配,缺失了一定的推理能力。

為了保持傳統(tǒng)句子建模中把握句子粗粒度信息和比較-聚合框架中處理細(xì)粒度信息這兩種匹配方法各自的優(yōu)點,本文結(jié)合兩種方法的思想,設(shè)計了一個將比較細(xì)粒度相關(guān)性融入到句子建模過程中的模型(coarse-fine-grained information fusing model,CIFM)。在不使用預(yù)訓(xùn)練模型、外部語義特征、堆疊更深層模型等復(fù)雜方法的前提下,取得了很好的效果。同時設(shè)計了一個在句子建模的過程中不引入多余訓(xùn)練參數(shù)的細(xì)粒度級別相關(guān)性預(yù)測方法,在有效控制模型復(fù)雜度的前提下進(jìn)一步提升了預(yù)測的效果。

1 模型描述

本節(jié)將介紹我們所提出的粗細(xì)粒度特征融合模型,圖1是模型的整體結(jié)構(gòu)。該模型主要由三個部分組成。分別是N個具有相同結(jié)構(gòu)的特征萃取塊(圖中虛線部分)、細(xì)粒度級別的預(yù)測層和粗粒度級別的預(yù)測層。在本次實驗中我們使用詞向量將輸入的問題和答案兩個序列中的每個單詞映射為詞表示,分別記為Q∈n×e和A∈m×e。其中n和m分別是問題句子和答案句子的長度,e為詞向量的長度。接下來我們將逐一介紹模型的主要組成部分。

圖1 粗細(xì)粒度特征融合模型架構(gòu)

1.1 特征萃取塊

一個特征萃取塊(如圖2所示)是由獲取上下文信息的編碼器和獲得兩個句子交互信息的對齊融合層組成的。該模塊的輸入為問題序列和答案序列,輸出為上下文編碼器編碼的特征序列。為了更加清晰地表述模型結(jié)構(gòu),圖中省略了與虛-實線左側(cè)對稱的部分。本文提出的模型使用了多個特征萃取塊(圖2虛線所示)來獲取更高維度的特征以及采用基于注意力機制的對齊、融合操作獲得兩個序列間的對齊特征。

圖2 特征萃取塊

研究者們在實驗中發(fā)現(xiàn),原始的詞向量、富含上下文信息的編碼器輸出向量和對齊后的句子信息殘差向量都在文本匹配的過程中占有重要位置[6]。因此,我們在本次實驗中使用與之相同的加強版殘差鏈接。編碼器的輸入除了詞向量外還拼接了上個模塊中對齊融合層的輸出,對齊融合層的輸入拼接了編碼器的輸入和輸出,具體表示為:

(1)

(2)

其中,[]表示向量的拼接操作,第一個模塊的編碼器輸入為單獨的詞向量,其余模塊將詞向量和對齊融合層輸出的特征向量拼接作為輸入。i表示第i個特征萃取塊,in表示該模塊的輸入,out表示該模塊的輸出。

在這次實驗中,我們使用兩層CNN作為提取上下文信息的編碼器。相較于其他常用編碼上下文的神經(jīng)網(wǎng)絡(luò)(如RNN及其變種),CNN具有能夠很好地抓住局部信息、可以并行操作等優(yōu)點。在實驗中我們也嘗試了RNN及其變種,但模型的效果在運行時間增加的情況下沒有明顯提升,因此我們采用CNN作為編碼器編碼句子的上下文信息。

eij=F(ai)F(qj)T

(3)

(4)

為了更加充分地利用原句信息和對齊信息之間的差異,與文獻(xiàn)[6]相同,我們使用式(5)~式(8)的方式進(jìn)行對齊后的融合操作。

1.2 細(xì)粒度預(yù)測層

該層的主要操作是對細(xì)粒度相關(guān)性比較結(jié)果聚合,解決答案句子過長導(dǎo)致的句子編碼信息丟失問題。該層的輸入為特征萃取塊的輸出,即上下文編碼器編碼后的問題序列特征和答案序列特征。輸出為基于答案序列的細(xì)粒度相關(guān)性評分和基于問題序列的細(xì)粒度相關(guān)性評分。

Wang等[8]所提出的應(yīng)用于長文本匹配的比較-聚合方法取得了很好的效果。受到該方法的啟發(fā),我們設(shè)計了一個沒有訓(xùn)練參數(shù)引入的細(xì)粒度級別的預(yù)測層,該層的結(jié)構(gòu)如圖3所示,圖中長方形為表示向量,正方形為相關(guān)性分?jǐn)?shù),虛線部分表示兩個向量的點乘運算。具體描述如下。

圖3 細(xì)粒度預(yù)測層

其中,n為問題長度,q′j為問題第j個token的答案對齊特征?;诖鸢感蛄械募?xì)粒度相關(guān)性評分獲取方法和基于問題序列的細(xì)粒度相關(guān)性評分獲取方法相同,這里不做過多敘述。

相較于文獻(xiàn)[8]的方法,我們的方法采用了問題的答案感知和答案的問題感知兩種對齊方式,分別獲得了基于問題序列和基于答案序列的細(xì)粒度相關(guān)性評分。我們在實驗中發(fā)現(xiàn),使用基于兩種序列的預(yù)測方式,而不是使用基于問題序列或答案序列的單一方式,能有效提升預(yù)測準(zhǔn)確率。

除此之外,相較于文獻(xiàn)[8]使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行細(xì)粒度級別相關(guān)性評分的聚合操作,我們采取了平均池化操作。這樣做可以在不損失預(yù)測準(zhǔn)確率的前提下有效地減少模型的復(fù)雜度。

為了充分地利用每一層特征萃取塊萃取的特征,我們對其每層輸出的上下文表示向量都做一次細(xì)粒度級別的預(yù)測。

1.3 粗粒度預(yù)測層

該層的操作主要分為兩步。首先分別獲得答案序列和問題序列的向量表示,其次使用多層感知機(multilayer perceptron,MLP)獲得兩個序列的粗粒度相關(guān)性評分。

受注意力機制的啟發(fā),我們設(shè)計了一個自動獲取句子序列中每個token的權(quán)重的方法。獲取到的權(quán)重用于將序列的矩陣表示加權(quán)平均為相應(yīng)的向量表示。這種加權(quán)池化的操作相較于最大池化能減少有效信息的丟失,從而增加模型預(yù)測的準(zhǔn)確率。該層的結(jié)構(gòu)如圖4所示,圖中長方形為表示向量,正方形為相關(guān)性分?jǐn)?shù),虛線部分表示兩個向量的點乘運算,具體描述如下:

圖4 粗粒度預(yù)測層

其中,w_qj為問題的第j個token的權(quán)重,q為問題序列的向量表示,m為答案序列的長度。問題序列的向量表示獲取方法與之相同,這里不做過多敘述。

最后,拼接兩個句子特征向量,輸入到兩層的前饋神經(jīng)網(wǎng)絡(luò),獲得粗粒度相關(guān)性評分。我們還嘗試使用向量點乘來衡量兩個句子向量的相關(guān)性,但實驗結(jié)果表明由兩層的前饋神經(jīng)網(wǎng)絡(luò)構(gòu)成的神經(jīng)網(wǎng)絡(luò)匹配器可以更好地衡量由最大池化產(chǎn)生的高維抽象特征之間的相關(guān)性。具體操作如式(16)所示。

psentence=MLP([q;a])

(16)

其中,MLP為多層感知機。我們在實驗中發(fā)現(xiàn),還未經(jīng)過對齊信息交互的上下文編碼特征在長句匹配中有重要作用。因此,相較于文獻(xiàn)[6]使用對其融合后的特征向量進(jìn)行粗粒度預(yù)測,我們選擇了特征萃取塊中上下文編碼器的輸出作為粗粒度預(yù)測層的輸入,同時對每個特征萃取塊的輸出都做一次粗粒度預(yù)測,保證了對齊信息的利用。

為了更好地衡量每個預(yù)測層的預(yù)測結(jié)果所占權(quán)重以及在訓(xùn)練中自動獲取這個權(quán)重,我們使用自獲取權(quán)重的加權(quán)平均,即拼接所有預(yù)測層的預(yù)測結(jié)果并輸入到單層的前饋神經(jīng)網(wǎng)絡(luò)中。這樣做的好處是可以學(xué)習(xí)到特定任務(wù)所需的預(yù)測層權(quán)重。綜上,該模型的最終預(yù)測結(jié)果如式(17)所示。

(17)

2 實驗分析

2.1 實驗設(shè)定

2.1.1數(shù)據(jù)集及評價標(biāo)準(zhǔn)

我們在三個不同的長答案選擇數(shù)據(jù)集上評估我們的模型。數(shù)據(jù)集詳細(xì)信息見表2,其中答案長度為數(shù)據(jù)集中所有答案的平均長度。為了維持在每個數(shù)據(jù)集上進(jìn)行模型對比的公平性,我們延續(xù)了每個數(shù)據(jù)集本身常用的評價方法,具體如下。

表2 數(shù)據(jù)集詳細(xì)信息

InsuranceQA[1]是一個有關(guān)保險問答的數(shù)據(jù)集,它在答案選擇領(lǐng)域得到了廣泛的使用。在本次實驗中,我們使用近期更新的第二版。其中每一個問題的候選答案池大小為500。為了保證對比的公平性,和已存在的實驗[2]一樣,使用正確率來對模型在這個數(shù)據(jù)集上的結(jié)果進(jìn)行評估。FiQA[10]是金融領(lǐng)域的社區(qū)問答數(shù)據(jù)集。我們采取文獻(xiàn)[11]的方法對數(shù)據(jù)進(jìn)行了簡單的預(yù)處理。處理后的結(jié)果如表2所示。我們使用常用的檢索評價指標(biāo)MAP(mean average precision)和MRR(mean reciprocal rank)來對模型的效果進(jìn)行評估。WikiPassageQA[12]是一個近期的相關(guān)篇章檢索任務(wù),該任務(wù)的問題和傳統(tǒng)的社區(qū)問答問題同樣是非實體問題,答案長度也和社區(qū)問答領(lǐng)域的長度相當(dāng)。在這個數(shù)據(jù)集上,我們使用與FiQA數(shù)據(jù)集相同的指標(biāo)進(jìn)行模型效果的評估。

2.1.2 對比實驗

對比實驗可分為兩類,一類是對比使用傳統(tǒng)文本匹配方式即建模句子表示的方法。在這類實驗中我們分別對比了基于長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)的方法[13]和基于CNN的方法[6]。兩種方法都使用池化操作來獲得句子表示,但在預(yù)測相關(guān)性時有所不同。其中文獻(xiàn)[13]使用余弦相似度來刻畫兩個句子的相關(guān)性,而文獻(xiàn)[6]拼接兩個向量,使用雙層前饋神經(jīng)網(wǎng)絡(luò)構(gòu)成的神經(jīng)網(wǎng)絡(luò)匹配器完成預(yù)測。

第二類對比了使用比較-聚合框架思想的方法。CNN能很好地獲取局部的上下文信息,這在使用比較-聚合思想的模型中是至關(guān)重要的。因此在本次實驗中我們對比了兩個基于CNN的現(xiàn)階段最高水準(zhǔn)的模型[2,8]。

本次實驗中的對比試驗均使用原作者的開源代碼,并在實驗前根據(jù)原作者提出的實驗結(jié)果進(jìn)行代碼的有效性驗證,保證了實驗的公平性和有效性。

2.1.3 訓(xùn)練與參數(shù)設(shè)置

為了緩解正負(fù)樣本不平衡的問題(如InsuranceQA數(shù)據(jù)集中平均正負(fù)樣本比例接近1∶60),我們采用與文獻(xiàn)[13]相同的負(fù)樣本采樣方式。即為每個正例挑選一個“最錯誤”的負(fù)例。挑選方式為:在每個問題的候選答案池中隨機選擇一部分錯誤樣例,放入當(dāng)前模型中進(jìn)行預(yù)測,選擇其中預(yù)測結(jié)果最高的作為“最錯誤”的負(fù)例。為保證實驗的公平性,我們在本文的所有實驗中均使用以上方式挑選訓(xùn)練樣本。其中除文獻(xiàn)[13]的實驗采用max-margin hinge loss訓(xùn)練模型外,其他模型均采用交叉熵?fù)p失函數(shù)。所有模型參數(shù)的訓(xùn)練均使用隨機梯度下降法。

對比實驗?zāi)P偷某瑓?shù)設(shè)定均與其相關(guān)論文相同,對于文本匹配領(lǐng)域的模型[6]來說,超參數(shù)的設(shè)定與其答案選擇任務(wù)設(shè)置的參數(shù)相同。本文實驗使用了3塊特征萃取塊,詞向量由FastText[14]初始化,其中編碼器使用兩層窗口大小為3的CNN,實驗中所有隱層大小為150,激活函數(shù)為ReLU,學(xué)習(xí)率為0.005,batch_size大小為64。

2.2 實驗結(jié)果與分析

實驗結(jié)果如表3所示。我們的模型相較于基于比較-聚合框架的模型在三個數(shù)據(jù)集上都有很大的性能提升(如在InsuranceQA數(shù)據(jù)集上對比兩個模型分別有5.71%和8.60%的準(zhǔn)確率提升),這說明了在長答案選擇任務(wù)中,僅僅關(guān)注問題和答案的細(xì)粒度匹配結(jié)果是不夠的。細(xì)粒度匹配的結(jié)果在全局信息的指導(dǎo)下才能更好地對整個句子之間的相關(guān)性進(jìn)行判斷。

表3 實驗結(jié)果

相較于傳統(tǒng)的句子建模方法,我們的模型在融入了細(xì)粒度比較信息后性能也有所提升。例如在WikiPassageQA數(shù)據(jù)集上,我們的模型較RE2[6]有6.34%的MAP值提升。可以看出細(xì)粒度信息的融入能緩解長句子建模為向量時重要信息把握不足的缺點。同時我們的模型在不引入額外參數(shù)的情況下融合了細(xì)粒度信息,這在很大程度上降低了模型的復(fù)雜度。

因此,在長答案選擇任務(wù)中,相較于單一使用細(xì)粒度信息或粗粒度信息的方法,我們的模型能更有效地聚合這兩種重要信息,使該任務(wù)的準(zhǔn)確率得到提升。

2.3 消融實驗

為了驗證本文提出模型每個部分的有效性,我們對模型進(jìn)行了消融性研究。該研究將分6個部分與原模型進(jìn)行對比,分別是:①僅僅使用一層特征萃取塊;②不使用細(xì)粒度級別的預(yù)測結(jié)果;③僅使用第一個特征萃取塊的上下文感知向量進(jìn)行細(xì)粒度級別的預(yù)測;④僅使用最后一個特征萃取塊的上下文感知向量進(jìn)行細(xì)粒度級別的預(yù)測;⑤不使用粗粒度級別的預(yù)測結(jié)果;⑥采用算術(shù)平均而不是神經(jīng)網(wǎng)絡(luò)對最后的兩類預(yù)測結(jié)果進(jìn)行聚合。

該消融實驗是在答案池長度為500的InsuranceQA數(shù)據(jù)集上進(jìn)行的,和上文所述相同,我們采用準(zhǔn)確率作為模型效果評估的指標(biāo)。實驗的結(jié)果如表4所示。

表4 InsuranceQA數(shù)據(jù)集上的消融實驗結(jié)果

續(xù)表

第一組消融對比實驗的結(jié)果說明,僅僅使用一層特征萃取塊不能充分獲取序列所有的重要信息,以及未能利用到問題序列和答案序列的對齊信息。減少特征萃取塊的數(shù)量同時會減少細(xì)粒度級別預(yù)測的次數(shù),這也可能是性能下降的原因之一。我們在實驗中還測試了增加特征萃取塊數(shù)量的影響,實驗結(jié)果表明模型的表現(xiàn)并非與萃取塊的數(shù)量成正相關(guān),過多的萃取塊除了會增加模型的復(fù)雜度外還有可能引入一些錯誤信息。

第2組到第4組的對比實驗體現(xiàn)了細(xì)粒度級別預(yù)測的重要性。在不使用細(xì)粒度級別預(yù)測時,我們的模型和文獻(xiàn)[6]的模型需要訓(xùn)練的參數(shù)是相同的,在不引入多余訓(xùn)練參數(shù)的前提下,我們的模型比文獻(xiàn)[6]的模型在InsuranceQA數(shù)據(jù)集上的準(zhǔn)確率提升了3.30個百分點,相比不使用細(xì)粒度預(yù)測提升了4.29個百分點,這足以證明細(xì)粒度級別預(yù)測在長句匹配中占有重要地位。同時可以發(fā)現(xiàn),僅僅使用一層細(xì)粒度級別預(yù)測,如第3組和第4組對比實驗,雖然相較不使用細(xì)粒度級別預(yù)測(第2組實驗)性能有所提升(分別提升1.25個百分點和0.70個百分點),但很明顯不能充分利用每一個特征萃取塊所提取的信息。

第5組對比實驗的結(jié)果表明,不使用句子的全局信息會導(dǎo)致預(yù)測的準(zhǔn)確率大幅度下降(6.71個百分點)。直觀來看,單詞或n元單詞之間的相關(guān)性也不能準(zhǔn)確地衡量句子和句子之間的相關(guān)性。因此,以句子的全局信息為主并輔以單詞或n元單詞之間的相關(guān)性信息,能更好地解決長答案選擇問題。

我們同樣測試了使用每個預(yù)測結(jié)果的算術(shù)平均數(shù)作為最終的預(yù)測結(jié)果(第6組)。實驗結(jié)果表明這樣做同樣不能很好地利用粗細(xì)粒度級別信息。在實驗中我們還觀察到對于不同的數(shù)據(jù)集,每個預(yù)測結(jié)果在聚合過程中所占的比重是不同的。由此我們推斷神經(jīng)網(wǎng)絡(luò)可以更好地對粗細(xì)粒度級別預(yù)測的關(guān)系進(jìn)行建模,從而得到一個任務(wù)相關(guān)的關(guān)系最優(yōu)解。

2.4 長答案選擇效果分析

我們還在答案池長度為100的InsuranceQA數(shù)據(jù)集上分析了答案長度與CIFM(結(jié)合粗細(xì)粒度信息)、RE2(使用粗粒度信息即句子建模)、COALA(使用細(xì)粒度級別預(yù)測)三個模型預(yù)測準(zhǔn)確率的關(guān)系,結(jié)果如圖5所示,其中答案長度小于50的樣例因為數(shù)量過少而沒有參與統(tǒng)計。

圖5 InsuranceQA數(shù)據(jù)集上答案長度與準(zhǔn)確率的關(guān)系

實驗結(jié)果表明,細(xì)粒度信息對準(zhǔn)確率的提升主要集中于對答案長度大于100的樣本預(yù)測。這也驗證了我們所提出的細(xì)粒度級別預(yù)測相對于僅使用句子建模的方法[6]能更好地應(yīng)對長句之間的匹配。同時相較于只使用細(xì)粒度級別預(yù)測的方法[2],實驗結(jié)果在各個長度部分都有所提升,這也說明了句子全局信息在衡量句子之間相關(guān)性時占有很重要的地位。

為了進(jìn)一步分析答案長度與模型預(yù)測準(zhǔn)確率的關(guān)系,我們將整個InsuranceQA數(shù)據(jù)集分為答案長度小于100、答案長度在100與200之間、答案長度大于200這三部分,重新對模型進(jìn)行訓(xùn)練,最后結(jié)果如圖6所示。

圖6 拆分InsuranceQA后重新訓(xùn)練的答案長度與準(zhǔn)確率關(guān)系

可以看出,我們的模型在三部分?jǐn)?shù)據(jù)集上的答案選擇準(zhǔn)確率仍處于領(lǐng)先地位。其中在答案長度100到200這一長答案選擇任務(wù)主流區(qū)間中,CIFM相較于RE2的準(zhǔn)確率提升從3.30%到4.59%。因此,我們的模型在訓(xùn)練更加普遍的長答案選擇任務(wù)中更具優(yōu)勢。而在答案長度大于200這部分?jǐn)?shù)據(jù)集上,我們的模型相較于RE2的性能提升有所下降,可能的原因是訓(xùn)練數(shù)據(jù)的缺乏(這部分訓(xùn)練集占整個InsuranceQA數(shù)據(jù)集的13%左右)。與之相同,所有模型的預(yù)測準(zhǔn)確率都受到了訓(xùn)練數(shù)據(jù)減少的影響。但我們的模型在訓(xùn)練答案長度過長(大于200)的答案選擇任務(wù)時受到訓(xùn)練集數(shù)量的影響較大,這可能是未來需要改進(jìn)的缺點之一。

2.5 錯誤分析與展望

在類似句子主題之間相互匹配的長句選擇上,我們的模型有較高的準(zhǔn)確率。而錯誤的選擇主要集中在帶有推理性質(zhì)的長句選擇上。例如:

問題:why is my car insurance claim being investigated ?

(譯文:為什么我的汽車保險索賠被調(diào)查?)

答案1(模型給出的最優(yōu)答案):the insurance company first investigates to determine the coverage they have on the vehicle.then they determine responsibility in the case of a crash.then they determine the extent of damage.because the adjuster handles numerous claims they can spot a claim that requires additional investigation.if fraud is suspected the investigation takes a much deeper look into the circumstances of the crash.

(譯文:保險公司首先調(diào)查確定他們的保險范圍,然后他們確定事故的責(zé)任方,接著確定損壞程度。富有經(jīng)驗的理賠員會發(fā)現(xiàn)需要進(jìn)一步調(diào)查的保險索賠。如果可能存在欺詐行為,就需要對車禍情況進(jìn)一步調(diào)查。)

答案2(Ground Truth):hard to answer such a question without any details.but in general,I wouldn’t worry too much about it.fraud is so out of control,that they have to investigate certain claims.during the claims process,companies have their set of “red flags” that triggers further investigation.as long as you have nothing to hide,you shouldn’t worry about it too much.they may ask for things such as:- bank statements - proof of residency - receipt from last oil change - etc.,etc.,etc..sometimes innocent minor things can trigger a red flag,and it ends up being no big deal.other times,fraud is suspected.and sometimes,a high dollar amount of loss can trigger an investigation simply for due diligence.so don’t sweat it.if you have nothing to hide,give them what they want and you should be fine.

(譯文:在沒有細(xì)節(jié)的情況下很難回答這個問題。但正常情況下我不會對此感到擔(dān)憂。欺詐行為橫行,因此保險公司需要調(diào)查清楚情況。在理賠階段,公司有一些“紅燈標(biāo)志”會觸發(fā)進(jìn)一步的調(diào)查。只要你沒什么隱瞞的,就不需要擔(dān)心。他們可能會需要諸如:-銀行對賬單-居住證明-上次加油收據(jù)等。有時一些小事也會觸發(fā)警報,但這沒什么。有時是被懷疑欺詐;有時為了盡職調(diào)查,高額損失也會觸發(fā)警報。所以不用擔(dān)心。給他們想要的,理賠會正常進(jìn)行。)

以下我們簡稱答案1(模型給出的最優(yōu)答案)為錯誤答案,答案2(Ground Truth)為正確答案。

正確答案與錯誤答案都有與問題相匹配的主題,例如調(diào)查、索賠等。但在總體上,錯誤答案闡述的是車禍理賠調(diào)查的過程,而正確答案所闡述的才是問題所問的為什么被調(diào)查。這種帶有一定推理性質(zhì)的預(yù)測是該模型不能有效處理的問題。即使一些句子建模方法如文獻(xiàn)[6]等提出的模型在一些自然語言推理任務(wù)如文本蘊含中有很好的效果,但在長文本如篇章推理方面還有所欠缺。

在不能有效推理的前提下,錯誤的相關(guān)性推斷也可能導(dǎo)致模型選擇了錯誤的答案。例如,因為正確答案中沒有任何與問題里汽車保險相關(guān)的信息,無論是在細(xì)粒度匹配過程中還是在句子建模過程中都會因為這部分信息的缺失而降低最后的相關(guān)性預(yù)測結(jié)果。與之相較,錯誤答案中由于帶有“車禍”信息,可能會增加與問題之間的相關(guān)性評分。由“車禍”信息增加的相關(guān)性顯然是不合理的,但該模型并不能對其進(jìn)行有效的分辨。這種情況在只使用細(xì)粒度信息的模型中很常見,因為對句子全局信息的缺失,模型只能通過判斷細(xì)粒度信息之間的相關(guān)性而對結(jié)果進(jìn)行判斷,缺少對全局的把握,從而引入錯誤的相關(guān)性判斷。

綜上所述,如何能在保持主題匹配準(zhǔn)確度的同時,加強模型的推理能力是未來提升長文本選擇效果的可行性研究方案之一。例如,對待為什么我的汽車保險索賠被調(diào)查這一問題,可以使用注意力機制將匹配的重心放在為什么、保險索賠、調(diào)查等方面,而不是汽車保險方面。除此之外,還可以加大對粒度大小的進(jìn)一步研究,如以句子為粒度對多句的答案序列進(jìn)行劃分,通過聚合問題序列與多個答案句子之間的相關(guān)性比較結(jié)果,對問題序列和答案序列的相關(guān)性進(jìn)行評估。

3 結(jié)論

我們提出了一個同時使用粗細(xì)粒度信息進(jìn)行預(yù)測的長答案選擇模型,有效解決了建模句子方法信息抓取不全和細(xì)粒度相關(guān)性比較缺失全局信息的問題。設(shè)計了一個不引入多余訓(xùn)練參數(shù)的細(xì)粒度預(yù)測方法,該方法不但可以有效提升長答案選擇任務(wù)的準(zhǔn)確率,還可以為其他相關(guān)長句研究提供新思路,在3個相關(guān)領(lǐng)域數(shù)據(jù)集上都取得了當(dāng)前最高水平的評估結(jié)果。同時還分析了在答案長度較長情況下模型的有效性。此外我們還對模型的常見錯誤進(jìn)行分析,并提出了未來進(jìn)一步可能的研究方向。

猜你喜歡
細(xì)粒度準(zhǔn)確率向量
融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
向量的分解
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
細(xì)粒度的流計算執(zhí)行效率優(yōu)化方法
2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
聚焦“向量與三角”創(chuàng)新題
高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
鄂托克旗| 九江县| 托里县| 兰州市| 大余县| 环江| 宜丰县| 自贡市| 敦化市| 宣汉县| 阿勒泰市| 陵川县| 镶黄旗| 扬州市| 池州市| 泌阳县| 连云港市| 远安县| 惠安县| 明水县| 大名县| 肃南| 韩城市| 邹城市| 嘉峪关市| 苍溪县| 分宜县| 昭觉县| 澳门| 蒲江县| 仪陇县| 繁峙县| 宜良县| 搜索| 包头市| 泉州市| 鲁山县| 资中县| 临高县| 蒙山县| 兴化市|