王 進(jìn),劉麒麟,馬櫻儀,孫開(kāi)偉,胡 珂
(重慶郵電大學(xué) 數(shù)據(jù)工程與可視計(jì)算重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065)
語(yǔ)句匹配是比較兩個(gè)句子之間關(guān)系的任務(wù),是信息檢索[1]、自動(dòng)問(wèn)答[2]、釋義識(shí)別[3]和自然語(yǔ)言推理[4]等任務(wù)的基礎(chǔ)技術(shù)。
隨著神經(jīng)網(wǎng)絡(luò)模型的發(fā)展,對(duì)語(yǔ)句匹配問(wèn)題的研究逐漸從傳統(tǒng)語(yǔ)句匹配模型向深度語(yǔ)句匹配模型轉(zhuǎn)移[5]。傳統(tǒng)的匹配技術(shù)只是簡(jiǎn)單地判斷單詞是否相似,同時(shí)需要人工提取相關(guān)特征,導(dǎo)致模型泛化能力較差。深度語(yǔ)句匹配模型結(jié)合詞嵌入技術(shù)[6],從語(yǔ)義層面解決了詞語(yǔ)匹配的多元性問(wèn)題[5]。近幾年提出的預(yù)訓(xùn)練模型,如基于Transformer的雙向編碼模型[7](bidirectional encoder representations from transformers,BERT)和優(yōu)化的BERT方法 ( robustly optimized BERT pretraining approach,RoBERTa)[8]等,可以有效提升語(yǔ)句匹配的性能。然而預(yù)訓(xùn)練模型結(jié)構(gòu)復(fù)雜、參數(shù)多,訓(xùn)練時(shí)間長(zhǎng)。深度語(yǔ)句匹配模型可以自動(dòng)提取匹配特征,代價(jià)小,效果更好;并且結(jié)構(gòu)靈活,參數(shù)少,訓(xùn)練更容易。
深度語(yǔ)句匹配模型有兩種流行的框架。第1種基于Siamese架構(gòu)[9],使用神經(jīng)網(wǎng)絡(luò)對(duì)輸入向量編碼,然后對(duì)編碼向量做匹配,但未捕捉到句子間的交互信息。第2種是Matching-aggregation模型[10],先對(duì)句子內(nèi)較小單元(如單詞)做匹配,然后聚合為一個(gè)向量再做匹配,能夠捕捉到句子間交互特征,但捕捉到的交互特征不夠,沒(méi)有考慮語(yǔ)句內(nèi)的關(guān)鍵信息,并且整合匹配特征存在缺陷。
本文提出了一種融合多路注意力機(jī)制的語(yǔ)句匹配模型,旨在解決傳統(tǒng)模型捕捉到句子交互特征不足以及忽略句子內(nèi)關(guān)鍵信息等問(wèn)題。模型采用了詞嵌入層和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[11](bi-directional long short-term memory,Bi-LSTM)對(duì)輸入進(jìn)行編碼,同時(shí)引入了句內(nèi)自注意力機(jī)制和4種句間交互注意力機(jī)制,從多角度、高層次捕捉句子間的交互特征,并結(jié)合后輸入到Bi-LSTM中進(jìn)行聚合,最終通過(guò)全連接層得到語(yǔ)句匹配得分。在4個(gè)基準(zhǔn)數(shù)據(jù)集(SNLI[12]、MultiNLI[13]、Quora Question Pairs[14]和SQuAD[15])上與經(jīng)典深度語(yǔ)句匹配模型對(duì)比的結(jié)果表明,本文提出的融合多路注意力機(jī)制的語(yǔ)句匹配方法比傳統(tǒng)深度語(yǔ)句匹配模型表現(xiàn)更好。
深度語(yǔ)句匹配的研究可以總結(jié)為4個(gè)階段模型:?jiǎn)握Z(yǔ)義模型、多語(yǔ)義模型、匹配矩陣模型和深層次語(yǔ)句交互匹配模型。
單語(yǔ)義模型使用簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)編碼句子,無(wú)法捕捉局部信息。比如深層語(yǔ)義相似模型[16](deep semantic similarity model,DSSM),使用5層網(wǎng)絡(luò)對(duì)文本進(jìn)行向量化。
多語(yǔ)義模型能夠補(bǔ)充單語(yǔ)義模型在壓縮整個(gè)句子時(shí)的信息損失,但很難將局部信息和全局信息有效地整合。比如一種基于多位置句子表示的深層語(yǔ)義匹配體系結(jié)構(gòu)[17]使用Bi-LSTM處理句子,實(shí)現(xiàn)多粒度考察句子的效果。
匹配矩陣模型讓兩段文本進(jìn)行交互,得到匹配信息,再提取匹配特征來(lái)捕捉匹配中的結(jié)構(gòu)信息。比如基于圖像識(shí)別的文本匹配[18](text matching as image recognition,TMIR)從3個(gè)角度構(gòu)建相似度矩陣,再用CNN提取特征。
深層次語(yǔ)句交互模型使用更復(fù)雜的attention[15]結(jié)構(gòu)來(lái)挖掘多維度的交互信息。比如具有密集連接的重復(fù)和共同注意力信息的語(yǔ)句匹配[19],結(jié)合Bi-LSTM、密集卷積網(wǎng)絡(luò)[20]和attention機(jī)制提取特征,再采用多樣化的交互策略提取交互特征。
本文在增強(qiáng)序列推理模型(enhanced sequential inference model,ESIM)的基礎(chǔ)上進(jìn)行改進(jìn),采用句內(nèi)自注意力機(jī)制挖掘語(yǔ)句內(nèi)關(guān)鍵信息,采用多路注意力機(jī)制捕獲語(yǔ)句間多維度的交互信息 以及深層次的結(jié)構(gòu)信息,再將多路注意力機(jī)制得到的多個(gè)交互特征有效地結(jié)合,增強(qiáng)語(yǔ)句匹配的表征能力并實(shí)現(xiàn)對(duì)語(yǔ)句的高層次理解。
本文提出的融合多路注意力機(jī)制的語(yǔ)句匹配模型。模型主要包括3部分:自注意力機(jī)制層、多路注意力機(jī)制層以及聚合層。一條樣本可以表示為(Qi,Pi,yi),其中,Qi=(q1,q2,…,qn)和Pi=(p1,p2,…,pm)為第i個(gè)待匹配的語(yǔ)句對(duì),qi和pj分別為語(yǔ)句Qi和語(yǔ)句Pj中第i個(gè)詞和第j個(gè)詞,語(yǔ)句Qi的長(zhǎng)度為n,語(yǔ)句Pj的長(zhǎng)度為m,yi表示Qi和Pj的關(guān)系,用N表示樣本總個(gè)數(shù)。
(1)
(2)
圖1 融合多路注意力機(jī)制的語(yǔ)句匹配模型圖Fig.1 Sentence matching model diagram fused with multi-channel attention mechanism
注意力機(jī)制能夠捕捉句子詞語(yǔ)之間的語(yǔ)義和語(yǔ)法聯(lián)系,同時(shí)考慮上下文之間的聯(lián)系。研究表明,詞級(jí)別的注意力機(jī)制在句子對(duì)建模中非常有效[21]。
M=tanh(h)
(3)
α=softmax(wTM)
(4)
r=hαT
(5)
h*=tanh(r)
(6)
(3)—(6)式中:α為注意力權(quán)重系數(shù),權(quán)重越高說(shuō)明該詞所帶信息在句內(nèi)越關(guān)鍵;r為h經(jīng)過(guò)加權(quán)求和的結(jié)果,通過(guò)非線性函數(shù)生成表征向量h*。將編碼層的輸出h和自注意力層的輸出h*拼接起來(lái)作為下一層的輸入,表示為
x=[h;h*]
(7)
大多數(shù)語(yǔ)句交互模型只使用一種句間交互注意力機(jī)制,導(dǎo)致捕獲到的交互特征不完整。本文使用4種句間注意力機(jī)制來(lái)比較單詞對(duì),即連接[23]、雙線性[24]、點(diǎn)積[25]和余弦[26]注意力機(jī)制,以捕獲多維度、深層次的交互特征。
連接注意力機(jī)制表示為
(8)
雙線性注意力機(jī)制表示為
(9)
點(diǎn)積注意力機(jī)制表示為
(10)
余弦注意力機(jī)制表示為
(11)
歸一化公式[27]為
(12)
余弦距離的計(jì)算公式為
(13)
為了保留原始信息,增強(qiáng)關(guān)鍵信息、捕獲矛盾等推理關(guān)系,本文將多路注意力機(jī)制的匹配信息聚合起來(lái),可得
(14)
(15)
每個(gè)attention會(huì)得到一個(gè)三維向量,將4個(gè)三維向量與x拼接得到新的特征向量z,再將z輸入到Bi-LSTM中整合語(yǔ)句對(duì)之間的全局匹配信息。
采用平均池化和最大池化操作,并將所有向量連接起來(lái),形成最終的定長(zhǎng)向量v,可表示為
(16)
(17)
v=[vq,ave;vq,max;vp,max]
(18)
將v放入多層感知分類(lèi)器中,以獲得相應(yīng)任務(wù)中每個(gè)標(biāo)簽的概率。
使用4個(gè)數(shù)據(jù)集對(duì)3個(gè)任務(wù)進(jìn)行實(shí)驗(yàn),并進(jìn)行消融實(shí)驗(yàn),以分析句內(nèi)自注意力機(jī)制、多路注意力機(jī)制以及聚合層的有效性。實(shí)驗(yàn)運(yùn)行環(huán)境如表1所示。
表1 實(shí)驗(yàn)運(yùn)行環(huán)境Tab.1 Experimental operation environment
使用預(yù)先訓(xùn)練的300-D Glove 840B向量來(lái)初始化單詞嵌入,并隨機(jī)初始化詞匯表外單詞嵌入。多路注意力信息壓縮之后采用一層全連接層進(jìn)行降維,該全連接層的維度為612,非線性激活函數(shù)選擇的是relu函數(shù)。全連接層的維度為2 400,非線性激活函數(shù)選擇的是tanh函數(shù)。在訓(xùn)練期間,不更新預(yù)先訓(xùn)練的詞嵌入。為了驗(yàn)證單模型的實(shí)驗(yàn)性能,對(duì)所有的模型進(jìn)行10次實(shí)驗(yàn),去掉異常數(shù)據(jù),選擇在驗(yàn)證集中工作最好的模型,然后在測(cè)試集中進(jìn)行評(píng)估。更多的參數(shù)設(shè)置如表2所示。
表2 參數(shù)設(shè)置Tab.2 Parameter settings
本文在4個(gè)數(shù)據(jù)集中進(jìn)行3種語(yǔ)句匹配任務(wù),來(lái)評(píng)估提出的模型性能,數(shù)據(jù)集劃分如表3所示。
表3 數(shù)據(jù)集描述Tab.3 Dataset description
表3中,自然語(yǔ)言推理數(shù)據(jù)集(SNLI)[12]和擴(kuò)大的自然語(yǔ)言推理數(shù)據(jù)集 (MultiNLI)[13]屬于自然語(yǔ)言推理任務(wù),問(wèn)題答案對(duì)數(shù)據(jù)集(Quora )[14]屬于釋義識(shí)別任務(wù),閱讀理解數(shù)據(jù)集(SQuAD)[15]屬于問(wèn)答語(yǔ)句選擇任務(wù)。
將本文模型與經(jīng)典深度語(yǔ)句匹配方法進(jìn)行比較,以驗(yàn)證模型的有效性,如表4所示。
表4 對(duì)比方法信息Tab.4 Comparison method information
本文采用精確度(Accuracy)和平均倒數(shù)排名(MRR)作為評(píng)估指標(biāo)。
精確度由被分配的樣本數(shù)除以所有的樣本數(shù)計(jì)算得到,計(jì)算公式為
(19)
(19)式中:TP為判斷正確且標(biāo)簽為正的樣本數(shù);TN為判斷正確且標(biāo)簽為負(fù)的樣本數(shù);P為實(shí)際為正的所有樣本數(shù);N為實(shí)際為負(fù)的所有樣本數(shù)。
MRR為多個(gè)查詢(xún)語(yǔ)句排名倒數(shù)的均值,計(jì)算表達(dá)式為
(20)
(19)式中:|Q|為查詢(xún)語(yǔ)句query的個(gè)數(shù);rankq表示第q個(gè)查詢(xún)語(yǔ)句第1個(gè)正確答案的排名。
本文在SNLI和MultiNLI數(shù)據(jù)集上評(píng)估提出的語(yǔ)句匹配模型,使用精確度和參數(shù)量?jī)蓚€(gè)指標(biāo)在SNLI數(shù)據(jù)集上進(jìn)行評(píng)估,使用精確度在MultiNLI數(shù)據(jù)集的匹配樣本和不匹配樣本上進(jìn)行評(píng)估。參數(shù)量評(píng)估結(jié)果在一個(gè)數(shù)據(jù)集中得出,不再進(jìn)行對(duì)比。
如今大力倡導(dǎo)以文化視角進(jìn)行企業(yè)的管理活動(dòng),這主要是因?yàn)槲幕c制度的相結(jié)合,能夠彌補(bǔ)制度的機(jī)械與僵化。所以?xún)烧叩年P(guān)系并不是所謂的替代性關(guān)系,反而是一種良性互補(bǔ)的關(guān)系。通過(guò)互補(bǔ),從而使企業(yè)的經(jīng)濟(jì)效益得到最大化,讓企業(yè)的管理效率更高。如今的市場(chǎng)形勢(shì)瞬息萬(wàn)變,無(wú)論是多大規(guī)模的企業(yè),都沒(méi)有絕對(duì)的優(yōu)勢(shì)與安全,比如說(shuō)之前的手機(jī)企業(yè)---諾基亞,是當(dāng)之無(wú)愧的行業(yè)巨頭,卻也很快就會(huì)被市場(chǎng)所擊垮了。但是,文化所帶來(lái)的企業(yè)團(tuán)隊(duì)精神和創(chuàng)新精神,將讓企業(yè)始終處于快速領(lǐng)跑的地位,使企業(yè)有更寬廣的成長(zhǎng)空間。
表5為各模型在SNLI上的評(píng)估結(jié)果。由表5可以看出,本文提出的模型在SNLI上表現(xiàn)優(yōu)異,相比于其他深層次匹配模型性能獲得了明顯提升,在精確度方面達(dá)到了88.90%。與預(yù)訓(xùn)練模型BERT進(jìn)行比較,本文提出模型的參數(shù)量遠(yuǎn)遠(yuǎn)低于BERT,不依賴(lài)任何外部知識(shí),仍然獲得了有競(jìng)爭(zhēng)力的性能。
表5 各模型在SNLI上的評(píng)估結(jié)果Tab.5 Evaluation results of each model on SNLI
表6為各模型在MultiNLI數(shù)據(jù)集上匹配樣本和不匹配樣本的精確度(*表示進(jìn)行了五折交叉集成學(xué)習(xí)后的模型,下同)。與其他深度匹配模型相比,本文提出的模型在匹配樣本中表現(xiàn)最好,達(dá)到了80.34%的精確度,但在不匹配樣本中略低于DBDIN模型。選擇其他模型中表現(xiàn)最好的模型進(jìn)行集成學(xué)習(xí)比較,在匹配樣本和不匹配樣本中,本文模型都優(yōu)于DBDIN模型。
表6 各模型在MultiNLI上的評(píng)估結(jié)果Tab.6 Evaluation results of each model on MultiNLI
本文采用精確度作為評(píng)估指標(biāo),使用Quora Question Pairs數(shù)據(jù)集評(píng)估語(yǔ)句匹配模型在釋義識(shí)別任務(wù)中的性能,表7為各模型的評(píng)估結(jié)果。本文提出的模型在單模型和集成學(xué)習(xí)方法中均表現(xiàn)出了最好的效果,超過(guò)其他經(jīng)典的深層次匹配模型。
表7 各模型在Quora Question Pairs上的評(píng)估結(jié)果Tab.7 Evaluation results of each model on Quora Question Pairs
本文模型在SQuAD數(shù)據(jù)集上進(jìn)行問(wèn)答語(yǔ)句選擇任務(wù)的評(píng)估,采用MRR作為評(píng)估指標(biāo),表8展示了各模型在SQuAD數(shù)據(jù)集上的評(píng)估結(jié)果。與其他經(jīng)典深層次模型相比,本文模型在單模型和集成學(xué)習(xí)方法中表現(xiàn)最好。
表8 各模型在SQuAD上的評(píng)估結(jié)果Tab.8 Evaluation results of each model on SQuAD
為了驗(yàn)證本文模型不同組件的有效性,選擇在具有代表性的數(shù)據(jù)集SNLI上進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表9所示。表9中,“-”表示從模型中刪除該組件;“+”表示在模型中添加該組件;self-Att表示本文使用的自注意力機(jī)制;co-Att表示本文使用的多路注意力機(jī)制;dot、concat、bilinear以及cosine為多路注意力機(jī)制中用到的4種句間注意力機(jī)制;aggregate表示本文用到的聚合方式、fc為拼接聚合、fm為點(diǎn)積聚合、fs為相減聚合;compress表示本文用到的壓縮函數(shù);concat表示簡(jiǎn)單拼接。
表9 本文模型在SNLI上的消融實(shí)驗(yàn)結(jié)果Tab.9 Ablation experiment results of the model proposed in this article on SNLI
在表9(2)中,為了驗(yàn)證本文使用的自注意力機(jī)制的有效性,用常規(guī)的句內(nèi)注意力機(jī)制對(duì)齊函數(shù)dot[17]來(lái)替換本文的對(duì)齊函數(shù),可以看出本文使用的自注意力機(jī)制效果更好。
在表9(11)—表9(13)中,為了驗(yàn)證多路注意力機(jī)制3種聚合方式的有效性,使用單獨(dú)的聚合方式進(jìn)行消融實(shí)驗(yàn),結(jié)果顯示單獨(dú)使用任何一種聚合方式都沒(méi)有結(jié)合3種效果好。
在表9(14)驗(yàn)證了壓縮公式的有效性,用常規(guī)的簡(jiǎn)單拼接多個(gè)特征向量方法concat來(lái)替換本文方法,結(jié)果顯示本文的壓縮方法效果更好。
本文提出的融合多路注意力機(jī)制的語(yǔ)句匹配模型,使用句內(nèi)自注意力機(jī)制計(jì)算語(yǔ)句中每個(gè)詞向量的重要程度,捕獲語(yǔ)句內(nèi)的關(guān)鍵信息。多路注意力機(jī)制比較兩個(gè)句子中的單詞對(duì),也就是4種句間匹配公式:連接注意力機(jī)制、雙線性注意力機(jī)制、點(diǎn)積注意力機(jī)制、余弦注意力機(jī)制,從不同語(yǔ)義角度來(lái)捕獲交互信息,最后可以得到4種交互特征。壓縮函數(shù)將高維度的交互特征聚合到一起,增強(qiáng)語(yǔ)句表達(dá)的同時(shí),保留原始信息,避免了網(wǎng)絡(luò)層的膨脹和參數(shù)開(kāi)銷(xiāo),將匹配信息輸入分類(lèi)器以進(jìn)行最終決策。本文提出的模型能夠挖掘到語(yǔ)句深層次的結(jié)構(gòu)信息,實(shí)現(xiàn)對(duì)語(yǔ)句高層次的理解。
實(shí)驗(yàn)結(jié)果表明,本文提出的模型在自然語(yǔ)言推理任務(wù)、釋義識(shí)別任務(wù)和問(wèn)答語(yǔ)句選擇任務(wù)中均表現(xiàn)出了更好的效果,能夠有效提升語(yǔ)句匹配的性能。