武 迪 ,馬 寧 , 郭澤晨 ,呂文蓉
(1.西北民族大學(xué) 中國(guó)民族語言文字信息技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,甘肅 蘭州 730030;2.西北民族大學(xué) 甘肅省民族語言智能處理重點(diǎn)實(shí)驗(yàn)室,甘肅 蘭州 730030)
機(jī)器閱讀理解(Machine Reading Comprehension;MRC)是作為問答技術(shù)研究的重要分支,一般形式為給定一篇文章,答題者閱讀并理解文章的內(nèi)在含義,并對(duì)文章的題目給出自己的理解和回答[1].機(jī)器閱讀理解在自然語言處理中極具挑戰(zhàn)性,對(duì)于實(shí)現(xiàn)真正意義上的人工智能具有重要的推動(dòng)作用.隨著深度學(xué)習(xí)技術(shù)的發(fā)展,機(jī)器閱讀理解任務(wù)拋開了傳統(tǒng)的基于人工規(guī)則或者構(gòu)造關(guān)系數(shù)據(jù)庫(kù)來解決問題.近年來,大規(guī)模閱讀理解數(shù)據(jù)集的出現(xiàn),使得機(jī)器閱讀理解模型得到了強(qiáng)有力的數(shù)據(jù)支撐,為機(jī)器閱讀理解模型優(yōu)化提供了條件.注意力機(jī)制的思想來源于人類獲取信息的方式,人眼往往聚焦于更需關(guān)注的目標(biāo)區(qū)域,注意力機(jī)制是模仿此機(jī)制,給重要信息分配較高權(quán)重來降低不重要信息的權(quán)重,實(shí)現(xiàn)重要信息提取.CNN和RNN模型在機(jī)器閱讀理解中得到了較為廣泛的應(yīng)用,但它們對(duì)序列中不同位置之間依賴關(guān)系的建模并不直接,而注意力機(jī)制可以將每個(gè)詞之間的距離簡(jiǎn)化為一,較好地提高了模型的并行程度.注意力機(jī)制是深度學(xué)習(xí)快速發(fā)展后廣泛應(yīng)用于自然語言處理、統(tǒng)計(jì)學(xué)習(xí)、圖像檢測(cè)、語音識(shí)別等領(lǐng)域的核心技術(shù)[2].鑒于機(jī)器閱讀理解任務(wù)的形式,注意力機(jī)制的不斷發(fā)展非常有利于機(jī)器閱讀理解任務(wù)的實(shí)現(xiàn),通過它來計(jì)算文章和問題之間不同注意力權(quán)重值,有效融合文章和問題的語義信息.對(duì)語義信息進(jìn)行解碼來準(zhǔn)確定位問題答案,成為機(jī)器閱讀理解任務(wù)中不可或缺的關(guān)鍵技術(shù).
注意力機(jī)制最早應(yīng)用于圖像處理領(lǐng)域,其作用是將傳統(tǒng)的視覺搜索方法進(jìn)行優(yōu)化,可選擇地調(diào)整視覺對(duì)網(wǎng)絡(luò)的處理,減少需要處理樣本數(shù)據(jù)并增加樣本間的特征匹配[3].注意力機(jī)制在自然語言處理領(lǐng)域的應(yīng)用相對(duì)較晚,最早應(yīng)用于機(jī)器翻譯工作中.Bahdanau等[4]提出,使用類似注意力機(jī)制在機(jī)器翻譯任務(wù)上將翻譯和對(duì)齊同時(shí)進(jìn)行,他們首先將attention機(jī)制應(yīng)用到NLP領(lǐng)域中.2017年,Ashish Vaswani等[5]提出Transformer模型,使用attention機(jī)制代替LSTM,自注意力機(jī)制進(jìn)入大眾視線.自注意力機(jī)制可以充分考慮一個(gè)句子中不同詞語之間語義與語法聯(lián)系,用在普通注意力或雙向注意力之后,句間信息能夠更好地融合,從而在機(jī)器閱讀理解任務(wù)中得到了廣泛應(yīng)用.
注意力機(jī)制的核心是針對(duì)不同目標(biāo)輸出生成不同的上下文向量,并將其看做對(duì)輸入詞向量的加權(quán)處理,因此,可以被定義為不同時(shí)間步編碼器輸出的加權(quán)求和,得到更多目標(biāo)輸出有用的信息.在注意力機(jī)制計(jì)算過程中包含三個(gè)參數(shù),分別為Query、Key、Value.這里用Q,K,V表示,Q是一個(gè)隨意線索,在機(jī)器閱讀理解任務(wù)中為問題的序列表示,而Key和Value為不隨意線索,在這里為文章序列表示.
首先,通過注意力分?jǐn)?shù)函數(shù)來計(jì)算問題中逐個(gè)詞對(duì)文本中所有詞的注意力分?jǐn)?shù),表示目標(biāo)語言各位置與源語言各位置之間相關(guān)性大小.注意力分?jǐn)?shù)函數(shù)f(q,k)計(jì)算方法有以下幾種:
(1)
(2)
(3)
(4)
其次,利用softmax函數(shù)對(duì)注意力分?jǐn)?shù)進(jìn)行指數(shù)歸一化處理,得到相應(yīng)的注意力權(quán)重.將源語言與目標(biāo)語言之間注意力權(quán)重看成一個(gè)矩陣,長(zhǎng)為文章長(zhǎng)度,寬為問題長(zhǎng)度,文章中第i個(gè)詞和問題中詞的權(quán)重公式如式(5).
(5)
最后,根據(jù)權(quán)重對(duì)相應(yīng)的v進(jìn)行加權(quán)求和,得到上下文向量.attention value的計(jì)算公式如式(6).
(6)
目前,許多注意力機(jī)制都基于編碼器—解碼器模型.在自然語言處理領(lǐng)域,可以把編碼器—解碼器模型看作模型對(duì)一個(gè)句子或一段話進(jìn)行加工處理后生成另一個(gè)句子和一段話的通用處理模型.在機(jī)器閱讀理解任務(wù)中,模型的輸入為文本和問題:首先需要利用編碼器將其編碼為機(jī)器能識(shí)別的形式,即將其編碼為對(duì)應(yīng)的詞向量,然后在交互層利用注意力機(jī)制對(duì)文本和問題的語義信息進(jìn)行融合,為序列中每個(gè)詞生成權(quán)重信息,而解碼器則是將經(jīng)過中間交互層產(chǎn)生的向量解碼為輸出答案.
一般的編碼器—解碼器模型只將輸入的文本x轉(zhuǎn)化為其語義表示c,對(duì)于所有的輸入向量,在生成其語義表示時(shí)權(quán)重都是相等的,但加入注意力機(jī)制模型,對(duì)于不同的向量生成的語義信息表示c不同,可以更加準(zhǔn)確地表示句間詞的關(guān)聯(lián)程度.在進(jìn)行解碼時(shí)根據(jù)融合的各個(gè)語義向量c,按照開始和結(jié)束位置的最大概率輸出更加準(zhǔn)確的結(jié)果.加入注意力機(jī)制的編碼器—解碼器模型如圖1所示.
注意力機(jī)制不僅可以單獨(dú)進(jìn)行任務(wù)處理,還可以與其他模型相結(jié)合完成更加復(fù)雜的任務(wù).其思想應(yīng)用在閱讀理解任務(wù)中,可以把文章部分看作是編碼器部分,問題部分看作解碼器部分,如果自身既是編碼器部分又是解碼器部分,這就是自注意力機(jī)制[6].大多機(jī)器閱讀理解任務(wù)都基于編碼器—解碼器模型,隨著句子長(zhǎng)度的增加會(huì)面臨無法保留輸入序列信息等問題,如果將其與注意力機(jī)制相結(jié)合可以有效解決這些問題.
圖1 基于注意力機(jī)制的編碼器—解碼器模型
自斯坦福機(jī)器閱讀理解數(shù)據(jù)集SQuAD問世以來,經(jīng)過谷歌、微軟、百度、科大訊飛、騰訊、斯坦福大學(xué)等在內(nèi)的眾多研究機(jī)構(gòu)的不懈努力,形成了“詞向量化—語義編碼—語義交互—答案預(yù)測(cè)”這樣一套四層機(jī)器閱讀理解模型體系[7].注意力機(jī)制為語義交互答案預(yù)測(cè)中的關(guān)鍵一環(huán).基于神經(jīng)網(wǎng)絡(luò)的注意力機(jī)制閱讀理解模型的主要思想是模仿人類閱讀理解過程進(jìn)行建模.閱讀理解問答任務(wù)可拆分為三部分:閱讀,理解和答案搜索[8].根據(jù)其原理,注意力權(quán)重矩陣計(jì)算可分為三個(gè)階段:
1)通過注意力分?jǐn)?shù)函數(shù)F(q,k)計(jì)算Query和每個(gè)Key之間的注意力分?jǐn)?shù)a1,a2,a3,a4.
2)將注意力分?jǐn)?shù)經(jīng)過softmax()函數(shù)進(jìn)行歸一化得到權(quán)重信息w1,w2,w3,w4.
3)將文本中的每個(gè)value與權(quán)重信息進(jìn)行加權(quán)求和得到問題中的一個(gè)詞對(duì)文本中所有詞的Attention values,上述過程如圖2所示.
圖2 注意力值計(jì)算過程
早期的機(jī)器閱讀理解模型大多用單向的注意力機(jī)制,其缺點(diǎn)是不能很好地獲得文檔和問題之間的聯(lián)系,在文檔和問題的編碼過程中會(huì)丟失有效信息[9].雙向注意力機(jī)制可以在普通注意力機(jī)制基礎(chǔ)上進(jìn)一步融合句子的語義信息,以注意力流的形式出現(xiàn)在BiDAF模型中.BiDAF模型由Minjoon Seo等[10]提出.模型中的交互層使用了文章和問題兩個(gè)角度的注意力機(jī)制.
BiDAF模型通過多級(jí)分層的結(jié)構(gòu)對(duì)不同粒度級(jí)別的上下文表征進(jìn)行建模,模型包括character-level,word-level和聚合上下文信息的embeddings,接著采用雙向注意力流來獲得query-aware上下文表征[11].BiDAF模型結(jié)構(gòu)如圖3所示.
圖3 BiDAF模型結(jié)構(gòu)
雙向注意力流層主要包含兩塊:由文本到問題的注意力和由問題到文本的注意力.
由文本到問題的注意力表示問題中的哪些詞與文本中的詞相關(guān)程度最高.在本模型中,上下文編碼層的輸出為文本表征矩陣M和問題表征矩陣N,首先引入一個(gè)標(biāo)量函數(shù)α,這個(gè)可訓(xùn)練函數(shù)用來計(jì)算兩個(gè)詞向量之間的相似度,經(jīng)過函數(shù)的計(jì)算生成一個(gè)向量相似度矩陣S.矩陣S中Stj表示文本中的第t個(gè)詞和問題中的第j個(gè)詞的相似度.計(jì)算公式為Stj=α(M:tN:j),其中M:t為M中的第t列,N:j為N中的第j列.
自注意力是注意力機(jī)制在Q=K時(shí)的一種改進(jìn)(即查詢?cè)次谋拘蛄凶陨?,是建模源文本序列內(nèi)部元素間的依賴關(guān)系,以加強(qiáng)對(duì)源文本語義的理解[12].不同于普通注意力機(jī)制,自注意力機(jī)制是為了考慮句內(nèi)詞語的語義及語法之間的聯(lián)系,將詞向量經(jīng)過自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)處理后的詞語融合整個(gè)句子的語義信息,不只包含該詞的信息,可以通過設(shè)置多個(gè)自注意力層使語義信息得到更加充分的融合.在機(jī)器閱讀理解任務(wù)中,自注意力機(jī)制往往會(huì)設(shè)置多層,或者將其設(shè)置在雙向注意力機(jī)制之后,對(duì)語義信息做進(jìn)一步融合.
對(duì)于單詞序列{θ1,θ2,θ3,…,θm},用RNN模型來處理時(shí),在處理第m個(gè)單詞時(shí)需要處理第m-1個(gè)單詞時(shí)的信息.以此類推,若要得到第m個(gè)單詞和第一個(gè)單詞之間的關(guān)聯(lián)信息就需要進(jìn)行m-1次的信息傳遞.在信息傳遞過程中,若單詞之間距離過長(zhǎng),則會(huì)導(dǎo)致信息在傳遞過程中丟失,同時(shí)序列處理的速度也十分緩慢.利用自注意力機(jī)制處理單詞序列時(shí),可將每個(gè)單詞之間的信息傳遞距離簡(jiǎn)化為1,擺脫了這種順序傳遞方式.如果直接計(jì)算兩個(gè)單詞之間的關(guān)聯(lián)程度,能夠很好地解決長(zhǎng)距離依賴問題,同時(shí)由于單詞之間的聯(lián)系都是相互獨(dú)立的,因此能提高模型并行度.
設(shè)θ1,θ2,θ3,θ4為文本輸入序列的向量,λ1,λ2,λ3,λ4為文本輸出序列的向量,與普通注意力機(jī)制一樣,自注意力機(jī)制也需要先計(jì)算向量之間的注意力分?jǐn)?shù),計(jì)算句內(nèi)兩詞向量的關(guān)聯(lián)程度.這里以計(jì)算其他詞向量與詞向量θ1的關(guān)聯(lián)程度為例,設(shè)輸入序列中θ2,θ3,θ4與θ1的關(guān)聯(lián)程度用向量z1,2,z1,3,z1,4來表示.z的計(jì)算和普通注意力機(jī)制方法相同,其中所用最多的方法是點(diǎn)積,自注意力機(jī)制計(jì)算過程如圖4所示.
圖4 自注意力機(jī)制計(jì)算過程
其中wq,wk,wv為未知參數(shù),需要通過模型訓(xùn)練得到.令q1=wqθ1,k2=wkθ2,k3=wkθ3,k4=wkθ4分別為句子中所有詞向量,則z1,2=q1k2,z1,3=q1k3,z1,4=q1k4.另外,θ1也需計(jì)算與自己的關(guān)聯(lián)性,b1為所有詞與第一個(gè)詞的關(guān)聯(lián)程度信息.在這里v1=wvθ1,v2=wvθ2,v3=wvθ3,v4=wvθ4,最后得出λ1的計(jì)算公式(7).
(7)
普通注意力機(jī)制可以使得模型在解碼時(shí)將注意力集中于權(quán)重較高的部分,編碼器不再將所有的語義信息集中于最后一個(gè)隱層輸出單元,這樣就能改進(jìn)傳統(tǒng)的循環(huán)網(wǎng)絡(luò)推斷速度慢等問題.在此基礎(chǔ)上,更多形式的注意力機(jī)制也被大規(guī)模應(yīng)用于閱讀理解模型中.
在處理閱讀理解任務(wù)時(shí),輸入往往為兩個(gè)源片段,雙向注意力則是對(duì)普通注意力的改進(jìn),使得模型可以交互兩個(gè)源片段的語義信息.雙向注意力在閱讀理解、NLI(Natural Language Inference)等任務(wù)中廣泛應(yīng)用.該機(jī)制可以更好地理解兩個(gè)序列間的關(guān)系.通常的做法是將 K2Q與Q2K的注意力輸出進(jìn)行拼接或聚合得到最終的輸出,模型據(jù)此進(jìn)行推理[12].大量的實(shí)驗(yàn)數(shù)據(jù)證明,雙向注意力機(jī)制可以通過交替或并行方式更好地交互文本與問題的內(nèi)容,提升模型準(zhǔn)確率.Seo等[10]實(shí)驗(yàn)證明,在雙向注意力的交互過程中,相較與Q2K,K2Q 的比重對(duì)結(jié)果的影響更大.
無論是普通注意力還是雙向注意力,在進(jìn)行交互時(shí)都忽略了文本自身的語義聯(lián)系.受Cheng等[13]內(nèi)部注意力的啟發(fā),自注意力機(jī)制被提出,自注意力可以加強(qiáng)模型對(duì)文本自身的理解,在閱讀理解中相當(dāng)于脫離問題去閱讀文本.這種做法可以避免帶著問題去閱讀時(shí)可能陷入的局部最優(yōu)[14].相較于前兩者,自注意力機(jī)制目前應(yīng)用更為廣泛.Vaswani等[5]基于此構(gòu)建了自注意力網(wǎng)絡(luò),將位置編碼加入到詞向量輸入中,并在自注意力層后加入全連接前饋網(wǎng)絡(luò),來作為Transformer和Bert模型的一部分,取代了傳統(tǒng)的LSTM或RNN,大幅度提高了模型性能.
注意力機(jī)制在機(jī)器閱讀領(lǐng)域具有重要理論意義和應(yīng)用價(jià)值.隨著深度學(xué)習(xí)不斷發(fā)展,注意力機(jī)制在各個(gè)領(lǐng)域的任務(wù)中應(yīng)用更加廣泛.注意力機(jī)制可以提高編碼器—解碼器模型框架的可解釋性,能更好地融合語義信息.本文主要對(duì)普通注意力、雙向注意力以及自注意力中語句的處理過程進(jìn)行詳細(xì)闡述,并在此基礎(chǔ)上對(duì)模型進(jìn)行對(duì)比分析:無論是雙向注意力機(jī)制,還是自注意力機(jī)制,都致力于更好地融合語義信息,使模型能更加準(zhǔn)確地預(yù)測(cè)問題答案.
機(jī)器閱讀理解任務(wù)主要解決長(zhǎng)篇章的推理回答,注意力機(jī)制可以提供靈活并有效的信息交互與利用方式,無論是BiDAF模型還是Transformer都不同程度地利用了注意力機(jī)制.與注意力機(jī)制相結(jié)合的各模型在處理自然語言的各項(xiàng)任務(wù)中起到重要作用,在機(jī)器翻譯、問答系統(tǒng)中都得到了廣泛應(yīng)用,能提高神經(jīng)網(wǎng)絡(luò)模型的可解釋性,同時(shí)在傳遞過程中可避免信息丟失.因此,對(duì)基于注意力機(jī)制的機(jī)器閱讀理解技術(shù)進(jìn)行研究,具有重要的理論價(jià)值和廣闊的應(yīng)用前景[15].在圖像處理方面利用注意力機(jī)制可以選擇圖像的聚焦位置,產(chǎn)生更具分辨性的特征表示.Mnih等[16]在RNN上加入了注意力機(jī)制來實(shí)現(xiàn)圖像分類,降低了處理高分辨率圖片的復(fù)雜性.Zhang等[17]提出了自注意力生成對(duì)抗網(wǎng)絡(luò),允許對(duì)圖像生成任務(wù)進(jìn)行注意力驅(qū)動(dòng)的遠(yuǎn)程依賴建模.另外,注意力機(jī)制在語音識(shí)別領(lǐng)域也有廣泛應(yīng)用.Liu和Lane[18]提出了一種基于注意力的用于聯(lián)合意圖檢測(cè)和槽填充的神經(jīng)網(wǎng)絡(luò)模型,其F1值得到顯著提升.