基于注意力機(jī)制的機(jī)器閱讀理解模型研究

2022-10-18 10:19:44郭澤晨呂文蓉

西北民族大學(xué)學(xué)報(bào)（自然科學(xué)版） 2022年3期

武迪，馬寧，郭澤晨，呂文蓉

(1.西北民族大學(xué) 中國(guó)民族語言文字信息技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室，甘肅蘭州 730030;2.西北民族大學(xué) 甘肅省民族語言智能處理重點(diǎn)實(shí)驗(yàn)室，甘肅蘭州 730030)

0 引言

機(jī)器閱讀理解(Machine Reading Comprehension；MRC)是作為問答技術(shù)研究的重要分支，一般形式為給定一篇文章，答題者閱讀并理解文章的內(nèi)在含義，并對(duì)文章的題目給出自己的理解和回答[1].機(jī)器閱讀理解在自然語言處理中極具挑戰(zhàn)性，對(duì)于實(shí)現(xiàn)真正意義上的人工智能具有重要的推動(dòng)作用.隨著深度學(xué)習(xí)技術(shù)的發(fā)展，機(jī)器閱讀理解任務(wù)拋開了傳統(tǒng)的基于人工規(guī)則或者構(gòu)造關(guān)系數(shù)據(jù)庫(kù)來解決問題.近年來，大規(guī)模閱讀理解數(shù)據(jù)集的出現(xiàn)，使得機(jī)器閱讀理解模型得到了強(qiáng)有力的數(shù)據(jù)支撐，為機(jī)器閱讀理解模型優(yōu)化提供了條件.注意力機(jī)制的思想來源于人類獲取信息的方式，人眼往往聚焦于更需關(guān)注的目標(biāo)區(qū)域，注意力機(jī)制是模仿此機(jī)制，給重要信息分配較高權(quán)重來降低不重要信息的權(quán)重，實(shí)現(xiàn)重要信息提取.CNN和RNN模型在機(jī)器閱讀理解中得到了較為廣泛的應(yīng)用，但它們對(duì)序列中不同位置之間依賴關(guān)系的建模并不直接，而注意力機(jī)制可以將每個(gè)詞之間的距離簡(jiǎn)化為一，較好地提高了模型的并行程度.注意力機(jī)制是深度學(xué)習(xí)快速發(fā)展后廣泛應(yīng)用于自然語言處理、統(tǒng)計(jì)學(xué)習(xí)、圖像檢測(cè)、語音識(shí)別等領(lǐng)域的核心技術(shù)[2].鑒于機(jī)器閱讀理解任務(wù)的形式，注意力機(jī)制的不斷發(fā)展非常有利于機(jī)器閱讀理解任務(wù)的實(shí)現(xiàn)，通過它來計(jì)算文章和問題之間不同注意力權(quán)重值，有效融合文章和問題的語義信息.對(duì)語義信息進(jìn)行解碼來準(zhǔn)確定位問題答案，成為機(jī)器閱讀理解任務(wù)中不可或缺的關(guān)鍵技術(shù).

1 注意力機(jī)制原理

注意力機(jī)制最早應(yīng)用于圖像處理領(lǐng)域，其作用是將傳統(tǒng)的視覺搜索方法進(jìn)行優(yōu)化，可選擇地調(diào)整視覺對(duì)網(wǎng)絡(luò)的處理，減少需要處理樣本數(shù)據(jù)并增加樣本間的特征匹配[3].注意力機(jī)制在自然語言處理領(lǐng)域的應(yīng)用相對(duì)較晚，最早應(yīng)用于機(jī)器翻譯工作中.Bahdanau等[4]提出,使用類似注意力機(jī)制在機(jī)器翻譯任務(wù)上將翻譯和對(duì)齊同時(shí)進(jìn)行，他們首先將attention機(jī)制應(yīng)用到NLP領(lǐng)域中.2017年，Ashish Vaswani等[5]提出Transformer模型，使用attention機(jī)制代替LSTM，自注意力機(jī)制進(jìn)入大眾視線.自注意力機(jī)制可以充分考慮一個(gè)句子中不同詞語之間語義與語法聯(lián)系，用在普通注意力或雙向注意力之后，句間信息能夠更好地融合，從而在機(jī)器閱讀理解任務(wù)中得到了廣泛應(yīng)用.

注意力機(jī)制的核心是針對(duì)不同目標(biāo)輸出生成不同的上下文向量，并將其看做對(duì)輸入詞向量的加權(quán)處理，因此，可以被定義為不同時(shí)間步編碼器輸出的加權(quán)求和，得到更多目標(biāo)輸出有用的信息.在注意力機(jī)制計(jì)算過程中包含三個(gè)參數(shù)，分別為Query、Key、Value.這里用Q，K，V表示，Q是一個(gè)隨意線索，在機(jī)器閱讀理解任務(wù)中為問題的序列表示，而Key和Value為不隨意線索，在這里為文章序列表示.

首先，通過注意力分?jǐn)?shù)函數(shù)來計(jì)算問題中逐個(gè)詞對(duì)文本中所有詞的注意力分?jǐn)?shù)，表示目標(biāo)語言各位置與源語言各位置之間相關(guān)性大小.注意力分?jǐn)?shù)函數(shù)f(q,k)計(jì)算方法有以下幾種：

(1)

(2)

(3)

(4)

其次,利用softmax函數(shù)對(duì)注意力分?jǐn)?shù)進(jìn)行指數(shù)歸一化處理，得到相應(yīng)的注意力權(quán)重.將源語言與目標(biāo)語言之間注意力權(quán)重看成一個(gè)矩陣，長(zhǎng)為文章長(zhǎng)度，寬為問題長(zhǎng)度，文章中第i個(gè)詞和問題中詞的權(quán)重公式如式(5).

(5)

最后，根據(jù)權(quán)重對(duì)相應(yīng)的v進(jìn)行加權(quán)求和，得到上下文向量.attention value的計(jì)算公式如式(6).

(6)

2 基于注意力機(jī)制的機(jī)器閱讀理解模型

目前，許多注意力機(jī)制都基于編碼器—解碼器模型.在自然語言處理領(lǐng)域，可以把編碼器—解碼器模型看作模型對(duì)一個(gè)句子或一段話進(jìn)行加工處理后生成另一個(gè)句子和一段話的通用處理模型.在機(jī)器閱讀理解任務(wù)中，模型的輸入為文本和問題:首先需要利用編碼器將其編碼為機(jī)器能識(shí)別的形式，即將其編碼為對(duì)應(yīng)的詞向量，然后在交互層利用注意力機(jī)制對(duì)文本和問題的語義信息進(jìn)行融合，為序列中每個(gè)詞生成權(quán)重信息，而解碼器則是將經(jīng)過中間交互層產(chǎn)生的向量解碼為輸出答案.

一般的編碼器—解碼器模型只將輸入的文本x轉(zhuǎn)化為其語義表示c，對(duì)于所有的輸入向量，在生成其語義表示時(shí)權(quán)重都是相等的，但加入注意力機(jī)制模型，對(duì)于不同的向量生成的語義信息表示c不同，可以更加準(zhǔn)確地表示句間詞的關(guān)聯(lián)程度.在進(jìn)行解碼時(shí)根據(jù)融合的各個(gè)語義向量c，按照開始和結(jié)束位置的最大概率輸出更加準(zhǔn)確的結(jié)果.加入注意力機(jī)制的編碼器—解碼器模型如圖1所示.

注意力機(jī)制不僅可以單獨(dú)進(jìn)行任務(wù)處理，還可以與其他模型相結(jié)合完成更加復(fù)雜的任務(wù).其思想應(yīng)用在閱讀理解任務(wù)中，可以把文章部分看作是編碼器部分，問題部分看作解碼器部分，如果自身既是編碼器部分又是解碼器部分，這就是自注意力機(jī)制[6].大多機(jī)器閱讀理解任務(wù)都基于編碼器—解碼器模型，隨著句子長(zhǎng)度的增加會(huì)面臨無法保留輸入序列信息等問題，如果將其與注意力機(jī)制相結(jié)合可以有效解決這些問題.

圖1 基于注意力機(jī)制的編碼器—解碼器模型

2.1 普通注意力機(jī)制機(jī)器閱讀理解模型

自斯坦福機(jī)器閱讀理解數(shù)據(jù)集SQuAD問世以來，經(jīng)過谷歌、微軟、百度、科大訊飛、騰訊、斯坦福大學(xué)等在內(nèi)的眾多研究機(jī)構(gòu)的不懈努力，形成了“詞向量化—語義編碼—語義交互—答案預(yù)測(cè)”這樣一套四層機(jī)器閱讀理解模型體系[7].注意力機(jī)制為語義交互答案預(yù)測(cè)中的關(guān)鍵一環(huán).基于神經(jīng)網(wǎng)絡(luò)的注意力機(jī)制閱讀理解模型的主要思想是模仿人類閱讀理解過程進(jìn)行建模.閱讀理解問答任務(wù)可拆分為三部分：閱讀，理解和答案搜索[8].根據(jù)其原理，注意力權(quán)重矩陣計(jì)算可分為三個(gè)階段：

1)通過注意力分?jǐn)?shù)函數(shù)F(q,k)計(jì)算Query和每個(gè)Key之間的注意力分?jǐn)?shù)a1,a2,a3,a4.

2)將注意力分?jǐn)?shù)經(jīng)過softmax()函數(shù)進(jìn)行歸一化得到權(quán)重信息w1,w2,w3,w4.

3)將文本中的每個(gè)value與權(quán)重信息進(jìn)行加權(quán)求和得到問題中的一個(gè)詞對(duì)文本中所有詞的Attention values，上述過程如圖2所示.

圖2 注意力值計(jì)算過程

2.2 雙向注意力機(jī)制機(jī)器閱讀理解模型

早期的機(jī)器閱讀理解模型大多用單向的注意力機(jī)制，其缺點(diǎn)是不能很好地獲得文檔和問題之間的聯(lián)系，在文檔和問題的編碼過程中會(huì)丟失有效信息[9].雙向注意力機(jī)制可以在普通注意力機(jī)制基礎(chǔ)上進(jìn)一步融合句子的語義信息，以注意力流的形式出現(xiàn)在BiDAF模型中.BiDAF模型由Minjoon Seo等[10]提出.模型中的交互層使用了文章和問題兩個(gè)角度的注意力機(jī)制.

BiDAF模型通過多級(jí)分層的結(jié)構(gòu)對(duì)不同粒度級(jí)別的上下文表征進(jìn)行建模，模型包括character-level，word-level和聚合上下文信息的embeddings，接著采用雙向注意力流來獲得query-aware上下文表征[11].BiDAF模型結(jié)構(gòu)如圖3所示.

圖3 BiDAF模型結(jié)構(gòu)

雙向注意力流層主要包含兩塊：由文本到問題的注意力和由問題到文本的注意力.

由文本到問題的注意力表示問題中的哪些詞與文本中的詞相關(guān)程度最高.在本模型中，上下文編碼層的輸出為文本表征矩陣M和問題表征矩陣N，首先引入一個(gè)標(biāo)量函數(shù)α，這個(gè)可訓(xùn)練函數(shù)用來計(jì)算兩個(gè)詞向量之間的相似度，經(jīng)過函數(shù)的計(jì)算生成一個(gè)向量相似度矩陣S.矩陣S中Stj表示文本中的第t個(gè)詞和問題中的第j個(gè)詞的相似度.計(jì)算公式為Stj=α(M:tN:j)，其中M:t為M中的第t列，N:j為N中的第j列.

2.3 自注意力機(jī)制機(jī)器閱讀理解模型

自注意力是注意力機(jī)制在Q=K時(shí)的一種改進(jìn)(即查詢?cè)次谋拘蛄凶陨?，是建模源文本序列內(nèi)部元素間的依賴關(guān)系，以加強(qiáng)對(duì)源文本語義的理解[12].不同于普通注意力機(jī)制，自注意力機(jī)制是為了考慮句內(nèi)詞語的語義及語法之間的聯(lián)系，將詞向量經(jīng)過自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)處理后的詞語融合整個(gè)句子的語義信息,不只包含該詞的信息，可以通過設(shè)置多個(gè)自注意力層使語義信息得到更加充分的融合.在機(jī)器閱讀理解任務(wù)中，自注意力機(jī)制往往會(huì)設(shè)置多層，或者將其設(shè)置在雙向注意力機(jī)制之后，對(duì)語義信息做進(jìn)一步融合.

對(duì)于單詞序列{θ1,θ2,θ3,…,θm}，用RNN模型來處理時(shí)，在處理第m個(gè)單詞時(shí)需要處理第m-1個(gè)單詞時(shí)的信息.以此類推，若要得到第m個(gè)單詞和第一個(gè)單詞之間的關(guān)聯(lián)信息就需要進(jìn)行m-1次的信息傳遞.在信息傳遞過程中，若單詞之間距離過長(zhǎng)，則會(huì)導(dǎo)致信息在傳遞過程中丟失，同時(shí)序列處理的速度也十分緩慢.利用自注意力機(jī)制處理單詞序列時(shí)，可將每個(gè)單詞之間的信息傳遞距離簡(jiǎn)化為1，擺脫了這種順序傳遞方式.如果直接計(jì)算兩個(gè)單詞之間的關(guān)聯(lián)程度，能夠很好地解決長(zhǎng)距離依賴問題，同時(shí)由于單詞之間的聯(lián)系都是相互獨(dú)立的，因此能提高模型并行度.

設(shè)θ1,θ2,θ3,θ4為文本輸入序列的向量，λ1,λ2,λ3,λ4為文本輸出序列的向量，與普通注意力機(jī)制一樣，自注意力機(jī)制也需要先計(jì)算向量之間的注意力分?jǐn)?shù)，計(jì)算句內(nèi)兩詞向量的關(guān)聯(lián)程度.這里以計(jì)算其他詞向量與詞向量θ1的關(guān)聯(lián)程度為例，設(shè)輸入序列中θ2,θ3,θ4與θ1的關(guān)聯(lián)程度用向量z1,2,z1,3,z1,4來表示.z的計(jì)算和普通注意力機(jī)制方法相同，其中所用最多的方法是點(diǎn)積，自注意力機(jī)制計(jì)算過程如圖4所示.

圖4 自注意力機(jī)制計(jì)算過程

其中wq，wk，wv為未知參數(shù)，需要通過模型訓(xùn)練得到.令q1=wqθ1,k2=wkθ2,k3=wkθ3，k4=wkθ4分別為句子中所有詞向量，則z1,2=q1k2，z1,3=q1k3，z1,4=q1k4.另外，θ1也需計(jì)算與自己的關(guān)聯(lián)性，b1為所有詞與第一個(gè)詞的關(guān)聯(lián)程度信息.在這里v1=wvθ1，v2=wvθ2，v3=wvθ3，v4=wvθ4,最后得出λ1的計(jì)算公式(7).

(7)

2.4 注意力機(jī)制機(jī)器閱讀理解模型對(duì)比分析

普通注意力機(jī)制可以使得模型在解碼時(shí)將注意力集中于權(quán)重較高的部分，編碼器不再將所有的語義信息集中于最后一個(gè)隱層輸出單元，這樣就能改進(jìn)傳統(tǒng)的循環(huán)網(wǎng)絡(luò)推斷速度慢等問題.在此基礎(chǔ)上，更多形式的注意力機(jī)制也被大規(guī)模應(yīng)用于閱讀理解模型中.

在處理閱讀理解任務(wù)時(shí)，輸入往往為兩個(gè)源片段，雙向注意力則是對(duì)普通注意力的改進(jìn)，使得模型可以交互兩個(gè)源片段的語義信息.雙向注意力在閱讀理解、NLI(Natural Language Inference)等任務(wù)中廣泛應(yīng)用.該機(jī)制可以更好地理解兩個(gè)序列間的關(guān)系.通常的做法是將 K2Q與Q2K的注意力輸出進(jìn)行拼接或聚合得到最終的輸出，模型據(jù)此進(jìn)行推理[12].大量的實(shí)驗(yàn)數(shù)據(jù)證明，雙向注意力機(jī)制可以通過交替或并行方式更好地交互文本與問題的內(nèi)容，提升模型準(zhǔn)確率.Seo等[10]實(shí)驗(yàn)證明，在雙向注意力的交互過程中，相較與Q2K，K2Q 的比重對(duì)結(jié)果的影響更大.

無論是普通注意力還是雙向注意力，在進(jìn)行交互時(shí)都忽略了文本自身的語義聯(lián)系.受Cheng等[13]內(nèi)部注意力的啟發(fā)，自注意力機(jī)制被提出，自注意力可以加強(qiáng)模型對(duì)文本自身的理解，在閱讀理解中相當(dāng)于脫離問題去閱讀文本.這種做法可以避免帶著問題去閱讀時(shí)可能陷入的局部最優(yōu)[14].相較于前兩者，自注意力機(jī)制目前應(yīng)用更為廣泛.Vaswani等[5]基于此構(gòu)建了自注意力網(wǎng)絡(luò)，將位置編碼加入到詞向量輸入中，并在自注意力層后加入全連接前饋網(wǎng)絡(luò)，來作為Transformer和Bert模型的一部分，取代了傳統(tǒng)的LSTM或RNN，大幅度提高了模型性能.

3 結(jié)語

注意力機(jī)制在機(jī)器閱讀領(lǐng)域具有重要理論意義和應(yīng)用價(jià)值.隨著深度學(xué)習(xí)不斷發(fā)展，注意力機(jī)制在各個(gè)領(lǐng)域的任務(wù)中應(yīng)用更加廣泛.注意力機(jī)制可以提高編碼器—解碼器模型框架的可解釋性，能更好地融合語義信息.本文主要對(duì)普通注意力、雙向注意力以及自注意力中語句的處理過程進(jìn)行詳細(xì)闡述，并在此基礎(chǔ)上對(duì)模型進(jìn)行對(duì)比分析:無論是雙向注意力機(jī)制，還是自注意力機(jī)制，都致力于更好地融合語義信息，使模型能更加準(zhǔn)確地預(yù)測(cè)問題答案.

機(jī)器閱讀理解任務(wù)主要解決長(zhǎng)篇章的推理回答，注意力機(jī)制可以提供靈活并有效的信息交互與利用方式，無論是BiDAF模型還是Transformer都不同程度地利用了注意力機(jī)制.與注意力機(jī)制相結(jié)合的各模型在處理自然語言的各項(xiàng)任務(wù)中起到重要作用，在機(jī)器翻譯、問答系統(tǒng)中都得到了廣泛應(yīng)用，能提高神經(jīng)網(wǎng)絡(luò)模型的可解釋性，同時(shí)在傳遞過程中可避免信息丟失.因此，對(duì)基于注意力機(jī)制的機(jī)器閱讀理解技術(shù)進(jìn)行研究，具有重要的理論價(jià)值和廣闊的應(yīng)用前景[15].在圖像處理方面利用注意力機(jī)制可以選擇圖像的聚焦位置，產(chǎn)生更具分辨性的特征表示.Mnih等[16]在RNN上加入了注意力機(jī)制來實(shí)現(xiàn)圖像分類，降低了處理高分辨率圖片的復(fù)雜性.Zhang等[17]提出了自注意力生成對(duì)抗網(wǎng)絡(luò)，允許對(duì)圖像生成任務(wù)進(jìn)行注意力驅(qū)動(dòng)的遠(yuǎn)程依賴建模.另外，注意力機(jī)制在語音識(shí)別領(lǐng)域也有廣泛應(yīng)用.Liu和Lane[18]提出了一種基于注意力的用于聯(lián)合意圖檢測(cè)和槽填充的神經(jīng)網(wǎng)絡(luò)模型，其F1值得到顯著提升.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡