徐鵬飛 李曉戈
(西安郵電大學(xué)計(jì)算機(jī)學(xué)院 西安 710061)
自然語(yǔ)言處理(Natural Language Processing,NLP)[1]的目標(biāo)就是讓計(jì)算機(jī)能夠閱讀、處理文本,并且理解文本的內(nèi)在含義。通常測(cè)試機(jī)器閱讀水平的方法是在給定一篇文本或相關(guān)內(nèi)容(事實(shí))的基礎(chǔ)上,要求機(jī)器根據(jù)文本中的上下文內(nèi)容,對(duì)相應(yīng)的問(wèn)題作出回答,類似于英語(yǔ)考試?yán)锏拈喿x理解問(wèn)題。這類任務(wù)通常被稱作機(jī)器閱讀理解[2~3]。試想一下如果機(jī)器真的具備了一定水準(zhǔn)的閱讀理解能力之后,那么在人工智能領(lǐng)域里將會(huì)產(chǎn)生難以想象的變革,比如搜索引擎[4]會(huì)在真正理解使用者搜索內(nèi)容的基礎(chǔ)上去回答用戶的問(wèn)題,而不是目前大部分以關(guān)鍵詞匹配的方式來(lái)回應(yīng)使用者,這對(duì)于搜索引擎來(lái)說(shuō)應(yīng)該是個(gè)顛覆性的突破,此外,聊天機(jī)器人或者說(shuō)自動(dòng)問(wèn)答系統(tǒng)[5]如果換個(gè)角度來(lái)看,其實(shí)也能夠看做是一種特殊的閱讀理解問(wèn)題,其他很多領(lǐng)域也是如此,所以機(jī)器學(xué)會(huì)閱讀將是人工智能在處理和理解人類語(yǔ)言進(jìn)程中一個(gè)里程碑式的事件。
所以,作為自然語(yǔ)言處理中的核心任務(wù),機(jī)器閱讀理解在研究領(lǐng)域占得比重越來(lái)越多,特別隨著深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域里的廣泛應(yīng)用[6~7]以后,各種大規(guī)模閱讀理解數(shù)據(jù)集紛紛出現(xiàn),2015年,deepmind[8]發(fā)布了首個(gè)大規(guī)模閱讀理解數(shù)據(jù)集CNN/Daily Mail,該數(shù)據(jù)集是根據(jù)CNN新聞?wù)Z料構(gòu)建的完形填空類型的數(shù)據(jù)集,隨后,F(xiàn)air[9]從兒童故事書(shū)中也構(gòu)建了一個(gè)數(shù)據(jù)集CBT,該數(shù)據(jù)集也是完型填空類型。然而,完型填空這種限定條件的問(wèn)答形式基本無(wú)法應(yīng)用于實(shí)際。2016年,在emnlp會(huì)議上Rajpurkar等[10]提出了SQuAD數(shù)據(jù)集,這是首個(gè)大規(guī)模文本段類型的問(wèn)答數(shù)據(jù)集。在給定文檔D,給定問(wèn)題Q的情況下,答案A是D中的一個(gè)文本段。
本文的數(shù)據(jù)集在數(shù)據(jù)集選擇方面選擇了近三年的對(duì)外漢語(yǔ)初級(jí)考試的聽(tīng)力部分,經(jīng)過(guò)人工清洗整理后,由上下文、問(wèn)題、答案三部分組成,其中問(wèn)題是針對(duì)上下文提出的,答案為上下文中的某一段。本文在模型的構(gòu)建方面,針對(duì)中文閱讀理解,首先搭建了一個(gè)基本模型,并在基礎(chǔ)模型上選擇使用帶有語(yǔ)義信息的詞向量作為輸入,采用能夠?qū)W習(xí)長(zhǎng)期依賴信息的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)來(lái)用作對(duì)上下文和問(wèn)題間關(guān)系的嵌入及解析,中間層添加了注意力機(jī)制分析上下文中的哪些文本段對(duì)回答問(wèn)題更有幫助。最后進(jìn)行了兩方面的實(shí)驗(yàn)分析,一是分析模型的每一部分對(duì)模型性能的影響,二是分析模型在不同的問(wèn)題類型上的實(shí)驗(yàn)結(jié)果。
word2vec[11~12]也稱為 word embeddings[13],中文名為“詞向量”,它的作用是將NLP中的字詞轉(zhuǎn)為計(jì)算機(jī)可以理解的稠密向量(Dense Vector)。在word2vec出現(xiàn)之前,自然語(yǔ)言處理經(jīng)常把字詞轉(zhuǎn)為離散的單獨(dú)的符號(hào),也就是One-Hot向量,但是One-Hot向量之間是相互獨(dú)立的,即使是同義詞也沒(méi)有相互關(guān)聯(lián)的關(guān)系,而且One-Hot向量的維度大小取決于數(shù)據(jù)集中字詞的大小,如果數(shù)據(jù)集較大,就會(huì)造成One-Hot向量組成的矩陣太過(guò)稀疏,計(jì)算速度非常緩慢。word2vec可以將One-Hot向量轉(zhuǎn)化為低維度的連續(xù)值,也就是稠密向量,并且其中意思相近的詞將被映射到向量空間中相近的位置。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[14~15]已被廣泛應(yīng)用在處理可變長(zhǎng)度的序列輸入,在輸入序列中,相對(duì)長(zhǎng)遠(yuǎn)的信息會(huì)被存儲(chǔ)在一個(gè)遞歸隱藏向量中,這個(gè)向量的產(chǎn)生又依賴于前一個(gè)隱藏向量。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)[16]是一種特殊形式的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。LSTM神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)上下文的長(zhǎng)期依賴信息,并且能夠有效避免梯度消失問(wèn)題。LSTM對(duì)RNN中內(nèi)部神經(jīng)元結(jié)構(gòu)進(jìn)行更改,它的記憶單元結(jié)構(gòu)圖如圖1所示。給定一個(gè)文本輸入序列 X={x1,x2…xn},其中 xt是文本中一個(gè)高維詞向量,輸出的隱藏向量ht在t時(shí)刻的表示如下:
圖1 LSTM記憶單元結(jié)構(gòu)圖
在LSTM的記憶單元結(jié)構(gòu)圖中,LSTM有三種門來(lái)保護(hù)和控制細(xì)胞狀態(tài),分別是輸入門i、遺忘門f和輸出門o,另外還有一個(gè)細(xì)胞記憶向量c。σ是一個(gè)sigmoid函數(shù),輸入門可以決定輸入向量xt如何改變存儲(chǔ)細(xì)胞單元的狀態(tài)。輸出門可以允許存儲(chǔ)細(xì)胞單元對(duì)輸出產(chǎn)生影響。最后,遺忘門允許細(xì)胞單元記住或忘記它原來(lái)的狀態(tài)。整體模型結(jié)構(gòu)圖如圖2所示。
圖2 LSTM模型結(jié)構(gòu)圖
單向的LSTM有一個(gè)缺點(diǎn)就是后續(xù)的輸入向量序列不能很好地利用到上下文信息,例如,“我突然感到不舒服,我打算__半小時(shí)?!敝桓鶕?jù)“不舒服”,可能會(huì)推斷出“我打算”后面的詞可能是“休息”,“請(qǐng)假”,“去下醫(yī)院”等等,這是從正向的輸入信息推理出來(lái)的,但是如果再加上從反方向的輸入信息,就能根據(jù)“半小時(shí)”推斷出“休息”這個(gè)選項(xiàng)的概率更大一點(diǎn),而“去下醫(yī)院”這個(gè)選項(xiàng)的概率就比較小了。于是這就產(chǎn)生了雙向的LSTM(Bidirec?tional Long Short-Term Memory,Bi-LSTM)[17]。Bi-LSTM通過(guò)從兩個(gè)方向處理前后的輸入向量序列,并且產(chǎn)生兩個(gè)互相獨(dú)立的LSTM輸出向量序列,一個(gè)是處理在正向上的輸入向量序列,另一個(gè)是處理反向輸入。每一個(gè)時(shí)刻的輸出都是這兩個(gè)正反方向的輸出向量鏈接而成的向量。雙向LSTM的結(jié)構(gòu)圖如圖3所示。
圖3 Bi-LSTM模型結(jié)構(gòu)圖
注意力是一個(gè)用來(lái)分配有限的信息處理能力的選擇機(jī)制。想象一個(gè)人在參加一個(gè)酒會(huì),身邊有人低語(yǔ),有人高談闊論,偶有玻璃碰杯聲音,遠(yuǎn)處還有樂(lè)隊(duì)在演奏。在這么嘈雜的環(huán)境中,這個(gè)人依舊能夠聽(tīng)到身邊的朋友在說(shuō)什么。這不僅僅是因?yàn)殡x得近,更重要的是,這個(gè)人將注意力集中在了對(duì)他而言感興趣的對(duì)象身上。注意力對(duì)人來(lái)說(shuō)就是把有效的認(rèn)知資源都用于在一堆嘈雜的信息中,尋找、分析對(duì)自己有用的東西。
注意力機(jī)制[18]在自然語(yǔ)言處理的任務(wù)中作用主要體現(xiàn)在對(duì)文本語(yǔ)義的抽取,本文使用了雙向的注意力機(jī)制來(lái)提高上下文與答案之間交互信息的分析,便于找出答案在上下文中的起始與結(jié)束。本文的注意力計(jì)算是通過(guò)一個(gè)相似度矩陣來(lái)完成的,相似度矩陣?yán)锎娣诺氖菙?shù)據(jù)集里所有詞向量之間的相似度,具體算法在下面模型架構(gòu)中介紹。
本文搭建的模型共分為五層,分別是詞嵌入層、關(guān)系嵌入層、注意力層、解析層和輸出層,其模型結(jié)構(gòu)如圖4所示。
圖4 模型框架圖
該層主要負(fù)責(zé)把上下文和問(wèn)題的每個(gè)字或詞映射到一個(gè)高維的的向量空間,獲得每個(gè)字或詞的向量表示,使用C={x1,x2…xT}作為數(shù)據(jù)集中上下文的向量表示,使用Q={q1,q2…qJ}作為數(shù)據(jù)集中問(wèn)題的向量表示,本文獲取向量表示的方式使用了word2vec的方式。該層的輸出是兩個(gè)獨(dú)立的向量序列或者說(shuō)是向量矩陣,分別是C∈Rd×T代表上下文的向量矩陣,Q∈Rd×J代表問(wèn)題的向量矩陣,其中,d表示向量的緯度,T表示上下文的最大長(zhǎng)度,J表示問(wèn)題的最大長(zhǎng)度。
該層使用了雙向的LSTM網(wǎng)絡(luò)接收上一層傳遞過(guò)來(lái)的詞向量,并對(duì)詞向量之間的時(shí)序關(guān)系和詞序關(guān)系進(jìn)行建模,把經(jīng)過(guò)兩個(gè)方向LSTM得到的向量矩陣跨行串聯(lián)得到兩個(gè)向量矩陣,H∈R2d×T代表上下文向量矩陣,U∈R2d×J代表問(wèn)題向量矩陣。前兩層的主要目的是為了特征的提取和計(jì)算。
注意力層的主要目的在于找出上下文和問(wèn)題間的有效的交互信息,也就是與問(wèn)題有關(guān)的信息在上下文中的體現(xiàn),也就是位置,注意力的計(jì)算是通過(guò)一個(gè)相似度矩陣S得到的:
其中H:i表示上下文向量矩陣H中的第i列也就是上下文中的第i個(gè)詞的詞向量表示,U:j表示問(wèn)題向量矩陣U中的第j列也就是問(wèn)題中的第j個(gè)詞的詞向量表示,Sij表示第i個(gè)上下文中詞的詞向量和第j個(gè)問(wèn)題中詞的詞向量之間的相似度也就是注意力權(quán)重,α是一個(gè)可被訓(xùn)練的常量函數(shù),它的公式為
wS是一個(gè)可訓(xùn)練的權(quán)重向量矩陣且w∈R6d,⊙表示把兩個(gè)向量的各個(gè)分量依次相乘也就是向量的元素積,[;]表示把前后兩個(gè)向量以行的方向進(jìn)行拼接,后面需要計(jì)算的相似度就是由此公式得到的。
將問(wèn)題中每個(gè)詞與上下文中的一個(gè)詞計(jì)算相似度,用ai表示上下文中第i個(gè)詞的問(wèn)題的注意力權(quán)重,對(duì)它進(jìn)行softmax歸一化,使aij表示相對(duì)于上下文中的第i個(gè)詞,問(wèn)題里的第j個(gè)詞的注意力權(quán)重也就是上下文中的第i個(gè)詞和問(wèn)題里的第j個(gè)詞的相似度。針對(duì)問(wèn)題的注意力權(quán)重的計(jì)算是通過(guò)ai=soft max(Si:)∈RJ得到的,由
得到對(duì)于上下文中的第i個(gè)詞,問(wèn)題的注意力加權(quán)向量之和U?:i??偣步?jīng)過(guò)T次注意力計(jì)算后得到問(wèn)題的帶有注意力加權(quán)的向量矩陣U?∈R2d×T。
接下來(lái)將關(guān)系嵌入層的輸出和注意力層的輸出上下拼接起來(lái),形成向量矩陣G,G的每一列都包含兩個(gè)部分:H:t,U?:t,由此定義G的公式為
其中,G:t是G的第t列的列向量,對(duì)應(yīng)上下文中的第t個(gè)字,β是一個(gè)可被訓(xùn)練的向量函數(shù)將其兩個(gè)輸入向量進(jìn)行導(dǎo)入,dG表示函數(shù)β輸出的向量維度,在實(shí)驗(yàn)里,把β定義為一個(gè)多層感知機(jī),它的優(yōu)點(diǎn)在于只需簡(jiǎn)單的拼接就能表現(xiàn)出優(yōu)秀的性能,所以定義β的公式為
解析層是由雙向LSTM(Bi-LSTM)組成的,輸入進(jìn)解析層的是注意力層的輸出G,G里包含了基于問(wèn)題的上下文查詢感知向量,解析層與關(guān)系嵌入層都使用了Bi-LSTM,但是解析層的輸出能獲取得到基于問(wèn)題的上下文詞與詞之間的交互信息(如時(shí)序語(yǔ)序等等),而關(guān)系嵌入層獲取的只是與問(wèn)題無(wú)關(guān)的上下文的交互信息。上層的輸出G第一次通過(guò)解析層Bi-LSTM得到一個(gè)向量矩陣M1∈R2d×T,由 M1通過(guò)再次循環(huán)進(jìn)入Bi-LSTM得到M2∈R2d×T,M1和M2的每個(gè)列向量都將包含關(guān)于整個(gè)上下文段落和待查詢問(wèn)題的詞的上下文信息。
輸出層接收傳遞而來(lái)的M1和M2來(lái)做答案的預(yù)測(cè),預(yù)測(cè)的答案則是存在于上下文中的一個(gè)子短語(yǔ),這個(gè)短語(yǔ)是通過(guò)預(yù)測(cè)上下文中短語(yǔ)的起始索引和結(jié)束索引得到的,通過(guò)公式:
得到整個(gè)上下文中答案起始索引的概率分布,公式
可計(jì)算出整個(gè)上下文中答案結(jié)束索引的概率分布,其中wp1∈R8d和wp2∈R8d是可訓(xùn)練的權(quán)重向量。
將訓(xùn)練函數(shù)定義為答案真實(shí)的開(kāi)始索引和結(jié)束索引的負(fù)對(duì)數(shù)概率之和,在所有的訓(xùn)練樣本中都是平均的,即:
其中,θ是模型的權(quán)重參數(shù)集合,包括卷積核的權(quán)重和偏置,LSTM細(xì)胞單元以及;N是數(shù)據(jù)集的實(shí)例數(shù);分別是訓(xùn)練樣本i中答案的真實(shí)起始索引和結(jié)束索引。
我們使用jieba分詞器對(duì)所有上下文及問(wèn)題進(jìn)行分詞[19],并且在嘗試了將詞嵌入(word embed?ding)的維度從100維提升到200維的實(shí)驗(yàn)中,對(duì)實(shí)驗(yàn)結(jié)果幾乎沒(méi)有提升,所以最后將詞嵌入緯度設(shè)置為100維,同時(shí)卷積核的大小也設(shè)置為100×5,實(shí)驗(yàn)使用AdaDelta優(yōu)化器對(duì)損失函數(shù)進(jìn)行優(yōu)化,mini?batch設(shè)置為 60,初始學(xué)習(xí)速率(learning rate)為0.4,學(xué)習(xí)速率衰減為0.999,dropout速率設(shè)置為0.3,作用在在CNN、所有LSTM層以及在softmax之前的所有線性變換中,最大的問(wèn)題長(zhǎng)度為20,最大上下文長(zhǎng)度為100,選擇在測(cè)試數(shù)據(jù)集上性能較好的一組參數(shù)作為訓(xùn)練模型參數(shù)的輸出。
本文使用的數(shù)據(jù)集來(lái)源于歷年對(duì)外漢語(yǔ)初級(jí)聽(tīng)力考試中的聽(tīng)力原文、問(wèn)題和答案,經(jīng)過(guò)整理后,共968個(gè)樣本(其中訓(xùn)練樣本808個(gè),測(cè)試樣本80個(gè),模型評(píng)估樣本80個(gè)),每個(gè)樣本分為三個(gè)部分,第一部分為上下文Context,第二部分為問(wèn)題Q,第三部分為答案A,樣本結(jié)構(gòu)如下例所示。
例:{Context:[“泰莎·沃爾圖是一位加拿大著名的冰舞選手。她與搭檔斯科特·莫伊爾一起,拿下了2010年溫哥華冬奧會(huì)的冰舞冠軍,成為史上最年輕的冬奧會(huì)冰舞冠軍。同時(shí)她還是2010年、2012年的冰舞世界冠軍,2006年的世青賽冰舞冠軍?!保荩琎:[“泰莎·沃爾圖來(lái)自哪個(gè)國(guó)家??”],A:[“加拿大”]}
本文在進(jìn)行中文機(jī)器閱讀理解性能的評(píng)估中,評(píng)價(jià)指標(biāo)分別為答案匹配度,準(zhǔn)確率,召回率和綜合評(píng)價(jià)指標(biāo)F1值。
匹配度,準(zhǔn)確率,召回率及F1值的具體計(jì)算公式如下:
本次實(shí)驗(yàn)中首先搭建了一個(gè)基礎(chǔ)模型(Base Line,BL),基礎(chǔ)模型是以一層雙向LSTM做輸入層,該輸入層是以O(shè)ne-Hot的方式將上下文和問(wèn)題映射為高維向量作為輸入,而后直接使用一個(gè)雙向LSTM做循環(huán)解析,再由輸出層得到答案的起止范圍,所以基礎(chǔ)模型的架構(gòu)可以概括為BL+One-Hot。基礎(chǔ)模型在本文的數(shù)據(jù)集上達(dá)到的匹配度和F1分別是33.576%和44.107%。之后在基礎(chǔ)模型的基礎(chǔ)上,使用word2vec取代One-Hot給模型加入了分詞級(jí)的詞嵌入,使模型的F1值提升了9.55%,這是因?yàn)镺ne-Hot僅僅是將詞符號(hào)化,而不包括任何語(yǔ)義信息,所有的詞之間的距離都是相同的,但word2vec不一樣,它能根據(jù)上下文的關(guān)系來(lái)定義詞的向量,關(guān)聯(lián)度較高的詞距離較近,從信息論的角度來(lái)說(shuō),word2vec具有更強(qiáng)的信息表現(xiàn)能力,能更好的表現(xiàn)數(shù)據(jù)的內(nèi)在特征。而后我們?cè)诖颂幍幕A(chǔ)上給模型添加了注意力層,這對(duì)模型的性能提升更加明顯,使模型的F1增加了11.636%,從功能性上來(lái)講注意力主要分析的是對(duì)于每一個(gè)上下文中的詞,問(wèn)題中哪個(gè)詞與它最相近,最后得到帶有注意力加權(quán)的向量矩陣,該矩陣的每一列都能表達(dá)問(wèn)題對(duì)于上下文中每個(gè)詞的注意力權(quán)重,對(duì)于注意力權(quán)重值較高的詞來(lái)說(shuō),這是回答問(wèn)題的側(cè)重點(diǎn),所以注意力層的加入在針對(duì)上下文回答問(wèn)題時(shí)對(duì)模型的提升起到了很重要的作用。
圖5 不同模型組成對(duì)實(shí)驗(yàn)結(jié)果的影響
將數(shù)據(jù)集所有樣本整理分類后,分為了六個(gè)種類,分別為人物類、地點(diǎn)類、數(shù)字類、時(shí)間類、實(shí)體類、描述類,如表1所示。
表1 數(shù)據(jù)集分類
圖6是注意力模型在不同問(wèn)題類型上的實(shí)驗(yàn)結(jié)果,可以看出,整個(gè)模型對(duì)于回答時(shí)間類問(wèn)題效果最好,對(duì)于回答描述類問(wèn)題效果最差,究其原因,首先,時(shí)間類的問(wèn)題答案都相對(duì)較短,注意力層在分析該類問(wèn)題并計(jì)算注意力分布時(shí),發(fā)現(xiàn)注意力的分布較為明確,注意力權(quán)重較高的向量都比較集中在某個(gè)短語(yǔ)段上,這也就使得通過(guò)注意力層輸出的向量在解析層被解析出來(lái)的結(jié)果作為正確答案的概率更高。而描述類問(wèn)題的答案往往較長(zhǎng)且比較分散,可能需對(duì)上下文進(jìn)行一定的推理才能得到結(jié)果,這使得在計(jì)算注意力分布的時(shí)候,權(quán)重較高的向量不能集中在某些個(gè)短語(yǔ)段上,這導(dǎo)致解析層在解析注意力層輸出的向量時(shí),不能得到很好的結(jié)果。所以由此可以看出,注意力對(duì)需要推理或答案分布較長(zhǎng)的問(wèn)題回答效果沒(méi)有達(dá)到理想中的效果。
圖6 注意力模型在不同問(wèn)題類型上的實(shí)驗(yàn)結(jié)果
本文針對(duì)中文機(jī)器閱讀,搭建了一種基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型,該模型共有五層,第一層使用word2vec做詞嵌入,第二層使用一個(gè)雙向的LSTM做上下文關(guān)系的嵌入,第三層引入注意力機(jī)制,形成注意力矩陣,為問(wèn)答問(wèn)題提供了有效的幫助,第四層通過(guò)對(duì)由原始向量和注意力向量形成的矩陣進(jìn)行解析,分析答案的開(kāi)始和結(jié)束在上下文位置的概率,由第五層通過(guò)判斷找出問(wèn)題的答案。該模型在中文閱讀理解中最終達(dá)到了65.253%的F1和53.154%的EM。
雖然本文的模型能夠在機(jī)器閱讀理解里比較好的理解文章的語(yǔ)義,不過(guò)對(duì)于需要根據(jù)上下文進(jìn)行推理或者要求對(duì)上下文進(jìn)行總結(jié)概括的問(wèn)題還有很多不足之處,以后的工作將考慮采用神經(jīng)模塊網(wǎng)絡(luò)(Neural Module Network,NMN)[20~21]的方法讓神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)動(dòng)態(tài)推理。