滕柯
摘要:針對(duì)答案選擇任務(wù),在基于注意力機(jī)制的雙向長(zhǎng)短時(shí)記憶(BiLSTM)的基礎(chǔ)上,探索了兩層BiLSTM網(wǎng)絡(luò)的應(yīng)用。我們?cè)?016NLPCC DBQA任務(wù)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),此模型MRR可以達(dá)到75.51%。兩層網(wǎng)絡(luò)的效果優(yōu)于單層網(wǎng)絡(luò),證明了兩層網(wǎng)絡(luò)的有效性。
關(guān)鍵詞:答案選擇;注意力機(jī)制;多層網(wǎng)絡(luò);雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2020)03-0095-02
0 引言
互聯(lián)網(wǎng)時(shí)代的快速發(fā)展,每天都有大量的互聯(lián)網(wǎng)數(shù)據(jù)產(chǎn)生與傳遞。怎么高效且精準(zhǔn)地從大量且雜亂無章的數(shù)據(jù)中查找到回答用戶所提出問題的信息成為如今研究的熱點(diǎn)。自動(dòng)問答系統(tǒng)的便利之處在于根據(jù)用戶所提出的問題從大量數(shù)據(jù)中反饋?zhàn)顬槠ヅ涞拇鸢浮4鸢高x擇任務(wù)是自動(dòng)問答系統(tǒng)中的重要組成部分。近年來,深度學(xué)習(xí)技術(shù)發(fā)展迅速,其在自然語言處理領(lǐng)域的運(yùn)用也十分廣泛。神經(jīng)網(wǎng)絡(luò)的出現(xiàn)簡(jiǎn)化了答案選擇任務(wù)初始階段的特征抽取環(huán)節(jié),使得答案選擇任務(wù)不再需要人工抽取特征。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是一種專門用來處理序列的神經(jīng)網(wǎng)絡(luò),因此其非常適合用于文本任務(wù)。不過因?yàn)榭赡軙?huì)導(dǎo)致梯度消失和梯度爆炸等問題,研究人員對(duì)其結(jié)構(gòu)進(jìn)行改進(jìn)提出了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)[1]。同時(shí),Melamud[2]發(fā)現(xiàn)高層的LSTM的輸出可以更好的表示單詞的含義,綜合多層的信息效果可能會(huì)很好。
面對(duì)中文答案選擇任務(wù),此前很多研究都是基于單層BiLSTM網(wǎng)絡(luò)的答案選擇模型,使用單層BiLSTM提取到的都是表層的特征,為了能夠到提取更深層的特征,我們探索使用兩層神經(jīng)網(wǎng)絡(luò)來進(jìn)行特征提取。本文搭建了基于注意力機(jī)制的兩層雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的答案選擇模型,探索了兩層BiLSTM對(duì)于特征提取的優(yōu)勢(shì),并取得了較好的實(shí)驗(yàn)效果。
1 模型構(gòu)建
本模型一共分為三個(gè)模塊:向量化模塊、深度網(wǎng)絡(luò)模塊以及相似度評(píng)分模塊。模型結(jié)構(gòu)圖如圖1所示。
向量化模塊:本任務(wù)的源數(shù)據(jù)都是文本形式,而深度網(wǎng)絡(luò)是處理不了文本的,在把源數(shù)據(jù)送入神經(jīng)網(wǎng)絡(luò)之前,我們需要把問題和答案文本轉(zhuǎn)化為向量形式,且意思相近的詞需要被映射到向量空間相近的位置。在本模型中,我們所用的向量是用Word2Vec模型下的Skip-Gram模式訓(xùn)練得到的,訓(xùn)練語料使用的是中文維基百科。
深度網(wǎng)絡(luò)模塊:此模塊的輸入時(shí)向量化模塊的輸出也就是文本的向量表示。我們將文本向量送入深度網(wǎng)絡(luò)中,通過網(wǎng)絡(luò)提取深層語義信息,得到問題和答案的突出特征,獲得特征向量。在本模型中,深度網(wǎng)絡(luò)模塊指的是兩層雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的組合,具體結(jié)構(gòu)如圖2所示。
特征向量的公式如下:
Oq=Oq1*0.8+Oq2*0.2
Oa=Oa1*0.8+Oa2*0.2
相似度評(píng)分模塊:本模塊的輸入是深度網(wǎng)絡(luò)模塊的輸出,我們將深度網(wǎng)絡(luò)輸出的特征向量Oq和Oa進(jìn)行相似度匹配,衡量?jī)蓚€(gè)文本之間的相似性。本論文采用的相似度度量算法是余弦相似度。公式如下:
score(q,a)=cosine(Oq,Oa)=
socre(q,a)是問題和答案的語義相似度評(píng)分,Oq和Oa代表的是問題和答案的特征向量。
在模型進(jìn)行訓(xùn)練的時(shí)候我們還需要選擇損失函數(shù),在本模型中我們選擇鉸鏈損失函數(shù)來進(jìn)行訓(xùn)練優(yōu)化,具體公式如下:
L=max(0,M-cosine(Oq,Oa+)+cosine(Oq,Oa-))
其中,Oq表示問題向量,Oa+表示正確答案的向量,Oa-表示錯(cuò)誤答案的向量。M是一個(gè)是為了優(yōu)化目標(biāo)函數(shù)而設(shè)定的常數(shù)。
2 模型參數(shù)
經(jīng)過實(shí)驗(yàn),損失函數(shù)中的常數(shù)M我們?cè)O(shè)為0.1。雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)中的隱藏層單元數(shù)我們選擇的是300。詞向量的維度我們?cè)O(shè)為50,句子長(zhǎng)度設(shè)為100。深度學(xué)習(xí)網(wǎng)絡(luò)的學(xué)習(xí)率決定著損失函數(shù)能否收斂到局部最小值以及何時(shí)收斂到最小值。當(dāng)學(xué)習(xí)率過小時(shí),模型收斂的非常慢。當(dāng)學(xué)習(xí)率過大時(shí),可能無法收斂。因此,一個(gè)合適的學(xué)習(xí)率可以使得模型可以在合適的時(shí)間內(nèi)收斂到局部最小值。我們發(fā)現(xiàn)設(shè)置學(xué)習(xí)率設(shè)置為0.2實(shí)驗(yàn)效果最好。
3 實(shí)驗(yàn)
在2016 NLPCC DBQA數(shù)據(jù)集上,我們對(duì)改進(jìn)的答案選擇模型進(jìn)行了評(píng)估,選用評(píng)測(cè)指標(biāo)MRR。單層BiLSTM模型ACC為75.12%,而使用我們改進(jìn)的兩層BiLSTM模型效果可以達(dá)到75.51%,驗(yàn)證了模型改進(jìn)的可行性和有效性。
4 結(jié)語
我們?cè)诒疚闹刑剿髁藘蓪觔iLSTM網(wǎng)絡(luò)在答案選擇任務(wù)中的應(yīng)用。實(shí)驗(yàn)采用公開數(shù)據(jù)集以及常用評(píng)價(jià)標(biāo)準(zhǔn),加強(qiáng)了實(shí)驗(yàn)的說服力。通過實(shí)驗(yàn)效果對(duì)比,驗(yàn)證了兩層網(wǎng)絡(luò)在特征提取時(shí)的有效性。
參考文獻(xiàn)
[1] Hochreiter S,Schmidhuber J.Long Short-Term Memory[J]. Neural Computation,1997,9(8):1735-1780.
[2] Melamud O,Goldberger J,Dagan I.context2vec:Learning generic context embedding with bidirectional lstm[C].Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning,2016:51-61.
Abstract:For the answer selection task, the application of multi-layer network is explored on the basis of BiLSTM. We conducted experiments on the 2016NLPCC DBQA task data set, and the MRR of this model can reach 75.51%. The effect of multi-layer network is better than that of single-layer network, which proves the effectiveness of multi-layer network.
Key words:answer slection; attention; two layer network; BiLSTM