基于兩層BiLSTM的問題回答技術(shù)研究

2020-06-04 12:55滕柯

數(shù)字技術(shù)與應(yīng)用 2020年3期

滕柯

摘要：針對(duì)答案選擇任務(wù)，在基于注意力機(jī)制的雙向長(zhǎng)短時(shí)記憶（BiLSTM）的基礎(chǔ)上，探索了兩層BiLSTM網(wǎng)絡(luò)的應(yīng)用。我們?cè)?016NLPCC DBQA任務(wù)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，此模型MRR可以達(dá)到75.51%。兩層網(wǎng)絡(luò)的效果優(yōu)于單層網(wǎng)絡(luò)，證明了兩層網(wǎng)絡(luò)的有效性。

關(guān)鍵詞：答案選擇;注意力機(jī)制;多層網(wǎng)絡(luò);雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)

中圖分類號(hào)：TP311 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1007-9416（2020）03-0095-02

0 引言

互聯(lián)網(wǎng)時(shí)代的快速發(fā)展，每天都有大量的互聯(lián)網(wǎng)數(shù)據(jù)產(chǎn)生與傳遞。怎么高效且精準(zhǔn)地從大量且雜亂無章的數(shù)據(jù)中查找到回答用戶所提出問題的信息成為如今研究的熱點(diǎn)。自動(dòng)問答系統(tǒng)的便利之處在于根據(jù)用戶所提出的問題從大量數(shù)據(jù)中反饋?zhàn)顬槠ヅ涞拇鸢浮４鸢高x擇任務(wù)是自動(dòng)問答系統(tǒng)中的重要組成部分。近年來，深度學(xué)習(xí)技術(shù)發(fā)展迅速，其在自然語言處理領(lǐng)域的運(yùn)用也十分廣泛。神經(jīng)網(wǎng)絡(luò)的出現(xiàn)簡(jiǎn)化了答案選擇任務(wù)初始階段的特征抽取環(huán)節(jié)，使得答案選擇任務(wù)不再需要人工抽取特征。循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）是一種專門用來處理序列的神經(jīng)網(wǎng)絡(luò)，因此其非常適合用于文本任務(wù)。不過因?yàn)榭赡軙?huì)導(dǎo)致梯度消失和梯度爆炸等問題，研究人員對(duì)其結(jié)構(gòu)進(jìn)行改進(jìn)提出了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（LSTM）[1]。同時(shí)，Melamud[2]發(fā)現(xiàn)高層的LSTM的輸出可以更好的表示單詞的含義，綜合多層的信息效果可能會(huì)很好。

面對(duì)中文答案選擇任務(wù)，此前很多研究都是基于單層BiLSTM網(wǎng)絡(luò)的答案選擇模型，使用單層BiLSTM提取到的都是表層的特征，為了能夠到提取更深層的特征，我們探索使用兩層神經(jīng)網(wǎng)絡(luò)來進(jìn)行特征提取。本文搭建了基于注意力機(jī)制的兩層雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的答案選擇模型，探索了兩層BiLSTM對(duì)于特征提取的優(yōu)勢(shì)，并取得了較好的實(shí)驗(yàn)效果。

1 模型構(gòu)建

本模型一共分為三個(gè)模塊：向量化模塊、深度網(wǎng)絡(luò)模塊以及相似度評(píng)分模塊。模型結(jié)構(gòu)圖如圖1所示。

向量化模塊：本任務(wù)的源數(shù)據(jù)都是文本形式，而深度網(wǎng)絡(luò)是處理不了文本的，在把源數(shù)據(jù)送入神經(jīng)網(wǎng)絡(luò)之前，我們需要把問題和答案文本轉(zhuǎn)化為向量形式，且意思相近的詞需要被映射到向量空間相近的位置。在本模型中，我們所用的向量是用Word2Vec模型下的Skip-Gram模式訓(xùn)練得到的，訓(xùn)練語料使用的是中文維基百科。

深度網(wǎng)絡(luò)模塊：此模塊的輸入時(shí)向量化模塊的輸出也就是文本的向量表示。我們將文本向量送入深度網(wǎng)絡(luò)中，通過網(wǎng)絡(luò)提取深層語義信息，得到問題和答案的突出特征，獲得特征向量。在本模型中，深度網(wǎng)絡(luò)模塊指的是兩層雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的組合，具體結(jié)構(gòu)如圖2所示。

特征向量的公式如下：

Oq=Oq1*0.8+Oq2*0.2

Oa=Oa1*0.8+Oa2*0.2

相似度評(píng)分模塊：本模塊的輸入是深度網(wǎng)絡(luò)模塊的輸出，我們將深度網(wǎng)絡(luò)輸出的特征向量Oq和Oa進(jìn)行相似度匹配，衡量?jī)蓚€(gè)文本之間的相似性。本論文采用的相似度度量算法是余弦相似度。公式如下：

score（q，a）=cosine（Oq，Oa）=

socre（q，a）是問題和答案的語義相似度評(píng)分，Oq和Oa代表的是問題和答案的特征向量。

在模型進(jìn)行訓(xùn)練的時(shí)候我們還需要選擇損失函數(shù)，在本模型中我們選擇鉸鏈損失函數(shù)來進(jìn)行訓(xùn)練優(yōu)化，具體公式如下：

L=max（0，M-cosine（Oq，Oa+）+cosine（Oq，Oa-））

其中，Oq表示問題向量，Oa+表示正確答案的向量，Oa-表示錯(cuò)誤答案的向量。M是一個(gè)是為了優(yōu)化目標(biāo)函數(shù)而設(shè)定的常數(shù)。

2 模型參數(shù)

經(jīng)過實(shí)驗(yàn)，損失函數(shù)中的常數(shù)M我們?cè)O(shè)為0.1。雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)中的隱藏層單元數(shù)我們選擇的是300。詞向量的維度我們?cè)O(shè)為50，句子長(zhǎng)度設(shè)為100。深度學(xué)習(xí)網(wǎng)絡(luò)的學(xué)習(xí)率決定著損失函數(shù)能否收斂到局部最小值以及何時(shí)收斂到最小值。當(dāng)學(xué)習(xí)率過小時(shí)，模型收斂的非常慢。當(dāng)學(xué)習(xí)率過大時(shí)，可能無法收斂。因此，一個(gè)合適的學(xué)習(xí)率可以使得模型可以在合適的時(shí)間內(nèi)收斂到局部最小值。我們發(fā)現(xiàn)設(shè)置學(xué)習(xí)率設(shè)置為0.2實(shí)驗(yàn)效果最好。

3 實(shí)驗(yàn)

在2016 NLPCC DBQA數(shù)據(jù)集上，我們對(duì)改進(jìn)的答案選擇模型進(jìn)行了評(píng)估，選用評(píng)測(cè)指標(biāo)MRR。單層BiLSTM模型ACC為75.12%，而使用我們改進(jìn)的兩層BiLSTM模型效果可以達(dá)到75.51%，驗(yàn)證了模型改進(jìn)的可行性和有效性。

4 結(jié)語

我們?cè)诒疚闹刑剿髁藘蓪觔iLSTM網(wǎng)絡(luò)在答案選擇任務(wù)中的應(yīng)用。實(shí)驗(yàn)采用公開數(shù)據(jù)集以及常用評(píng)價(jià)標(biāo)準(zhǔn)，加強(qiáng)了實(shí)驗(yàn)的說服力。通過實(shí)驗(yàn)效果對(duì)比，驗(yàn)證了兩層網(wǎng)絡(luò)在特征提取時(shí)的有效性。

參考文獻(xiàn)

[1] Hochreiter S，Schmidhuber J.Long Short-Term Memory[J]. Neural Computation，1997，9（8）：1735-1780.

[2] Melamud O，Goldberger J，Dagan I.context2vec：Learning generic context embedding with bidirectional lstm[C].Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning，2016：51-61.

Abstract：For the answer selection task， the application of multi-layer network is explored on the basis of BiLSTM. We conducted experiments on the 2016NLPCC DBQA task data set， and the MRR of this model can reach 75.51%. The effect of multi-layer network is better than that of single-layer network， which proves the effectiveness of multi-layer network.

Key words：answer slection; attention; two layer network; BiLSTM

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于兩層BiLSTM的問題回答技術(shù)研究