基于深度學(xué)習(xí)的問題回答技術(shù)研究

2019-05-14 08:25李家樂吳明禮

數(shù)字技術(shù)與應(yīng)用 2019年2期

李家樂　吳明禮

摘要：針對非事實類問答任務(wù)，本文搭建了帶有注意力機制的雙向長短時記憶（BiLSTM）網(wǎng)絡(luò)模型。實驗表明，在2016 NLPCC QA任務(wù)數(shù)據(jù)集上，該模型MRR可達到75.12%，優(yōu)于傳統(tǒng)的機器學(xué)習(xí)方法。

關(guān)鍵詞：問題回答;深度學(xué)習(xí);注意力機制;雙向長短時記憶網(wǎng)絡(luò)

中圖分類號：TP311.52 文獻標(biāo)識碼：A 文章編號：1007-9416（2019）02-0116-02

0 引言

近年來，深度學(xué)習(xí)在自然語言處理領(lǐng)域的一些任務(wù)上取得了較好的成績。非事實類問答任務(wù)基于深度學(xué)習(xí)的技術(shù)研究具有較高的學(xué)術(shù)及應(yīng)用價值。循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN），其結(jié)構(gòu)可對數(shù)據(jù)信息起到傳遞的作用，非常適合于文本數(shù)據(jù)，因此其及其變體網(wǎng)絡(luò)在自然語言處理任務(wù)中得到了廣泛應(yīng)用[1]。

面向中文問答任務(wù)，本文搭建了RNN的變體BiLSTM模型，探索了學(xué)習(xí)率、注意力機制的影響，并取得了較好的實驗效果。

1 模型構(gòu)建

模型的整體框架包括：向量化模塊、深度模型及評分計算模塊。

向量化模塊：通過一個詞表將問題與答案句子轉(zhuǎn)化為向量表示。此處詞表是由Word2Vec模型以中文維基百科作為訓(xùn)練語料得到的。其中，Word2Vec是一個可將字詞轉(zhuǎn)化為向量形式表達的模型，并且意思相近的詞將被映射到向量空間中的相近位置。

深度模型：通過網(wǎng)絡(luò)模型提取深層語義信息，得到問題與答案更高層次的抽象表示oq與oa，具體結(jié)構(gòu)如圖1所示。

問題與答案分別進行向量化Word embedding表示，然后經(jīng)過BiLSTM網(wǎng)絡(luò)處理后得到隱藏層輸出hq、ha，再由最大池化（Max Pooling）和注意力（attention）機制處理，最后便可得到抽象表示oq、oa。其中，最大池化作用為獲取隱藏層輸出向量中最突出的特征;而注意力機制則可根據(jù)問題賦予答案的各個部分不同的權(quán)重，進而動態(tài)為答案提供更多信息。

注意力機制：在時間步t，問題經(jīng)過BiLSTM及最大池化層后得到向量oq，答案經(jīng)過BiLSTM后得到向量ha，更新后的h～a可通過以下方式獲?。?/p>

sa，q為ha（t）的注意力權(quán)值，h～a（t）為更新后的ha（t）。其中，Wam，Wqm和Wms是注意力參數(shù)。

評分計算模塊：包含評分標(biāo)準(zhǔn)與損失函數(shù)。前者使用余弦相似度衡量問題與答案間的相似度;后者使用鉸鏈損失函數(shù)指導(dǎo)模型的訓(xùn)練優(yōu)化，具體公式如下：

其中，q表示問題，a+表示正確答案，a-表示錯誤答案，而M是為優(yōu)化目標(biāo)函數(shù)而設(shè)置的閾值參數(shù)，且為常值。

2 參數(shù)選擇

學(xué)習(xí)率在很大程度上影響著深度模型的訓(xùn)練優(yōu)化。其值過大時，會導(dǎo)致模型參數(shù)在最優(yōu)值附近震蕩而無法收斂;而值過小時，會消耗大量訓(xùn)練時間，造成計算機資源的浪費。經(jīng)試驗，設(shè)置最佳的學(xué)習(xí)率初始值為0.2，并采用指數(shù)衰減的方式動態(tài)更改學(xué)習(xí)率大小以便于獲取最優(yōu)解。

評分計算模塊中損失函數(shù)的M閾值，控制著正確答案和錯誤答案與問題之間的差距，其值過小不足以區(qū)分，而其值過大則不利于模型的收斂。在反復(fù)試驗后，設(shè)置為0.1。

3 實驗

在2016 NLPCC QA數(shù)據(jù)集上，我們對問答模型進行了評估，選用評測指標(biāo)MRR，其實驗結(jié)果可達到75.12%。就Wu等[2]基于傳統(tǒng)的人工構(gòu)造特征模型，如TFIDF SVM、Edit distance，其實驗性能分別可達到45.31%與20.98%;而深度模型BiLSTM則可達到66.34%。通過對比可知，深度模型BiLSTM明顯優(yōu)于其他幾種傳統(tǒng)機器學(xué)習(xí)模型;而本文中基于注意力機制的BiLSTM模型比簡單的BiLSTM模型提高了將近9%足以說明了注意力機制的有效性。

4 結(jié)語

本文中，我們探索了BiLSTM與注意力機制在非事實類中文問答任務(wù)中的應(yīng)用。實驗所選數(shù)據(jù)集具有一定權(quán)威性，其規(guī)模較大，且為開放域。通過實驗對比分析，可知深度模型及注意力機制在問答任務(wù)中的有效性。

參考文獻

[1] Wang B， Liu K， Zhao J. Inner Attention based Recurrent Neural Networks for Answer Selection[C]//ACL （1）.2016：1288-1297.

[2] Wu F，Yang M，Zhao T，et al.A Hybrid Approach to DBQA[C]// International Conference on Computer Processing of Oriental Languages. Springer International Publishing， 2016.

Question Answering Technology Research Based on Deep Learning

LI Jia-le，WU Ming-li

（School of Information Science and Technology， North China University of Technology，Beijing? 100144）

Abstract：For non-factoid QA tasks， in this paper，we build a BiLSTM model with Attention mechanism.Experiments show that in 2016 NLPCC QA dataset， this model can reach 75.12% on MRR， which is better than the traditional machine learning method.

Key words：question answering; deep learning; attention; BiLSTM

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度學(xué)習(xí)的問題回答技術(shù)研究