李家樂 吳明禮
摘要:針對非事實類問答任務(wù),本文搭建了帶有注意力機制的雙向長短時記憶(BiLSTM)網(wǎng)絡(luò)模型。實驗表明,在2016 NLPCC QA任務(wù)數(shù)據(jù)集上,該模型MRR可達到75.12%,優(yōu)于傳統(tǒng)的機器學(xué)習(xí)方法。
關(guān)鍵詞:問題回答;深度學(xué)習(xí);注意力機制;雙向長短時記憶網(wǎng)絡(luò)
中圖分類號:TP311.52 文獻標(biāo)識碼:A 文章編號:1007-9416(2019)02-0116-02
0 引言
近年來,深度學(xué)習(xí)在自然語言處理領(lǐng)域的一些任務(wù)上取得了較好的成績。非事實類問答任務(wù)基于深度學(xué)習(xí)的技術(shù)研究具有較高的學(xué)術(shù)及應(yīng)用價值。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),其結(jié)構(gòu)可對數(shù)據(jù)信息起到傳遞的作用,非常適合于文本數(shù)據(jù),因此其及其變體網(wǎng)絡(luò)在自然語言處理任務(wù)中得到了廣泛應(yīng)用[1]。
面向中文問答任務(wù),本文搭建了RNN的變體BiLSTM模型,探索了學(xué)習(xí)率、注意力機制的影響,并取得了較好的實驗效果。
1 模型構(gòu)建
模型的整體框架包括:向量化模塊、深度模型及評分計算模塊。
向量化模塊:通過一個詞表將問題與答案句子轉(zhuǎn)化為向量表示。此處詞表是由Word2Vec模型以中文維基百科作為訓(xùn)練語料得到的。其中,Word2Vec是一個可將字詞轉(zhuǎn)化為向量形式表達的模型,并且意思相近的詞將被映射到向量空間中的相近位置。
深度模型:通過網(wǎng)絡(luò)模型提取深層語義信息,得到問題與答案更高層次的抽象表示oq與oa,具體結(jié)構(gòu)如圖1所示。
問題與答案分別進行向量化Word embedding表示,然后經(jīng)過BiLSTM網(wǎng)絡(luò)處理后得到隱藏層輸出hq、ha,再由最大池化(Max Pooling)和注意力(attention)機制處理,最后便可得到抽象表示oq、oa。其中,最大池化作用為獲取隱藏層輸出向量中最突出的特征;而注意力機制則可根據(jù)問題賦予答案的各個部分不同的權(quán)重,進而動態(tài)為答案提供更多信息。
注意力機制:在時間步t,問題經(jīng)過BiLSTM及最大池化層后得到向量oq,答案經(jīng)過BiLSTM后得到向量ha,更新后的h~a可通過以下方式獲?。?/p>
sa,q為ha(t)的注意力權(quán)值,h~a(t)為更新后的ha(t)。其中,Wam,Wqm和Wms是注意力參數(shù)。
評分計算模塊:包含評分標(biāo)準(zhǔn)與損失函數(shù)。前者使用余弦相似度衡量問題與答案間的相似度;后者使用鉸鏈損失函數(shù)指導(dǎo)模型的訓(xùn)練優(yōu)化,具體公式如下:
其中,q表示問題,a+表示正確答案,a-表示錯誤答案,而M是為優(yōu)化目標(biāo)函數(shù)而設(shè)置的閾值參數(shù),且為常值。
2 參數(shù)選擇
學(xué)習(xí)率在很大程度上影響著深度模型的訓(xùn)練優(yōu)化。其值過大時,會導(dǎo)致模型參數(shù)在最優(yōu)值附近震蕩而無法收斂;而值過小時,會消耗大量訓(xùn)練時間,造成計算機資源的浪費。經(jīng)試驗,設(shè)置最佳的學(xué)習(xí)率初始值為0.2,并采用指數(shù)衰減的方式動態(tài)更改學(xué)習(xí)率大小以便于獲取最優(yōu)解。
評分計算模塊中損失函數(shù)的M閾值,控制著正確答案和錯誤答案與問題之間的差距,其值過小不足以區(qū)分,而其值過大則不利于模型的收斂。在反復(fù)試驗后,設(shè)置為0.1。
3 實驗
在2016 NLPCC QA數(shù)據(jù)集上,我們對問答模型進行了評估,選用評測指標(biāo)MRR,其實驗結(jié)果可達到75.12%。就Wu等[2]基于傳統(tǒng)的人工構(gòu)造特征模型,如TFIDF SVM、Edit distance,其實驗性能分別可達到45.31%與20.98%;而深度模型BiLSTM則可達到66.34%。通過對比可知,深度模型BiLSTM明顯優(yōu)于其他幾種傳統(tǒng)機器學(xué)習(xí)模型;而本文中基于注意力機制的BiLSTM模型比簡單的BiLSTM模型提高了將近9%足以說明了注意力機制的有效性。
4 結(jié)語
本文中,我們探索了BiLSTM與注意力機制在非事實類中文問答任務(wù)中的應(yīng)用。實驗所選數(shù)據(jù)集具有一定權(quán)威性,其規(guī)模較大,且為開放域。通過實驗對比分析,可知深度模型及注意力機制在問答任務(wù)中的有效性。
參考文獻
[1] Wang B, Liu K, Zhao J. Inner Attention based Recurrent Neural Networks for Answer Selection[C]//ACL (1).2016:1288-1297.
[2] Wu F,Yang M,Zhao T,et al.A Hybrid Approach to DBQA[C]// International Conference on Computer Processing of Oriental Languages. Springer International Publishing, 2016.
Question Answering Technology Research Based on Deep Learning
LI Jia-le,WU Ming-li
(School of Information Science and Technology, North China University of Technology,Beijing? 100144)
Abstract:For non-factoid QA tasks, in this paper,we build a BiLSTM model with Attention mechanism.Experiments show that in 2016 NLPCC QA dataset, this model can reach 75.12% on MRR, which is better than the traditional machine learning method.
Key words:question answering; deep learning; attention; BiLSTM