国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Seq2Seq的生成式自動(dòng)問(wèn)答系統(tǒng)應(yīng)用與研究

2018-01-25 03:27:59李武波張蕾舒鑫
現(xiàn)代計(jì)算機(jī) 2017年36期
關(guān)鍵詞:解碼器編碼器時(shí)刻

李武波,張蕾,舒鑫

(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)

0 引言

自然語(yǔ)言處理(Natural Language Processing)是人工智能研究的重要應(yīng)用方向。它的研究是使計(jì)算機(jī)理解人類的語(yǔ)言。從詞性標(biāo)注、分詞、切詞等基礎(chǔ)的任務(wù)到語(yǔ)言模型[4]、機(jī)器翻譯[5-6]、自動(dòng)問(wèn)答[7-8]和對(duì)話系統(tǒng)[9]等復(fù)雜任務(wù),自然語(yǔ)言處理的應(yīng)用場(chǎng)景非常的廣泛。

回復(fù)式網(wǎng)絡(luò)(Recurrent Neural Networks)[3]理論上是一種深度神經(jīng)網(wǎng)絡(luò)。它的特點(diǎn)是能處理任意長(zhǎng)度的輸入和輸出序列,因此回復(fù)式神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用在自然語(yǔ)言處理任務(wù)中。在語(yǔ)言模型任務(wù)中,Bengio通過(guò)回復(fù)式神經(jīng)網(wǎng)絡(luò)建模取得了很好的效果,超過(guò)了傳統(tǒng)的語(yǔ)言模型結(jié)構(gòu)[10]。神經(jīng)機(jī)器翻譯任務(wù)上,首次提出的Seq2Seq模型也是采用了回復(fù)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)建模并且取得了很大的成功[1,5]??梢哉f(shuō)Seq2Seq結(jié)構(gòu)的提出為序列到序列類型任務(wù)的提供了一種新的基礎(chǔ)結(jié)構(gòu)。

自動(dòng)問(wèn)答系統(tǒng)也是一種序列到序列類型的自然處理任務(wù)。在本文中,我們主要研究閱讀理解式的自動(dòng)問(wèn)答系統(tǒng),該系統(tǒng)通過(guò)輸入短文本和問(wèn)題,自動(dòng)的生成問(wèn)題的答案。自動(dòng)問(wèn)答系統(tǒng)的難點(diǎn)在于其中可能包含復(fù)雜的邏輯推理和算術(shù)推理。因此,本文主要的研究?jī)?nèi)容的是Seq2Seq模型在自動(dòng)問(wèn)答系統(tǒng)中的推理部分的性能驗(yàn)證與分析。

1 背景

1.1 自動(dòng)問(wèn)答系統(tǒng)

在早期,自動(dòng)問(wèn)答系統(tǒng)是限制在醫(yī)療,教育等特定領(lǐng)域。特定領(lǐng)域的自動(dòng)問(wèn)答系統(tǒng)叫做封閉式自動(dòng)問(wèn)答系統(tǒng),這種系統(tǒng)大部分是基于信息檢索和信息提取技術(shù)而成的。但是隨著技術(shù)的發(fā)展,越來(lái)越多的團(tuán)隊(duì)開(kāi)始研究開(kāi)放領(lǐng)域的自動(dòng)問(wèn)答系統(tǒng)(開(kāi)放式自動(dòng)問(wèn)答系統(tǒng))。開(kāi)放式自動(dòng)問(wèn)答系統(tǒng)比封閉式的自動(dòng)問(wèn)答系統(tǒng)有更加廣泛的應(yīng)用場(chǎng)景并且不限制提問(wèn)內(nèi)容,因此不能簡(jiǎn)單地把信息檢索和提取技術(shù)直接應(yīng)用開(kāi)放式自動(dòng)問(wèn)答系統(tǒng)。

1.2 回復(fù)式神經(jīng)網(wǎng)絡(luò)

在深度學(xué)習(xí)中,回復(fù)式神經(jīng)網(wǎng)絡(luò)是一種常見(jiàn)的網(wǎng)絡(luò)結(jié)構(gòu)。如公式所示,在回復(fù)式神經(jīng)網(wǎng)絡(luò),每一時(shí)刻的網(wǎng)絡(luò)輸出會(huì)同外部輸入一起再次輸入到網(wǎng)絡(luò)中,其計(jì)算方法如公式(1)所示。因此這樣的網(wǎng)絡(luò)結(jié)構(gòu)非常適合處理序列類型的數(shù)據(jù)?;貜?fù)式神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用到了自然語(yǔ)言處理的各個(gè)任務(wù)中,例如神經(jīng)機(jī)器翻譯模型[1],自動(dòng)問(wèn)答系統(tǒng)模型[8]以及語(yǔ)言模型等[10]。

1.3 門(mén)回復(fù)單元

門(mén)回復(fù)單元(Gate Recurrent Unit,GRU)是一種特殊的回復(fù)式神經(jīng)網(wǎng)絡(luò),實(shí)驗(yàn)證明門(mén)回復(fù)單元在收斂性上優(yōu)于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[11-12]。如圖1所示的是一個(gè)門(mén)回復(fù)單元的基礎(chǔ)結(jié)構(gòu),它通過(guò)在回復(fù)式神經(jīng)網(wǎng)絡(luò)中添加更新門(mén)和重置門(mén)來(lái)解決回復(fù)式神經(jīng)網(wǎng)絡(luò)的梯度消失問(wèn)題。其中,門(mén)回復(fù)單元再i時(shí)刻的輸出hi,更新門(mén)ui以及重置門(mén)ri計(jì)算公式如公式(2)所示:

圖1 GRU結(jié)構(gòu)圖

其中W,U以及b為可訓(xùn)練的參數(shù),⊙為矩陣的點(diǎn)乘。

2 模型

Seq2Seq主要思路是先將輸入序列編碼成一個(gè)向量,之后通過(guò)提取向量中的信息解析輸出序列。Seq2Seq結(jié)構(gòu)由編碼器和解碼器組成。其中,編碼器用于編碼輸入序列,而解碼器用于解析輸出序列。本文中的自動(dòng)問(wèn)答系統(tǒng)模型的網(wǎng)絡(luò)結(jié)構(gòu)是基于Seq2Seq的一種基礎(chǔ)結(jié)構(gòu)組成,其結(jié)構(gòu)如圖2所示。

圖2 網(wǎng)絡(luò)模型結(jié)構(gòu)

2.1 編碼模塊

編碼模塊由兩個(gè)編碼器組成,每個(gè)編碼器中包括一個(gè)一層的GRU。在本文的自動(dòng)問(wèn)答系統(tǒng)中,輸入序列是短 文 本 標(biāo) 記 為和問(wèn)題標(biāo)記為本文中是采用了預(yù)訓(xùn)的詞向量GloVe[13],文本中的每一個(gè)詞輸入到GRU前會(huì)轉(zhuǎn)換成詞向量,在另一個(gè)問(wèn)題編碼器編碼問(wèn)題時(shí)也采用了同樣的方法。文本編碼器和問(wèn)題編碼器在t時(shí)刻的輸出分別標(biāo)記為ct和qt,計(jì)算方式如公式(3)和(4)所示:

編碼模塊的最終輸出是文本和問(wèn)題編碼器的最后一個(gè)時(shí)刻的輸出向量:短文表達(dá)c和一個(gè)問(wèn)題表達(dá)q。

2.2 生成模塊

生成模塊由一個(gè)解碼器組成,解碼器包括一個(gè)一層的GRU和一個(gè)Softmax層。解碼器在每一個(gè)時(shí)刻t都輸入問(wèn)題表達(dá)q和短文本表達(dá)c。為了讓輸出的字關(guān)聯(lián)度更強(qiáng),本文中生成模塊的解碼器每一時(shí)刻還要輸入上一時(shí)刻Softmax層輸出的概率分布y。解碼器中GRU在t時(shí)刻輸出的向量at輸入到一個(gè)Softmax層預(yù)測(cè)t時(shí)刻生成的詞的概率分布yt,其中在時(shí)刻t,輸出的概率分布yt計(jì)算公式如公式(5)所示:

本文采用的誤差函數(shù)是交叉熵,網(wǎng)絡(luò)優(yōu)化目標(biāo)是最小化損失函數(shù)。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集

為了方便分析模型的推理能力,我們選擇了一個(gè)公開(kāi)的自動(dòng)問(wèn)答數(shù)據(jù)集bAbI-10k[2]來(lái)驗(yàn)證基于Seq2Seq的生成式自動(dòng)問(wèn)答系統(tǒng)。值得一提的是在驗(yàn)證過(guò)程中,我們不針對(duì)任務(wù)對(duì)模型進(jìn)行調(diào)整。

本文中采用的數(shù)據(jù)集是Facebook AI Research(FAIR)發(fā)布的一個(gè)公開(kāi)的自動(dòng)問(wèn)答的數(shù)據(jù)bAbI-10k。該數(shù)據(jù)集旨在檢驗(yàn)自動(dòng)問(wèn)答系統(tǒng)在各方面的推理能力。bAbI-10k數(shù)據(jù)集包括20種不同類型的推理任務(wù),每個(gè)任務(wù)包括訓(xùn)練集10k和測(cè)試集1k。我們將訓(xùn)練集隨機(jī)選取10%作為驗(yàn)證集,其余數(shù)據(jù)作為訓(xùn)練集。

3.2 評(píng)價(jià)標(biāo)準(zhǔn)

在自動(dòng)問(wèn)答任務(wù)中,評(píng)價(jià)標(biāo)準(zhǔn)一般是驗(yàn)證生成的答案和標(biāo)準(zhǔn)答案之間的偏差,在bAbI-10k數(shù)據(jù)集中評(píng)價(jià)標(biāo)準(zhǔn)是準(zhǔn)確率,即自動(dòng)問(wèn)答系統(tǒng)生成的答案序列和標(biāo)準(zhǔn)答案序列完全匹配的比率。

3.3 實(shí)驗(yàn)設(shè)計(jì)

本文主要探究Seq2Seq模型在自動(dòng)問(wèn)答系統(tǒng)中推理能力的驗(yàn)證和分析。在網(wǎng)絡(luò)結(jié)構(gòu)上,采用了基礎(chǔ)的seq2seq結(jié)構(gòu),其中采用了GRU[11]作為編碼和解碼器。網(wǎng)絡(luò)參數(shù)上詞向量的維度大小為50,GRU的隱藏層神經(jīng)元為40,批量訓(xùn)練的樣本數(shù)量為64個(gè)數(shù)據(jù),學(xué)習(xí)率為0.001,訓(xùn)練過(guò)程中使用反向傳播算法和Adam[14]優(yōu)化算法。所有參數(shù)的初始化采用正態(tài)分布。

3.4 結(jié)果與分析

通過(guò)20組實(shí)驗(yàn)發(fā)現(xiàn),基于Seq2Seq的生成式自動(dòng)問(wèn)答系統(tǒng)在推理能力上有很大的潛力。如表1所示,在單依據(jù)推理任務(wù)(task 1),兩者關(guān)系推理任務(wù)(task4)等13項(xiàng)任務(wù)上表現(xiàn)出比較強(qiáng)的性能(準(zhǔn)確率超過(guò)90%),其他的推理任務(wù)例如不確定知識(shí)推理(task10),時(shí)間推理(task14)以及基礎(chǔ)演繹(task15)上表現(xiàn)出了一定的潛力。

表2所示展示了本文所提的模型和另一個(gè)結(jié)合詞袋模型(Bag of Words,BoW)和深度學(xué)習(xí)算法的自動(dòng)問(wèn)答模型(Dynamic Memory Networks,DMN)[8]在 bAbI-10k的部分任務(wù)上取得的成果??梢钥闯鲈谝徊糠治恢藐P(guān)系推理上,本文提出的生成式自動(dòng)問(wèn)答模型的取得的成果更加優(yōu)秀。這表明得益于Seq2Seq的結(jié)構(gòu),模型順序編碼輸入序列,并且能融合上文知識(shí)學(xué)習(xí)到文本中的相關(guān)的信息,例如位置和關(guān)系等信息,在生成答案的時(shí)候能正確做出推理。

表1 基于Seq2Seq的生成式自動(dòng)問(wèn)答系統(tǒng)在bAbI-10的結(jié)果

表2 DMN和本文提出的模型在bAbI-10k部分任務(wù)上的準(zhǔn)確率對(duì)比結(jié)果

4 結(jié)語(yǔ)

本文基于Seq2Seq設(shè)計(jì)并實(shí)現(xiàn)了一套生成式自動(dòng)問(wèn)答系統(tǒng),并且通過(guò)公開(kāi)的數(shù)據(jù)集bAbI-10k全面的驗(yàn)證了本文提出的模型的性能。本文分析了基于Seq2Seq在自動(dòng)問(wèn)答系統(tǒng)在推理能力,并且設(shè)計(jì)了對(duì)比實(shí)驗(yàn)證明Seq2Seq模型在推理能力上的優(yōu)勢(shì)。雖然在結(jié)果上并未達(dá)到最好的效果,但是可以看出基于Seq2Seq的生成式自動(dòng)問(wèn)答系統(tǒng)在推理能力上具備巨大的潛力,今后,還需要在這一方向繼續(xù)研究。

[1]Cho,K.,et al.,Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation.Computer Science,2014.

[2]Weston,J.,et al.,Towards AI-Complete Question Answering:A Set of Prerequisite Toy Tasks.Computer Science,2015.

[3]Elman,J.L.,Distributed Representations,Simple Recurrent Networks,and Grammatical Structure.Machine Learning,1991.7(2-3):195-225.

[4]Sundermeyer,M.,R.Schlüter,and H.Ney.LSTM Neural Networks for Language Modeling.in Interspeech,2012.

[5]Bahdanau,D.,K.Cho,and Y.Bengio,Neural Machine Translation by Jointly Learning to Align and Translate.Computer Science,2014.

[6]Sutskever,I.,O.Vinyals,and Q.V.Le,Sequence to Sequence Learning with Neural Networks.2014.4:3104-3112.

[7]Weston,J.,S.Chopra,and A.Bordes,Memory Networks.Eprint Arxiv,2014.

[8]Kumar,A.,et al.,Ask Me Anything:Dynamic Memory Networks for Natural Language Processing.2015:1378-1387.

[9]Vinyals,O.and Q.Le,A Neural Conversational Model.Computer Science,2015.

[10]Bengio,Y.,et al.,Neural Probabilistic Language Models,in Innovations in Machine Learning:Theory and Applications,D.E.Holmes and L.C.Jain,Editors.2006,Springer Berlin Heidelberg:Berlin,Heidelberg.p.137-186.

[11]Chung,J.,et al.,Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling.Eprint Arxiv,2014.

[12]Cho,K.,et al.,On the Properties of Neural Machine Translation:Encoder-Decoder Approaches.Computer Science,2014.

[13]Pennington,J.,R.Socher,and C.Manning.Glove:Global Vectors for Word Representation.in Conference on Empirical Methods in Natural Language Processing.2014.

[14]Kingma,D.P.and J.Ba,Adam:A Method for Stochastic Optimization.Computer Science,2014.

猜你喜歡
解碼器編碼器時(shí)刻
冬“傲”時(shí)刻
科學(xué)解碼器(一)
捕獵時(shí)刻
科學(xué)解碼器(二)
科學(xué)解碼器(三)
線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
基于FPGA的同步機(jī)軸角編碼器
基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
電子器件(2015年5期)2015-12-29 08:42:24
街拍的歡樂(lè)時(shí)刻到來(lái)了
金塔县| 嵊泗县| 九龙坡区| 永寿县| 聂拉木县| 云龙县| 云霄县| 辽阳市| 墨脱县| 晋中市| 寻乌县| 临洮县| 邯郸县| 汕尾市| 丽江市| 乌兰县| 屯留县| 乌兰浩特市| 陇川县| 吴旗县| 雷波县| 十堰市| 九江市| 河北区| 芒康县| 沙洋县| 宜阳县| 丽水市| 榕江县| 博兴县| 和顺县| 永州市| 石林| 通州市| 谢通门县| 拜泉县| 通许县| 上蔡县| 晋宁县| 湄潭县| 玛沁县|