国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

自然語(yǔ)言處理中的深度學(xué)習(xí):方法及應(yīng)用

2017-12-22 03:58:57林奕歐李曉瑜
關(guān)鍵詞:向量神經(jīng)網(wǎng)絡(luò)深度

林奕歐,雷 航,李曉瑜,吳 佳

?

自然語(yǔ)言處理中的深度學(xué)習(xí):方法及應(yīng)用

林奕歐,雷 航,李曉瑜,吳 佳

(電子科技大學(xué)信息與軟件工程學(xué)院 成都 610054)

該文圍繞特征表示和模型原理,以神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型與詞向量作為深度學(xué)習(xí)與自然語(yǔ)言處理結(jié)合的切入點(diǎn),概述了當(dāng)前主要深度神經(jīng)網(wǎng)絡(luò)的模型原理和相關(guān)應(yīng)用。之后綜述了當(dāng)前研究人員在自然語(yǔ)言處理熱點(diǎn)領(lǐng)域上所使用的最新深度學(xué)習(xí)方法并及所取得的成果。最后總結(jié)了深度學(xué)習(xí)方法在當(dāng)前自然語(yǔ)言處理研究應(yīng)用中所遇到的瓶頸,并對(duì)未來(lái)可能的研究重點(diǎn)做出展望。

深度學(xué)習(xí); 深度神經(jīng)網(wǎng)絡(luò); 語(yǔ)言模型; 自然語(yǔ)言處理; 詞向量

作為機(jī)器學(xué)習(xí)和人工智能領(lǐng)域發(fā)展最為迅速的研究方向,深度學(xué)習(xí)受到學(xué)術(shù)界和工業(yè)界的高度關(guān)注。深度學(xué)習(xí)是基于特征自學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)(DNN)的一系列機(jī)器學(xué)習(xí)算法的總稱(chēng)。目前深度學(xué)習(xí)的研究有了長(zhǎng)足的發(fā)展,在傳統(tǒng)特征選擇與提取框架上取得了巨大突破,對(duì)包括自然語(yǔ)言處理、生物醫(yī)學(xué)分析、遙感影像解譯在內(nèi)的諸多領(lǐng)域產(chǎn)生越來(lái)越重要的影響,并在計(jì)算機(jī)視覺(jué)和語(yǔ)音識(shí)別領(lǐng)域取得了革命性的成功。

當(dāng)前,如何應(yīng)用深度學(xué)習(xí)技術(shù)解決自然語(yǔ)言處理(NLP)相關(guān)任務(wù)是深度學(xué)習(xí)的研究熱點(diǎn)。NLP作為計(jì)算機(jī)科學(xué)與人工智能交叉領(lǐng)域中的重要研究方向,綜合了語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、邏輯學(xué)、心理學(xué)、人工智能等學(xué)科的知識(shí)與成果。其主要研究任務(wù)包括詞性標(biāo)注、機(jī)器翻譯、命名實(shí)體識(shí)別、機(jī)器問(wèn)答、情感分析、自動(dòng)文摘、句法分析和共指消解等。自然語(yǔ)言作為高度抽象的符號(hào)化系統(tǒng),文本間的關(guān)系難以度量,相關(guān)研究高度依賴(lài)人工構(gòu)建特征。而深度學(xué)習(xí)方法的優(yōu)勢(shì)恰恰在于其強(qiáng)大的判別能力和特征自學(xué)習(xí)能力,非常適合自然語(yǔ)言高維數(shù)、無(wú)標(biāo)簽和大數(shù)據(jù)的特點(diǎn)。為此,本文將對(duì)當(dāng)前深度學(xué)習(xí)如何應(yīng)用在NLP領(lǐng)域展開(kāi)綜述性討論,并進(jìn)一步分析其中的應(yīng)用難點(diǎn)和未來(lái)可能的突破方向。

1 深度學(xué)習(xí)研究現(xiàn)狀

深度學(xué)習(xí)源于人工神經(jīng)網(wǎng)絡(luò)的研究。人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)作為計(jì)算工具是由文獻(xiàn)[1]引入。之后,Hebb自組織學(xué)習(xí)規(guī)則、感知機(jī)模型、Hopfield神經(jīng)網(wǎng)絡(luò)、玻爾茲曼機(jī)、誤差反向傳播算法和徑向基神經(jīng)網(wǎng)絡(luò)等也相繼被提出。文獻(xiàn)[2]利用逐層貪心算法初始化深度信念網(wǎng)絡(luò),開(kāi)啟了深度學(xué)習(xí)的浪潮,指出深度學(xué)習(xí)的本質(zhì)是一種通用的特征學(xué)習(xí)方法,其核心思想在于提取低層特征,組合形成更高層的抽象表示,以發(fā)現(xiàn)數(shù)據(jù)的分布規(guī)律。文獻(xiàn)[2]的方法有效地緩解了DNN層數(shù)增加所帶來(lái)的梯度消失或者梯度爆炸問(wèn)題。隨后文獻(xiàn)[3]使用自動(dòng)編碼機(jī)取代深度信念網(wǎng)絡(luò)的隱藏層,并通過(guò)實(shí)驗(yàn)證明了DNN的有效性。同時(shí),研究發(fā)現(xiàn)人類(lèi)信息處理機(jī)制需要從豐富的感官輸入中提取復(fù)雜結(jié)構(gòu)并重新構(gòu)建內(nèi)部表示,使得人類(lèi)語(yǔ)言系統(tǒng)和感知系統(tǒng)都具有明顯的層結(jié)構(gòu)[4],這從仿生學(xué)的角度,為DNN多層網(wǎng)絡(luò)結(jié)構(gòu)的有效性提供了理論依據(jù)。

此外,深度學(xué)習(xí)的興起還有賴(lài)于大數(shù)據(jù)和機(jī)器計(jì)算性能的提升。大數(shù)據(jù)是具有大量性、多樣性、低價(jià)值密度性的數(shù)據(jù)的統(tǒng)稱(chēng),深度學(xué)習(xí)是處理大數(shù)據(jù)常用的方法論,兩者有緊密的聯(lián)系。以聲學(xué)建模為例,其通常面臨的是十億到千億級(jí)別的訓(xùn)練樣本,實(shí)驗(yàn)發(fā)現(xiàn)訓(xùn)練后模型處于欠擬合狀態(tài),因此大數(shù)據(jù)需要深度學(xué)習(xí)[5]。另外,隨著圖形處理器(graphics processing unit, GPU)的發(fā)展,有效且可擴(kuò)展的分布式GPU集群的使用大大加速了深度模型的訓(xùn)練過(guò)程,極大地促進(jìn)了深度學(xué)習(xí)在業(yè)界的使用。

目前,NLP應(yīng)用逐漸成為深度學(xué)習(xí)研究中又一活躍熱點(diǎn)。2013年,隨著詞向量word2vec[6]的興起,各種詞的分布式特征相關(guān)研究層出不窮。2014年開(kāi)始,研究者使用不同的DNN模型,例如卷積網(wǎng)絡(luò),循環(huán)網(wǎng)絡(luò)和遞歸網(wǎng)絡(luò),在包括詞性標(biāo)注、情感分析、句法分析等傳統(tǒng)NLP應(yīng)用上取得重大進(jìn)展。2015年后,深度學(xué)習(xí)方法開(kāi)始在機(jī)器翻譯、機(jī)器問(wèn)答、自動(dòng)文摘、閱讀理解等自然語(yǔ)言理解領(lǐng)域攻城略地,逐漸成為NLP的主流工具。在未來(lái)幾年,深度學(xué)習(xí)將持續(xù)在自然語(yǔ)言理解領(lǐng)域做出巨大影響[7]。

2 分布式特征表示

分布式特征表示(distributionalrepresentation)是深度學(xué)習(xí)與NLP相結(jié)合的切入點(diǎn),這些分布式特征是通過(guò)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型學(xué)習(xí)得到的。

2.1 神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型

語(yǔ)言模型是計(jì)算任意詞序在文本中出現(xiàn)的概率的統(tǒng)計(jì)模型,是NLP的基礎(chǔ)性課題,對(duì)語(yǔ)音識(shí)別、詞性標(biāo)注、機(jī)器翻譯、句法分析等研究都有至關(guān)重要的作用。神經(jīng)網(wǎng)絡(luò)生成的語(yǔ)言模型稱(chēng)為神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,由文獻(xiàn)[8]提出。之后文獻(xiàn)[9]等對(duì)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型進(jìn)行了深入研究,其成果引起廣泛關(guān)注。文獻(xiàn)[9]構(gòu)建的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型如圖1所示,僅有一層隱藏層絡(luò),使用softmax計(jì)算詞序的概率,并通過(guò)隨機(jī)梯度上升法最大懲罰似然估計(jì)以訓(xùn)練網(wǎng)絡(luò)參數(shù)。

圖1 基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型

在文獻(xiàn)[9]的基礎(chǔ)上,文獻(xiàn)[10]從語(yǔ)料中自動(dòng)學(xué)習(xí)出詞的層次結(jié)構(gòu),并結(jié)合受限玻爾茲曼機(jī)提出了HLBL模型。文獻(xiàn)[11]又在文獻(xiàn)[10]的基礎(chǔ)上提出SENNA模型,通過(guò)對(duì)一個(gè)句子的合理性進(jìn)行打分以訓(xùn)練詞向量,在多項(xiàng)NLP任務(wù)上成功應(yīng)用。之后文獻(xiàn)[12]復(fù)現(xiàn)了HLBL模型和SENNA模型,并比較了二者的優(yōu)劣。文獻(xiàn)[13]在SENNA的基礎(chǔ)上,對(duì)每個(gè)詞向量的訓(xùn)練加入了相應(yīng)的全局信息,并用多個(gè)詞向量對(duì)應(yīng)一個(gè)詞以解決詞的多義性問(wèn)題。不同于其他人的工作,文獻(xiàn)[6]使用了循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)訓(xùn)練語(yǔ)言模型,并在2013年開(kāi)源word2vec。從HLBL模型開(kāi)始,研究語(yǔ)言模型的目的不再是獲得真正的語(yǔ)言模型而在于獲得可用的詞向量。

2.2 詞向量

詞向量通常指通過(guò)語(yǔ)言模型學(xué)習(xí)得到的詞的分布式特征表示,也被稱(chēng)為詞編碼,可以非稀疏的表示大規(guī)模語(yǔ)料中復(fù)雜的上下文信息。目前最為人所熟知的有以下6種公開(kāi)發(fā)布的詞向量:HLBL、SENNA、Turian’s、Huang’s、word2vec、Glove[14]。文獻(xiàn)[15]發(fā)現(xiàn)word2vec詞向量間具有語(yǔ)義上的聯(lián)系,即詞向量的加減存在明顯的語(yǔ)義關(guān)系,并在SemEval 2012 task上取得超過(guò)Turian詞向量的結(jié)果,證明了word2vec的高可用性。文獻(xiàn)[16]證明了當(dāng)word2vec詞向量使用skip-gram模型配合負(fù)采樣技術(shù)訓(xùn)練時(shí),與基于SVD的共現(xiàn)矩陣分解的詞向量具有相同的最優(yōu)解。同年文獻(xiàn)[14]提出了Glove詞向量,并證明基于矩陣的詞向量可以取得遠(yuǎn)比word2vec優(yōu)異的性能,但根據(jù)文獻(xiàn)[17]提出的測(cè)評(píng)指標(biāo)顯示word2vec在大部分測(cè)評(píng)指標(biāo)優(yōu)于Glove和SENNA。除了使用詞向量解決當(dāng)前自然語(yǔ)言測(cè)評(píng)任務(wù)外,也有許多學(xué)者對(duì)詞向量進(jìn)行了其他廣泛而深入地研究,如文獻(xiàn)[18]研究了語(yǔ)種的差異對(duì)詞向量的影響,文獻(xiàn)[19]就如何生成更好的詞向量進(jìn)行深入討論,文獻(xiàn)[20]利用詞向量計(jì)算了文檔的相似度。

3 深度神經(jīng)網(wǎng)絡(luò)模型

3.1 深度信念網(wǎng)絡(luò)和堆疊自編碼

深度信念網(wǎng)絡(luò)(deep belief nets, DBN)是由受限玻爾茲曼機(jī)(restricted Boltzmann machine, RBM)堆疊而生成的一種模型。DBN通過(guò)訓(xùn)練網(wǎng)絡(luò)的權(quán)重,使網(wǎng)絡(luò)具有還原輸入層訓(xùn)練數(shù)據(jù)的能力。DBN采用的訓(xùn)練步驟如下:

1) 當(dāng)前層RBM為可見(jiàn)層則接收原始數(shù)據(jù)輸入,否則接收上一層RBM的輸出,并訓(xùn)練當(dāng)前層RBM;

2) 網(wǎng)絡(luò)總層數(shù)滿足要求則執(zhí)行步驟4),否則置下一層RBM為當(dāng)前層;

3) 重復(fù)步驟1)和步驟2);

4) 微調(diào)網(wǎng)絡(luò),使用有監(jiān)督學(xué)習(xí)算法將模型收斂到局部最優(yōu)解。

文獻(xiàn)[21]討論了RBM和DBN網(wǎng)絡(luò)的層數(shù)設(shè)置、網(wǎng)絡(luò)泛化能力以及可能的擴(kuò)展,并使用自編碼器(auto-encoder, AE)取代DBN網(wǎng)絡(luò)中每一層的RBM,由此簡(jiǎn)單堆疊數(shù)個(gè)AE得到的神經(jīng)網(wǎng)絡(luò)在文獻(xiàn)[3]中被稱(chēng)為堆疊自編碼網(wǎng)絡(luò)(stacked auto-encoders, SAE)。目前SAE有兩種典型的改進(jìn):1) 在隱藏神經(jīng)元加入稀疏性限制,使網(wǎng)絡(luò)中大部分神經(jīng)元處于抑制狀態(tài),形成稀疏自編碼網(wǎng)絡(luò)[22];2) 在SAE網(wǎng)絡(luò)的編碼過(guò)程加入噪音,增加SAE網(wǎng)絡(luò)的抗噪性,形成堆疊降噪自編碼網(wǎng)絡(luò)[23]。SAE網(wǎng)絡(luò)由于強(qiáng)大的特征學(xué)習(xí)能力[24],被廣泛使用在多模態(tài)檢索[25]、圖像分類(lèi)[26]、情感分析[27]等諸多領(lǐng)域中。

3.2 循環(huán)神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短時(shí)記憶模型

循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks, RNN)是隱藏層和自身存在連接的一類(lèi)神經(jīng)網(wǎng)絡(luò)。相較于前饋神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)可將本次隱藏層的計(jì)算結(jié)果用于下次隱藏層的計(jì)算,因此可以用來(lái)處理時(shí)間序列問(wèn)題,比如文本生成[28]、機(jī)器翻譯[29]和語(yǔ)音識(shí)別[30]。循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)化算法為BPTT算法(backpropagation through time)[31]。由于梯度消失的原因,循環(huán)神經(jīng)網(wǎng)絡(luò)的反饋誤差往往只能向后傳遞5~10層,因此文獻(xiàn)[32]在循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上提出長(zhǎng)短時(shí)記憶模型(long-short term memory, LSTM)。LSTM使用Cell結(jié)構(gòu)記憶之前的輸入,使得網(wǎng)絡(luò)可以學(xué)習(xí)到合適的時(shí)機(jī)重置Cell結(jié)構(gòu)。LSTM有諸多結(jié)構(gòu)變體,文獻(xiàn)[33]給出了其中8種流行變體的比較。文獻(xiàn)[34]則在超過(guò)1萬(wàn)種循環(huán)網(wǎng)絡(luò)架構(gòu)上進(jìn)行了測(cè)試,發(fā)現(xiàn)并列舉在某些任務(wù)上可能比LSTM更好的架構(gòu)。

循環(huán)神經(jīng)網(wǎng)絡(luò)和LSTM具有許多NLP應(yīng)用。文獻(xiàn)[35]將門(mén)控循環(huán)網(wǎng)絡(luò)用于情感分析,在IMDB等影評(píng)數(shù)據(jù)集上較SVM和CNN方法在準(zhǔn)確率上有5%左右的提升。文獻(xiàn)[36]使用雙向LSTM網(wǎng)絡(luò)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)解決詞性標(biāo)注和命名實(shí)體識(shí)別問(wèn)題,分別取得97.55%和91.21%的最好結(jié)果。

3.3 遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)

圖2 遞歸神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖

隨機(jī)初始全局參數(shù),使用貪心算法,相鄰的葉子節(jié)點(diǎn)(或子樹(shù))兩兩合并成子樹(shù)并計(jì)算評(píng)分,取分最高者合并,直到最終形成句法樹(shù)。句法分析任務(wù)是有標(biāo)定的,即存在一個(gè)正確的句法樹(shù)構(gòu)造,因此訓(xùn)練目標(biāo)是優(yōu)化網(wǎng)絡(luò)參數(shù)使得整個(gè)網(wǎng)絡(luò)的評(píng)分損失最小。除了句法分析,遞歸神經(jīng)網(wǎng)絡(luò)還可用于關(guān)系分類(lèi)[38]和情感分析[39]中。

卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)是由文獻(xiàn)[40]提出并由文獻(xiàn)[41]改進(jìn)的深度神經(jīng)網(wǎng)絡(luò)。在一般前饋神經(jīng)網(wǎng)絡(luò)中,輸入層和隱藏層之間采用全連接結(jié)構(gòu),而在CNN中每一個(gè)卷積層節(jié)點(diǎn)只與一個(gè)固定大小的區(qū)域有連接,連接的權(quán)重矩陣稱(chēng)為卷積核。池化(pooling)是CNN所采用的另一項(xiàng)關(guān)鍵技術(shù),在固定大小的區(qū)域使用平均值或最大值代替原有的矩陣區(qū)域,既減少了特征數(shù)目又增加了網(wǎng)絡(luò)的魯棒性。

目前CNN在NLP領(lǐng)域的應(yīng)用有許多新的嘗試。文獻(xiàn)[6]將CNN用于語(yǔ)義角色標(biāo)注,文獻(xiàn)[42]使用字符作為語(yǔ)義特征,采用大規(guī)模文本語(yǔ)料訓(xùn)練CNN模型用于本體分類(lèi)、情感分析和文本分類(lèi),所用的CNN模型如圖3所示。

圖3 用于文本分類(lèi)的卷積網(wǎng)絡(luò)結(jié)構(gòu)圖

4 NLP應(yīng)用研究進(jìn)展

深度學(xué)習(xí)方法在諸多NLP領(lǐng)域中得到廣泛應(yīng)用。在機(jī)器翻譯領(lǐng)域,文獻(xiàn)[43]將DNN和詞編碼用于機(jī)器翻譯,困惑度下降15%。文獻(xiàn)[44]利用雙語(yǔ)詞向量作為特征,對(duì)應(yīng)的BLEU值提升了0.48。同時(shí)用于解決機(jī)器翻譯問(wèn)題(如詞語(yǔ)對(duì)齊[45]、語(yǔ)序問(wèn)題[46])的循環(huán)神經(jīng)網(wǎng)絡(luò)也被廣泛用于文本生成。文獻(xiàn)[28]只使用字符序列訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)文本生成器,效果接近加入了大量人工規(guī)則的文本生成系統(tǒng)。關(guān)于如何使用循環(huán)網(wǎng)絡(luò)生成文本,文獻(xiàn)[47-48]提供了豐富有趣的案例。近來(lái),關(guān)于圖片的解釋性文本生成也受到廣泛關(guān)注[49]。

詞性標(biāo)注、組塊分析、語(yǔ)義角色標(biāo)注和命名實(shí)體識(shí)別在SENNA系統(tǒng)[11]中給出了統(tǒng)一的解決框架,即基于詞向量特征的深度網(wǎng)絡(luò)判別模型。在此基礎(chǔ)上,文獻(xiàn)[50]將字符特征加入詞性標(biāo)注任務(wù)中,準(zhǔn)確率略有提升(0.3%)。組塊分析與詞性標(biāo)注任務(wù)類(lèi)似,算法準(zhǔn)確率的提升也已陷入瓶頸[51]。對(duì)于語(yǔ)義角色標(biāo)注任務(wù),文獻(xiàn)[52]提出使用半監(jiān)督學(xué)習(xí)訓(xùn)練詞編碼,有效地提升了準(zhǔn)確率。命名實(shí)體(人名、地名、時(shí)間和數(shù)字等的識(shí)別)是許多NLP應(yīng)用的基礎(chǔ),受到眾多學(xué)者關(guān)注。相較于傳統(tǒng)的特征工程方法[53],文獻(xiàn)[54]使用了詞和字符作為特征,并將LSTM與條件隨機(jī)場(chǎng)相結(jié)合,采用dropout策略,在實(shí)體識(shí)別上取得了更好的識(shí)別率。

在結(jié)構(gòu)句法分析上,文獻(xiàn)[55]對(duì)比了不同遞歸神經(jīng)網(wǎng)絡(luò)對(duì)結(jié)構(gòu)句法分析的影響,發(fā)現(xiàn)遞歸神經(jīng)網(wǎng)絡(luò)句法分析的最好效果也略遜于斯坦福大學(xué)的句法分析工具(Stanford Parser)。因此文獻(xiàn)[38]將Stanford Parser原理與遞歸神經(jīng)網(wǎng)絡(luò)相結(jié)合,使得算法準(zhǔn)確率進(jìn)一步提升(0.855~0.904)。至于文本分類(lèi)任務(wù),使用字符特征和詞編碼的卷積網(wǎng)絡(luò)[11]、基于張量組合的遞歸網(wǎng)絡(luò)模型[39]和基于樹(shù)形結(jié)構(gòu)的循環(huán)網(wǎng)絡(luò)模型[56]是當(dāng)前卓有成效的混合深度網(wǎng)絡(luò)。

機(jī)器問(wèn)答是一項(xiàng)極其困難的NLP任務(wù)。文獻(xiàn)[57]給出了使用神經(jīng)網(wǎng)絡(luò)求解機(jī)器問(wèn)答的一般流程。文獻(xiàn)[58]提出了記憶神經(jīng)網(wǎng)絡(luò),以經(jīng)過(guò)語(yǔ)義分析和人為篩選的先驗(yàn)事實(shí)文本為輸入,有監(jiān)督學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)權(quán)重。近年來(lái)針對(duì)圖像內(nèi)容的多模態(tài)問(wèn)答任務(wù)也受到了廣泛的關(guān)注[59]。

在國(guó)內(nèi),將深度學(xué)習(xí)方法應(yīng)用于NLP的研究也越來(lái)越多的受到學(xué)者的關(guān)注。文獻(xiàn)[60]將自適應(yīng)遞歸神經(jīng)網(wǎng)絡(luò)用于情感分析,文獻(xiàn)[61]將情感信息直接嵌入詞向量并用于情感分類(lèi),文獻(xiàn)[62]將DBN用于代詞指代消極。國(guó)內(nèi)研究團(tuán)隊(duì)也不約而同地使用深度學(xué)習(xí)解決NLP熱點(diǎn)問(wèn)題。華為諾亞方舟實(shí)驗(yàn)室將CNN用于機(jī)器翻譯[63]和多模態(tài)問(wèn)答[64]。微軟亞洲研究院致力于利用不同的深度網(wǎng)絡(luò)實(shí)現(xiàn)機(jī)器問(wèn)答、機(jī)器翻譯和聊天機(jī)器人[65-67]。清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室將深度學(xué)習(xí)方法用于機(jī)器翻譯,關(guān)系抽取以及知識(shí)的分布式表示中[68-70],蘇州大學(xué)自然語(yǔ)言組則側(cè)重于中文信息抽取和多語(yǔ)情感分析[71-72]。哈工大、中科院、北京大學(xué)等高校的自然語(yǔ)言組也屢次在國(guó)際會(huì)議上發(fā)表高水平學(xué)術(shù)論文[73-75],越來(lái)越多的中國(guó)學(xué)者對(duì)深度學(xué)習(xí)結(jié)合NLP領(lǐng)域的研究做出了卓越的貢獻(xiàn)。

5 結(jié)束語(yǔ)

盡管深度學(xué)習(xí)已經(jīng)在諸多應(yīng)用領(lǐng)域取得巨大成功,但深度學(xué)習(xí)作為一項(xiàng)正在蓬勃發(fā)展的新興技術(shù),仍然有許多研究難點(diǎn)需要攻克。其中最大的瓶頸在于,除了仿生學(xué)的角度,目前深度學(xué)習(xí)的理論依據(jù)還處于起步階段,大部分的研究成果都是經(jīng)驗(yàn)性的,沒(méi)有足夠的理論來(lái)指導(dǎo)實(shí)驗(yàn),研究者無(wú)法確定網(wǎng)絡(luò)架構(gòu)、超參數(shù)設(shè)置是否已是最優(yōu)的組合。除此之外,目前仍沒(méi)一種通用的深度網(wǎng)絡(luò)或?qū)W習(xí)策略可以適用于大多數(shù)的應(yīng)用任務(wù),因此深度學(xué)習(xí)領(lǐng)域的研究者正在不斷嘗試新的網(wǎng)絡(luò)架構(gòu)和學(xué)習(xí)策略,以提升網(wǎng)絡(luò)的泛化性能。

目前,深度學(xué)習(xí)用于NLP領(lǐng)域的主要步驟可以歸結(jié)為如下3步:1) 將原始文本作為輸入,自學(xué)習(xí)得到文本特征的分布表示。2) 將分布式向量特征作為深度神經(jīng)網(wǎng)絡(luò)的輸入。3) 針對(duì)不同的應(yīng)用需求,使用不同的深度學(xué)習(xí)模型,有監(jiān)督的訓(xùn)練網(wǎng)絡(luò)權(quán)重。目前深度學(xué)習(xí)結(jié)合NLP的應(yīng)用前景及其廣泛。深度學(xué)習(xí)模型在文法分析和信息抽取等研究的基礎(chǔ)上,被靈活地運(yùn)用在多語(yǔ)言機(jī)器翻譯、機(jī)器問(wèn)答、多模態(tài)應(yīng)用、聊天機(jī)器人等一系列自然語(yǔ)言任務(wù)上。

然而深度學(xué)習(xí)在NLP研究上尚未取得像語(yǔ)音識(shí)別和計(jì)算機(jī)視覺(jué)那樣巨大的成功。本文認(rèn)為深度學(xué)習(xí)方法在NLP應(yīng)用上的難點(diǎn)和可能的突破統(tǒng)一于以下4個(gè)方面:1) 可廣泛適用于不同NLP任務(wù)的通用語(yǔ)義特征。2) 超參數(shù)設(shè)置相關(guān)研究。3) 新型網(wǎng)絡(luò)架構(gòu)和學(xué)習(xí)策略的提出和研究(如注意力模型[76])。4) 基于自然語(yǔ)言的邏輯推理和多模態(tài)應(yīng)用。前者將提升機(jī)器的“智能”,后者擴(kuò)展“智能”的應(yīng)用領(lǐng)域。

綜上,本文認(rèn)為深度學(xué)習(xí)方法在NLP領(lǐng)域已經(jīng)有許多很有價(jià)值的嘗試,在不久的將來(lái),將取得更大的成功。但未來(lái)依舊充滿了挑戰(zhàn),值得更多的研究者進(jìn)行廣泛而深入地研究。

[1] LANDAHL H D, MCCULLOCH W S, PITTS W. A statistical consequence of the logical calculus of nervous nets[J]. Bulletin of Mathematical Biology, 1943, 5(4): 135-137.

[2] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.

[3] BENGIO Y, LAMBLIN P, POPOVICI D, et al. Greedy layer-wise training of deep networks[C]//Proceedings of NIPS. Vancouver, Canada: MIT Press, 2007:153-160.

[4] MATSUGU M, MORI K, MITARI Y, et al. Subject independent facial expression recognition with robust face detection using a convolutional neural network[J]. Neural Networks, 2003, 16(5): 555-559.

[5] 余凱, 賈磊, 陳雨強(qiáng), 等. 深度學(xué)習(xí)的昨天、今天和明天[J]. 計(jì)算機(jī)研究與發(fā)展, 2013, 9: 1799-1804.

YU Kai, JIA Lei, CHEN Yu-qiang, et al. Deep learning: Yesterday, today, and tomorrow[J]. Journal of Computer Research and Development, 2013, 9: 1799-1804.

[6] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[C]// Proceedings of ICLR. Scottsdale, Arizona, USA: arXiv Press, 2013: 1301.3781.

[7] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.

[8] XU W, RUDNICKY A I. Can artificial neural networks learn language models?[C]//Proceedings of International Conference on Speech and Language Processing. Beijing, China: Speech Communication Press. 2000.

[9] BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3: 1137-1155.

[10] MNIH A, HINTON G E. A scalable hierarchical distributed language model[C]//Proceedings of NIPS. New York: Curran Associates Inc, 2008.

[11] COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch[J]. The Journal of Machine Learning Research, 2011, 12: 2493-2537.

[12] TURIAN J, RATINOV L, BENGIO Y. Word representations: a simple and general method for semi- supervised learning[C]//Proceedings of ACL. Uppsala, Sweden: ACL Press, 2010: 384-394.

[13] HUANG E H, SOCHER R, MANNING C D, et al. Improving word representations via global context and multiple word prototypes[C]//Proceedings of ACL. Jeju, Korea: ACL Press, 2012: 873-882.

[14] PENNINGTON J, SOCHER R, MANNING C D. Glove: Global vectors for word representation[C]//Proceedings of EMNLP. Doha, Qatar: ACL Press, 2014, 14: 1532-1543.

[15] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of NIPS. Nevada, USA: MIT Press, 2013: 3111-3119.

[16] LEVY O, GOLDBERG Y. Neural word embedding as implicit matrix factorization[C]//Proceedings of NIPS. Montreal, Quebec: MIT Press, 2014: 2177-2185.

[17] SCHNABEL T, LABUTOV I, MIMNO D, et al. Evaluation methods for unsupervised word embeddings[C]// Proceedings of EMNLP. Lisbon, Portugal: ACL Press, 2015.

[18] AL-RFOU R, PEROZZI B, SKIENA S. Polyglot: Distributed word representations for multilingual nlp[C]// Proceedings of CoNLL. Sofia, Bulgaria: ACL Press, 2013: 183.

[19] LAI S, LIU K, XU L, et al. How to generate a good word embedding?[J]. IEEE Intelligent Systems, 2016, 31(6): 5-14.

[20] KUSNER M, SUN Y, KOLKIN N, et al.From word embeddings to document distances[C]//Proceedings of ICML. Lille, France: Omni Press, 2015: 957-966.

[21] Le ROUX N, BENGIO Y. Representational power of restricted Boltzmann machines and deep belief networks[J]. Neural Computation, 2008, 20(6): 1631-1649.

[22] LEE H, EKANADHAM C, NG A Y. Sparse deep belief net model for visual area V2[C]//Proceedings of NIPS. New York, USA: ACM Press, 2008: 873-880.

[23] VINCENT P, LAROCHELLE H, BENGIO Y, et al. Extracting and composing robust features with denoising autoencoders[C]//Proceedings of ICML. New York, USA: ACM Press, 2008: 1096-1103.

[24] GEHRING J, MIAO Y, METZE F, et al. Extracting deep bottle-neck features using stacked auto-encoders[C]// Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, BC, Canada: IEEE, 2013: 3377-3381.

[25] WANG W, OOI B C, YANG X, et al. Effective multi- modal retrieval based on stacked auto-encoders[J]. Proceedings of the Vldb Endowment, 2014, 7(8): 649-660.

[26] XIE J, XU L, CHEN E. Image denoising and inpainting with deep neural networks[C]//Proceedings of NIPS. Nevada, USA: MIT Press, 2012: 341-349.

[27] GLOROT X, BORDES A, BENGIO Y. Domain adaptation for large-scale sentiment classification: a deep learning approach[C]//Proceedings of ICML. Bellevue, Washington, USA: ACM Press, 2011: 513-520.

[28] SUTSKEVER I, MARTENS J, HINTON G E. Generating text with recurrent neural networks[C]//Proceedings of ICML. Bellevue, Washington, USA: ACM Press, 2011, 1017-1024.

[29] CHO K, VAN MERRI?NBOER B, GULCEHRE C, et al. Learning phrase representations using rnn encoder-decoder for statistical machine translation[C]//Proceedings of EMNLP Processing. Doha, Qatar: ACL Press, 2014: 1724- 1734.

[30] GRAVES A, JAITLY N. Towards end-to-end speech recognition with recurrent neural networks[C]//Proceedings of ICML. Bejing, China: [s.n.], 2014: 1764-1772.

[31] WERBOS P J. Backpropagation through time: What it does and how to do it[J]. Proceedings of the IEEE, 1990, 78(10): 1550-1560.

[32] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.

[33] GREFF K, SRIVASTAVA R K, KOUTNíK J, et al. LSTM: a search space odyssey[J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 99: 1-11.

[34] JOZEFOWICZ R, ZAREMBA W, SUTSKEVER I. An empirical exploration of recurrent network architectures [C]//Proceedings of ICML. Lille, France: Omni Press, 2015: 2342-2350.

[35] TANG D, QIN B, LIU T. Document modeling with gated recurrent neural network for sentiment classification[C]// Proceedings of EMNLP. Lisbon, Portugal: ACL Press, 2015:1422-1432.

[36] MA X, HOVY E. End-to-end sequence labeling via bi-directional lstm-cnns-crf[C]//Proceedings of ACL. Berlin, Germany: ACL Press, 2016:1064-1074.

[37] LIU S, YANG N, LI M, et al. A recursive recurrent neural network for statistical machine translation[C]//Proceedings of EMNLP. Doha, Qatar: ACL Press, 2014: 1491-1500.

[38] SOCHER R, HUVAL B, MANNING C D, et al. Semantic compositionality through recursive matrix-vector spaces [C]//Proceedings of the EMNLP-CoNLL. Jeju Island, Korea: ACL Press, 2012: 1201-1211.

[39] SOCHER R, CHEN D, MANNING C D, et al. Reasoning with neural tensor networks for knowledge base completion[C]//Proceedings of Advances in Neural Information Processing Systems. Nevada, USA: MIT Press, 2013: 926-934.

[40] FUKUSHIMA K. Neocognitron: a self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position[J]. Biological Cybernetics, 1980, 36(4): 193-202.

[41] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

[42] ZHANG X, ZHAO J, LECUN Y. Character-level convolutional networks for text classification[C]// Proceedings of NIPS. Montreal, Quebec, Canada: MIT Press, 2015: 649-657.

[43] SCHWENK H. Continuous space translation models for phrase-based statistical machine translation[C]// Proceedings of COLING. Mumbai, India: ACL Press, 2012: 1071-1080.

[44] ZOU W Y, SOCHER R, CER D, et al. Bilingual word embeddings for phrase-based machine translation[C]// Proceedings of EMNLP. Seattle, USA: ACL Press, 2013: 1393-1398.

[45] YANG N, LIU S, LI M, et al. Word alignment modeling with context dependent deep neural network[C]// Proceedings of ACL. Sofia, Bulgaria: ACL Press, 2013: 166-175.

[46] ZHANG J, LIU S, LI M, et al. Mind the gap: Machine translation by minimizing the semantic gap in embedding space[C]//AAAI Conference on Artificial Intelligence. Québec, Canada: AAAI Press, 2014.

[47] KARPATHY A. The unreasonable effectiveness of recurrent neural networks[EB/OL]. [2015-05-21]. https:// karpathy.github.io/2015/05/21/rnn-effectiveness/.

[48] 鄭煒秩. 讓神經(jīng)網(wǎng)絡(luò)會(huì)做唐詩(shī)[EB/OL]. [2016-02-01]. http://zhengwy.com/neural-network-for-tangshi/.

ZHENG Wei-Zhi. Let the neural network write poetry of Tang Dynasty[EB/OL]. [2016-02-01]. http://zhengwy.com/ neural-network-for-tangshi/.

[49] KARPATHY A, LI Fei-fei. Deep visual-semantic alignments for generating image descriptions[C]// Proceedings of CVPR. Boston, USA: IEEE, 2015.

[50] SANTOS C D, ZADROZNY B. Learning character-level representations for part-of-speech tagging[C]//Proceedings of ICML. Beijing, China, 2014: 1818-1826.

[51] DAHL G E, ADAMS R P, LAROCHELLE H. Training restricted boltzmann machines on word observations[C]// Proceedings of ICML. Edinburgh, UK: Omni Press, 2012: 679-686.

[52] WESTON J, RATLE F, MOBAHI H, et al. Deep learning via semi-supervised embedding[M]//Neural Networks: Tricks of the Trade. [S.l.]: Springer Heidelberg, 2012: 639-655.

[53] TKACHENKO M, SIMANOVSKY A. Named entity recognition: Exploring features[C]//Proceeding of KONVENS. Vienna, Austria: Wien, 2012: 118-127.

[54] LAMPLE G, BALLESTEROS M, SUBRAMANIAN S, et al. Neural architectures for named entity recognition[C]// Proceedings of NAACL. San Diego, USA: ACL Press, 2016: 260-270.

[55] SOCHER R, MANNING C D, NG A Y. Learning continuous phrase representations and syntactic parsing with recursive neural networks[C]//Proceedings of the NIPS-2010 Deep Learning and Unsupervised Feature Learning Workshop. British Columbia, Canada: MIT Press, 2010: 2550-2558.

[56] TAI K S, SOCHER R, MANNING C D. Improved semantic representations from tree-structured long short-term memory networks[C]//Proceedings of ACL. Beijing, China: ACL Press, 2015: 1556-1566.

[57] SAGARA T, HAGIWARA M. Natural language neural network and its application to question-answering system[J]. Neurocomputing, 2014, 142: 201-208.

[58] WESTON J, CHOPRA S, BORDES A. Memory networks [C]//Proceedings of ICLR.San Diego, California, USA: arXiv Press, 2015.

[59] ANDREAS J, ROHRBACH M, DARRELL T, et al. Learning to compose neural networks for question answering[C]//Proceedings of NAACL-HLT. San Diego California, USA: ACL Press, 2016: 1545-1554.

[60] DONG L, WEI F, ZHOU M, et al. Adaptive multicomposit-ionality for recursive neural models with applications to sentiment analysis[C]//AAAI Conference on Artificial Intelligence. Québec, Canada: AAAI Press, 2014: 1537-1543.

[61] TANG D, WEI F, QIN B, et al. Coooolll: a deep learning system for Twitter sentiment classification[C]//Proceedings of the 8th International Workshop on Semantic Evaluation. Dublin, Ireland: ACL Press, 2014: 208-212.

[62] 奚雪峰, 周?chē)?guó)棟. 基于deep learning的代詞指代消解[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版), 2014, 50(1): 100-110.

XI Xue-feng, ZHOU Guo-dong. Pronoun resolution based on deep learning[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2014, 50(1): 100-110.

[63] MENG F, LU Z, WANG M, et al. Encoding source language with convolutional neural network for machine translation[C]//Proceedings of ACL. Beijing, China: ACL Press, 2015.

[64] MA L, LU Z, LI H. Learning to answer questions from image using convolutional neural network[C]//AAAI Conference on Artificial Intelligence. Phoenix, USA: [s.n.], 2016.

[65] DONG L, WEI F, ZHOU M, et al. Question answering over freebase with multi-column convolutional neural networks[C]//Proceedings of ACL. Beijing, China: ACL Press, 2015: 260-269.

[66] FENG S, LIU S, YANG N, et al. Improving attention modeling with implicit distortion and fertility for machine translation[C]//Proceedings of COLING. Osaka, Japan: ACL Press, 2016: 3082-3092.

[67] YAN Z, DUAN N, BAO J, et al. DocChat: an information retrieval approach for chatbot engines using unstructured documents[C]//Proceedings of ACL. Berlin, Germany: ACL Press, 2016: 516-525.

[68] CHENG Y, XU W, HE Z, et al. Semi-supervised learning for neural machine translation[C]//Proceedings of ACL. Berlin, Germany: ACL Press, 2016:1965-1974.

[69] LIN Y, SHEN S, LIU Z, et al. Neural relation extraction with selective attention over instances[C]//Proceedings of ACL. Berlin, Germany: ACL Press, 2016, 1: 2124-2133.

[70] 劉知遠(yuǎn), 孫茂松, 林衍凱, 等. 知識(shí)表示學(xué)習(xí)研究進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 2: 247-261.

LIU Zhi-yuan, SUN Mao-song, LIN Yan-kai, et al. Knowledge representation learning: a review[J]. Journal of Computer Research and Development, 2016, 2: 247-261.

[71] LI P, ZHOU G. Joint argument inference in Chinese event extraction with argument consistency and event relevance[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(4): 612-622.

[72] WANG Z, ZHANG Y, LEE S Y M, et al. A bilingual attention network for code-switched emotion prediction [C]//Proceedings of COLING. Osaka, Japan: ACL Press, 2016: 1624-1634.

[73] GUO J, CHE W, WANG H, et al. Revisiting embedding features for simple semi-supervised learning[C]// Proceedings of EMNLP. Doha, Qatar: ACL Press, 2014: 110-120.

[74] LI X, ZHANG J, ZONG C. Towards zero unknown word in neural machine translation[C]//Proceedings of IJCAI. New York, USA: AAAI Press, 2016: 2852-2858.

[75] PEI W, GE T, CHANG B. An effective neural network model for graph-based dependency parsing[C]// Proceedings of ACL. Beijing, China: ACL Press, 2015.

[76] BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[C]// International Conference on Learning Representations. San Diego, California, USA: arXiv Press, 2015: 1409.0473V7.

編 輯 葉 芳

Deep Learning in NLP: Methods and Applications

LIN Yi-ou, LEI Hang, LI Xiao-yu, and WU Jia

(School of Information and Software Engineering, University of Electronic Science and Technology of China Chengdu 610054)

With the rise of deep learning waves, the full force of deep learning methods has hit the Natural Language Process (NLP) and ushered in amazing technological advances in many different application areas of NLP. In this article, we firstly present the development history, main advantages and research situation of deep learning. Secondly, in terms of both feature representation and model theory, we introduces the neural language model and word embedding as the entry point, and present an overview of modeling and implementations of Deep Neural Network (DNN). Then we focus on the newest deep learning models with their wonderful and competitive performances related to different NLP tasks. At last, we discuss and summarize the existing problems of deep learning in NLP with the possible future directions.

deep learning; deep neural networks; language models; nature language process; word embedding

TP391

A

10.3969/j.issn.1001-0548.2017.06.021

2016-07-04;

2017-03-27

國(guó)家自然科學(xué)基金(61502082);中央高校基本科研業(yè)務(wù)費(fèi)(ZYGX2014J065)

林奕歐(1991-),男,博士生,主要從事自然語(yǔ)言處理和深度學(xué)習(xí)方面的研究.

猜你喜歡
向量神經(jīng)網(wǎng)絡(luò)深度
向量的分解
聚焦“向量與三角”創(chuàng)新題
深度理解一元一次方程
神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
深度觀察
深度觀察
深度觀察
向量垂直在解析幾何中的應(yīng)用
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
棋牌| 海阳市| 门头沟区| 莫力| 灌阳县| 达拉特旗| 铜陵市| 比如县| 贺兰县| 安丘市| 郴州市| 五家渠市| 岱山县| 德保县| 水富县| 买车| 教育| 曲靖市| 洞口县| 中江县| 万宁市| 柘城县| 双辽市| 丰镇市| 景洪市| 永嘉县| 错那县| 定远县| 裕民县| 井冈山市| 哈密市| 舟山市| 福清市| 清水县| 永和县| 镇平县| 武鸣县| 嘉义市| 金沙县| 保康县| 凉城县|