鮑舒恬
(北京語言大學(xué)信息科學(xué)學(xué)院,北京,100083)
目前,基于深度學(xué)習(xí)技術(shù)而面向自然語言的處理任務(wù)為該領(lǐng)域提供了許多新的研究思路與方向。自然語言處理技術(shù)作為一種交叉學(xué)科出現(xiàn),研究中既包含有最主要的計算機科學(xué),同時也涉及到人工智能學(xué)、語言學(xué)以及心理學(xué)、邏輯學(xué)等重要領(lǐng)域。在研究方面,人工智能為了能夠?qū)ψ匀徽Z言進行處理,必須具備實體識別、機器翻譯、詞性標注等能力,因此需要選用專門的深度學(xué)習(xí)方法。
前饋神經(jīng)網(wǎng)絡(luò)(Feed Forward Neural Network,FNN)又被稱為多層感知機模型,這種神經(jīng)網(wǎng)絡(luò)模型主要應(yīng)用于多任務(wù)環(huán)境之中。但是隨著處理環(huán)境的復(fù)雜化,模型內(nèi)部結(jié)構(gòu)的復(fù)雜程度也逐漸提高,很可能導(dǎo)致神經(jīng)網(wǎng)絡(luò)訓(xùn)練困難。而在圖形處理技術(shù)的突破下,前饋神經(jīng)網(wǎng)絡(luò)被再次提起,且開始廣泛應(yīng)用于自然語言處理。在計算機技術(shù)領(lǐng)域,前饋神經(jīng)網(wǎng)絡(luò)當中的反向傳播算法(Back Propaganda)能夠在深度學(xué)習(xí)過程中對不同層級之間存在的錯誤驅(qū)動進行優(yōu)化,最終完成對網(wǎng)絡(luò)參數(shù)的調(diào)整。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為一種FNN已成為了主流模型之一,相較于其他模型它可以使用卷積核來擴展描述空間,增加模型深度,并且訓(xùn)練過程中所需要調(diào)整的參數(shù)也較少,進行自然語言處理時,通常將文本中的句子向量化為矩陣,卷積后得到句向量特征。
在技術(shù)的發(fā)展中前饋神經(jīng)網(wǎng)絡(luò)受到技術(shù)制約形成瓶頸,導(dǎo)致其只能單獨處理一個輸入。為了提高神經(jīng)網(wǎng)絡(luò)的處理系列數(shù)據(jù)的能力,技術(shù)人員希望通過遞歸神經(jīng)網(wǎng)絡(luò)(Recurent Neural Network,RNN)來對時間遞歸結(jié)構(gòu)進行表達,從而使數(shù)據(jù)學(xué)習(xí)能夠擁有明確的時間序列關(guān)系,同時使訓(xùn)練模型擁有記憶性,將前后的輸入關(guān)聯(lián)起來。在RNN當中,為了能夠完成深度學(xué)習(xí)的建模,需要通過包含三個隱含層的神經(jīng)網(wǎng)絡(luò)進行模型組建。在時序信息方面,不同的時刻都可以依照隱含層當中所含有的激活值(Activation)進行遞歸,從而形成具有輸入層到隱含層連接權(quán)的權(quán)值參數(shù)矩陣,并能夠計算得出偏置向量(Bias Vector)以及激活函數(shù)(activation function)[1]。根據(jù)RNN的特征,可以實現(xiàn)損失函數(shù)的時域反向傳播,最終再借助低度下降發(fā)完成學(xué)習(xí)網(wǎng)絡(luò)參數(shù)的確定。這種神經(jīng)網(wǎng)絡(luò)方法在元模型學(xué)習(xí)、機器翻譯以及語義標注方面,均有著良好的效果。
不過普通的 RNN在實際應(yīng)用中經(jīng)常因為無法處理遠距離依賴而導(dǎo)致訓(xùn)練效果不佳,而長短時記憶網(wǎng)絡(luò)(Long Short Term Memory Network, LSTM)則解決了這一缺陷。但是這種改進使得LSTM的模型變得十分復(fù)雜,于是GRU(Gated Recurrent Unit)隨之被提出,這是一種RNN的變體,它簡化了LSTM模型且能達到較好的自然語言處理效果,因此被廣泛應(yīng)用。
在人工智能神經(jīng)網(wǎng)絡(luò)的自然語言處理技術(shù)研究中,通過神經(jīng)網(wǎng)絡(luò)的方式對文本稀疏性較小的大規(guī)模語料進行分析,從而獲取復(fù)雜的上下文關(guān)系時一種具有分布式特征的詞編碼技術(shù),這種技術(shù)被稱為神經(jīng)網(wǎng)絡(luò)中的“詞向量”,用來進行分詞工作,這在自然語言處理中是極為重要的準備工作之一。在技術(shù)研究領(lǐng)域,目前廣為人所知的詞向量主要有g(shù)love詞向量、word2vec詞向量、HLBL詞向量以及SENNA詞向量等。在相關(guān)的研究中,研究人員發(fā)現(xiàn),不同的詞向量規(guī)則具有不同的特點。例如word2vec詞向量中,詞向量之間具有語義上的聯(lián)系,表現(xiàn)為詞向量之間的加減關(guān)系,這種關(guān)系的存在使其具有高科用量。相較于前者,于2014年所提出的glove詞向量通過矩陣的方式實現(xiàn)更為優(yōu)異的性能,除了能夠使測評指標更具優(yōu)勢之外,還能夠解決諸多自然語言的測評任務(wù)。
在現(xiàn)階段的深度學(xué)習(xí)模型建構(gòu)中,通常采用Nivre分析方法作為主要的確定性分析方法,這種分析方法能夠通過對自然語言進行特征提取的方式進行分類,而其所提取的數(shù)據(jù)則能夠表示當前文本上下文的依存關(guān)系,進而完成句法分析。依據(jù)Nivre分析方法,本文在進行模型建設(shè)時采用了三元組的方式對分析過程格局進行表示。三元組主要包含有堆棧、節(jié)點序列以及依存弧集合三個部分,分別以字母S、I、A進行表示。在分析動作中,通過模型的特征向量進行三元組特征的提取能夠?qū)崿F(xiàn)句法分析,最終實現(xiàn)分析決策。在三元組信息當中,需要包含以下幾個方面的信息內(nèi)容。
首先,三元組應(yīng)當包含有詞信息。無論是堆棧還是節(jié)點序列緩存,其內(nèi)部都包含有大量的詞信息,這些詞信息可能已被處理,也可能尚未進行處理。同時詞帶有的特征十分明顯,因此在對模型潛入之前,這類詞往往需要通過稀疏的方式進行表達,但在完成了潛入之后,詞所擁有的特征則以稠密的方式進行表述,即Dense Representation;其次,在詞內(nèi)部還具有一定量的詞性信息,這種詞性信息在模型中與前者的保持一一對應(yīng),從而實現(xiàn)每一個詞都擁有一個相對固定的對應(yīng)詞性;最后,在三元組當中還應(yīng)具有依存弧信息,這種信息的主要功能在于對已經(jīng)完成處理的詞信息進行依存關(guān)系的表現(xiàn)。
通過這些信息,可以使三元組得到重新組合,并擁有二階特征(Second Order),使得不同的詞的特征在進行模型組合時更加具有效率。與傳統(tǒng)的句法分析方式不同,在應(yīng)用了三元組的神經(jīng)網(wǎng)絡(luò)模型中,詞的不同類型能夠?qū)崿F(xiàn)彼此之間的相互組合,并且這種組合方式能夠作用于不同的層級之中。
在應(yīng)用于自然語言處理的神經(jīng)網(wǎng)絡(luò)模型當中,人工智能可以實現(xiàn)非線性函數(shù)狀態(tài)下的語言特征組合,而為了能夠使神經(jīng)網(wǎng)絡(luò)三元組的特征表現(xiàn)出來,在模型當中需要依托多層級的方式進行提取特征的分類訓(xùn)練。本文在進行研究時發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)模型可以分為輸入層、嵌入層以及隱含層和softmax層等四個層級[2]。
其中,輸入層是整個神經(jīng)網(wǎng)絡(luò)模型的第一個層級,其主要的功能在與對已經(jīng)完成構(gòu)建的分析格局三元組進行處理,從而使神經(jīng)網(wǎng)絡(luò)能夠獲取其內(nèi)部的元特征(Atomic Feature)內(nèi)容;嵌入層則是輸入層之后的處理層級,這一個層級當中,要由與三元組中各個特征相對應(yīng)的子嵌入層組成,各個子嵌入層彼此獨立,且負責(zé)對詞信息、詞性和依存弧特征進行獲取,最終完成三元組特征中離散稀疏到稠密的轉(zhuǎn)換;隱含層則需要對嵌入層當中完成轉(zhuǎn)換的稠密特征進行處理,使其能夠進行非線性的變換;而softmax層則在隱含層之后,對自然語言的非線性轉(zhuǎn)換結(jié)果進行分類和預(yù)測,從而保證神經(jīng)網(wǎng)絡(luò)能夠完成對于自然語言處理的訓(xùn)練。
在理論研究中,研究人員發(fā)現(xiàn),通過對既有的受限玻爾茲曼機(Restricted Boltzmann Machine)進行堆疊,可以形成全新的訓(xùn)練模型。這種模型被稱為深度信念網(wǎng)絡(luò)模型(Deep Belief Nets),該模型在應(yīng)用中能夠依托網(wǎng)絡(luò)訓(xùn)練權(quán)重,對輸入層的數(shù)據(jù)進行還原訓(xùn)練。在開展訓(xùn)練時,深度信念網(wǎng)絡(luò)模型依據(jù)可見層RBM進行原始數(shù)據(jù)的輸入,使原始的語言數(shù)據(jù)能夠在層級內(nèi)部進行處理。隨后,深度信念網(wǎng)絡(luò)模型會對其內(nèi)部的層級數(shù)量進行檢驗,確認層級數(shù)量是否能夠滿足執(zhí)行步驟,如果無法滿足執(zhí)行步驟,則需要重新進行原始數(shù)據(jù)獲取,直到滿足為止。在毛南族層級數(shù)量滿足執(zhí)行步驟需求后,深度信念網(wǎng)絡(luò)則對內(nèi)部層級進行微調(diào),從而使深度學(xué)習(xí)算法模型能夠?qū)崿F(xiàn)有效收斂,最終獲得局部最優(yōu)解[3]。在研究領(lǐng)域,有研究專家指出了深度學(xué)習(xí)方法在深度信念網(wǎng)絡(luò)之中的層數(shù)設(shè)置方式。層數(shù)設(shè)置可以通過自編碼器來完成,從而實現(xiàn)網(wǎng)絡(luò)的泛化和拓展。自編碼器能夠取代網(wǎng)絡(luò)模型中的每一層的RBM,從而實現(xiàn)簡單的堆疊,這種堆疊能偶成為堆疊式的自編碼網(wǎng)格(Stacked Auto Encoders)。這種網(wǎng)格編碼方式是神經(jīng)網(wǎng)絡(luò)中對于自然語言的稀疏特性的一種獨特的隱藏方式。借助神經(jīng)元的抑制狀態(tài)可以實現(xiàn)稀疏自編碼網(wǎng)格。在實踐應(yīng)用中發(fā)現(xiàn),這種網(wǎng)格化能夠具有對自然語言特征的學(xué)習(xí)能力,最終實現(xiàn)廣泛的多模態(tài)檢索。
綜上所述,人工智能的深度學(xué)習(xí)是一項蓬勃發(fā)展的新技術(shù),不過在目前階段,對于自然語言的處理尚有許多亟待突破的技術(shù)瓶頸,等待技術(shù)發(fā)展予以攻克。在神經(jīng)網(wǎng)絡(luò)的研究中,仿生學(xué)對于深度學(xué)習(xí)的模擬仍然處于起步階段,其諸多結(jié)果都是具有試驗性的,需要依托未來的技術(shù)發(fā)展予以提升。
[1]吳稟雅, 魏苗.從深度學(xué)習(xí)回顧自然語言處理詞嵌入方法[J].電腦知識與技術(shù), 2016, 12(36): 184-185.
[2]趙棟材, 周雁.基于深度學(xué)習(xí)的電子文本自然語言處理系統(tǒng)[J].電子技術(shù)與軟件工程, 2018, (03): 180.
[3]陳利民, 王金芳.學(xué)生深度學(xué)習(xí)源于教學(xué)環(huán)節(jié)的優(yōu)化[J].教育, 2017,(52): 16-18.
[4]奚雪峰, 周國棟.面向自然語言處理的深度學(xué)習(xí)研究[J].自動化學(xué)報,2016, 4210: 1445-1465.
[5]樂明, 孫博洋.自然語言形式分析的作用和前景——兼評《自然語言計算機形式分析的理論與方法》[J].外語電化教學(xué), 2017, 06: 89-96.