沈煒域
摘 要:有別于RNN和CNN,動態(tài)路由與注意力機制為捕捉文本序列的長程和局部依賴關(guān)系提供了新思路。為更好地進行文本編碼,盡可能多地保留文本特征、增加特征多樣性,基于動態(tài)路由與注意力機制的思想,整合膠囊網(wǎng)絡(luò)和自注意力網(wǎng)絡(luò)的語言信息特征抽取能力,構(gòu)建一種深度網(wǎng)絡(luò)模型CapSA,并通過3種不同領(lǐng)域的文本分類實驗驗證模型效果。實驗結(jié)果顯示,相較于幾種基于RNN或CNN的模型,基于CapSA模型的文本分類模型取得了更高的F1值,表明該模型具有更好的文本建模能力。
關(guān)鍵詞:膠囊網(wǎng)絡(luò);動態(tài)路由;注意力機制;文本建模
DOI:10. 11907/rjdk. 182730
中圖分類號:TP301文獻標識碼:A文章編號:1672-7800(2019)001-0056-05
Abstract: Compared with RNN and CNN, dynamic routing and attention mechanism provide some new ways to capture the long-term and local dependencies. Based on the ideas of dynamic routing and self-attention, this paper proposed CapSA(Capsule-Self-Attention), a deep neural network, to better model text sequences, retain features as many as possible and increase the diversity of features. This paper verified the effectiveness of the proposed model by text classification experiments in different fields. The results show that the text classification model based on CapSA gained higher F1-score than several strong models based on RNN and CNN, indicating that CapSA has better text modeling performance.
0 引言
在將文本轉(zhuǎn)化為向量表示的過程中需對文章或句子建模,這是許多自然語言處理的重要步驟。好的文本建模不僅需提取足夠充分且最有類別代表性的文本特征,還應(yīng)能編碼上下文的依賴關(guān)系。傳統(tǒng)自然語言處理中的文本建模方式如n-gram,需占用大量內(nèi)存空間。而近來神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于文本表示學(xué)習(xí)。這些方法基本上以詞嵌入表示作為輸入,利用RNN[1]或CNN[2]產(chǎn)生上下文有關(guān)的文本表示,最后通過一定的操作,如池化等,將變長文本轉(zhuǎn)化為定長向量。從2017年開始,許多工作使用自注意力機制[3-4]學(xué)習(xí)文本表示。自注意力機制可以不考慮詞之間的距離、直接計算依賴關(guān)系,與RNN、CNN等配合使用,學(xué)習(xí)一個句子的內(nèi)部結(jié)構(gòu)。自注意力網(wǎng)絡(luò)甚至可脫離CNN和RNN,單獨作為一個網(wǎng)絡(luò)層,出色地解決NLP領(lǐng)域的任務(wù)。
為在文本建模過程中保留更多文本的局部依賴關(guān)系、特征等變性及詞之間、特征與詞之間的相對信息,本文借鑒動態(tài)路由[5]與注意力機制的思想,構(gòu)建一種深度網(wǎng)絡(luò)模型CapSA對文本進行建模。該網(wǎng)絡(luò)主要包括多尺寸多層卷積的膠囊網(wǎng)絡(luò)與自注意力網(wǎng)絡(luò),兩部分網(wǎng)絡(luò)同時對文本序列進行編碼。為驗證模型有效性,本文在文本分類任務(wù)中使用該模型進行文本建模,并在3種數(shù)據(jù)集上對比該網(wǎng)絡(luò)模型和多種基于CNN或RNN模型的分類效果。
1 相關(guān)研究
1.1 表示學(xué)習(xí)
表示學(xué)習(xí)是人工智能和自然語言處理中十分重要的任務(wù)。主流文本表示學(xué)習(xí)方法可分為4種類型:①詞袋模型。該模型不考慮文本詞序,比較成功的應(yīng)用有深度平均網(wǎng)絡(luò)[6]、自編碼器[7],如Mikolov等提出的fastText[8]可在10min內(nèi)完成10億級詞匯量的文本分類任務(wù);② 序列表示模型。該模型通過CNN[9-10]或RNN捕捉詞序特征,但沒有利用文本結(jié)構(gòu)特征。LeCun等提出一種29層的極深卷積神經(jīng)網(wǎng)絡(luò)[11]以捕捉更長程的信息;③結(jié)構(gòu)表示模型。該模型使用預(yù)先獲得的語法樹構(gòu)建文本結(jié)構(gòu)表示,如典型的樹結(jié)構(gòu)LSTM[12-13];④注意力模型。該模型基于注意力機制計算詞或句子的注意力得分[14-15],以獲得文本表示。
1.2 動態(tài)路由與膠囊網(wǎng)絡(luò)
以動態(tài)路由[5]代替池化的膠囊網(wǎng)絡(luò)能夠適應(yīng)低層特征的狀態(tài)參數(shù)變化,其建模思想是以向量形式將特征狀態(tài)封裝成“膠囊”,將其輸出向量的模長作為特征存在的概率,將向量方向作為實例參數(shù)。所以,當抽取的特征在實例參數(shù)上發(fā)生變化時,存在概率仍然保持不變、達到特征等變性。在膠囊網(wǎng)絡(luò)中,子膠囊要對父膠囊的實例參數(shù)進行預(yù)測。當多個預(yù)測相近時,對應(yīng)的高層膠囊被激活。同時,作為一種耦合效應(yīng),當一些子膠囊同意存在一個高層實體時,對應(yīng)于該實體的父膠囊會向低級別膠囊發(fā)送反饋,如果確實存在高層實體,同意該實體存在的子膠囊對該高層實體預(yù)測將增大。如此循環(huán)若干次后,某一個高層實體存在的概率將明顯高于其它高層實體。
1.3 注意力機制
作為一種高效的可并行化序列編碼方式,注意力機制與深度神經(jīng)網(wǎng)絡(luò)結(jié)合被廣泛應(yīng)用于自然語言處理的多個任務(wù)中,并取得了良好的性能效果。如Bengio 等[16]使用該機制提升機器翻譯對齊效果和翻譯準確性。李航等[17]在對話生成中利用該機制生成更有意義的回復(fù)。隨著注意力機制的深入研究,各種注意力被提出。自注意力是一種特殊的注意力機制,在該機制下,序列中的每一個單元和該序列中的其它單元進行注意力計算,其特點在于無視詞間距離而直接計算其依賴關(guān)系,能夠?qū)W習(xí)一個句子的內(nèi)部結(jié)構(gòu),且對于增加計算的并行性也有直接幫助作用。Google提出的多頭注意力[18]通過多次計算捕獲不同子空間的相關(guān)信息。張成奇等[19]提出同時使用兩種注意力機制對句子進行建模,在自然語言推理、語義關(guān)系分析等任務(wù)中也取得了較好效果。
2 CapSA網(wǎng)絡(luò)模型
一方面,多層多尺寸的卷積提升模型對輸入樣本的特征提取能力,且動態(tài)路由機制確保在特征圖轉(zhuǎn)換成文本表示時保持特征等變性;另一方面,自注意力機制能夠在文本建模過程中引入詞或短語在文本中的重要程度及詞—詞間、詞—特征間的相互關(guān)系。因此,本文基于動態(tài)路由與自注意力機制的思想,結(jié)合深度卷積膠囊網(wǎng)絡(luò)和雙序自注意力網(wǎng)絡(luò),構(gòu)建一種深度神經(jīng)網(wǎng)絡(luò)文本表示模型CapSA。
2.1 深度卷積膠囊網(wǎng)絡(luò)
為更好地抽取特征,本文使用多個不同尺寸的卷積核提取文本的N-gram特征,如圖1所示。
該模型在第一層卷積層使用K1種不同尺寸的卷積核,每種大小各N1個卷積核,每個卷積核的尺寸為 ([F[0]i,]d) ,[F[0]i]是一個卷積核一次能覆蓋的詞個數(shù)。第二層卷積操作與第一層卷積層基本一致,使用高度為[F[1]i]的多個卷積核對第一層卷積層的輸出[A[1]]進行卷積操作,將輸出各尺寸的卷積核抽取的特征拼接為一個(L2,K2)的特征映射[A[2]]。
兩個卷積層之后是第一層膠囊層,用于將標量輸出轉(zhuǎn)換成向量輸出。為得到固定維度的膠囊,使Dc個不同尺寸的卷積核配合Dc種填充方案在[A[2]]上進行卷積操作,獲得相同維度的特征映射。如圖1所示,[F2i]表示其中一種尺寸的卷積核高度,每種尺寸的卷積核有K3個,通過卷積后得到L3×K3個Dc維向量,每個向量表征對應(yīng)特征的顯著程度。緊接著對每個向量使用壓縮函數(shù)進行非線性變換,壓縮函數(shù)將模長限制在0~1之間。將每個向量表示為[sj],非線性變換后向量方向保持不變。
初級膠囊層之后是類別膠囊層、該層設(shè)置與類別個數(shù)相同的膠囊數(shù)C。以路由迭代的方式從初級膠囊層獲得輸入。模型中的路由迭代過程在初級膠囊層和類別膠囊層之間進行,使用初級膠囊激活值計算類別膠囊激活值。首先通過一個矩陣變換獲得初級膠囊對類別膠囊實例參數(shù)預(yù)測。對于每一個類別膠囊j, 第一步計算由低層特征預(yù)測出高層特征實例參數(shù)[uj|i](預(yù)測向量),即[uj|i=u[L]iWij] ,其中[u[L]i]表示樣本中的一個激活值(低層特征),變換矩陣[Wij]([W∈?C×Dc×Dp])是待訓(xùn)練的參數(shù),兩者進行矩陣乘法;第二步計算j 的輸出向量[sj],其由所有初級膠囊對類別膠囊j預(yù)測向量加權(quán)求和得到,即[sj=ic(r)ijuj|i],其中標量[cij]是每個子膠囊輸出到各個父膠囊的權(quán)重系數(shù),其由路由迭代過程決定;第三步計算膠囊j的激活值[vj]。使用壓縮函數(shù)對j 的輸出向量進行壓縮。類別膠囊的激活值將對初級膠囊進行反饋。初級膠囊i對類別膠囊j的預(yù)測向量與膠囊j的激活向量相似程度越高,預(yù)測向量[uj|i]的權(quán)重越大。本文采用點積衡量其相似程度。假設(shè)共迭代T輪路由算法,整個路由迭代算法為:
其中,為保證低層膠囊對高層實體存在的概率預(yù)測之和為1,使用Routing SoftMax作歸一化,其計算公式為:
2.2 自注意力網(wǎng)絡(luò)
傳統(tǒng)注意力機制基于詞嵌入計算出每一個詞的重要性數(shù)值,因此無法有效區(qū)分同一個詞在不同語境下的不同語義。這部分網(wǎng)絡(luò)結(jié)構(gòu)由雙序自注意力網(wǎng)絡(luò)和序列到詞注意力網(wǎng)絡(luò)組成。模型結(jié)構(gòu)如圖2所示。
首先通過一個全連接層將詞嵌入[x=[x1,x2,?,xn]]轉(zhuǎn)換為隱狀態(tài)[h=[h1,h2,?,hn]],其中[x∈?d×L0],[h∈?dh×L0]。[Wh]和[b(h)]分別是可訓(xùn)練權(quán)重與偏置,[σh]是激活函數(shù);再計算[hi]和[hj]之間的相似度,有別于傳統(tǒng)的注意力機制,本文使用向量[f(hi,hj)]表征相似程度。
2.3 文本分類模型
為驗證CapSA的文本建模效果,本文基于CapSA網(wǎng)絡(luò)構(gòu)建一個深度神經(jīng)網(wǎng)絡(luò)文本分類模型。該模型將CapSA網(wǎng)絡(luò)的輸出向量送入全連接層進行分類,然后使用標準的SoftMax進行歸一化以用于多分類任務(wù)。在整個網(wǎng)絡(luò)的部分層間使用BatchNorm和隨機失活避免過擬合,提升模型泛化能力。整體模型結(jié)構(gòu)如圖4所示。
3 實驗
3.1 實驗數(shù)據(jù)
模型在3種不同領(lǐng)域、不同文本長度的數(shù)據(jù)集上訓(xùn)練與預(yù)測,其中包含情感傾向(Review Sentiment,共2個類別,文本平均長度約100個字符)[20]、作者識別(EUPT),共4個類別,文本平均長度約400個字符及標題分類(NLPCC Headlines)[21],共18個類別,文本平均長度約20個字符。
3.2 實現(xiàn)細節(jié)與基線模型
實驗在Ubuntu16.04、Pytorch0.4上開展。實驗中詞嵌入由Word2vec在中文維基百科迭代30輪得到,詞向量維度為300維。實驗使用Adam作為優(yōu)化算法更新網(wǎng)絡(luò)權(quán)重。在深度卷積膠囊網(wǎng)絡(luò)部分中,將Dc設(shè)為8,Dp設(shè)為16,路由迭代輪數(shù)T∈{1,2,3,4,5},針對不同數(shù)據(jù)集調(diào)整具體的迭代輪數(shù)。在自注意力網(wǎng)絡(luò)中,將c設(shè)為5,使用ELU[22]作為激活函數(shù),使用交叉熵作為損失函數(shù)。
3.3 實驗結(jié)果
實驗使用了5種基于CNN或RNN的模型和1種膠囊網(wǎng)絡(luò)模型,在3個數(shù)據(jù)集上對測試分類結(jié)果的宏平均F1值進行對比。實驗結(jié)果如表1所示。其中MultiCNN+maxpool是兩層多卷積結(jié)合最大池化模型,Multilayer Bi-LSTM是一個兩層雙向長短期記憶的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,Bi-LSTM+concate參照文獻[23]中RCNN模型,可將雙向LSTM隱藏狀態(tài)與詞向量拼接后送入一個全連接層中,CapsNet是參照文獻[5]實現(xiàn)的單層卷積膠囊網(wǎng)絡(luò)。
3.4 參數(shù)分析
3.4.1 路由迭代輪數(shù)
在實驗中發(fā)現(xiàn),由于動態(tài)路由的迭代(routing iteration)過程,膠囊網(wǎng)絡(luò)相較于其它網(wǎng)絡(luò)計算時間更長。為探究路由過程迭代次數(shù)對模型性能的影響,實驗僅調(diào)整路由迭代輪數(shù),在Headlines和Review Sentiment數(shù)據(jù)集上進行測試。 固定學(xué)習(xí)率10-4迭代5輪數(shù)據(jù)(epoch)后,記錄錄訓(xùn)練時間(Time)、分類結(jié)果的F1值及正確率(Acc.)。實驗在單機單顯卡(nVidia GTX1080Ti)上進行。F1與正確率如表2所示,花費的訓(xùn)練時間如表3所示。
表2與表3的統(tǒng)計結(jié)果表明,在限制數(shù)據(jù)迭代輪數(shù)的情況下,基于CapSA的文本分類模型在2輪路由迭代的情況下能得到較好的分類效果,而增加路由迭代輪數(shù)并沒有在有限的數(shù)據(jù)迭代輪數(shù)訓(xùn)練后提升分類效果。因此推測更多的路由迭代輪數(shù)需更多的數(shù)據(jù)迭代輪數(shù)才可讓模型收斂到理想狀態(tài),但這帶來了更大的計算代價。
3.4.2 壓縮函數(shù)
本文在深度卷積膠囊網(wǎng)絡(luò)模型上試驗了4種壓縮方案。4種壓縮方案在Headlines和Review Sentiment數(shù)據(jù)集上的訓(xùn)練損失變化情況如圖5所示。
4 結(jié)語
本文探索了動態(tài)路由與自注意力機制在文本建模中的應(yīng)用,提出CapSA深度網(wǎng)絡(luò)模型。該模型一方面利用動態(tài)路由保證樣本特征的等變性,另一方面通過自注意力網(wǎng)絡(luò)縮短遠距離依賴特征之間的距離,增加特征多樣性和模型魯棒性。CapSA深度網(wǎng)絡(luò)模型也可以應(yīng)用于文本蘊涵、語義匹配等其它類型的自然語言處理任務(wù)中。本文通過多次實驗對比了動態(tài)路由迭代輪數(shù)及向量壓縮方案對模型效果的影響,發(fā)現(xiàn)模型收斂對動態(tài)路由迭代輪數(shù)十分敏感,使用合適的向量壓縮方案也會影響效果。下一步工作是增加模型中不同網(wǎng)絡(luò)間的耦合程度,嘗試該模型在閱讀理解、機器翻譯等序列到序列任務(wù)中的應(yīng)用。
參考文獻:
[1] CHUNG J,GULCEHRE C,BENGIO Y,et al. Empirical evaluation of gated recurrent neural networks on sequence modeling[J/OL]. ArXiv Preprint ArXiv:1412.3555. https://arxiv.org/abs/1412.3555.
[2] KIM, Y. Convolutional neural networks for sentence classification[C]. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, 2014: 1746-1751.
[3] LIN Z, FENG M, BENGIO Y, et al. A structured self-attentive sentence embedding[J/OL]. ArXiv Preprint ArXiv:1703.03130. https://arxiv.org/abs/1703.03130.
[4] YANG Z, YANG D, DYER C, et al. Hierarchical attention networks for document classification[C]. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2016.
[5] SABOUR S, FROSST N, HINTON G E. Dynamic routing between capsules[C]. Advances in Neural Information Processing Systems, 2017:1-11.
[6] IYYER M, MANJUNATHA V, BOYD-GRABER J, et al. Deep unordered composition rivals syntactic methods for text classification[C]. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, 2015:1681-1691.
[7] LIU B, HUANG M, SUN J, et al. Incorporating domain and sentiment supervision in representation learning for domain adaptation[C]. Proceedings of the 24th International Conference on Artificial Intelligence, 2015:1277-1284.
[8] JOULIN A, GRAVE E, BOJANOWSKI P, et al. Bag of tricks for efficient text classification[C]. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics, 2017:1-5.
[9] BLUNSOM P, GREFENSTETTE E, KALCHBRENNER N. A convolutional neural network for modelling sentences[C]. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 2014:1-11.
[10] LEI T, BARZILAY R, JAAKKOLA T. Molding CNNs for text: non-linear, non-consecutive convolutions[J]. Indiana University Mathematics Journal, 2015, 58(3): 1151-1186.
[11] CONNEAU A, SCHWENK H, BARRAULT L, et al. Very deep convolutional networks for text classification[C]. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics, 2017:1-10.
[12] ZHU X, SOBIHANI P, GUO H. Long short-term memory over recursive structures[C]. ICML'15 Proceedings of the 32nd International Conference on International Conference on Machine Learning, 2015:1604-1612.
[13] TAI K S, SOCHER R, MANNING C D. Improved semantic representations from tree-structured long short-term memory networks[C]. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics, 2015:1577-1586.
[14] YANG Z, YANG D, DYER C, et al. Hierarchical attention networks for document classification[C]. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2016:1-11.
[15] ZHOU X, WAN X, XIAO J. Attention-based LSTM network for cross-lingual sentiment classification[C]. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, 2016:1-23.
[16] BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[J/OL]. ArXiv Preprint ArXiv: 1409.0473. https://arxiv.org/abs/1409.0473.
[17] SHANG L, LU Z, LI H. Neural responding machine for short-text conversation[C]. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, 2015.
[18] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]. Advances in Neural Information Processing Systems, 2017:1-15.
[19] SHEN T, ZHOU T, LONG G, et al. DiSAN: Directional self-attention network for RNN/CNN-free language understanding[C]. The 32nd AAAI Conference on Artificial Intelligence, 2018:1-10.
[20] JUN L I, SUN M. Experimental study on sentiment classification of chinese review using machine learning techniques[C]. 2007 IEEE international conference on natural language processing and knowledge engineering, 2007:393-400.
[21] QIU X, GONG J, HUANG X. Overview of the NLPCC 2017 shared task: Chinese news headline categorization [J/OL]. Computer Science:2018,10619. https://link.springer.com/chapter/10.1007/978- 3-319-73618-1_85.
[22] CLEVERT D A, UNTERTHINER T, HOCHREITER S. Fast and accurate deep network learning by exponential linear units(ELUs)[J]. ArXiv Preprint ArXiv:1511.07289. https://arxiv.org/abs/1511.07289.
[23] LAI, S, XU, et.al. Recurrent convolutional neural networks for text classification[C]. Proceedings of the 29th AAAI Conference on Artificial Intelligence, 2015:2267-2273.
(責(zé)任編輯:江 艷)